123,123,123

蘋果AI“圖窮匕見”：將大模型塞進(jìn)iPhone里

2024-01-01 21:24

《教父》電影中有句話：“千萬不要讓外人知道你想干什么”，這句話似乎也可以用在蘋果2023年前11個(gè)月的AI表現(xiàn)上。

今年5月，外媒報(bào)道蘋果擔(dān)心ChatGPT、Copilot等AI工具收集機(jī)密數(shù)據(jù)，禁止員工在工作中使用。

今年6月，在蘋果全球開發(fā)者大會上，庫克甚至都沒提AI，而是同義替換為ML。

但如果說蘋果不在意AI，顯然不可能。畢竟追溯到2010年，蘋果就以2億美元的價(jià)格收購了Siri團(tuán)隊(duì)，雖然這么多年過去了，它還是那么“弱智”。

今年7月，彭博社報(bào)道稱，蘋果內(nèi)部研發(fā)了自己的AI框架Ajax和聊天機(jī)器人AppleGPT。其中Ajax基于Google Jax搭建，而AppleGPT則類似于ChatGPT。不過，二者看起來沒有什么創(chuàng)新之處。

今年10月，蘋果又掏出了開源多模態(tài)大模型Ferret，擁有70億和130億兩個(gè)參數(shù)版本。但因?yàn)槟壳爸粚ρ芯繖C(jī)構(gòu)開放，也沒激起什么浪花。

同樣是10月，彭博社報(bào)道稱，蘋果非常“焦慮”，并已啟動一項(xiàng)龐大的追趕計(jì)劃。該計(jì)劃由機(jī)器學(xué)習(xí)和人工智能主管John Giannandrea和Craig Federighi領(lǐng)導(dǎo)，服務(wù)部門高級副總裁Eddy Cue也參與其中，預(yù)算為每年10億美元。

有點(diǎn)諷刺的是，早在2020年，John Giannandrea就在訪談中肯定了蘋果的AI戰(zhàn)略，并表示蘋果不會向外說太多自己的AI能力。

到底是不能說太多，還是其實(shí)沒有太多。總之，太多傳言吊足了大家的胃口。

雖然你可以說，作為一家主打硬件的公司，蘋果今年至少發(fā)布了Vision Pro，其中數(shù)字分身、場景與動作識別等功能都和AI技術(shù)有關(guān)。

但驕傲止步于11月份AI Pin的刷屏。半個(gè)煙盒大小的“領(lǐng)夾”只通過“聽”和“看”就能理解用戶需求，并用AI軟件執(zhí)行任務(wù)，被一些人視為“天生的iPhone殺手”。更重要的是，AI Pin背后的金主爸爸包括微軟、OpenAI 等一系列讓蘋果“焦慮”的對象。

眼看狼群要全方位包抄了，蘋果終于在2023年即將結(jié)束之時(shí)，放出了兩篇論文。

其中一篇題為《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》的論文提出：蘋果通過一種創(chuàng)新的閃存利用技術(shù)，成功地在內(nèi)存有限的 iPhone 和其他蘋果設(shè)備上部署了LLM，這一成果有望讓更強(qiáng)大的 Siri、實(shí)時(shí)語言翻譯以及融入攝影和AR的尖端 AI 功能登陸未來 iPhone。

在2024年，這條“大模型+硬件”路線或許會直接改變競爭格局。

01 打破內(nèi)存墻，將大模型放在閃存里

先放數(shù)據(jù)結(jié)論。論文顯示，在Flash-LLM技術(shù)的加持之下，兩個(gè)關(guān)鍵領(lǐng)域得到優(yōu)化：1、減少閃存?zhèn)鬏數(shù)臄?shù)據(jù)量；2、讀取更大、更連續(xù)的數(shù)據(jù)塊。

優(yōu)化之后，設(shè)備能夠支持運(yùn)行的模型大小達(dá)到了自身DRAM的2倍；LLM的推理速度在Apple M1 Max CPU上提高了4-5倍，在GPU上提高了20-25倍。

Flash-LLM是如何做到的呢？采用了兩種主要技術(shù)：

第一、窗口化技術(shù)（windowing），通過重復(fù)使用先前激活的神經(jīng)元來戰(zhàn)略性地減少數(shù)據(jù)傳輸。大大減少了從存儲器（閃存）到處理器（DRAM）的數(shù)據(jù)傳輸量。

第二、行列捆綁技術(shù)(row-column bundling)，根據(jù)閃存的時(shí)序數(shù)據(jù)的訪問強(qiáng)度量身定制，增加從閃存讀取的數(shù)據(jù)塊的大小，改變了數(shù)據(jù)的存儲方式。

舉個(gè)我們曾在《虧了幾個(gè)億， AI項(xiàng)目到底怎么投？看歐洲老牌風(fēng)投Index如何押寶》中舉過的“圖書館”例子。

假設(shè)，你拿著列有20本書的書單去圖書館找書，但這家圖書館就像英劇《Black Books》一樣，書本擺放得雜亂無章。你幾乎要從頭走到尾，才能全部定位出你要找的所有書。

想象一下，你找書時(shí)，需要“眼睛”和“腦子”對賬。按照常理，你不會每看到一本書，就從書單里找對應(yīng)。因?yàn)槟愕拇竽X已經(jīng)“閃存”了“重點(diǎn)書名”。

你要做的，只是從當(dāng)下視線掃過的范圍內(nèi)找出書單上的書。

窗口化技術(shù)（windowing）就是這樣，相當(dāng)于先用一個(gè)算法稀疏化 LLM 的權(quán)重矩陣，只保留一部分重要的元素，從而減少計(jì)算量，提高計(jì)算效率。

同時(shí)，因?yàn)槟阋还惨?0本書，總不能像狗熊掰玉米拿一本扔一本，因此你需要一個(gè)小推車。行列捆綁技術(shù)(row-column bundling)就是這個(gè)小推車，幫助每次從閃存中讀取的數(shù)據(jù)塊更大，也提高了數(shù)據(jù)讀取效率。

速度和大小的雙重突破，或許很快可以讓大模型在iPhone、iPad和其他移動設(shè)備上流暢運(yùn)行。

盡管這種方法也存在一些局限性，包括主要針對文本生成任務(wù)，對其他類型任務(wù)的適用性還需進(jìn)一步驗(yàn)證，以及處理超大規(guī)模模型的能力有限等等。

02 迎接 Vision Pro 上市，30分鐘生成“數(shù)字人分身

第二篇論文《HUGS: Human Gaussian Splats》雖然不比上一篇驚艷，但也足夠讓人眼前一亮。

這篇論文詳細(xì)介紹了一項(xiàng)名為 HUGS（Human Gaussian Splats）的生成式 AI 技術(shù)，蘋果研究員兼HUGS論文作者之一的Anurag Ranjan介紹：HUGS僅僅需要一個(gè)約50-100幀的原始視頻，相當(dāng)于2到4秒24fps的視頻，就能在30分鐘內(nèi)生成一個(gè)“數(shù)字人分身”。

據(jù)悉，這比包含NeuMan、Vid2Avatar在內(nèi)的其他方式要快約100倍。

根據(jù)Ranjan在X上發(fā)布的視頻，畫面右方的三個(gè)數(shù)字人分身正在草坪上快樂跳舞，頗為魔性。

蘋果表示，雖然當(dāng)前的神經(jīng)渲染技術(shù)比早期有了顯著的進(jìn)步，但依然最適合用在靜態(tài)場景中，而不是在動態(tài)場景中自由移動的人類。

HUGS則是建立在3DGS（3D Gaussian Splatting）和SMPL身體模型技術(shù)的基礎(chǔ)上，創(chuàng)建數(shù)字人分身。當(dāng)然，目前HUGS技術(shù)無法捕捉每個(gè)細(xì)節(jié)，但對于未能捕捉并建模的細(xì)節(jié)元素，HUGS會自動填充。

而3D虛擬數(shù)字人是VR頭顯進(jìn)一步發(fā)展的必然要求。

例如，在去年Meta發(fā)布了Codec Avatar 2.0版本，比1.0進(jìn)一步完成了逼真的數(shù)字人效果。

今年，蘋果發(fā)布Vision Pro，可以通過前置攝像頭掃描用戶面部信息，基于機(jī)器學(xué)習(xí)和編碼神經(jīng)網(wǎng)絡(luò)，為用戶生成一個(gè)數(shù)字分身。當(dāng)用戶使用FaceTime通話時(shí)，數(shù)字分身就可以動態(tài)模仿用戶的面部及手部動作，并保留數(shù)字人分身的體積感和深度。

根據(jù)彭博報(bào)道，蘋果正在為Vision Pro上市做最后的準(zhǔn)備，發(fā)售有望提前至2024年1月下旬。

據(jù)蘋果資深分析師 Mark Gurman 爆料，2024年蘋果的精力會重點(diǎn)放在可穿戴產(chǎn)品上（Vision Pro、AirPods、Apple Watch），一向占據(jù)大頭的 iPhone 或?qū)⒆屛弧?/p>

這篇論文或許就是迎接Vision Pro上市的準(zhǔn)備動作。

03 結(jié)語

根據(jù)集邦咨詢，從2018年開始，蘋果就悄悄收購了20 多家AI公司，只有少數(shù)公開了交易價(jià)格。

也就是說，當(dāng)你以為蘋果終于慢半拍時(shí)，大佬正在觀察、努力，悄悄布局生態(tài)，然后像以前無數(shù)次那樣，突然一鳴驚人，驚艷所有人。

更可怕的是，此前蘋果所表現(xiàn)的“落后一步”似乎是“以退為進(jìn)”，有兩個(gè)信息值得注意。

1、外媒報(bào)道，最近蘋果正討論“價(jià)值至少5000萬美元的多年期合作協(xié)議”，并與康泰納仕、NBC新聞和IAC等媒體接洽，以獲取他們過往新聞文章的使用授權(quán)。

跟別的科技公司拿了數(shù)據(jù)直接訓(xùn)練不同，蘋果是先取得授權(quán)，才會拿數(shù)據(jù)來進(jìn)行訓(xùn)練。

這讓人不由聯(lián)想到，最近紐約時(shí)報(bào)指控OpenAI和微軟，未經(jīng)授權(quán)就使用紐約時(shí)報(bào)內(nèi)容訓(xùn)練人工智能模型。而此案可能是人工智能使用知識版權(quán)糾紛的分水嶺。

同樣的還有近期Midjourney V6的版權(quán)麻煩——利用人類創(chuàng)作者的作品進(jìn)行AI訓(xùn)練是否合法？司法如何保護(hù)創(chuàng)作者的權(quán)益主張？

2、在“談AI安全色變”的氣候下，今年10月，蘋果供應(yīng)鏈的香港海通國際證券分析師Jeff Pu發(fā)布報(bào)告顯示：蘋果可能在2023年已經(jīng)建造了幾百臺AI服務(wù)器，而2024年將會顯著增加。

他認(rèn)為，蘋果在推出生成式AI時(shí)前在謹(jǐn)慎考慮如何使用和處理個(gè)人數(shù)據(jù)，以符合其對客戶隱私的承諾。

也就是說，此前蘋果的“慢半拍”似乎是思考如何在尊重客戶隱私的前提下，使用和處理個(gè)人數(shù)據(jù)。在沒有完美的解決方案之前，蘋果則始終保持謹(jǐn)慎。

此外，Jeff Pu在報(bào)告中指出：蘋果計(jì)劃最早在2024年末開始在iPhone和iPad上實(shí)施生成式AI技術(shù)。如果計(jì)劃得以實(shí)現(xiàn)，2024年末的時(shí)間表將意味著蘋果可能會從iOS 18和iPadOS 18開始推出生成式AI功能。

至此，這兩篇論文的發(fā)布似乎啟動了蘋果王者歸來的時(shí)鐘，2024年，群雄逐鹿的人工智能賽道將會更加精彩。

原文標(biāo)題 : 蘋果AI“圖窮匕見”：將大模型塞進(jìn)iPhone里