蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

蘋果對於AI的態度,外人看來似乎過於保守。像是今年5月,外媒報導蘋果擔心ChatGPT、Copilot等AI工具收集機密資料,禁止員工在工作中使用。今年6月,在蘋果全球開發者大會上,庫克甚至都沒提AI,而是只說「機器學習」。

但如果說蘋果不在意AI,顯然不可能。畢竟追溯到2010年,蘋果就以2億美元的價格收購了Siri團隊(雖然這麼多年過去了,它還是那麼「弱智」)。

今年7月,彭博社報導稱,蘋果內部研發了自己的AI框架Ajax和聊天機器人AppleGPT。其中Ajax基於Google Jax搭建,而AppleGPT則類似於ChatGPT。不過,二者看起來沒有什麼創新之處。

蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

今年10月,蘋果又掏出了開源多模態大型語言模型Ferret,擁有70億和130億兩個參數版本。但因為目前只對研究機構開放,也沒激起什麼浪花。

同樣是10月,彭博社報導稱,蘋果非常「焦慮」,並已啟動一項龐大的追趕計畫。該計畫由機器學習和人工智慧主管John Giannandrea和Craig Federighi領導,服務部門高級副總裁Eddy Cue也參與其中,預算為每年10億美元。

有點諷刺的是,早在2020年,John Giannandrea就在訪談中肯定了蘋果的AI戰略,並表示蘋果不會向外說太多自己的AI能力。

但到底是不能說太多,還是其實沒有太多?總之,太多傳言吊足了大家的胃口。

不過,蘋果在2023年即將結束之時放出的這篇論文,似乎可以看到一點未來的方向。

iPhone裡頭直接裝大型語言模型

這篇論文題為《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》內容提出:蘋果透過一種創新的快閃記憶體利用技術,成功地在記憶體有限的 iPhone 和其他蘋果裝置上部署了LLM,這一成果有望讓更強大的 Siri、即時語言翻譯以及融入攝影和AR的尖端 AI 功能登陸未來 iPhone。

在2024年,這條「大型語言模型+硬體」路線或許會直接改變競爭格局。

蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

先放資料結論。論文顯示,在Flash-LLM技術的加持之下,兩個關鍵領域得到最佳化:

  1. 減少快閃記憶體傳輸的資料量;
  2. 讀取更大、更連續的資料區塊。

蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

蘋果論文透露可將大型語言模型裝進快閃記憶體,日後iPhone可直接流暢跑AI模型

最佳化之後,裝置能夠支援運行的模型大小達到了自身DRAM的2倍;LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。

Flash-LLM是如何做到的呢?採用了兩種主要技術:

  1. 窗口化技術(windowing):透過重複使用先前啟動的神經元,來戰略性地減少資料傳輸,大大減少了從儲存器(快閃記憶體)到處理器(DRAM)的資料傳輸量。
  2. 行列捆綁技術(row-column bundling):根據快閃記憶體的時序資料的訪問強度量身定製,增加從快閃記憶體讀取的資料區塊的大小,改變了資料的儲存方式。

舉個「圖書館」的例子。

假設,你拿著列有20本書的書單去圖書館找書,但這家圖書館就像英劇《Black Books》一樣,書本擺放得雜亂無章。你幾乎要從頭走到尾,才能全部定位出你要找的所有書。

想像一下,你找書時,需要「眼睛」和「腦子」相互配合。按照常理,你不會每看到一本書,就從書單裡找對應。因為你的大腦已經「快閃記憶體」了「重點書名」。你要做的,只是從當下視線掃過的範圍內找出書單上的書。

窗口化技術(windowing)就是這樣,相當於先用一個演算法稀疏化 LLM 的權重矩陣,只保留一部分重要的元素,從而減少計算量,提高計算效率。

同時,因為你一共要找20本書,總不能拿一本扔一本,因此你需要一個小推車。行列捆綁技術(row-column bundling)就是這個小推車,幫助每次從快閃記憶體中讀取的資料區塊更大,也提高了資料讀取效率。

速度和大小的雙重突破,或許很快可以讓大型語言模型在iPhone、iPad和其他移動裝置上流暢運行。儘管這種方法也存在一些侷限性,包括主要針對文字生成任務,對其他類型任務的適用性還需進一步驗證,以及處理超大規模模型的能力有限等等。

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則