Google內部文件披露:在開源面前,OpenAI與Google都是難兄難弟

Google內部文件披露:在開源面前,OpenAI與Google都是難兄難弟

ADVERTISEMENT

「我們沒有護城河,OpenAI 也沒有。」一名Google內部研究員在一份文件的開頭直接說道。近日,有位匿名人士將這份文件發到了 Discord 伺服器上,有外媒已經驗證了這份文件的真實性。 

在我們都將注意力放到企業 AI 大戰時,Google內部人員反而指出,最後的贏家不是Google和 OpenAI,反而是開源模型。作者用各種範例證明了自己的觀點,同時建議Google用開源來贏下這場戰爭。大家可以先看下這份文件的內容,我們翻譯後並在不改變原意的基礎上做了整理。 

Google內部文件

我們沒有「護城河」,OpenAI 也沒有。 

我們一直在努力追趕OpenAI的步伐,但誰能率先跨越下一個里程碑?AI 的下一步又該邁向哪裡? 

真正令人不安的事實在於,我們雙方可能都沒有能力贏下這場軍備競賽。就在Google和 OpenAI 較勁的同時,第三股勢力一直在悶聲發大財。 

沒錯,我說的就是開源模型。明確地講,他們在照搬我們的勞動成果,而且已然克服了開放 AI 面對幾道重大關隘。下面僅舉幾例: 

  • 大語言模型在手機上的運行:已經有人在Pixel 6上運行起了基礎模型,每秒能處理 5 個 token。
  • 可擴充的個人 AI:大家花一個晚上,就能在自己的筆記型電腦上微調出個性化AI。
  • 負責任發表:與其說是「攻克」了這個難題,不如說是「回避」了問題。如今各種網站上充斥著大量藝術創作模型,文字生成模型同樣所在多有。
  • 多模態:目前的多模態ScienceQA STOA能在一小時之內完成訓練。

雖然我們的模型在品質方面仍略有優勢,但雙方差距正在以驚人的速度縮小。開源模型更快、可定制性更強、更私密,而且功能性也不落下風。他們可以用100美元外加13B參數解決需求,而我們則需要面對千萬美元的成本和 540B 參數。相較於長達數月的訓練週期,他們的模型往往幾個禮拜就能熱騰騰地出爐。這對我們產生了深遠的影響: 

  • 我們沒有什麼秘方。我們最好的出路就是學習外部各方的思路並開展合作。Google應該優先考慮啟用 3P 整合。 
  • 當免費、不受限制的替代模型在品質上與專有模型差不多時,人們絕對不會願意繼續付費。我們應該考慮真正的業務增值空間在哪裡。 
  • 巨型模型正在拖慢我們的腳步。從長遠來看,最好的模型一定是那些能夠快速迭代的模型。既然我們知道參數少於 20B 也能達到相當不錯的效果,那就該主動嘗試做一些更小的變體。

Google內部文件披露:在開源面前,OpenAI與Google都是難兄難弟

發生什麼事了? 

3 月初,隨著Meta的LLaMA模型被洩露,開源社群獲得了首個真正具備一線「戰鬥力」的基礎模型。雖然缺少說明、對話微調和 RLHF(基於人類回饋的強化學習),但社群還是很快理解了這套模型的重要意義。 

隨之而來的就是鋪天蓋地的創新湧現,而且每隔幾天就會出現一波重大發展。僅僅一個月後,我們就走到了如今的局面,有了指令微調、量化、品質改進、人工評估、多模態、RLHF 等變體,其中很多還互為依託。 

最重要的是,開源社群解決了真正的可擴展性問題,讓普通人也有了在 AI 平臺上一試身手的機會。訓練和實驗的門檻已經從研究機構的高精尖操作,下降成了一個人、一個晚上加一台高階筆記型電腦就能搞定的小探索。 

從很多方面來看,這樣的現實都有其必然性。開源大語言模型的躥紅其實是緊跟著圖像生成模型的爆發,社群也傾向於將目前階段稱作大語言模型的「Stable Diffusion 時刻」。

無論是圖像生成還是文本生成,廣泛的公眾參與都是透過成本極低的微調機制來實現的,也就是所謂「低秩適應」(LoRA),同時輔以規模上的重大突破(圖像合成中的 latent diffusion,以及大語言模型的 Chinchilla)。在這兩方面,高品質模型的出現引發了每位個人和機構的關注和迭代嘗試,最終形成了超越技術巨頭的改進成果。

這些貢獻在圖像生成領域至關重要,也讓 Stable Diffusion 真正走上了與 Dall-E 不同的道路。前者基於開放的發展路線,使其獲得了 Dall-E 所不具備的產品整合、市場、使用者介面和創新加持。

開放的效果也顯而易見:與 OpenAI 的同類解決方案相比,開源模型的文化影響力迅速佔據主導,後者則逐漸退出舞臺的中心。目前還難以斷言大語言模型會不會重複這樣的故事,但總體來看,決定歷史走向的基本要素是相同的。

我們錯過了什麼

推動開源近期一系列成功的創新舉措,也直接攻克了一直困擾我們技術大廠的難題。更多關注他們的工作成果,將幫助我們避免重新發明輪子。

LoRA是一種非常強大的技術,能夠將模型更新表示為低秩分解的形式,進而將更新矩陣的體量縮小至數千分之一。如此一來,我們就能以極低的成本和時間實現模型微調,進而在幾個小時內在消費級硬體上打造出個性化語言模型。

這絕對非同小可,也讓我們真正走向以近即時方式整合新的、多樣化知識的願景。事實上,這項技術在Google內部並未得到充分的重視和運用,但卻直接影響到了我們一些雄心勃勃的項目。 

從零開始重新訓練模型沒有前途。

LoRA 之所以如此高效,部分原因在於跟其他微調手段一樣,它是一種可堆疊的方法。我們可以透過指令微調等實現改進,借此吸引其他貢獻者提供的對話、推理或工具使用方式。雖然個別微調是低秩的,但其總和卻不一定,模型的全秩更新需求將隨著時間推移而逐漸累積。 

也就是說,隨著新的、品質更高的資料集和任務的出現,模型能夠始終維持較低的更新成本,而無需承擔從零開始重新訓練的開銷。

從零開始重新訓練巨型模型不僅會丟棄預訓練效果,還會丟棄以堆疊方式完成的任何迭代式改進。在開源世界中,這種改進將很快佔據主導地位,並讓重新訓練的成本迅速提升至無法承擔的程度。 

我們應當思考每個新的應用或場景是不是真的需要一套全新模型。如果真存在值得丟棄原有權重的重大架構改進,那也應該投資探索更積極的蒸餾形式,想辦法讓新模型盡可能多地保留上一代的功能。 

如果我們能夠在小模型上加快迭代速度,那麼從長遠來看,大模型恐怕將不再具備能力優勢。

對於佔據主流的模型規模,LoRA 更新的生產成本可以控制到極低(約 100 美元)。也就是說,幾乎任何人都能按照自己的想法實現模型微調,到時候一天之內的訓練週期將成為常態。以這樣的速度,微調的累積效應將很快說明小模型克服體量上的劣勢。 

事實上,從工程師的單人工時出發,這些小模型的改進速度大大超過了體量龐大的「同門兄長」,而且其中最出色的選手在相當程度上已經跟 ChatGPT 站在同一水平線上。另外,反復訓練超大體量模型也不利於保護自然環境。

資料品質比資料規模更重要。

許多專案都開始在規模較小、但經過精心篩選的資料集上訓練,希望借此節約時間。這代表著資料規模化法則其實具有一定的靈活性。此類資料集同樣遵循「資料不在乎你怎麼想」這個基本邏輯,並迅速成為外部社群的標準模型訓練方式。

這些資料集是使用合成方法(例如從現有模型中過濾出最佳回應)和其他項目中提取而來,這兩種方式在Google內部都不太受重視。幸運的是,這些高品質資料集都是開源的,所以可以免費使用。 

直接與開源競爭將必然失敗 

按近的動向已經對我們的業務戰略產生了直接且無法回避的影響。如果有了免費、高品質的替代品,誰還願意花錢去用設定了請求上限的Google產品? 

而且這種差距是無法彌合的。現代網際網路運行在開源基礎之上絕非偶然,開源社群有著很多我們無法複製的顯著優勢。

相較於開源需要我們,我們更需要開源。

我們的技術機密只靠一項脆弱的協議來維持。Google研究人員隨時都在跳槽前往其他企業,不妨假設我們知道的他們也都知道。而且只要職業生涯的規劃管道仍然開放,這種情況就無法改變。 

而隨著大語言模型的尖端研究成本越來越低,保持技術競爭優勢也變得愈發困難。世界各地的研究機構都在相互借鑒,以廣度優先的方式探索解決方案空間,而單憑Google自己根本把握不住如此浩瀚的戰場。我們當然可以在外部創新不斷降低其價值的同時繼續保守秘密,也可以敞開胸懷嘗試相互學習。 

企業受到的許可約束更強,個人則相對自由靈活。

目前開源社群的大部分創新都以 Meta 洩露的模型權重為基礎。雖然隨著開放模型品質的不斷提升,這種情況一定會發生變化,但開源陣營真正的優勢在於「個人行為」。畢竟沒有誰能夠逐個攻擊和起訴個人用例,所以人家用不著等技術過氣就能隨時隨地研究和探索。 

作自己的客戶,意味著更瞭解用例。

看看人們在圖像生成空間中創建的模型,就會發現從動漫產生器到 HDR 景觀,大家的創意簡直源源不斷。這些模型出自那些長期浸淫於特定流派和風格當中的人們,體現出了我們無法企及的知識深度和內心共鳴。 

掌控生態系統:讓開源為我們服務 

矛盾的是,這一切背後最大的贏家反而是 Meta 自己。洩露的模型就是他們搞出來的,所以他們其實是獲得了全世界的免費勞動力。由於大部分開源創新都發生在他們的架構之上,所以 Meta 當然可以直接把成果整合到自家產品當中。 

這種對生態系統的掌控力,再怎麼強調都不為過。Google本身就已經在開源產品(例如 Chrome 和 Android)中成功踐行了這一原則。透過掌控創新發生的平臺,Google鞏固了自己作為思想主導和方向制定者的地位,獲得了超越自身極限塑造宏大趨勢的能力。 

而我們對自有模型約束得越嚴格,就相當於在為開源 AI 模型做市場宣傳。Google和 OpenAI 都傾向於採取充滿戒備感的發表模式,想要努力控制模型的使用方式。但這種控制力根本站不住腳,畢竟任何想用大語言模型的人們都可以直接選擇免費開放的模型。 

Google應當讓自己成為開源社群的領導者,透過更廣泛的對話來塑造優勢地位。沒錯,期間肯定涉及一些與以往習慣不符的環節,比如發表小型 ULM 變體的模型權重,也就是放棄我們對模型的某些控制。但這種妥協是不可避免的,我們沒辦法既想刺激創新、又要強行控制創新。 

OpenAI 怎麼做並不重要 

考慮到 OpenAI 目前的封閉政策,可能前面那些開源建議都讓人很難接受。OpenAI 都不願意開放,我們Google憑什麼這麼做?但事實上,源源不斷的技術挖角早就讓封閉成了一個偽命題。如果無法阻斷這條通路,那保密到底有沒有意義真的不太好說。 

最後,OpenAI 怎麼做並不重要。畢竟他們只是Google的難兄難弟,在對待開源的態度上犯了類似的錯誤,保持優勢的能力也沒有明顯更強。除非他們改變立場,否則開源 AI 模型可能、且最終必然會令其黯然失色。至少在這方面,我們可以先行一步。 

關於開源模型的爭論 

Google內部研究員的觀點引起了廣大開發者對於開源模型和企業模型之間的討論。 

開發者「dahwolf」指出,當前的範例是人工智慧的目的之一:使用者訪問並與之互動的產品。但這根本不是將來大眾與人工智慧互動的方式。人工智慧將無縫整合到日常軟體中:在 Office/Google 文文件中、在作業系統級別 (Android)、在圖形編輯器 (Adobe) 中,在主要網路平臺上,如搜尋、圖像搜尋、Youtube 等。 

他認為,由於Google和其他科技巨頭繼續控制著這些擁有十億用戶的平臺,因此它們擁有人工智慧的影響力,即便它們在能力上暫時落後。他們還將找到一種整合方式,讓使用者無需直接為該功能付費,因為它將透過其他方式收費:廣告。 

「dahwolf」表示,OpenAI 面臨生存風險,而不是Google。巨頭們會迎頭趕上,並將擁有覆蓋面和補貼優勢。它並沒有就此結束。這種來自開源的所謂「競爭」將是免費勞動力。任何成功的想法都會在短時間內移植到 Google 的產品中。感謝開源! 

有網友指出,人工智慧無處不在的問題就是需要一直都有非凡的運算能力,而這種運算能力需要花錢。因此,也有人指出,LLM 的運行成本越來越低,這對Google來說是一個勝利。OpenAI 的服務太貴了,無法靠廣告資助。Google需要一種更便宜的技術來維持其廣告支援的商業模式。 

對於開源模型,開發者「kelipso」表示,開源模式在過去幾十年一直行之有效。對 LLMs 的擔憂是開源(和學術界)無法做大公司正在做的事情,因為他們無法獲得足夠的計算資源。「這篇文章在討論(我猜開源 ML 組正在展示)企業不需要用那些計算資源來鋪平道路。OpenAI 或其他大公司能否通過某些模型、資料集、計算資源等在 AI 中獲得最大收益,這仍然是一個懸而未決的問題。」 

不過,開發者「not2」回應稱,沒有一個「開源」AI 模型是經典意義上的開源。它們是免費的,但不是原始程式碼;它們更接近可自由分發的編譯二進位文件案,其中編譯器和原始輸入尚未發表。一個真正的開源 AI 模型需要指定訓練資料和從訓練資料到模型的程式碼。 

「當然,讓其他人獲取這些資訊、重新構建模型並驗證是否獲得了相同的結果成本非常高,也許我們真的不需要那樣。但如果我們沒有,那我認為我們需要用除『開源』之外的其他術語來描述這些模型。你可以得到它、分享它,但你不知道它裡面有什麼。」not2 表示。 

未來,Google是否會選擇開源策略,又能否借此打出不一樣的「翻身仗」,我們拭目以待。 

資料來源: 

 

InfoQ
作者

InfoQ 是一家全球性社群網站,基於實踐者驅動的社群模式建立。軟體正在改變世界。促進軟體開發及相關領域知識與創新的傳播是我們的使命。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則