Llama 3 最強開源大語言模型王者歸來，這次表現直逼 GPT-4

Meta 帶著號稱「有史以來最強大的開源大型語言模型」Llama 3 系列模型回來了。具體來說，Meta 本次開源了 8B 和 70B 兩款不同規模的模型。Llama 3 8B：基本上與最大的 Llama 2 70B 一樣強大。

以上還只是 Meta 的開胃小菜，真正的大餐還在後頭。在未來幾個月，Meta 將陸續推出一系列具備多模態、多語言對話、更長上下文窗口等能力的新模型。

其中，超 400B 的重量級選手更是有望與 Claude 3 一較長短。

Llama 3:又一 GPT-4 級模型來了

與前代 Llama 2 模型相比，Llama 3 可謂是邁上了一個新的台階。

得益於預訓練和後訓練的改進，本次發佈的預訓練和指令微調模型是當今 8B 和 70B 參數規模中的最強大的模型。

同時後訓練流程的最佳化顯著降低了模型的出錯率，增強了模型的一致性，並豐富了響應的多樣性。

祖克柏曾在一次公開發言中透露，考慮到使用者不會在 WhatsApp 中向 Meta AI 詢問編碼相關的問題，因此 Llama 2 在這一領域的最佳化並不突出。

而這一次，Llama 3 在推理、程式碼生成和遵循指令等方面的能力取得了突破性的提升，使其更加靈活和易於使用。

基準測試結果顯示，Llama 3 8B 在 MMLU、GPQA、HumanEval 等測試的得分遠超 Google Gemma 7B 以及 Mistral 7B Instruct。用祖克柏的話來說，最小的 Llama 3 基本上與最大的 Llama 2 一樣強大。

Llama 3 70B 則躋身於頂尖 AI 模型的行列，整體表現全面碾壓 Claude 3 大杯，與 Gemini 1.5 Pro 相比則是互有勝負。

為了準確研究基準測試下的模型性能，Meta 還特意開發了一套新的高品質人類評估資料集。

該評估集包含 1800 個提示，涵蓋 12 個關鍵用例：尋求建議、腦力激盪、分類、封閉式問答、編碼、創意寫作、提取、塑造角色、開放式問答、推理、重寫和總結。

出於避免 Llama 3 在此評估集上出現過度擬合，Meta 甚至禁止他們的研究團隊訪問該資料集。在與 Claude Sonnet、Mistral Medium 和 GPT-3.5 的逐一較量中，Meta Llama 70B 都以「壓倒性勝利」結束了比賽。

Llama 3 對比Llama 2的改進

據 Meta 官方介紹，Llama 3 在模型架構上選擇了相對標準的純解碼器 Transformer 架構。與 Llama 2 相比，Llama 3 進行了幾項關鍵的改進：

使用具有 128K token 詞彙表的 tokenizer，可以更有效地編碼語言，從而顯著提升模型性能
在 8B 和 70B 模型中都採用分組查詢注意力（GQA），以提高 Llama 3 模型的推理效率
在 8192 個 token 的序列上訓練模型，使用掩碼來確保自注意力不會跨越文件邊界。
訓練資料的數量和品質是推動下一階段大型語言模型能力湧現的關鍵因素。

從一開始，Meta Llama 3 就致力於成為最強大的模型。Meta 在預訓練資料上投入了大量的資金。據悉，Llama 3 使用從公開來源收集的超過 15T 的 token，是 Llama 2 使用資料集的七倍，其中包含的程式碼資料則是 Llama 2 的四倍。

考慮到多語言的實際應用，超過 5% 的 Llama 3 預訓練資料集由涵蓋 30 多種語言的高品質非英語資料組成，不過，Meta 官方也坦言，與英語相比，這些語言的性能表現預計是稍遜一籌。

為了確保 Llama 3 接受最高品質的資料訓練，Meta 研究團隊甚至提前使用啟髮式過濾器、NSFW 篩選器、語義重複資料刪除方法和文字分類器來預測資料品質。

值得注意的是，研究團隊還發現前幾代 Llama 模型在識別高品質資料方面出奇地好，於是讓 Llama 2 為 Llama 3 提供支援的文字品質分類器生成訓練資料，真正實現了“AI 訓練 AI”。

Llama 3 在訓練效率的提升

除了訓練的品質，Llama 3 在訓練效率方面也取得了質的飛躍。

Meta 透露，為了訓練最大的 Llama 3 模型，他們結合了資料平行化、模型平行化和管道平行化三種類型的平行化。

在 16K GPU 上同時進行訓練時，每個 GPU 可實現超過 400 TFLOPS 的計算利用率。研究團隊在兩個定製的 24K GPU 叢集上執行了訓練運行。

為了最大限度地延長 GPU 的正常執行階段間，研究團隊開發了一種先進的新訓練堆疊，可以自動執行錯誤檢測、處理和維護。此外，Meta 還極大地改進了硬體可靠性和靜默資料損壞檢測機制，並且開發了新的可擴展儲存系統，以減少檢查點和回滾的開銷。

這些改進使得總體有效訓練時間超過 95%，也讓 Llama 3 的訓練效率比前代足足提高了約 3 倍。

開源 VS 閉源

作為 Meta 的“親兒子”，Llama 3 也順理成章地被優先整合到 AI 聊天機器人 Meta AI 之中。

追溯至去年的 Meta Connect 2023 大會，祖克柏在會上正式宣佈推出 Meta AI，隨後便迅速將其推廣至美國、澳洲、加拿大、新加坡、南非等地區。

在此前的採訪中，祖克柏對搭載 Llama 3 的 Meta AI 更是充滿信心，稱其將會是人們可以免費使用的最智慧的 AI 助手。

我認為這將從一個類似聊天機器人的形式轉變為你只需提出一個問題，它就能給出答案的形式，你可以給它更複雜的任務，它會去完成這些任務。

當然，Meta AI 若是“ 尚未在您所在的國家/地區推出”，你可以採用開源模型最樸素的使用管道——全球最大的 AI 開源社區網站 Hugging Face。

Perplexity、Poe 等平台也迅速宣佈將 Llama 3 內建到平台服務上。

你還可以通過呼叫開源模型平台 Replicate API 介面來體驗 Llama 3，其使用的價格也已經曝光，不妨按需使用。

有趣的是，在 Meta 官宣 Llama 3 前，有眼尖的網友發現微軟的 Azure 市場偷跑 Llama 3 8B Instruct 版本，但隨著消息的進一步擴散，當蜂擁而至的網友再次嘗試訪問該連結時，得到的只有“404”的頁面。

Llama 3 的到來，正在社群平台 X 上掀起一股新的討論風暴。

Meta AI 首席科學家、圖靈獎得主 Yann LeCun 不僅為 Llama 3 的發佈搖旗吶喊，並再次預告未來幾個月將推出更多版本。就連馬斯克也現身於該評論區，用一句簡潔而含蓄的“Not bad 不錯”，表達了對 Llama 3 的認可和期待。

NVIDIA高級科學家 JIm Fan 則將注意力投向了即將推出的 Llama 3 400B+，在他看來，Llama 3 的推出已經脫離了技術層面的進步，更像是開源模型與頂尖閉源模型並駕齊驅的象徵。

從其分享的基準測試可以看出，Llama 3 400B+ 的實力幾乎媲美 Claude 超大杯、以及新版 GPT-4 Turbo，雖然仍有一定的差距，但足以證明其在頂尖大型語言模型中佔有一席之地。

不得不說，如今的開源模型當真是百花齊放，百家爭鳴。

今年年初，手握 35 萬塊 GPU 的祖克柏在接受 The Verge 的採訪時描繪了 Meta 的願景——致力於打造 AGI（通用人工智慧）。

與不 open 的 OpenAI 形成鮮明對比，Meta 則沿著 open 的開源路線朝 AGI 的聖盃發起了衝鋒。

正如祖克柏所說，堅定開放原始碼的 Meta 在這條充滿挑戰的征途中也並非毫無收穫：

我通常非常傾向於認為開源對社區和我們都有好處，因為我們會從創新中受益。

在過去的一年中，整個 AI 圈都在圍繞開源或閉源的路線爭論不休，甚至親自下場的馬斯克也通過開源 Grok 1.0 的方式給全世界打了個樣。

如今這場辯論，已經超越了技術層面的優劣比較，觸及了 AI 未來發展的核心方向。

前不久，一些觀點稱開源模型將會越來越落後，如今 Llama 3 的到來，也給了這種悲觀的論調一記響亮的耳光。

然而，儘管 Llama 3 為開源模型扳回一局，但這場關於開源與閉源的辯論還遠未結束。

畢竟暗中蓄勢待發的 GPT-4.5/5 也許會在今年夏天，以無可匹敵的性能為這場曠日持久的爭論畫上一個句號。

延伸閱讀：上下文長度的增加也帶來了模型越獄風險！Claude團隊新越獄技術，從Llama 2到GPT-4無一倖免
延伸閱讀：就算是Meta Llama 2 這類打著「開源」的大旗的AI大模型，也不可能讓AI變得更開放
延伸閱讀：Meta 發表免費可商用版本的大型語言模型 Llama 2

Llama 3 最強開源大語言模型王者歸來，這次表現直逼 GPT-4

Llama 3:又一 GPT-4 級模型來了

Llama 3 對比Llama 2的改進

Llama 3 在訓練效率的提升

開源 VS 閉源

Mio MiSentry™ 12T 4G LTE 聯網行車記錄器完整試用心得大公開！

線上試玩會-印出你「夢想」的色彩，HP Smart Tank 795 做你的最佳助手，挺你的「創業」路

〔入選公告〕SDE 快剪實戰：空拍飛行、婚禮攝影、Vlog 紀錄，與 Crucial 一同為生活留下精彩紀錄

【得獎公布】 Synology BeeStation 史上最簡單的個人雲！比訂閱 iCloud、Google Drive 還划算！馬上報名參加體驗活動，入選即送價值 7,499 元 BeeStation