Meta 發表免費可商用版本的大型語言模型 Llama 2

Meta發表免費可商用版本Llama 2。

Llama 2 是Llama 1大模型的延續，在資料品質、訓練技術、能力評估、安全訓練和負責任的發布方面有實質性的技術進步。

在研究共用意願歷史最低，管理困境歷史最高點的當今AI時代，Meta這一步無疑為大模型生態系統帶來了重大進展。

從技術報告上看，Llama 2的基礎模型比GPT3更強，而微調後聊天模型則能ChatGPT匹敵。相信後續Llama 2將幫助企業實現更多的定制化和降低成本的產品。

以下是祖克伯在Facebook上發布的關於Llama 2的「宣言」，更是將其稱之為大模型的次世代的產品：

我們正在與微軟合作，推出Llama 2，這是我們開源大語言模型的下一代產品。Llama 2將免費提供給研究者和商業使用者。

Meta一直投身於開源事業，從領先的機器學習框架PyTorch，到像Segment Anything，ImageBind和Dino這樣的模型，再到作為Open Compute Project部分的AI基礎設施。我們一直在推進整個行業的進步，構建更好的產品。

開源推動了創新，因為它讓更多的開發者能夠使用新技術。同時，軟體開源，意味著更多的人可以審查它，辨識並修復可能的問題，從而提高了安全性。我相信如果生態系統更加開放，將會釋放更多的進步，這就是我們為什麼要開源Llama 2。

今天，我們發布了預訓練和微調的模型Llama 2，參數分別為70億，130億和700億。Llama 2比Llama 1預訓練的資料多40%，並對其架構進行了改進。對於微調模型，我們收集了超百萬的人類注釋樣本，並應用了有監督的微調和RLHF，在安全性和品質方面是領先的。

你可以直接下載這些模型，或者透過Azure以及微軟的安全和內容工具訪問這些模型。我們還提供一個最佳化版本，支援Windows本地運行。

我非常期待看到你們的創新成果！

對於Llama 2的出現和發布，深度學習三巨頭之一的Yann LeCun表示，這將改變大模型的市場格局。

有網友很快就向Meta發送了申請，並在幾個小時內獲得了許可，已經在使用了：

OpenLLM大模型排行榜對Llama 2 進行了關於「Eleuther AI Language Model Evaluation Harness」中的4個關鍵基準的評估：

其中，Llama-2-70b獲得了平均分、科學問題ARC、常識推理HellaSwag等指標的第一名；文本多工準確性MMLU指標被基於Llama-30B 的微調模型Platypus-30B超過；產生的問題答案真實性TruthfulQA (MC)指標位列第8名。

▲ 論文：Llama 2: Open Foundation and Fine-Tuned Chat Models

▲ 專案連結：facebookresearch/llama

Llama 2的一些關鍵點aw的優勢在哪？

Meta發布了多個模型，包括7億，13億，34億，70億參數的Llama基礎模型，以及同等規模的Llama變體。Meta將預訓練語料庫的大小增加了40%，將模型的上下文長度增加了一倍，並採用了分組查詢注意力機制（grouped-query attention）。

具體而言，有以下幾個關鍵點：

能力：廣泛測試後，在非編碼方面，確定這是第一個能達到ChatGPT水準的開源模型。
程式碼/數學/推理：論文中關於程式碼資料的討論較少，但有一個模型在某些評價中超越了其他模型。
多輪一致性：採用了新的方法，Ghost Attention (GAtt)，以改善模型的多輪對話一致性。
獎勵模型：為避免安全性和有用性的權衡，採用了兩個獎勵模型。
RLHF過程：採用了兩階段的RLHF方法，強調了RLHF對模型寫作能力的重要影響。
安全性/傷害評估：進行了詳盡的安全評估，並採用了特定的方法以增強模型的安全性。
許可證：模型可供商業使用，但有一定的使用者數量限制，也即日活大於7億的產品需要單獨申請商用許可權。

Llama 2的技術細節

Huggingface科學家Nathan Lambert在一篇博客也對Llama 2的技術報告進行了解析。

▲ LLAMA 2: an incredible open-source LLM

這個模型（Llama 2）與原始的Llama在結構上相似，主要的改變在於資料和訓練過程，以及增加了上下文長度和分組查詢注意力（GQA），且在聊天功能的應用性和推理速度方面有所提高。

訓練語料庫來自公開資源，不包含Meta的產品或服務的資料。模型在2萬億個資料標記（Token）上訓練，以提高性能並減少錯誤，並盡力刪除含有大量私人資訊的資料。

論文大部分關於評估和微調，而非創建基礎模型。

論文接著遵循RLHF流程，訓練一個獎勵模型並使用強化學習（RL）進行最佳化。

此外，技術報告也證實了一點，獎勵模型是RLHF的關鍵，也是模型的關鍵。為了得到一個好的獎勵模型，Meta收集了大量偏好資料，這些資料遠遠超過了開源社群正在使用的資料。

Meta收集二元對比資料，而非其他更複雜類型的回饋。這類似於1-8的Likert量表，但更側重於質性評價如「顯著優於、優於、稍優於或差不多/不確定」。

他們使用多輪次偏好，模型的回應來自不同的模型訓練階段；Meta的關注點更在於有用性和安全性，而不是誠實度（honesty），在每個資料供應商的資料收集階段使用不同的指令。

此外，在資料收集過程中，團隊添加了額外的安全中繼資料，顯示每一輪模型的哪些回應是安全的。在建模階段，他們排除了所有「選擇的回應不安全而其他回應安全」的例子，因為他們認為更安全的回應會更受人類喜歡。

獎勵模型

研究人員訓練了兩個獎勵模型，一個專注于有益性，另一個專注於安全性。這些模型基於語言模型構建，用線性回歸層替換了原模型頭部。他們始終使用最新的聊天模型，目的是為了減少在RLHF訓練中的分布不匹配。

一些關鍵的技術細節包括：

起始獎勵模型基於開來源資料訓練，並用於生成早期供應商數據。
他們保留了一些Anthropic的無害資料（占他們自己的90%），但沒有給出具體原因。
他們只訓練一個epoch，防止獎勵模型過擬合。
獎勵模型的平均準確率在65-70%範圍內，但在"顯著不同"的標籤上，準確率達到80-90%。

其他有趣的發現：

在獎勵模型的損失函數中添加了一個margin項（與偏好的置信度成比例），以提高有益性。
隨著模型的訓練和改進，資料對模型輸出的一致性評價越來越高
訓練的獎勵模型在評估中表現優於使用GPT-4生成的獎勵模型提示。

圖表顯示，獎勵模型的準確性隨著時間的推移有所提高。值得注意的是，儘管OpenAssistant獎勵模型可能沒有得到高度認可，但是GPT-4作為獎勵模型的性能表現為其他模型提供了基準。

Meta在討論微調結果時提到，獎勵模型的準確性是Llama 2-Chat性能的關鍵指標。這符合人們對RLHF會充分利用獎勵模型知識的理解。

RLHF和微調

Meta透過使用RLHF方法來提升模型性能，如下圖所示使用最優秀的獎勵模型來評估各種模型，以此展示RLHF如何將生成的文本推向更高的獎勵。Meta反覆運算訓練了5個RLHF版本，每個版本的資料分布都有所改進。

Meta指出，協力廠商的SFT（有監督微調）資料多樣性和品質往往不足以滿足對話式指令的LLM對齊需求。Meta透過篩選協力廠商資料集中的高品質示例，顯著提高了結果。他們也強調了注釋資料的數量對於再現性的重要性。

Meta觀察到，不同的注釋平臺和供應商可能會導致模型性能的顯著差異，因此在使用供應商獲取注釋時，資料檢查仍然非常重要。他們的做法是透過對比人類注釋和模型生成的樣本來驗證資料品質。

在資料品質確立之後，Meta開始關注強化學習（RL）部分。他們發現，即使有熟練的注釋員，每個人的寫作風格也會有很大的差異。一個在SFT注釋上進行微調的模型會學習這種多樣性，但同時也會學習到一些糟糕的注釋。他們指出，模型的性能是由技巧最好的注釋者的寫作能力來限制的。

Meta確實承認，這個過程需要大量的運算和注釋資源。在整個RLHF階段，獎勵建模資料對於模型改進至關重要。

結論是，有效的RLHF需要一個中等大小的團隊。雖然一個1-3人的團隊可以發布一個好的指令模型，但實行RLHF可能需要至少6-10人。這個數字會隨著時間的推移而減小，但這種類型的工作需要與外部公司簽訂合約和保持緊密的聯繫，這總是會耗費一些時間。

此外，Meta對比了方法間的基本差異以及它們的使用時機：
拒絕抽樣（RS）進行更廣泛的搜索（每個提示生成更多的資料），而PPO則對獎勵模型進行更多的更新。
最終方法之間的差異並不顯著（與WebGPT的發現相似）。
在RLHFV4中，僅使用了拒絕抽樣，然後在最後一步中使用PPO和拒絕抽樣進行微調（在一些評估中，PPO有輕微的優勢）。

評估

論文以多種方式評估他們的模型。在自動化基準測試中，例如Open LLM Leaderboard（MMLU，ARC等）的首字母縮略詞，Llama 2在所有規模上都比其他任何開源模型要好得多。

模型在諸如MMLU這樣的不那麼顯眼的基準測試中也得分更高，這是因為他們的大量資料工作和RLHF的調整。然而，他們的模型在與閉源模型的比較中並未表現出色。

此外，論文還深入研究了當前流行的評估技術，人類注釋者和LLM-as-a-judge由於其普遍性和可用性而受到歡迎。儘管人類評估可能受到一些限制和主觀性的影響，但結果顯示了Meta在開源領域的主導地位。

他們採用了模型作為評判的技術，並用Elo圖展示了RLHF這個隨時間變化的概念，這與Anthropic的AI工作類似。在性能上，他們的模型在RLHFv3之後超過了ChatGPT，這可以在圖中看到PPO方法提供了一定的提升：

這篇論文進行了多項評估以展示其一般性能力，包括建立獎勵模型。獎勵模型的測試亮點：

調整獎勵模型分數以適應人類評價者的偏好評估，儘管誤差範圍較大。

與在開來源資料集上訓練的獎勵模型進行比較，以展示開源領域的可能實現。

人類/模型評估的亮點：

在ChatGPT和Llama-2-Chat的輸出上評估模型，避免模型因風格偏好而提高自身結果。

利用評價者間可靠性度量，如Gwet的AC1/2，這些統計工具為此項工作專門設計。

承認人類評估的限制，包括大型評估提示集未覆蓋所有實際應用，缺少對編碼/推理的評估，只評估最後的對話輪次。

▲ Llama 2 的線上測試位址

資料來源：