蘋果大模型MM1終於要加入戰局了！高達300億參數、多模態、MoE架構

今年以來，蘋果顯然已經加大了對生成式人工智慧（GenAI）的重視和投入。之前在 2024 蘋果股東大會上，蘋果 CEO 提姆·庫克表示，今年將在 GenAI 領域實現重大進展。此外，蘋果宣佈放棄 10 年之久的造車專案之後，一部分造車團隊成員也開始轉向 GenAI。

如此種種，蘋果向外界傳達了加注 GenAI 的決心。目前多模態領域的 GenAI 技術和產品非常火爆，尤以 OpenAI 的 Sora 為代表，蘋果當然也想要在該領域有所建樹。

今日，在一篇由多位作者署名的論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，蘋果正式公佈自家的多模態大模型研究成果 —— 這是一個具有高達 30B 參數的多模態 LLM 系列。

▲ 論文：MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training 下載連結

該團隊在論文中探討了不同架構元件和資料選擇的重要性。並且，透過對圖像編碼器、視覺語言連接器和各種預訓練資料的選擇，他們總結出了幾條關鍵的設計準則。具體來講，本文的貢獻主要體現在以下幾個方面。

首先，研究者在模型架構決策和預訓練資料選擇上進行小規模消融實驗，並發現了幾個有趣的趨勢。建模設計方面的重要性按以下順序排列：圖像解析度、視覺編碼器損失和容量以及視覺編碼器預訓練資料。

其次，研究者使用三種不同類型的預訓練資料：圖像字幕、交錯圖像文本和純文字資料。他們發現，當涉及少樣本和純文字性能時，交錯和純文字訓練資料非常重要，而對於零樣本性能，字幕資料最重要。這些趨勢在監督式微調是（Supervised Fine-Tuning：SFT）之後仍然存在，這表明預訓練期間呈現出的性能和建模決策在微調後得以保留。

最後，研究者構建了 MM1，一個參數最高可達 300 億（其他為 30 億、70 億）的多模態模型系列，它由密集模型和混合專家模型（MoE）變體組成，不僅在預訓練指標中實現 SOTA，在一系列已有多模態基準上監督式微調後也能保持有競爭力的性能。

具體來講，預訓練模型 MM1 在少樣本設定下的字幕和問答任務上，要比 Emu2、Flamingo、IDEFICS 表現更好。監督式微調後的 MM1 也在 12 個多模態基準上的結果也頗有競爭力。

得益於大規模多模態預訓練，MM1 在上下文預測、多圖像和思維鏈推理等方面具有不錯的表現。同樣，MM1 在指令調優後展現出了強大的少樣本學習能力。

延伸閱讀：急起直追？庫克：蘋果將在生成式 AI 領域「開闢新天地」，外界推估 WWDC 2024 見真章
延伸閱讀：庫克終於脫口對生成式AI表態：蘋果早就已經上車，最好的AI PC是Mac

方法概覽：構建 MM1 的秘訣

構建高性能的 MLLM（Multimodal Large Language Model，多模態大型語言模型）是一項實踐性極高的工作。儘管高層次的架構設計和訓練過程是清晰的，但是具體的實現方法並不總是一目了然。這項工作中，研究者詳細介紹了為建立高性能模型而進行的消融。他們探討了三個主要的設計決策方向：

架構：研究者研究了不同的預訓練圖像編碼器，並探索了將 LLM 與這些編碼器連接起來的各種方法。
數據：研究者考慮了不同類型的資料及其相對混合權重。
訓練程式：研究者探討了如何訓練 MLLM，包括超參數以及在何時訓練模型的哪些部分。

消融設定

由於訓練大型 MLLM 會耗費大量資源，研究者採用了簡化的消融設定消融設定（Ablation Setting）。消融的基本配置如下：

圖像編碼器：在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 訓練的 ViT-L/14 模型；圖像大小為 336×336。
視覺語言連接器：C-Abstractor ，含 144 個圖像 token。
預訓練數據：混合字幕圖像（45%）、交錯圖像文本檔案（45%）和純文字（10%）數據。
語言模型：1.2B 變壓器解碼器語言模型。

為了評估不同的設計決策，研究者使用了零樣本和少樣本（4 個和 8 個樣本）在多種 VQA 和圖像描述任務上的性能：COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。

延伸閱讀：蘋果論文透露可將大型語言模型裝進快閃記憶體，日後iPhone可直接流暢跑AI模型

模型架構消融試驗

研究者分析了使 LLM 能夠處理視覺資料的元件。具體來說，他們研究了（1）如何以最佳方式預訓練視覺編碼器，以及（2）如何將視覺特徵連接到 LLM 的空間（見圖 3 左）。

圖像編碼器預訓練。在這一過程中，研究者主要消融了圖像解析度和圖像編碼器預訓練目標的重要性。需要注意的是，與其他消融試驗不同的是，研究者本次使用了 2.9B LLM（而不是 1.2B），以確保有足夠的容量來使用一些較大的圖像編碼器。
編碼器經驗：圖像解析度的影響最大，其次是模型大小和訓練資料組成。如表 1 所示，將圖像解析度從 224 提高到 336，所有架構的所有指標都提高了約 3%。將模型大小從 ViT-L 增加到 ViT-H，參數增加了一倍，但性能提升不大，通常不到 1%。最後，加入 VeCap-300M （一個合成字幕資料集）後，在少樣本場景中性能提升超過了 1%。

視覺語言連接器和圖像解析度。該元件的目標是將視覺表徵轉化為 LLM 空間。由於圖像編碼器是 ViT，因此其輸出要嘛是單一的嵌入，要嘛是一組與輸入圖像片段相對應的網格排列嵌入。因此，需要將圖像 token 的空間排列轉換為 LLM 的順序排列。與此同時，實際的圖像 token 表徵也要映射到詞嵌入空間。
VL 連接器經驗：視覺 token 數量和圖像解析度最重要，而 VL 連接器的類型影響不大。如圖 4 所示，隨著視覺 token 數量或 / 和圖像解析度的增加，零樣本和少樣本的辨識率都會提高。

預訓練資料消融試驗

通常，模型的訓練分為兩個階段：預訓練和指令調優。前一階段使用網路規模的資料，後一階段則使用特定任務策劃的資料。下面重點討論了本文的預訓練階段，並詳細說明研究者的資料選擇（圖 3 右）。

有兩類資料常用於訓練 MLLM：由圖像和文本對描述組成的字幕資料；以及來自網路的圖像 - 文本交錯檔案。表 2 是資料集的完整列表：

資料經驗 1：交錯資料有助於提高少樣本和純文字性能，而字幕資料則能提高零樣本性能。圖 5a 展示了交錯資料和字幕資料不同組合的結果。
資料經驗 2：純文字資料有助於提高少樣本和純文字性能。如圖 5b 所示，將純文字資料和字幕資料結合在一起可提高少樣本性能。
資料經驗 3：謹慎混合圖像和文本資料可獲得最佳的多模態性能，並保留較強的文本性能。圖 5c 嘗試了圖像（標題和交錯）和純文字資料之間的幾種混合比例。
資料經驗 4：合成資料有助於少樣本學習。如圖 5d 所示，人工合成資料確實對少數幾次學習的性能有不小的提升，絕對值分別為 2.4% 和 4%。

最終模型和訓練方法

研究者收集了之前的消融結果，確定 MM1 多模態預訓練的最終配方：

圖像編碼器：考慮到圖像解析度的重要性，研究者使用了解析度為 378x378px 的 ViT-H 模型，並在 DFN-5B 上使用 CLIP 目標進行預訓練；
視覺語言連接器：由於視覺 token 的數量最為重要，研究者使用了一個有 144 個 token 的 VL 連接器。實際架構似乎不太重要，研究者選擇了 C-Abstractor；
數據：為了保持零樣本和少樣本的性能，研究者使用了以下精心組合的資料：45% 圖像 - 文本交錯檔案、45% 圖像 - 文本對檔案和 10% 純文字檔案。

為了提高模型的性能，研究者將 LLM 的大小擴大到 3B、7B 和 30B 個參數。所有模型都是在序列長度為 4096、每個序列最多 16 幅圖像、解析度為 378×378 的情況下，以 512 個序列的批量大小進行完全解凍預訓練的。所有模型均使用 AXLearn 框架進行訓練。

他們在小規模、9M、85M、302M 和 1.2B 下對學習率進行網格搜尋，使用對數空間的線性回歸來推斷從較小模型到較大模型的變化（見圖 6），結果是在給定（非嵌入）參數數量 N 的情況下，預測出最佳峰值學習率 η：

透過專家混合（MoE）進行擴充。在實驗中，研究者進一步探索了透過在語言模型的 FFN 層添加更多專家來擴充密集模型的方法。

要將密集模型轉換為 MoE，只需將密集語言解碼器替換為 MoE 語言解碼器。為了訓練 MoE，研究者採用了與密集骨幹 4 相同的訓練超參數和相同的訓練設定，包括訓練資料和訓練 token。

關於多模態預訓練結果，研究者透過適當的提示對預先訓練好的模型在上限和 VQA 任務上進行評估。表 3 對零樣本和少樣本進行了評估：

監督式微調結果

最後，研究者介紹了預訓練模型之上訓練的監督式微調（SFT）實驗。

他們遵循 LLaVA-1.5 和 LLaVA-NeXT，從不同的資料集中收集了大約 100 萬個 SFT 樣本。鑒於直觀上，更高的圖像解析度會帶來更好的性能，研究者還採用了擴充到高解析度的 SFT 方法。

監督式微調結果如下：

表 4 展示了與 SOTA 比較的情況，「-Chat」表示監督式微調後的 MM1 模型。

首先，平均而言，MM1-3B-Chat 和 MM1-7B-Chat 優於所有列出的相同規模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基準測試（MMMU 和 MathVista）中表現尤為突出。

其次，研究者探索了兩種 MoE 模型：3B-MoE（64 位專家）和 6B-MoE（32 位專家）。在幾乎所有基準測試中，蘋果的 MoE 模型都比密集模型取得了更好的性能。這顯示了 MoE 進一步擴充的巨大潛力。

第三，對於 30B 大小的模型，MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表現優於 Emu2-Chat37B 和 CogVLM-30B。與 LLaVA-NeXT 相比，MM1 也取得了具有競爭力的全面性能。

不過，LLaVA-NeXT 不支援多圖像推理，也不支援少樣本提示，因為每幅圖像都表示為 2880 個發送到 LLM 的 token，而 MM1 的 token 總數只有 720 個。這就限制了某些涉及多圖像的應用。

圖 7b 顯示，輸入圖像解析度對 SFT 評估指標平均性能的影響，圖 7c 顯示，隨著預訓練資料的增加，模型的性能不斷提高。

圖像解析度的影響。圖 7b 顯示了輸入圖像解析度對 SFT 評估指標平均性能的影響。

預訓練的影響：圖 7c 顯示，隨著預訓練資料的增加，模型的性能不斷提高。

更多研究細節，可參考原論文。

延伸閱讀：挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線，性能接近GPT-4卻僅使用GPT-4 40%算力
延伸閱讀：Anthropic Claude 3 全面完勝 GPT-4，全球最強AI大模型一夜易主