
蘋果研究團隊近期在論文中提出一種新方法——「基於清單回饋的強化學習」(RLCF, Reinforcement Learning from Checklist Feedback),嘗試改善大語言模型(LLM)在處理複雜指令上的準確度。這項方法的特點,是用「任務清單」取代傳統的人類點讚/點踩回饋,讓 AI 學會更精確地完成多步驟任務。
用清單取代點讚,AI 理解力大幅提升
傳統的 RLHF(人類回饋強化學習)依賴人工給模型「好/壞」的單一標記。但在 RLCF 機制下,每一條指令都會生成一份任務清單,例如「是否翻譯成西班牙語?」、「是否包含表格輸出?」等具體二元判斷項目。AI 的候選回答會被逐項打分(0–100 分),再加權匯總成為訓練回饋。
蘋果研究人員在 Qwen2.5-7B-Instruct 模型上測試後,涵蓋 FollowBench、InFoBench、Arena-Hard 等五個評測基準,結果顯示:RLCF 是唯一在所有測試項目上都有提升的方案。其中硬性滿意率提升 4%、InFoBench 提高 6 分、Arena-Hard 勝率增加 3 點,某些任務更是最高提升 8.2%。顯示「清單式回饋」在多步驟任務中特別有效。
由大模型帶小模型,建立 WildChecklists 資料集
為了產生足夠清單,團隊先用規模更大的 Qwen2.5-72B-Instruct 模型,搭配既有研究方法,為超過 13 萬條指令生成了名為「WildChecklists」的資料集。接著,大模型就像老師一樣,逐項檢查並評分,再將加權後的結果當作小模型的獎勵信號。換句話說,大模型不只是給「對/錯」,而是逐步拆解任務完成度,幫助小模型學習。
限制與挑戰
不過研究團隊也坦言,RLCF 仍有不少限制:
-
它需要更強大的模型充當評審,對資源有限的場景來說不一定可行。
-
這種方法主要針對「複雜任務的執行力」進行強化,並非設計用於安全性或倫理對齊,因此不能取代相關調整。
-
在翻譯以外的其他應用情境,RLCF 的適用性仍有待驗證。
蘋果持續深耕 AI,聚焦效率與可靠性
近年蘋果在 AI 領域的策略趨勢愈來愈明確:強調「準確度」與「可靠性」,而非僅追求模型規模。像這次的「清單法」,就顯示出他們希望透過改變訓練方法,讓 AI 能更精準地跟隨複雜指令。這樣的設計,未來有機會應用在 iPhone、Mac 甚至開發者工具中,讓端側 AI 更聰明,也更符合蘋果一貫「以使用者體驗為核心」的路線。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!