MIT開發新技術讓GPT-4能像人一樣「自我反思」,思考後能力大增測試表現提升 30%

MIT開發新技術讓GPT-4能像人一樣「自我反思」,思考後能力大增測試表現提升 30%

OpenAI 最新的語言模型 GPT-4 不僅能夠像人類一樣生成各種文字,還能夠設計和執行測試來評估和改進自己的表現。這種「反思」技術讓 GPT-4 在多項難度較高的測試中,都取得了顯著的進步,測試表現提升 30%。

GPT-4 是繼 GPT、GPT-2 和 GPT-3 之後,OpenAI 推出的最先進的系統,也是目前最大的多模態模型(可以接受圖像和文字輸入,輸出文字)。其利用深度學習技術,使用人工神經網路來模仿人類的寫作。

MIT研究人員諾亞・辛恩(Noah Shinn)和阿什溫・戈平納特(Ashwin Gopinath)在論文中寫道:「我們開發了一種新穎的技術,讓 AI 代理能夠模擬人類的自我反思,並評估自己的表現。GPT-4 在完成各種測試的時候,會增加一些額外的步驟,讓它能夠自己設計測試來檢查自己的答案,找出錯誤和不足之處,然後根據發現來修改自己的解決方案。」

MIT開發新技術讓GPT-4能像人一樣「自我反思」,思考後能力大增測試表現提升 30%

在 HumanEval 編碼測試中,GPT-4 使用自我反思環路,精準率從 67% 上升到 88%

GPT-4 可以通過設計和執行測試來批判其自身的性能,如 AlfWorld 測試結果所示,可以大大改善其性能

研究團隊使用這種技術對 GPT-4 進行了幾種不同的性能測試。在 HumanEval 測試中,GPT-4 需要解決 164 個從未見過的 Python 程式問題,原本精準率為 67%,使用反思技術後,精準率提升到了 88%。

在 Alfworld 測試中,AI 需要在各種不同的互動環境中,通過執行一些允許的操作,來做出決策和解決多步任務。使用反思技術後,GPT-4 的精準率從 73% 提高到了 97%,只有 4 個任務失敗。

在 HotPotQA 測試中,GPT-4 可以訪問維基百科,並回答 100 個需要從多個支援文件中解析內容和推理的問題,原本精準率為 34%,使用反思技術後,精準率提高到了 54%。

這項研究表明,AI 問題的解決方案有時候是依賴 AI 本身。IT之家發現,這有點像生成對抗網路,這是一種讓兩個 AI 互相提高技能的方法,比如一個 AI 試圖生成一些看起來像真實圖片的圖片,另一個 AI 試圖分辨哪些是假的,哪些是真的。但在這種情況下,GPT 既是寫作者又是編輯,通過自我反思來改進自己的輸出品質。

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則