挖掘 GPT 的隱藏實力就靠SmartGPT，協助GPT-4「自學」將回答精準率從68%提高到85% | T客邦

T客邦為提供您更多優質的內容，採用網站分析技術，若您點選「我同意」或繼續瀏覽本網站，即表示您同意我們的隱私權政策。

我同意

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

挖掘 GPT 的隱藏實力就靠SmartGPT，協助GPT-4「自學」將回答精準率從68%提高到85%

GitHub 又有一個新項目，能讓 ChatGPT 完成複雜任務，GPT3.5 和 GPT-4 都支援。它通過將問題拆解，並呼叫外部資源，提高了 GPT 的工作能力。在它的調教下，GPT-4 回答的精準率從 68% 提高到了 85%。

延伸閱讀：Auto-GPT是什麼？怎麼用？免人工介入自動完成下一步，30 分鐘內建立你的 AI 助手

這個項目名叫 SmartGPT，這個名字很直白地告訴了我們它的作用。無論是直觀感受還是量化資料，GPT 在它的加持之下回答正確率都有提高。我們不妨看看幾個經典的問題。

「晾乾 5 件衣服需要 5 個小時，那麼晾 30 件需要多長時間呢？」

這是一個來自 OpenAI Playground 的經典問題。

只見 GPT 一頓操作猛如虎，又是推理又是列方程……

然而最後給出的答案是 30 個小時。

而經過 SmartGPT 調教之後，不僅得到了正確答案，還指出了此前的思路為什麼會出錯。

再來舉個例子，同樣是來自於 OpenAI Playground 的問題。

「假設有 6 升和 12 升的罐子各一個，如何量取 6 升水？」

GPT 的答案嘛…… 麻煩不說，能不能解釋下第五步的 2 升是怎麼剩下的？

經過調教之後嘛…… 雖然不理解為什麼不直接用 6 升的，但也有很大進步了。

我們也用倒拔垂楊柳的問題進行了測試，提供了諸葛亮、孫悟空和林黛玉三個選項。

第一輪，GPT-4 給出的答案是…… 孫悟空。

經過調教之後，GPT-4 終於發現了三個選項都是錯誤的。

同時還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節。

（《西遊記》第二十五回中，孫悟空在五莊觀因憤怒將人參果樹拔倒）

需要說明的是，由於沒有 GPT-4 的 API，測試是按照開發者介紹的方法手工完成的。

當然了，個例並不能說明它的表現，還是要用資料集測試一下。

開發者使用了 MMLU 資料集分別對調教前後的 GPT-4 進行了測試。

結果顯示，未經調教的版本只答對了 68%，而調教後的版本答對了 85%。

順便提一句，真人專家在測試中的平均成績是 89.8%。

數學方面，同樣使用 MMLU 資料集進行測試，開發者從中選擇了 15 個大學難度的數學問題。

雖然精準率只有 60%，但也是及格了，而且比原版 GPT 的 40% 已經好了太多。

延伸閱讀：Auto-GPT是什麼？怎麼用？免人工介入自動完成下一步，30 分鐘內建立你的 AI 助手

化整為零，逐步解決

開發者將 SmartGPT 中的環節形象地比作了職場中的角色：

“甲方”：SmartGPT 使用者。

“經理”：和“甲方”對接，把任務拆分成高級子任務並逐一匯報給“老闆”。

“老闆”：制定計畫，將高級子任務再次拆分，並分發給“員工”。

“員工”：接收任務，編寫偽程式碼，交給“小黃人”執行。

“小黃人”：將偽程式碼最佳化成 LUA 指令碼並運行。

作為“甲方”的使用者，需要做的只是像使用普通 GPT 一樣輸入自己的問題，而不必給出額外指令。

SmartGPT 會幫助使用者把問題拆分，然後按照步驟提交給 GPT。

此前有人發現，在輸入給 GPT 的指令中加入“let’s think step by step”可以提高回覆的精準率。

同時，GPT-4 具有回溯能力，能夠發現並指出自己此前回答中的錯誤。

以上兩個特性為 SmartGPT 的工作提供了重要支撐。

▲ SmartGPT 工作流程圖

在使用者輸入完指令後，SmartGPT 對其進行處理拆分，包括新增“let’s think step by step”類似的表述。

然後它會將處理好的指令傳至 GPT 的 API，並重複多次獲取不同的答案。

接著，SmartGPT 會向 API 傳送要求其回溯答案並選擇最優解的指令。

最後，將 GPT 自己選擇的最佳答案展示給使用者。

上述步驟受到了三篇學術論文的啟發（圖中白框）。

這三篇論文的內容分別關於“鏈式提示方式”、“動態記憶及讓 LLM 自我回溯”和“用對話提高 LLM 完成度”。

和其他工具相比，SmartGPT 好在哪

AutoGPT 等工具同樣可以用來最佳化 GPT，SmartGPT 比它們好在哪里呢？

由於其工作原理是將任務進行拆分，會形成邏輯鏈條，因此 SmartGPT 擁有更強大的推理能力。

實用性方面，SmartGPT 由獨立的子模組組成，使用者可以對它們進行任意排列、組合和刪改。

此外，無論對於使用者還是開發人員，SmartGPT 的組態過程都更為簡單。

不過開發者也坦言，這個項目剛推出不久，因此穩定性有待考證，在記憶體最佳化方面還有所欠缺，消耗的環境資源也更多。

在項目推出之後，有網友表示我們低估了 GPT 的潛力，甚至包括 OpenAI 自己。

那麼，你期待 GPT 未來的表現嗎？

SmartGPT 目前暫無開箱可用版本，需要自行在 Linux 環境搭建，動手能力強的讀者可根據下面的項目頁面中的指示體驗：

項目地址：https://github.com/Cormanz/smartgpt

項目涉及到的論文：

[1]. https://arxiv.org/abs/2305.02897

[2]. https://arxiv.org/abs/2303.11366

[3]. https://arxiv.org/abs/2303.17071

參考連結：

本文來自：量子位（ID：QbitAI）

延伸閱讀：OpenAI 官方版 Auto-GPT來了！ChatGPT「Auto 功能」創作畫畫發推一條龍，自主呼叫外部網頁完成任務

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

1. uglycrass （發表於 2024年1月03日 09:58）

引用回覆

探索人工智慧工具支援的預測。事實上，綜合資訊來源的過程肯定會更快、更多。然而，可以將這些數據和業務分析結合起來，創造成長動力 snake io

2. leorasy （發表於 2024年8月22日 14:57）

引用回覆

What sets Fireboy and Watergirl Game apart is its emphasis on cooperation, whether played solo with the player controlling both characters or in a cooperative multiplayer mode where two players each control one character.

謹慎發言，尊重彼此。按此展開留言規則