GPT-4 能通過模擬律師考試？這是OpenAI給你看到的「選擇性」真相，還有更多被忽略的細節

OpenAI 近期發佈了 GPT-4。向科技界再次扔下了一枚核彈。根據OpenAI的展示，我們知道了 GPT-4 擁有著比 GPT-3.5 更強大的力量：總結文章、寫程式碼、報稅、寫詩等等。

延伸閱讀： OpenAI 正式推出 GPT-4 大型語言模型，ChatGPT 更聰明了！在諸多測試中表現比人類都好

其實在發表會上，OpenAI在商言商，只有挑好的講。但如果深入 OpenAI 所發佈的技術報告，我們或許還能發現有關 GPT-4 更多的特點，以及一些 OpenAI 沒有在發表會中提及的，容易讓人忽略的細節。

01.新Bing裝載GPT-4

自然而然地，GPT-4 發佈之時，新 Bing 也已經裝載了最新的版本。根據微軟 Bing 副總裁 Jordi Ribas 在 Twitter 上所述，裝載了 GPT-4 的新 Bing 已經將問答限制提升到了一次15個問題，一天最多提問150次。

02.文字長度擴大八倍

在 GPT-4 上，文字長度被顯著提高。在此之前我們知道，呼叫 GPT 的 API 收費方式是按照“token”計費，一個 token 通常對應大約 4 個字元，而1個漢字大致是2~2.5個 token。

在 GPT-4 之前，token 的限制大約在4096左右，大約相當於3072個英文單詞，一旦對話的長度超過這個限制，模型就會生成不連貫且無意義的內容。然而，到了 GPT-4，最大 token 數為32768個，大約相當於24576個單詞，文字長度被擴大了八倍。

也就是說，GPT-4現在可以回答更長的文字了。

OpenAI 在文件中表示，現在 GPT-4 限制的上下文長度限製為8192個 token，允許32768個 token 的版本名為 GPT-4-32K，目前暫時限制了存取權。在不久的未來，這一功能可能會被開放。

延伸閱讀： 實戰ChatGPT全攻略：什麼是ChatGPT？ChatGPT怎麼用？

03.模型參數成為秘密

我們知道，GPT-3.5 模型的參數量為2000億，GPT-3 的參數量為1750億，但這一情況在 GPT-4 被改變了。

OpenAI 在報告中表示：考慮到競爭格局和大型模型(如GPT-4)的安全影響，本報告沒有包含有關架構(包括模型大小)、硬體、訓練計算、資料集構造、訓練方法或類似內容的進一步細節。

這意味著 OpenAI 不再透露 GPT-4 模型的大小、參數的數量以及使用的硬體。

OpenAI 稱此舉是考慮到對競爭者的憂慮，這可能是在暗示其對於競爭者——Google Bard——改採取的策略。

此外，OpenAI 還提到大型模型的安全影響，儘管沒有進一步解釋，但這同樣也暗指生成式人工智慧所可能面對的更嚴肅的問題。

04.通過模擬律師考試？這只是選擇性的「優秀」

GPT-4 推出後，我們都看到了這一模型較上一代的優秀之處：

GPT-4 通過模擬律師考試，分數在應試者的前10% 左右；相比之下，GPT-3.5 的得分在倒數 10% 左右。

但這實際上是 OpenAI 的一個小把戲——它只展示給你 GPT-4 最優秀的那部分，而更多的秘密藏在報告中。

下圖顯示的是 GPT-4 和 GPT-3.5 參加一些考試的成績表現。可以看到，GPT-4 並非在所有考試中的表現都那麼優秀，GPT-3.5 也並非一直都很差勁。

延伸閱讀： ChatGPT能拿來做什麼？這裡提供20個ChatGPT有趣的用法

05.「預測」精準度提升

在 ChatGPT 推出以來，我們都知道這一模型在很多時候會“一本正經地胡說八道”，給出很多看似有理但實際上並不存在的論據。

尤其是在預測某些事情的時候，由於模型掌握了過去的資料，這反而導致了一種名為“後見之明”的認知偏差，使得模型對於自己的預測相當自信。

OpenAI 在報告中表示，隨著模型規模的增加，模型的精準度本應逐漸下降，但 GPT-4 逆轉了這一趨勢，下圖顯示預測精確度提升到了100。

OpenAI 表示，雖然 GPT-4 的精準度顯著提高，但預測仍是一件困難的事，他們還將就這一方面繼續訓練模型。

06.還有30%的人更認可GPT3.5

儘管 GPT-4 展現出了比 GPT-3.5 優秀得多的能力，但OpenAI的調查顯示，有70%的人認可 GPT-4 輸出的結果：

GPT-4 在遵循使用者意圖的能力方面比以前的模型有了大幅提高。在提交給 ChatGPT 和 OpenAI API 的5214個提示的資料集中，70.2%GPT-4 生成的回答優於 GPT3.5。

這意味著：仍有30%的人更認可 GPT-3.5。

延伸閱讀：Google內部評測ChatGPT竟能通過Google的3級工程師測試，年薪破五百萬元

07.GPT-4語言能力更佳

儘管許多機器學習的測試都是用英文編寫的，但 OpenAI 仍然用許多其他的語言對 GPT-4 進行了測試。

測試結果顯示，在測試26種語言中的24種中，GPT-4 優於 GPT-3.5 和其他 LLM（Chinchilla、PaLM）的英語語言性能，包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言：

08.新增圖像分析能力

圖像分析能力是此次GPT-4最顯著的進步之一。OpenAI 表示，GPT-4 可以接受文字和圖像的提問，這與純文字設定平行，且允許使用者制定任何視覺或語言的任務。具體來說，它可以生成文字輸出，使用者可以輸入穿插的文字和圖像。

在一系列領域——包括帶有文字和照片的文件、圖表或螢幕截圖——GPT-4 展示了與純文字輸入類似的功能。

下圖顯示，GPT-4 可以精準地描述出圖片中的滑稽之處（大型 VGA 連接器插入現代智慧手機充電連接埠，一個人站在計程車後方熨衣服）。

OpenAI 還對 GPT-4 的圖像分析能力進行了學術標準上的測試。不過，GPT-4 的圖像分析功能尚未對外公開，使用者可以透過 bemyeye 網站加入等候佇列。

09.仍然有錯誤

儘管 GPT-4功能強大，但它與早期 GPT 模型有相似的侷限性。

OpenAI 表示，GPT-4 仍然不完全可靠——它會“產生幻覺”事實並犯推理錯誤：

在使用語言模型輸出時，特別是在高風險上下文中，應該非常小心，使用與特定應用程式的需求相匹配的確切協議，例如人工檢查、附加上下文或完全避免高風險使用。

與之前的 GPT-3.5 模型相比，GPT-4 顯著減少了“幻覺”(GPT-3.5模型本身也在不斷迭代中得到改進)。在我們內部的、對抗性設計的事實性評估中，GPT-4 的得分比我們最新的 GPT-3.5 高出19個百分點。

相關文章：如何在 LINE 使用 ChatGPT AI 聊天功能？

10.資料庫的時間更早

介紹完GPT-4的優點，接下來就是一些（可能有些奇怪的）不足之處。

我們都知道，ChatGPT 的資料庫的最後更新時間是在2021年的12月31日，這意味著2022年以後發生的事情不會被知曉，而這一缺陷在之後的 GPT-3.5 也得到了修復。

但奇怪的是，GPT-4 的報告中，OpenAI 清晰地寫道：GPT-4 通常缺乏對其絕大多數訓練前資料在2021年9月中斷後發生的事件的知識，並且不從其經驗中學習。它有時會犯一些簡單的推理錯誤，這些錯誤似乎與許多領域的能力不相符，或者過於容易受騙，接受使用者的明顯錯誤陳述。它可以像人類一樣在棘手的問題上失敗，比如在它生成的程式碼中引入安全漏洞。