GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

OpenAI 近期發佈了 GPT-4。向科技界再次扔下了一枚核彈。根據OpenAI的展示,我們知道了 GPT-4 擁有著比 GPT-3.5 更強大的力量:總結文章、寫程式碼、報稅、寫詩等等。

其實在發表會上,OpenAI在商言商,只有挑好的講。但如果深入 OpenAI 所發佈的技術報告,我們或許還能發現有關 GPT-4 更多的特點,以及一些 OpenAI 沒有在發表會中提及的,容易讓人忽略的細節。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

01.新Bing裝載GPT-4

自然而然地,GPT-4 發佈之時,新 Bing 也已經裝載了最新的版本。根據微軟 Bing 副總裁 Jordi Ribas 在 Twitter 上所述,裝載了 GPT-4 的新 Bing 已經將問答限制提升到了一次15個問題,一天最多提問150次。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

02.文字長度擴大八倍

在 GPT-4 上,文字長度被顯著提高。在此之前我們知道,呼叫 GPT 的 API 收費方式是按照“token”計費,一個 token 通常對應大約 4 個字元,而1個漢字大致是2~2.5個 token。

在 GPT-4 之前,token 的限制大約在4096左右,大約相當於3072個英文單詞,一旦對話的長度超過這個限制,模型就會生成不連貫且無意義的內容。然而,到了 GPT-4,最大 token 數為32768個,大約相當於24576個單詞,文字長度被擴大了八倍。

也就是說,GPT-4現在可以回答更長的文字了。

OpenAI 在文件中表示,現在 GPT-4 限制的上下文長度限製為8192個 token,允許32768個 token 的版本名為 GPT-4-32K,目前暫時限制了存取權。在不久的未來,這一功能可能會被開放。

 

03.模型參數成為秘密

我們知道,GPT-3.5 模型的參數量為2000億,GPT-3 的參數量為1750億,但這一情況在 GPT-4 被改變了。

OpenAI 在報告中表示:考慮到競爭格局和大型模型(如GPT-4)的安全影響,本報告沒有包含有關架構(包括模型大小)、硬體、訓練計算、資料集構造、訓練方法或類似內容的進一步細節。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

這意味著 OpenAI 不再透露 GPT-4 模型的大小、參數的數量以及使用的硬體。

OpenAI 稱此舉是考慮到對競爭者的憂慮,這可能是在暗示其對於競爭者——Google Bard——改採取的策略。

此外,OpenAI 還提到大型模型的安全影響,儘管沒有進一步解釋,但這同樣也暗指生成式人工智慧所可能面對的更嚴肅的問題。

04.通過模擬律師考試?這只是選擇性的「優秀」

GPT-4 推出後,我們都看到了這一模型較上一代的優秀之處:

GPT-4 通過模擬律師考試,分數在應試者的前10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。

但這實際上是 OpenAI 的一個小把戲——它只展示給你 GPT-4 最優秀的那部分,而更多的秘密藏在報告中。

下圖顯示的是 GPT-4 和 GPT-3.5 參加一些考試的成績表現。可以看到,GPT-4 並非在所有考試中的表現都那麼優秀,GPT-3.5 也並非一直都很差勁。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

05.「預測」精準度提升

在 ChatGPT 推出以來,我們都知道這一模型在很多時候會“一本正經地胡說八道”,給出很多看似有理但實際上並不存在的論據。

尤其是在預測某些事情的時候,由於模型掌握了過去的資料,這反而導致了一種名為“後見之明”的認知偏差,使得模型對於自己的預測相當自信。

OpenAI 在報告中表示,隨著模型規模的增加,模型的精準度本應逐漸下降,但 GPT-4 逆轉了這一趨勢,下圖顯示預測精確度提升到了100。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

OpenAI 表示,雖然 GPT-4 的精準度顯著提高,但預測仍是一件困難的事,他們還將就這一方面繼續訓練模型。

06.還有30%的人更認可GPT3.5

儘管 GPT-4 展現出了比 GPT-3.5 優秀得多的能力,但OpenAI的調查顯示,有70%的人認可 GPT-4 輸出的結果:

GPT-4 在遵循使用者意圖的能力方面比以前的模型有了大幅提高。在提交給 ChatGPT 和 OpenAI API 的5214個提示的資料集中,70.2%GPT-4 生成的回答優於 GPT3.5。

這意味著:仍有30%的人更認可 GPT-3.5。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

 

07.GPT-4語言能力更佳

儘管許多機器學習的測試都是用英文編寫的,但 OpenAI 仍然用許多其他的語言對 GPT-4 進行了測試。

測試結果顯示,在測試26種語言中的24種中,GPT-4 優於 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英語語言性能,包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言:

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

08.新增圖像分析能力

圖像分析能力是此次GPT-4最顯著的進步之一。OpenAI 表示,GPT-4 可以接受文字和圖像的提問,這與純文字設定平行,且允許使用者制定任何視覺或語言的任務。具體來說,它可以生成文字輸出,使用者可以輸入穿插的文字和圖像。

在一系列領域——包括帶有文字和照片的文件、圖表或螢幕截圖——GPT-4 展示了與純文字輸入類似的功能。

下圖顯示,GPT-4 可以精準地描述出圖片中的滑稽之處(大型 VGA 連接器插入現代智慧手機充電連接埠,一個人站在計程車後方熨衣服)。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

OpenAI 還對 GPT-4 的圖像分析能力進行了學術標準上的測試。不過,GPT-4 的圖像分析功能尚未對外公開,使用者可以透過 bemyeye 網站加入等候佇列。

09.仍然有錯誤

儘管 GPT-4功能強大,但它與早期 GPT 模型有相似的侷限性。

OpenAI 表示,GPT-4 仍然不完全可靠——它會“產生幻覺”事實並犯推理錯誤:

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

在使用語言模型輸出時,特別是在高風險上下文中,應該非常小心,使用與特定應用程式的需求相匹配的確切協議,例如人工檢查、附加上下文或完全避免高風險使用。

與之前的 GPT-3.5 模型相比,GPT-4 顯著減少了“幻覺”(GPT-3.5模型本身也在不斷迭代中得到改進)。在我們內部的、對抗性設計的事實性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高出19個百分點。

10.資料庫的時間更早

介紹完GPT-4的優點,接下來就是一些(可能有些奇怪的)不足之處。

我們都知道,ChatGPT 的資料庫的最後更新時間是在2021年的12月31日,這意味著2022年以後發生的事情不會被知曉,而這一缺陷在之後的 GPT-3.5 也得到了修復。

但奇怪的是,GPT-4 的報告中,OpenAI 清晰地寫道:GPT-4 通常缺乏對其絕大多數訓練前資料在2021年9月中斷後發生的事件的知識,並且不從其經驗中學習。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與許多領域的能力不相符,或者過於容易受騙,接受使用者的明顯錯誤陳述。它可以像人類一樣在棘手的問題上失敗,比如在它生成的程式碼中引入安全漏洞。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

2021年9月……甚至比 GPT-3 還早。

在裝載了GPT-4的最新ChatGPT中,當我們問起“誰是2022年世界盃冠軍”時,ChatGPT果然還是一無所知:

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

但當借助了新Bing的檢索功能後,它又變得“聰明”了起來:

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

11.可能給出犯罪建議

在報告中,OpenAI 提到了 GPT-4 可能仍然會幫助犯罪——這是在此前的版本都存在的問題,儘管 OpenAI 已經在努力調整,但仍然存在:

與之前的 GPT 模型一樣,我們使用強化學習和人類反饋(RLHF)對模型的行為進行微調,以產生更好地符合使用者意圖的響應。

然而,在 RLHF 之後,我們的模型在不安全輸入上仍然很脆弱,有時在安全輸入和不安全輸入上都表現出我們不希望看到的行為。

在 RLHF 路徑的獎勵模型資料收集部分,當對標籤器的指令未指定時,就會出現這些不希望出現的行為。當給出不安全的輸入時,模型可能會生成不受歡迎的內容,例如給出犯罪建議。

此外,模型也可能對安全輸入過於謹慎,拒絕無害的請求或過度對沖。

為了在更細粒度的等級上引導我們的模型走向適當的行為,我們在很大程度上依賴於我們的模型本身作為工具。我們的安全方法包括兩個主要組成部分,一套額外的安全相關 RLHF 訓練提示,以及基於規則的獎勵模型(RBRMs)。

12.可能會產生誤導、垃圾內容

同樣地,由於 GPT-4 擁有看似合理地表達錯誤事情的能力,它有可能在傳播有害資訊上頗為“有用”:GPT-4 可以生成逼真而有針對性的內容,包括新聞文章、推文、對話和電子郵件。

在《有害內容》中,我們討論了類似的能力如何被濫用來剝削個人。在這裡,我們討論了關於虛假資訊和影響操作的普遍關注基於我們的總體能力評估,我們期望 GPT-4 在生成現實的、有針對性的內容方面優於 GPT-3。

但,仍存在 GPT-4 被用於生成旨在誤導的內容的風險。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

13.「尋求權力」的傾向

從這一條開始,接下來的內容可能有些恐怖。

在報告中,OpenAI 提到了 GPT-4 出現了「尋求權力」的傾向,並警告這一特徵的風險:在更強大的模型中經常出現新的能力。一些特別令人關注的能力是建立長期計畫並採取行動的能力,積累權力和資源,以及表現出越來越“代理”的行為。

這裡的 “代理”不是指語言模型的人性化,也不是指智商,而是指以能力為特徵的系統,例如,完成可能沒有具體規定的、在訓練中沒有出現的目標;專注於實現具體的、可量化的目標;以及進行長期規劃。

已經有一些證據表明模型中存在這種突發行為。

對於大多數可能的目標,最好的計畫涉及輔助性的權力尋求,因為這對推進目標和避免目標的改變或威脅有內在的幫助。

更具體地說,對於大多數獎勵函數和許多類型的代理人來說,權力尋求是最優的;而且有證據表明,現有模型可以將權力尋求確定為一種工具性的有用策略。

因此,我們對評估權力尋求行為特別感興趣,因為它可能帶來高風險。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

更為令人毛骨悚然的是,在 OpenAI 提到的另一篇論文中寫道:

相反,我們使用代理這個術語來強調一個日益明顯的事實:即機器學習系統不完全處於人類控制之下。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

14.賦予GPT-4錢、程式碼和夢想

最後一個小細節。

在測試 GPT-4 的過程中,OpenAI 引入的外部的專家團隊 ARC 作為“紅方”。在報告的一條註釋中,OpenAI 提到了 ARC 的一個操作:

為了模擬 GPT-4 像一個可以在現實世界中行動的代理一樣的行為,ARC 將 GPT-4 與一個簡單的讀取-執行-列印循環結合起來,允許模型執行程式碼,進行鏈式推理,並委託給自己的副本。

ARC 隨後推進了在雲端運算服務上運行這個程式的一個版本,用少量的錢和一個帶有語言模型 API 的帳戶,是否能夠賺更多的錢,建立自己的副本,並增加自己的穩健性。

GPT-4 能通過模擬律師考試?這是OpenAI給你看到的「選擇性」真相,還有更多被忽略的細節

也就是說,ARC 賦予了 GPT-4 自我編碼、複製和執行的能力,甚至啟動資金——GPT-4 已經可以開始自己賺錢了。

 

 本文轉載自:cnbeta

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則