你也覺得GPT-4「變笨」了，答案還不如GPT-3.5嗎？OpenAI回應了質疑 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

你也覺得GPT-4「變笨」了，答案還不如GPT-3.5嗎？OpenAI回應了質疑

你是否覺得大型語言模型的主流，GPT-4，它最近是不是……變笨了？

這個問題一開始只有少數使用者提出質疑，隨後大量網友表示自己也注意到了，還貼出不少證據。有人表示，把GPT-4的3小時25條對話額度一口氣用完了，都沒解決自己的程式碼問題。無奈切換到GPT-3.5，反倒解決了。

總結下大家的意見，最主要的幾種表現有：

以前GPT-4能寫對的程式碼，現在滿是Bug
回答問題的深度和分析變少了
回應速度比以前快了

這就引起不少人懷疑，OpenAI是不是為了節省成本，開始偷工減料？

「兩個月前GPT-4是世界上最偉大的寫作助手，幾週前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麼智慧。」

這就不免讓人想起微軟的Bing Chat一開始也是表現很好，後來慘遭「前額葉切除手術」能力變差的事情……

網友們相互交流自己的遭遇後，幾週之前開始變差成了大家的共識。

關於對GPT-4「變笨」的質疑，同時在Hacker News、Reddit和Twitter等技術社群形成。

這下官方也坐不住了。

OpenAI開發者推廣大使Logan Kilpatrick，出面回覆了一位網友的質疑：「API 不會在沒有我們通知您的情況下更改。那裡的模型處於靜止狀態。」

不放心的網友繼續追問確認「就是說GPT-4自從3月14日發佈以來都是靜態的對吧？」，也得到了Logan的肯定回答。

「我注意到對於某些提示詞表現不一致，只是由於大型語言模型本身的不穩定性嗎？」也得到了Yes 的回覆。

但是截至目前，針對網頁版GPT-4是否被降級過的兩條追問都沒有得到回答，並且Logan在這段時間有發佈別的內容。

那麼事情究竟如何，不如自己上手測試一波。

對於網友普遍提到GPT-4寫程式碼本領變差，來做個簡單實驗。

實測GPT-4 的本領下降了嗎？

3月底，我們曾實驗過讓GPT-4 用Python寫一個多層感知機來實現異或門。

▲ ShareGPT截圖，介面稍有不同

讓GPT-4改用numpy不用框架後，第一次給出的結果不對。

在修改兩次程式碼後，運行得到了正確結果。第一次修改隱藏神經元數量，第二次把啟動函數從sigmoid修改成tanh。

6月2日，我們再次嘗試讓GPT-4完成這個任務，但換成了中文提示詞。

這回GPT-4第一次就沒有使用框架，但給的程式碼仍然不對。

後續只修改一次就得到正確結果，而且換了思路，直接增加訓練epoch數和學習率。

回答的文字部分品質也未觀察到明顯下降，但回應速度感覺確實有變快。

由於時間有限，我們只進行了這一個實驗，且由於AI本身的隨機性，也並不能否定網友的觀察。

最早4月19日就有人提出意見

我們在OpenAI官方Discord頻道中搜尋，發現從4月下旬開始，就不時有零星使用者反應GPT-4變差了。

但這些意見並未引發大範圍討論，也沒有得到官方正式回應。

5月31日，Hacker News和Twitter同天開始大量有網友討論這個問題，成為整個事件的關鍵節點。

HackerNews一位網友指出，在GPT-4的頭像還是黑色的時候更強，現在紫色頭像版在修改程式碼時會丟掉幾行。

在Twitter上較早提出這個問題的，是HyperWrite（一款基於GPT API開發的寫作工具）的CEO，Matt Shumer。

但這條推文卻引發了許多網友的共鳴，OpenAI員工回覆的推文也正是針對這條。

不過這些回應並沒讓大家滿意，反而討論的範圍越來越大。

比如Reddit上一篇帖子提到，原來能回答程式碼問題的GPT-4，現在連哪些是程式碼哪些是問題都分不出來了。

在其他網友的追問下，帖子作者對問題出現的過程進行了概述，還附上了和GPT的聊天記錄。

對於OpenAI聲稱模型從三月就沒有改動過，公開層面確實沒有相關記錄。

ChatGPT的更新日誌中，分別在1月9日、1月30日、2月13日提到了對模型本身的更新，涉及改進事實精準性和數學能力等。

但自從3月14日GPT-4發佈之後就沒提到模型更新了，只有網頁APP功能調整和新增聯網模式、外掛模式、蘋果APP等方面的變化。

假設真如OpenAI所說，GPT-4模型本身的能力沒有變化，那麼這麼多人都感覺它表現變差是怎麼回事呢？

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras創始人Fran?ois Chollet就表示，不是GPT的表現變差，而是大家渡過了最初的驚喜期，對它的期待變高了。

Hacker News上也有網友持相同觀點，並補充到人們的關注點發生了改變，對GPT失誤的敏感度更高了。

拋開人們心理感受的差異，也有人懷疑API版本和網頁版本不一定一致，但沒什麼實據。

還有一種猜測是在啟用外掛的情況下，外掛的額外提示詞對要解決的問題來說可能算一種污染。

▲ WebPilot外掛中的額外提示詞

也有人向OpenAI員工詢問是否模型本身沒變，但推理參數是否有變化？

那麼如果在網頁版繼續一個在iOS版開啟的對話而沒意識到，就可能觀察到GPT-4回答變簡單了。

總之，GPT-4自發佈以來到底有沒有變笨，目前還是個未解之謎。

但有一點可以確定：3月14日起大家上手玩到的GPT-4，從一開始就不如論文裡講的那麼好。

與人類對齊讓AI能力下降

微軟研究院發表的150多頁論文《AGI的火花：GPT-4早期實驗》中就有明寫：他們早在GPT-4開發未完成時就得到了測試資格，並進行了長期測試。後來針對論文中很多驚豔例子，網友都不能成功用公開版GPT-4復現。

目前學術界有個觀點是，後來的RLHF訓練雖然讓GPT-4更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學家張弋也提到：那個版本的模型，比現在外面大家都可以拿得到的GPT-4還要更強，強非常非常多。

舉例來說，微軟團隊在論文中提到，他們每隔相同一段時間就讓GPT-4使用LaTeX中的TikZ畫一個獨角獸來追蹤GPT-4能力的變化。

論文中展示的最後一個結果，畫得已經相當完善。

但論文一作Sebastien Bubeck後續在MIT發表演講時透露了更多資訊。

後來當OpenAI開始關注安全問題的時候，後續版本在這個任務中變得越來越糟糕了。

與人類對齊但並不降低AI自身能力上限的訓練方法，也成了現在很多團隊的研究方向，但還在起步階段。

除了專業研究團隊之外，關心AI的網友們也在用自己的辦法追蹤著AI能力的變化。

有人每天讓GPT-4畫一次獨角獸，並在網站上公開記錄。

從4月12日開始，直到現在也還沒看出來個獨角獸的大致形態。

當然網站作者表示，自己讓GPT-4使用SVG格式畫圖，與論文中的TikZ格式不一樣也有影響。

並且4月畫的與現在畫的似乎只是一樣差，也沒看出來明顯退步。

本文轉載自量子位

#人工智慧 #ai #chatgpt

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

1. Yang Wenli （發表於 2023年6月07日 18:27）

引用回覆

推測原本ai太危險可能被封印囧rz

謹慎發言，尊重彼此。按此展開留言規則