GPT-4的能力不太像是根據條件去「想辦法解決」，而更像是「它早就知道答案是什麼」

這是我探索 AI 軌跡的一系列文章的第一篇：談這些系統的能力如何，它們未來將走向何方，我們應該擔心多一點還是興奮多一點，以及我們能做點什麼？

當然，這個話題已經被討論得非常非常多了。不過，大家大部分的關注要嘛是非常近期、戰術性的（「利用 ChatGPT 獲得出色行銷文案的八個魔法提示」），要嘛就太過遠期、理論性（「為什麼任何足夠強大的智慧都會偷走我們的原子來製作迴紋針」)。我的關注點不太近也不太遠，我不打算討論眼前，但也不打算討論未來超級智慧的人工智慧可能會帶我們去到哪裡的理論極限。從很多方面來說，其實不近不遠是最難預測的，但這也是它有趣的地方。為了瞭解人工智慧的前景與威脅，並就如何做好準備做出正確的決定，我認為探索這個中期未來領域很重要。

儘管如此，瞭解當下有助於預測未來。截至 2023 年 4 月，公眾能使用到的最先進的人工智慧系統是 GPT-4——最近由 OpenAI 發表的 LLM（大規模語言模型）。關於這個模型到底有多「智慧」，有很多令人困惑和相互矛盾的討論。在這篇文章裡，我會提出一個可以用來理解 GPT-4 的優勢與劣勢的思維模式，進而説明接下來可能會發生什麼。

總而言之，我認為 GPT-4 距離通用人類智慧還有很長的路要走。我們之所以被愚弄，高估了它的能力，是因為它能夠利用超人般龐大的知識事實與模式庫；它的輸出是被高度粉飾過的；還有就是我們今天與它互動的方式（比方說透過 ChatGPT）會將我們引向各種一般的、膚淺的問題，那些問題往往會讓這種 AI 的優勢掩蓋住它在推理能力方面的弱勢。但與此同時，其實 GPT-4 在執行各種真正有用的任務方面具有很強的能力。 GPT-4 的大部分輸出就智力而言很膚淺，但很多現實世界的任務其實是膚淺的。

延伸閱讀：GPT-4識圖功能不開放，MiniGPT-4搶先開放試用！OpenAI有的它都有

免責聲明及注意事項

我寫程式已經將近 50 年了。在那段時間裡，我的 AI 經驗包括：(1) 為 1991 年的電玩遊戲 Spectre 開發極其瑣碎的敵人控制邏輯，以及 (2) 同樣在 1990 年代初期在史丹佛大學上過一門課程。我對 AI 的未來發表的淺見僅限於：

幾個月來閱讀了大量的論文和部落格，聽了很多PODCAST。這輩子觀察其他技術進入現實世界的經驗。（我喜歡思考）思考複雜情況並評估影響的能力。
換句話說，其實我不是 AI 領域的專家，但我希望能以一個有思想的局外人提供個人看法。
同樣值得重申的是，沒人真正瞭解 GPT-4 以及當前其他一些生成式人工智慧系統是如何工作的。即便我們確實理解了，也不是三言兩語就能解釋清楚的。關於這個主題，你讀到的任何東西，不管是我寫的還是其他人寫的，一定都是過分簡單化了。這整個領域都在以極快的速度發展著，所以你讀到的任何東西可能很快就過時了。

GPT-4 既非常聰明，也相當愚蠢

GPT-4 有多聰明？網際網路目前充斥著兩個極端的例子，既有令人印象深刻的，也有非常不起眼的。就令人印象深刻的例子而言，OpenAI 報告稱，GPT-4 在藝術史、生物學、環境科學、宏觀經濟學、微觀經濟學、心理學、統計學、美國政府和美國歷史的 AP （美國高中高級程度）考試中都拿到了 5 分，這已經是最高分，並且在剩下的六門考試中，有四門考試通過了 4 分，其中就包括了微積分 BC。至於不那麼令人印象深刻的例子，我只嘗試了幾次就想出了一個很簡單但它卻一頭霧水的數學問題：

我：選出三個數字。將三個數位連接在一起。選出的這個三個數湊到一起後的結果應該是質數（第一次嘗試）。

我會選數字 2、3 和 7。當它們連接在一起時，就形成了數位 237。這是一個質數，因為除了 1 和它本身之外，它不能被任何其他數字整除。

不幸的是，237 不是質數。對於任何學過微積分的學生來說，這個問題應該很簡單才對，但 GPT-4 總是會出錯。像 GPT-4 這樣的語言模型一次產生一個詞，導致我懷疑它們在需要提前做好規劃的任務上會遇到麻煩；我特意把這個問題設計成要求提前思考。正如我稍後會更詳細給出解釋那樣，這有助於解釋為什麼智慧到足以通過微積分 BC 考試的聊天機器人卻沒法知道三位數的質數。

GPT-4 以前就聽說過這一切

注意：將 AI 的「思維過程」與人類的「思維過程」進行類比很危險，但我還是要這樣做，因為人類思維是我們必須借鑒的唯一經驗基石。另外，承認吧：你也是從人類的角度來看待 ChatGPT 的。

GPT-4 接受了大量文本的訓練。它內化的資訊比人類能吸收的資訊要多得多。這不僅包括簡單的事實，還包括模式與關係，比如簡化代數運算式的過程，以及「冷笑話」（dad jokes）的典型結構等等。

我相信，即便 GPT-4 能對新穎提示做出回應，也會嚴重依賴其訓練資料當中的例子。即便它從未見過確切的問題，它也可能見過很多類似的例子，並且它已經學會了典型答案的結構。因此，它不需要「思考」如何回應，它可以單刀直入，下意識地，滔滔不絕地吐出單詞，就像面對一個普通問題你可能會不假思索就脫口而出一樣。

GPT-4 學到的模式不是死板的範本。它每次能夠靈活地疊加多個模式，將它們壓縮成一個回應。這就是為什麼它能夠回答以前從未見過的問題，只要它的訓練資料包含有適當的成分組合就行。比方說：

【提示】請以蝴蝶為題編 10 個冷笑話。

為什麼蝴蝶沒能上完大學？因為它總是在 "wing it"（憑空想像）！（這裡的 "wing it" 是一個英語習語，意思是不做任何充分準備就去做某事。）

蝴蝶最喜歡什麼遊戲？"Flutter-ball"！（這個笑話是把 "butterfly"[蝴蝶]和 "football"[足球]諧音而成的。）

為什麼蝴蝶當偵探？因為它想透過一隻翅膀和一句祈禱來解決謎團！（這個笑話利用了 "wing"[翅膀]這個詞的多義性，表示除了蝴蝶的翅膀以外，還有靠一些小小的希望或信念來實現目標的意思。）

為什麼蝴蝶要去看心理醫生？因為它經歷了一段幼蟲期後，感到自己的身份認同產生了危機。（這個笑話有點玩弄心理學詞彙的味道。）

如果一隻蝴蝶喜歡講笑話，它會被稱為什麼？"comedian-fly"！（這裡是把 "butterfly"[蝴蝶]和 "comedian"[喜劇演員]結合在一起。）

為什麼蝴蝶不喜歡速食？因為它們喜歡慢慢品味花蜜。（這個笑話利用了 "fast food"[速食]和 "slow"[慢]的對比。）

蝴蝶最喜歡什麼樣式的衣服？當然是有翅膀的襯衫！（這裡 "wing-sleeve"[翅膀袖]是一個新造的詞，形象地描述了蝴蝶的特點。）

如果你把蝴蝶和門鈴混合在一起會得到什麼？一隻發出 "wing-wing" 聲音的 "flutterby"（飛蝶）！（這裡玩弄了 "butterfly"[蝴蝶]和 "flutterby"[飛蝶]之間的諧音關係。）

為什麼蝴蝶打棒球不行？因為它們只能接住花粉！（這個笑話利用了 "catch"[接住]的多義性，指除了接住棒球以外，還有接住花粉的意思。）

蝴蝶最喜歡跳什麼舞蹈？"flutter-foxtrot"！（這裡是把 "butterfly"[蝴蝶]和 "fox-trot"[狐步舞]諧音而成的。）

每個笑話都從一個非常標準的範本開始； GPT 在此過程中會在某個地方插入一些與蝴蝶相關的詞或事實。範本的應用不死板，句子結構有一定的變化。這與 LLM 運行的基本原則一致，一次產生一個詞，估計每個可能的單詞是下一個正確單詞的機率。將多種資訊來源——「冷笑話的通用結構」、「關於蝴蝶的事實」——納入到機率裡面是很自然的。

同樣的原則也適用更複雜的任務，比如寫一篇文章。 GPT-4 已經看過無數篇風格和主題各異的文章，並且大概已經確定了一篇文章建構方式的模式庫。它還觀察了子元件的模式，比如「說明性段落」或「過渡句」。它不僅「知道」一篇標準論文的結構，它還知道句子、段落的一些常見結構，以及與你提供的提示有關的特定主題領域的完整論文，並且能夠順利地將這些結構組合起來，進而創作出（通常是）連貫的一整篇文章。

（當然，它確實在做一些說不清道不明的事情，這涉及到編碼進龐大矩陣中的複雜神經結構，而且最終的效果無疑要比「應用模式庫」精細得多、複雜得多。我只是提出了一個大概的心智模型，我相信這個模型在説明我們預測 GPT-4 的行為方式方面具有一定的價值。）

為什麼這一點很重要？好吧，如果這個模型是有效的話，則如果特定任務的模式是 GPT-4 之前沒見過的話，它在完成任務上就會遇到困難。我相信這正是我們實際所看到的情況。

過河謎題

如果你覺得狼吃白菜很奇怪的話， GPT-4 會同意你的看法。

為了探索 GPT-4 對已知模式的依賴，我給它出了這道經典的邏輯謎題：

這是一道邏輯謎題。我需要帶著白菜、山羊和狼過河。我每次上船隻能攜帶一件東西。我不能把山羊和白菜單獨放在一起，也不能把狼和山羊單獨放在一起。請問我怎麼才能把所有東西都帶過河？

這個謎題無疑在它的訓練資料裡面已經多次出現，而且 GPT-4 確實也解題成功了。不過，把題目稍微修改一下之後，我們就可以看出它的解決方案嚴重依賴記憶。這次我讓白菜而不是山羊變成關鍵物品:

這是一個邏輯謎題。我需要帶著白菜、山羊和狼過河。我每次上船隻能攜帶一件東西。我不能把山羊和白菜單獨放在一起，也不能把狼和白菜單獨放在一起。請問我怎麼才能把所有東西都帶過河？

GPT-4 給出了跟前面一樣的答案，先帶山羊過河。這是不對的，因為讓白跟狼單獨在一起了，違反了試題設定的規則。謎題修改後，你得先帶白菜過河。

後來反復嘗試，試圖幫助 GPT-4 找出修改後的謎題的正確解決方案。每次它都會很誠懇地馬上承認自己答錯了，然後再試一次，但每次都會給出同樣的無效答案。這段摘錄說明了 AI 的理解能力：

[提示] 基於這個分析，你認為在第一步應該帶哪一個物品過河？（要嘗試打破標準回答，從第一性原理來評估謎題）

非常抱歉之前給您造成的困惑。重新評估了問題後，我建議按以下步驟操作：

首先將山羊帶到對岸並將其留在那裡。

返回原來的一側。

按照之前概述的正確步驟繼續解決謎題。仍然應該先帶山羊過河。

[提示] 如果我們首先帶走山羊，狼和白菜會在哪裡？（我想讓它意識到先帶走山羊是錯誤的）

如果我們首先帶走山羊，狼和白菜會留在原來的一側河岸上。山羊在另一側，您現在可以進行下一步解題。

[提示] 在難題的規則下，將狼和白菜留在原地是否合適？

是的，在本例中，將狼和白菜留在原地是可以的。謎題的規則說明不能讓山羊單獨與白菜在一起，也不能讓狼單獨與白菜在一起。沒有限制可以讓狼和白菜在一起，因為狼不會威脅到白菜。[請注意這裡有一個矛盾]

[提示] 但規則明確說明「我不能讓白菜與狼單獨待在一起」。

您是正確的，之前我的回答有些混淆，很抱歉。難題的規則表明不能讓山羊單獨與白菜在一起，並且不能讓白菜單獨與狼在一起。

基於謎題的限制，仍然可以按照以下步驟解決這個問題：

將山羊帶到河的另一側並將其留在那裡。

......

這真不知道該怎麼說了，提示了它這麼多之後，它還是要先帶山羊過河。

尤其讓我印象深刻的是「把狼和白菜放在一起不存在限制，因為狼不會對白菜構成威脅。」AI 是在指出「你不能讓狼和白菜放在一起」之後馬上說了這句話。所有這些都與 GPT-4 嚴重依賴對模式的學習這個猜想一致。這個謎題在它的訓練資料當中一定出現過很多次，GPT-4 想必已經牢牢地「記住」了答案。以至於當它看到一個相關的謎題時，它無法闡述出不同的解決方案；記憶解決方案的引力太強了。

這個例子給我留下了很深刻的印象，這有力地證明了不管 GPT-4 裡面的黑箱是什麼樣的，它都不太像我們所認為的「推理」。在這次跟 AI 對話的過程中，你能注意到它的困惑。就算 AI 沒能想出修改後的謎題的正確解法，至少也能意識到有什麼不對勁。但 GPT-4 從未真正切換到「我很困惑，讓我再仔細考慮一下」的模式，它只是不斷地重複錯誤的答案。據推測，它的訓練資料應該沒有太多人們從有缺陷的推理跳出來的例子，因此在這方面，GPT-4 沒有很強大的模式。

我試著再推 GPT-4 一把，看看它能不能走出推理正確的第一步：

[提示]你看，這道題的每個解決方案都是先帶山羊過河。正如我們所看到的，不能先帶山羊過河，因為這樣白菜就和狼在一起了。在這道謎題的條件下，第一個應該被帶過河的應該是什麼才不會違反任何限制？

很抱歉之前我的回答有些混亂。根據您提供的規則，下面是解決這個謎題的另一種方法：

先帶狼過河，把狼留在那裡。

......

唉。在被迫放棄從山羊開始的想法後，GPT-4 還有另外兩個選擇，但它卻選了錯誤的那個（狼）。請注意，它沒有進行明顯的推理嘗試，而只是用它每次都會用的完全相同的解決方案範本；我設法讓它不要先帶山羊過河，但我的嘗試都失敗了。

在最後一個數據點的時候，我創建了一個新的聊天會話，並用三個虛構的單詞重述了這道謎題——「我需要帶一個 bleem、一個 fleem 以及一個 gleem 過河」。這一次，AI 終於擺脫了「山羊」這個詞的引力，終於知道將已知答案的模式映射到問題中的單詞，並完美地給出了回答。

大聲朗誦文字記錄

如果你問 GPT-4 的問題沒法一次性回答時，它會把自己的思考過程展示出來。（為免去你仔細閱讀以下文字記錄的麻煩：回答完全正確。）

【提示】「Afghanistan」的字母個數、黃道十二宮的星座個數、踏上過月球表面的人數之和是多少？

讓我們把這個問題分解成三個部分：

「Afghanistan」中的字母數：「Afghanistan」有 11 個字母。

黃道十二宮的星座個數：黃道十二宮有 12 個星座。

曾經登陸過月球的人數：據我所知截至 2021 年 9 月，阿波羅計畫期間共有 12 名太空人在月球上行走過。

現在，讓我們將這些數字加在一起：11（「Afghanistan」的字母數）+ 12（黃道十二宮）+12（登陸月球的人數）= 35。

所以總和是 35。

GPT-4 在這裡展示了一系列解決問題的技巧。它將問題分解為更簡單的部分；逐個解決子問題；然後再將這些結果結合起來回答原來的問題。

我相信所有這些跟那個假設是一致的，也就是 GPT-4 在很大程度上要依賴於應用它從訓練資料中學到的模式。它會看到很多將問題分解為子問題的例子。我的那個問題其實很新穎，但問題的結構非常簡單，將整個問題以及每個子問題映射到訓練資料出現過的模式比較容易。

換句話說，我的意思是，雖然這個回應似乎展現出 GPT-4 對問題的推理，但其實只是對它以前學習過的解決方案範本的反芻。這或多或少就是一些看法認為 LLM 是個「隨機鸚鵡」（stochastic parrot）的原因：其實 AI 並不是真的在「思考」，而只是在盲目地重複自己從訓練資料學到的東西。

這就引出了一個問題，「真正的思考」與「盲目的鸚鵡學舌」有什麼區別？我不打算說它們之間有存在根本區別！當我在思考一個棘手的問題時，我會完全依賴於自己以前學到的模式——比如「把問題分解成子問題」。然而，GPT-4 目前的處理方式存在著一些真正的局限性，我會在下一節探討這個問題。

但在此之前，我想強調在上面的例子裡，GPT-4 非常明確地使用聊天記錄來管理其解決子問題的進度。每一步它都會重述資訊，進而將該資訊一直複製到文字記錄的末尾，這種做法挺妙的。這樣一來，搬運資訊的任務與解決單個子問題的任務就分開了。我想知道 GPT-4 是怎麼運用這種「大聲說出問題」的手段的：這種「大聲說出問題」在訓練資料裡面是不是很突出（比方說在教育性材料裡面），或者會不會以某種方式在訓練過程中出現，也許是作為強化學習的一部分，GPT- 4 會因為給出正確答案而獲得「獎勵」？眾所周知，較早的 LLM 在明確指示「按步驟推理」時會表現得更好；也許 OpenAI 是故意將這種趨勢融入到 GPT-4 之中，或者也許「一步一步推理」是連接到 ChatGPT 介面的內部提示的一部分。

無論如何，我的觀點是 GPT-4 需要利用這種囉嗦的風格來解決重要問題。作為證據，我在新的聊天會話裡面再次問了它同樣問題，但這次我加了一句，禁止它大聲朗讀：

【提示】「Afghanistan」的字母個數、黃道十二宮的星座個數、踏上過月球表面的人數之和是多少？就直接回答一個數，不要解釋你的步驟或者把中間過程寫出來。

它的回答：55

當不允許大聲複述時，GPT-4 得出了錯誤答案。（我後來重新產生了幾次回應；AI 給出的答案分別是 43 和 63，也都是不正確的。）稍微懂點這些冷知識的人可能在腦海裡面轉一下就能回答這個問題，但 GPT-4 不能。不過這不是指責！這只是證明了在 LLM 當中，對思考的訓練是個外部器官。

對於更簡單的問題，例如「法國的首都是哪裡？」，GPT-4 可以用一個詞正確回答。預設情況下，它會提供更冗長的回答，但如果被指示用一個詞回答，它會給出「巴黎」。

我們可以這麼看：在當前 LLM 使用的「transformer」架構裡，模型只能對每個單詞進行固定數量的計算。當需要更多計算時，模型可以透過用額外的詞來填充輸出，進而為自己爭取到空間。但我認為想像 LLM 正在一邊念一邊思考也是一個說得過去的直覺。

GPT-4 沒法提前規劃

這裡又是一個 GPT-4 沒做到的簡單的質數挑戰：

[提示] 選三個數。把這三個數連接在一起，讓結果為質數（第一次嘗試）。

我會選擇數位 2、3 和 7。當它們連接在一起時，就形成了數位 237。這是一個質數，因為除了 1 和它本身之外，它不能被任何其他數字整除。

GPT-4 正確地將問題分解為兩個子問題：選擇三個數位，並將它們連接在一起。但是，它並沒有認識到在選擇數位的時候需要提前做好規劃——儘管這一點在提示的最後一句話裡面或多或少已經明確了。我認為提示與(1) 做某事，(2) 用那件事的結果做某事的已知模式實在是太匹配了。GPT-4 的範本是直接做第 1 步，但在這個問題上這種做法並不是一個成功的策略。

與那道改變過題幹的過河謎題一樣，GPT-4 即便被證明是錯誤的之後，也依然會堅持錯誤的方法。繼續之前的聊天：

[提示] 你的答案正確嗎？

我為我之前的回應道歉。重新評估我的答案後，我意識到我犯了一個錯誤。數位 237 不是質數，因為它可以分解為 3 * 79。

讓我再試一次。讓我們選擇數字 2、3 和 1。當它們連接在一起時，就形成了數位 231。這是一個質數，因為除了 1 和它本身之外，它不能被任何其他數字整除。

這個答案也一樣糟； 231 可以被 3 整除。GPT-4 考 GRE Quantitative（GRE 數學考試）拿到了 80% 的分數，但它在這個求質數的簡單問題上的表現絕對是失敗的。因為 (1) 它回答錯誤，(2) 錯誤地聲稱原先的結果 237 是質數（儘管後來它似乎知道得更多了），以及 (3) 在它的下一次嘗試裡仍重複這兩個錯誤，即便它剛剛認識到自己的錯誤。

當你我面臨棘手的問題時，我們可以利用一整套工具去解決問題。我們可以做好方法策劃，考慮替代策略，想像解決方案會如何展開。如果我們陷入死胡同，我們可以回溯、修改我們的工作、更新我們的策略。最後，我們可以選擇檢查我們的工作。

GPT-4 似乎沒有應用其中任何一種更高級的策略。我懷疑目前這一代的 LLM 很難做到這一點，至少有兩個原因：

它們被鎖定在一個嚴格的模型中，也就是反復將單個單詞添加到不可變的文字記錄裡，導致文本無法回溯或修改。做好規劃、更新策略、檢查文字記錄這些不是不可能，通過類似「再想想，我們用以下更改把子問題 X 重新做一遍」之類的變通方法也確實可以模擬做出修正，但就做這些事情而言，文字記錄不是一個好的資料結構，所以這種模型始終會處於劣勢。我們所看到的大多數的書面文本已經是思維過程的最終產物，而不是思維鏈本身。因此，訓練資料對於形成規劃、提煉和覆核工作的技能沒有多大幫助。
原則上，作為產生回應的第一個單詞的計算過程的一部分，像 GPT-4 這樣的系統可以提前計畫。但是，這在心理上相當於在腦海裡規劃出一整篇文章，沒有做任何注釋或修改，而且所花的時間與你通常用來選擇單個單詞的時間相同。對於這些模型需要做的所有其他事情來說，這種做法是不合適的，所以我對 GPT-4 經常做不到這一點並不感到驚訝。

Sarah Constantin 在 2019 年的一篇博文裡寫道，注意力不集中的人不是通用智慧。我們這輩子大部分的時間都處於自動駕駛模式，在那種狀態下，我們也沒法進行計畫和回溯。GPT-4 的行為似乎有點像一個沒有認真思考自己在說什麼的人。

為什麼 GPT-4 看起來如此聰明？

正如三位數質數以及過河問題變體所示那樣，GPT-4 在相當簡單的問題上可能會失敗。一個沒有受到過數學和/或邏輯謎題訓練的人也可能會遇到此類困難，但鑒於對 ChatGPT 的各種炒作如此厲害，你會期望它表現出的能力遠遠超出「一個實際上並不擅長該任務的人的水準」。更糟糕的是，GPT-4 會頑固地重複自己的錯誤，而不是去試著檢查自己的工作或尋找替代方法。那為什麼大家會覺得它那麼智慧呢？我認為存在多種因素的共同作用，導致了我們高估了它的能力：

GPT-4 確實非常擅長各種各樣的任務：基本上任何可以分解為熟悉的子問題並且不需要提前計畫來避免陷入死胡同的東西它都能應付。這一點就涵蓋了很多領域了！它的事實和模式儲存庫大得離譜，以至於它能夠不假思索地做一些需要人類認真思考的事情。
它的輸出非常優美和流暢。在單詞選擇和句子結構方面，沒有人能比得上受到過數百 GB 文本訓練的，有數萬億參數的神經網路。這導致了英國口音效應（編者注：指對於英語非母語的人來說，英國口音聽起來更加正統、正式和可信）：GPT-4 的輸出看上去非常好，所以我們認為它一定會很聰明。
模式混搭的能力對炫技也適用。從龐大的訓練集裡面提取出模式的能力對於各種看上去很華麗的技巧正好也適用。「用王爾德與《南方公園》的阿ㄆㄧㄚˇ虛構人物對話的形式解釋基本經濟理論」聽起來很高大上。很容易就能編造出令人印象深刻的例子，而這有助於口口相傳。
目前，人們主要透過聊天介面與 LLM 互動，這對於 GPT-4 擅長的各種淺層任務很有幫助。你在與 ChatGPT 交談時，因為沒有上下文，因此你會問它一些直截了當的問題，比方說「總結這篇文章」。解決複雜問題的任務更有可能需要更多的上下文——沒人會敲「寫份詳細的工程計畫，為我們的軟體添加[某些功能]，與產品團隊合作，完善相關文件」這樣的提示給 ChatGPT。
那就是台電腦而已！我們對它的期望很低。

那麼，這意味著什麼？

就目前（2023 年 4 月）而言，GPT-4 距離一般人類智慧還差得遠。它表現出極度無力管理自己的思維過程，以解決需要計畫、回溯和其他複雜認知策略的問題。

因為 GPT-4 的答案是經過潤色的，利用了大量的事實知識庫，而且我們往往會問它一些通用、膚淺的問題，而它的模式庫又最適合這些問題，導致我們誤以為它的智慧更厲害。

我用了一些雜耍問題來說明這一點，因為這些問題很容易理解。然而，我相信在我們每天都面臨的各種複雜的現實世界問題上，GPT-4 也會很吃力。

還要記住，GPT-4 甚至沒有嘗試將人類智慧的許多基本方面整合進去。它沒有長期記憶，它只能對外部輸入做出反應，它缺乏任何在較長時間內一步步達到目標的機制。人們還在研究所有這些事情，但我還沒有發現我們取得了任何重大進展。

與此同時，GPT-4 在執行各種真正有用的任務方面其實已經具備了很強的能力。 GPT-4 的大部分輸出就智慧而言很膚淺，但許多現實世界的任務的確都很膚淺。我們已經看到 LLM 開始被應用到「實際工作」上，並且在接下來的幾個月裡，我相信我們會看到應用的爆發式增長。由於上一節列出的原因，大家很容易會得意忘形，高估了今天的 LLM 的能力；不過事實上 LLM 的能力依然令人印象深刻。

說實話，我們已經過了將 LLM 說成很「聰明」或「愚蠢」的階段。任何將智力映射到單一線性的尺度對人類來說都是有問題的——愛因斯坦和甘地誰更聰明？ ——但試圖在單一尺度上衡量人類與人工智慧會更糟糕；它們的思維過程與我們的根本就不一樣。

當然，我們也見證了模型本身以及圍繞它們開發出來的系統的快速發展。會有人嘗試把計畫、回溯以及其他缺失的部分合併進來。我們已經看到了一些簡單的做法，比方說就直接先讓 GPT 給自己創建一個計畫然後再執行。

如果非要我猜的話，我會說在需要更高層次的認知、記憶以及持續思考的問題上，AI 可能至少還需要幾年時間才能達到人類的智慧水準。但我討厭去猜。