FB 建議貼文

選取貼文複製成功(包含文章連結)!

AI 遇上靈魂拷問!這題讓所有模型的圖像推理功能集體翻車

AI 遇上靈魂拷問!這題讓所有模型的圖像推理功能集體翻車

AI 的極限在哪裡?這道圖像推理題最近在 Reddit 上引發熱烈討論,也讓支援圖像輸入的大型語言模型通通踢到鐵板。

問題看似簡單:下圖中還需要補上多少個小立方體,才能構成一個完整的大立方體?

AI 遇上靈魂拷問!這題讓所有模型的圖像推理功能集體翻車

Reddit網友表示:沒一個模型能正確解這題

儘管 Google 和 OpenAI 在過去一個月內都有令人驚豔的進展,尤其是 GPT-4o 現在已經能夠「看圖推理」,但至今沒有任何一個模型能夠正確解出這題——無論是大型基礎模型還是開源版本。

這題目的定義其實很簡單:當我們被問到還缺幾顆方塊時,可以合理假設我們的目標是要補齊,讓整體結構變成一個完整的立方體。

但幾乎所有模型,包括 GPT-4.0(Pro 2.5)和 GPT-4o,在這題上都會犯下一個常見錯誤:誤以為目標是構成一個 4×4×4 的立方體。

AI 遇上靈魂拷問!這題讓所有模型的圖像推理功能集體翻車

我認為這反映出目前模型在「3D空間理解」方面的能力依然有限。如果真的是這樣,你覺得我們什麼時候才可能看到 AI 在這方面有真正的突破?

這類問題其實是對 AI 空間推理能力的考驗,但目前沒有任何一個模型能準確給出答案。

GPT-4o 與 Gemini 都翻車,答案天差地遠

目前主流支援圖像理解的模型,包括 OpenAI 最新的 GPT-4o(即 o3),以及 Google 的 Gemini 1.5 Pro,都嘗試解這題,但給出的答案卻完全不同:

  • GPT-4o 認為需要補上 45 個立方體

  • Gemini 2.5 Pro 則只說需要 10 個

這兩個結果差距極大,凸顯了目前 AI 模型在3D幾何理解上的一大盲點:它們不具備真正的空間想像與立體補全能力。

為何目前模型會誤判?

  1. 語義主導的推理偏誤
    多數語言模型強調的是語言中出現的模式(token prediction),當問題描述提到「看起來像是個立方體」,模型往往會根據語料中「立方體」最常見的形式(例如 4x4x4)來猜測,而非真正去「建構」一個三維物體。

  2. 缺乏實際三維模擬能力
    雖然 GPT-4o 具備多模態(包括圖像)的理解能力,但這並不代表它能模擬出完整的空間邏輯或物理實體的狀態變化。目前的模型在進行「數量補全直到形成立方體」這類推理時,仍傾向做表層理解,而不是具備真正的物理空間推理。

  3. 缺乏「模型內部圖形表徵」機制
    現在的AI模型並不會在內部生成像人類那樣具體的三維模型或想像圖。這導致它們對「空間差幾顆才構成立方體」這類問題的理解仍然很粗淺。

核心原因在於,各大模型對於最終要組成的大立方體的規格理解不同。有的模型認為要組成的是 5x5x5 的立方體,有的則認為是 4x4x4,甚至有模型認為是 3x3x3。

  • o3:將最終立方體理解為 5x5x5,但即使如此,其答案仍然有誤。若要組成 5x5x5 的立方體,需要 125 個小立方體,而圖中已給出 46 個,正確答案應為 79。
  • Gemini 2.5 Pro:將最終立方體理解為 4x4x4。
  • DeepSeek 和 Qwen:則將最終立方體設定為 3x3x3。

由於對目標立方體的規模理解不同,各大模型自然會得出不同的答案。這也反映出目前 AI 在圖像理解方面仍存在一定的局限性。

從錯誤中學習?AI 的記憶功能

有趣的是,有網友發現,透過多次嘗試並給予提示,部分大模型能夠逐漸修正答案。例如,在使用 o3 進行測試時,在前兩次嘗試中給予一些小提示,即使答案仍然錯誤,但在第三次嘗試時,即使沒有提示,也能夠得到正確的結果。

有網友認為,這可能是由於 ChatGPT 的長期記憶功能,讓它記住了前兩次嘗試的提示,並將這些經驗整合在一起。換句話說,o3 似乎能夠透過記憶來學習。 這也意味著,這道難題可能會成為未來 AI 的訓練資料,幫助它們更好地理解圖像和空間幾何。

那麼什麼時候會突破?

這要視幾個研究與技術進展方向:

  1. 整合 3D 模擬器與 LLM 的混合架構
    一旦模型能與三維引擎(如物理模擬器、3D圖形庫)深度整合,讓模型在內部產生圖形推理模組,我們才可能看到像「補全立方體」這類問題被正確處理。

  2. 專門訓練空間理解任務的子模型
    未來可能出現針對空間幾何或物理理解微調過的基礎模型(foundation models),這類模型若能跟通用LLM協作,將是重大突破。

  3. 未來 1~2 年內可望進展
    隨著 AI 模型朝向多模態、代理架構邁進(例如能控制 3D 環境的 Agent),空間理解將是最先被強化的領域之一。保守估計,在 2025 年底前,應該會有專精此類能力的模型推出。

人類也會困惑?視覺理解的挑戰

也有人認為,這並非單純的推理問題,而是一個視覺理解問題。錯誤答案的出現,可能是由於問題表述不夠清晰,導致 AI 的分析過程出現偏差。

甚至有人指出,人類在面對這種問題時,也會感到困惑。例如,題目的要求到底是以原來的排列結構為基礎,還是可以打亂結構重新排列?如果能夠更清晰地為 AI 解釋圖片內容,告知其圖片中小立方體的排列結構,或許能夠提高 AI 的答題準確性。

無論是 3x3x3、4x4x4 還是 5x5x5,甚至是 NxNxN,人類自己都無法統一答案的問題,對 AI 來說是不是太難了點!或許,AI 需要一個更科學的訓練方式,才能更好地應對這類複雜的視覺理解問題。

 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則