
蘋果近期發表一篇研究論文,引發 AI 圈熱議。論文指出,目前市面上包括 DeepSeek、o3-mini、Claude 3.7 等推理模型,其「思考能力」實際上只是高度模式匹配行為,並不具備真正的推理與理解能力。換句話說,所謂的「AI 思考」,根本是一種假象。
有網友揶揄道:「蘋果這篇論文根本是在扮演《底特律:變人》中的馬庫斯,一口氣否定了所有大型語言模型的推理能力。」
現行評估方法遭質疑 忽略思考過程的邏輯品質
論文指出,目前對推理模型的評估多集中在數學與程式基準題上,主要是檢查最終答案是否正確。然而,這些題目可能已在訓練資料中出現過,未必能真實反映模型的推理能力。
更重要的是,現有評估大多未考慮「思考過程」本身是否具備邏輯一致性、是否出現繞遠路的情形。為此,蘋果團隊設計了四種可精確調整難度的推理環境:漢諾塔、跳棋交換、過河問題、積木世界,藉以更客觀觀察模型的推理過程。
實驗發現,當問題變得更困難時,推理模型一開始會延長「思考時間」(token 使用量),但一旦難度超過某個臨界點,模型反而會縮短推理深度、甚至放棄推理,即便 token 預算仍然充足。
一旦超過此臨界點,無論是專為推理設計的模型,還是一般大型語言模型,其表現都會崩盤,答題準確率直接掉到接近零。
與其說是否定,更像是在呼籲改善評估方法
儘管不少網友解讀這篇論文為蘋果在 AI 發展落後的情況下的「負面操作」,但也有業界人士指出,蘋果的論點並非單純唱衰,而是指出現有推理評估方法的不足,進而呼籲建立更完整的推理能力檢測機制。
事實上,蘋果於 2024 年 WWDC 發表的 Apple Intelligence 功能,原本備受期待,卻因功能尚未完善與延期部署而受到不少批評。此次論文的提出,也可能代表蘋果希望從研究層面切入,建立自有的評估標準與發展方向。
- 延伸閱讀:AI推理模型進展即將碰頂?研究機構警告:到2026年恐怕成長就到達瓶頸
- 延伸閱讀:OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?
- 延伸閱讀:超越《寶可夢》?研究人員以《超級瑪利歐》為AI新基準,揭示即時反應挑戰推理模型
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!