蘋果研究指出目前所有的推理模型都在「假裝思考」，只是複雜的模式匹配並不具備推理能力 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

2025科技趨勢金獎

蘋果研究指出目前所有的推理模型都在「假裝思考」，只是複雜的模式匹配並不具備推理能力

蘋果近期發表一篇研究論文，引發 AI 圈熱議。論文指出，目前市面上包括 DeepSeek、o3-mini、Claude 3.7 等推理模型，其「思考能力」實際上只是高度模式匹配行為，並不具備真正的推理與理解能力。換句話說，所謂的「AI 思考」，根本是一種假象。

有網友揶揄道：「蘋果這篇論文根本是在扮演《底特律：變人》中的馬庫斯，一口氣否定了所有大型語言模型的推理能力。」

現行評估方法遭質疑　忽略思考過程的邏輯品質

論文指出，目前對推理模型的評估多集中在數學與程式基準題上，主要是檢查最終答案是否正確。然而，這些題目可能已在訓練資料中出現過，未必能真實反映模型的推理能力。

更重要的是，現有評估大多未考慮「思考過程」本身是否具備邏輯一致性、是否出現繞遠路的情形。為此，蘋果團隊設計了四種可精確調整難度的推理環境：漢諾塔、跳棋交換、過河問題、積木世界，藉以更客觀觀察模型的推理過程。

實驗發現，當問題變得更困難時，推理模型一開始會延長「思考時間」（token 使用量），但一旦難度超過某個臨界點，模型反而會縮短推理深度、甚至放棄推理，即便 token 預算仍然充足。

一旦超過此臨界點，無論是專為推理設計的模型，還是一般大型語言模型，其表現都會崩盤，答題準確率直接掉到接近零。

與其說是否定，更像是在呼籲改善評估方法

儘管不少網友解讀這篇論文為蘋果在 AI 發展落後的情況下的「負面操作」，但也有業界人士指出，蘋果的論點並非單純唱衰，而是指出現有推理評估方法的不足，進而呼籲建立更完整的推理能力檢測機制。

事實上，蘋果於 2024 年 WWDC 發表的 Apple Intelligence 功能，原本備受期待，卻因功能尚未完善與延期部署而受到不少批評。此次論文的提出，也可能代表蘋果希望從研究層面切入，建立自有的評估標準與發展方向。

延伸閱讀：AI推理模型進展即將碰頂？研究機構警告：到2026年恐怕成長就到達瓶頸
延伸閱讀：OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大，實測它如何透過一張照片就解鎖隱藏訊息？
延伸閱讀：超越《寶可夢》？研究人員以《超級瑪利歐》為AI新基準，揭示即時反應挑戰推理模型

#蘋果 #人工智慧 #ai #邏輯 #大型語言模型 #apple intelligence #推理模型 #研究論文 #評估方法 #思考能力 #基準

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

1. Yang Wenli （發表於 2025年6月10日 22:59）

引用回覆

蘋果沒又資格批判囧rz

謹慎發言，尊重彼此。按此展開留言規則