FB 建議貼文

選取貼文複製成功(包含文章連結)!

蘋果研究指出目前所有的推理模型都在「假裝思考」,只是複雜的模式匹配並不具備推理能力

蘋果研究指出目前所有的推理模型都在「假裝思考」,只是複雜的模式匹配並不具備推理能力

蘋果近期發表一篇研究論文,引發 AI 圈熱議。論文指出,目前市面上包括 DeepSeek、o3-mini、Claude 3.7 等推理模型,其「思考能力」實際上只是高度模式匹配行為,並不具備真正的推理與理解能力。換句話說,所謂的「AI 思考」,根本是一種假象。

有網友揶揄道:「蘋果這篇論文根本是在扮演《底特律:變人》中的馬庫斯,一口氣否定了所有大型語言模型的推理能力。」

蘋果研究指出目前所有的推理模型都在「假裝思考」,只是複雜的模式匹配並不具備推理能力

現行評估方法遭質疑 忽略思考過程的邏輯品質

論文指出,目前對推理模型的評估多集中在數學與程式基準題上,主要是檢查最終答案是否正確。然而,這些題目可能已在訓練資料中出現過,未必能真實反映模型的推理能力。

更重要的是,現有評估大多未考慮「思考過程」本身是否具備邏輯一致性、是否出現繞遠路的情形。為此,蘋果團隊設計了四種可精確調整難度的推理環境:漢諾塔、跳棋交換、過河問題、積木世界,藉以更客觀觀察模型的推理過程。

實驗發現,當問題變得更困難時,推理模型一開始會延長「思考時間」(token 使用量),但一旦難度超過某個臨界點,模型反而會縮短推理深度、甚至放棄推理,即便 token 預算仍然充足。

一旦超過此臨界點,無論是專為推理設計的模型,還是一般大型語言模型,其表現都會崩盤,答題準確率直接掉到接近零。

與其說是否定,更像是在呼籲改善評估方法

儘管不少網友解讀這篇論文為蘋果在 AI 發展落後的情況下的「負面操作」,但也有業界人士指出,蘋果的論點並非單純唱衰,而是指出現有推理評估方法的不足,進而呼籲建立更完整的推理能力檢測機制。

事實上,蘋果於 2024 年 WWDC 發表的 Apple Intelligence 功能,原本備受期待,卻因功能尚未完善與延期部署而受到不少批評。此次論文的提出,也可能代表蘋果希望從研究層面切入,建立自有的評估標準與發展方向。

 

 

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則