FB 建議貼文

選取貼文複製成功(包含文章連結)!

自然科學題誰最會答?全球 23 款 AI 模型正面對決

自然科學題誰最會答?全球 23 款 AI 模型正面對決

由美國艾倫人工智慧研究所(Allen Institute for AI, 簡稱 Ai2)主導的最新科學問答評比平台「SciArena」,揭曉各大語言模型在專業領域的答題表現。OpenAI 推出的最新大型語言模型 o3 表現最為亮眼,拿下自然科學、醫療保健、工程學與人文社會領域的最高票數,勇奪冠軍。

來自全球 23 款模型角逐,o3 拿下超過 13,000 票

本次 SciArena 評比由 102 位學者參與,針對來自多個領域的科學問題,對模型給出的回答進行評分。總計有 23 款大型語言模型(LLM)參賽,包括 OpenAI、Google、Anthropic、中國的 DeepSeek 等知名團隊。

OpenAI 的 o3 模型在四大領域全面領先,累計獲得超過 13,000 張支持票,顯示其在內容深度與參考資料引用上的優勢。Ai2 指出,o3 的回答除了完整、詳盡之外,還能提供清楚的文獻來源與技術細節,是獲選原因之一。

DeepSeek-R1、Gemini 等熱門模型也表現不俗

來自中國的開源模型 DeepSeek-R1 在自然科學領域拿下第二名,並在工程學排名第四,成績同樣受到關注;Google 的 Gemini 2.5 Pro 則在自然科學名列第三,在醫療與工程領域也分別排入前五。

Ai2 分析表示,各模型的表現差異可能與訓練資料的來源、模型微調方向與使用者互動設計有關,並非單純技術層面就能決定輸贏。

自然科學題誰最會答?全球 23 款 AI 模型正面對決

自然科學題誰最會答?全球 23 款 AI 模型正面對決

SciArena:用群眾評比方式衡量 AI 真功夫

SciArena 為全球首批採用「群眾投票」評比方式的平台,設計上避免單一評分機制遭到操作。使用者可免費提問,平台隨機顯示兩個模型的回答並邀請使用者投票;只有經過身分驗證的使用者票數會被納入正式排行榜,以提升可信度。

此外,平台結合 Semantic Scholar 的資料庫,為 AI 回答補上原始文獻來源,幫助使用者快速比對內容真偽與脈絡,提升學術實用性。

來自澳洲雪梨大學的研究團隊指出,SciArena 不僅有助於研究者掌握各模型的實力差異,也可能刺激更多 AI 開發者投入「專業領域應用」的創新。

但他們也提醒,大型語言模型仍可能出現內容錯誤、誤解術語或與原始研究相衝突的情況,因此 AI 工具雖好,仍無法完全取代學者閱讀與分析原始文獻的重要性。

 

 

KKJ
作者

快科技成立於1998年,是驅動之家旗下科技媒體業務,中國極具影響力的泛科技領域媒體平台之一。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則