自然科學題誰最會答？全球 23 款 AI 模型正面對決

由美國艾倫人工智慧研究所（Allen Institute for AI, 簡稱 Ai2）主導的最新科學問答評比平台「SciArena」，揭曉各大語言模型在專業領域的答題表現。OpenAI 推出的最新大型語言模型 o3 表現最為亮眼，拿下自然科學、醫療保健、工程學與人文社會領域的最高票數，勇奪冠軍。

來自全球 23 款模型角逐，o3 拿下超過 13,000 票

本次 SciArena 評比由 102 位學者參與，針對來自多個領域的科學問題，對模型給出的回答進行評分。總計有 23 款大型語言模型（LLM）參賽，包括 OpenAI、Google、Anthropic、中國的 DeepSeek 等知名團隊。

OpenAI 的 o3 模型在四大領域全面領先，累計獲得超過 13,000 張支持票，顯示其在內容深度與參考資料引用上的優勢。Ai2 指出，o3 的回答除了完整、詳盡之外，還能提供清楚的文獻來源與技術細節，是獲選原因之一。

來自中國的開源模型 DeepSeek-R1 在自然科學領域拿下第二名，並在工程學排名第四，成績同樣受到關注；Google 的 Gemini 2.5 Pro 則在自然科學名列第三，在醫療與工程領域也分別排入前五。

Ai2 分析表示，各模型的表現差異可能與訓練資料的來源、模型微調方向與使用者互動設計有關，並非單純技術層面就能決定輸贏。

SciArena 為全球首批採用「群眾投票」評比方式的平台，設計上避免單一評分機制遭到操作。使用者可免費提問，平台隨機顯示兩個模型的回答並邀請使用者投票；只有經過身分驗證的使用者票數會被納入正式排行榜，以提升可信度。

此外，平台結合 Semantic Scholar 的資料庫，為 AI 回答補上原始文獻來源，幫助使用者快速比對內容真偽與脈絡，提升學術實用性。

來自澳洲雪梨大學的研究團隊指出，SciArena 不僅有助於研究者掌握各模型的實力差異，也可能刺激更多 AI 開發者投入「專業領域應用」的創新。

但他們也提醒，大型語言模型仍可能出現內容錯誤、誤解術語或與原始研究相衝突的情況，因此 AI 工具雖好，仍無法完全取代學者閱讀與分析原始文獻的重要性。