ADVERTISEMENT
由美國艾倫人工智慧研究所(Allen Institute for AI, 簡稱 Ai2)主導的最新科學問答評比平台「SciArena」,揭曉各大語言模型在專業領域的答題表現。OpenAI 推出的最新大型語言模型 o3 表現最為亮眼,拿下自然科學、醫療保健、工程學與人文社會領域的最高票數,勇奪冠軍。
來自全球 23 款模型角逐,o3 拿下超過 13,000 票
本次 SciArena 評比由 102 位學者參與,針對來自多個領域的科學問題,對模型給出的回答進行評分。總計有 23 款大型語言模型(LLM)參賽,包括 OpenAI、Google、Anthropic、中國的 DeepSeek 等知名團隊。
OpenAI 的 o3 模型在四大領域全面領先,累計獲得超過 13,000 張支持票,顯示其在內容深度與參考資料引用上的優勢。Ai2 指出,o3 的回答除了完整、詳盡之外,還能提供清楚的文獻來源與技術細節,是獲選原因之一。
ADVERTISEMENT
DeepSeek-R1、Gemini 等熱門模型也表現不俗
來自中國的開源模型 DeepSeek-R1 在自然科學領域拿下第二名,並在工程學排名第四,成績同樣受到關注;Google 的 Gemini 2.5 Pro 則在自然科學名列第三,在醫療與工程領域也分別排入前五。
Ai2 分析表示,各模型的表現差異可能與訓練資料的來源、模型微調方向與使用者互動設計有關,並非單純技術層面就能決定輸贏。
ADVERTISEMENT
SciArena:用群眾評比方式衡量 AI 真功夫
SciArena 為全球首批採用「群眾投票」評比方式的平台,設計上避免單一評分機制遭到操作。使用者可免費提問,平台隨機顯示兩個模型的回答並邀請使用者投票;只有經過身分驗證的使用者票數會被納入正式排行榜,以提升可信度。
此外,平台結合 Semantic Scholar 的資料庫,為 AI 回答補上原始文獻來源,幫助使用者快速比對內容真偽與脈絡,提升學術實用性。
ADVERTISEMENT
來自澳洲雪梨大學的研究團隊指出,SciArena 不僅有助於研究者掌握各模型的實力差異,也可能刺激更多 AI 開發者投入「專業領域應用」的創新。
但他們也提醒,大型語言模型仍可能出現內容錯誤、誤解術語或與原始研究相衝突的情況,因此 AI 工具雖好,仍無法完全取代學者閱讀與分析原始文獻的重要性。
ADVERTISEMENT
- 延伸閱讀:只改關鍵字的一個字元就能讓AI「中招」回答色情或暴力問題?新型TokenBreak攻擊手法成語言模型隱憂
- 延伸閱讀:AI 也懂情緒?研究發現 ChatGPT 等語言模型在情緒智力測驗中表現超越人類
- 延伸閱讀:OpenAI對抗 Meta 與 DeepSeek 壓力升高,預告將在初夏推出GPT-2 以來「最強開源」語言模型
ADVERTISEMENT