Prophet Arena 集合各家大模型來預測賽事：誰家的大模型會是最強「章魚哥」？

AI 不只會寫程式、聊天，現在還能「下賭注」？近期出現的新平台 Prophet Arena，把各大 AI 模型丟進真實世界的預測市場，看它們能不能判斷體育賽事或政治議題的結果，並透過模擬下注來比準確率和報酬率。結果驚人：OpenAI 的 o3-mini 靠著一次冷門押注，竟把 1 美元滾成 9 美元；而中國團隊的 DeepSeek R1，則以總是跟其他模型唱反調而竄紅，被稱為「最特立獨行的 AI」。

Prophet Arena：AI「預言家聯盟」登場

Prophet Arena 和傳統測試不同，它直接抓取 Kalshi、Polymarket 等預測市場的題目，例如「某隊比賽會不會贏？」、「美國 2026 年前會不會立 AI 法規？」。AI 需要整合新聞、數據，給出機率分布並模擬下注。等事件揭曉後，再用 Brier 分數（準確度）和平均回報率算出名次。
這也是第一次有測試把 AI 丟進「真市場環境」，檢驗它們能不能像投資人一樣真的「賺錢」。

o3-mini：不常贏，但一贏就大賺

o3-mini 的命中率並不是最高，但它最會抓冷門。在一場美國足球比賽中，市場只給多倫多 11% 勝率，但 o3-mini 判斷應該有 30%，果斷下注。結果多倫多爆冷勝出，讓它賺到 9 倍回報。
雖然輸多贏少，但靠少數大冷門，o3-mini 依然衝上排行榜。這種打法被研究者形容為「高風險高報酬型」。

DeepSeek R1：AI 世界的「異議者」

來自中國的 DeepSeek R1 則因為總是與群體不同調而受到矚目。數據顯示，它與 GPT-5、Grok-4 等模型的預測差異最大，經常走逆向路線。雖然回報率不是最高，但它的存在為市場提供了「不同聲音」，避免大家都陷入同一種盲點。研究人員甚至稱它是「AI 世界的異議者」，特別適合補足群體決策的不足。