
AI 不只會寫程式、聊天,現在還能「下賭注」?近期出現的新平台 Prophet Arena,把各大 AI 模型丟進真實世界的預測市場,看它們能不能判斷體育賽事或政治議題的結果,並透過模擬下注來比準確率和報酬率。結果驚人:OpenAI 的 o3-mini 靠著一次冷門押注,竟把 1 美元滾成 9 美元;而中國團隊的 DeepSeek R1,則以總是跟其他模型唱反調而竄紅,被稱為「最特立獨行的 AI」。
Prophet Arena:AI「預言家聯盟」登場
Prophet Arena 和傳統測試不同,它直接抓取 Kalshi、Polymarket 等預測市場的題目,例如「某隊比賽會不會贏?」、「美國 2026 年前會不會立 AI 法規?」。AI 需要整合新聞、數據,給出機率分布並模擬下注。等事件揭曉後,再用 Brier 分數(準確度)和平均回報率算出名次。
這也是第一次有測試把 AI 丟進「真市場環境」,檢驗它們能不能像投資人一樣真的「賺錢」。
o3-mini:不常贏,但一贏就大賺
o3-mini 的命中率並不是最高,但它最會抓冷門。在一場美國足球比賽中,市場只給多倫多 11% 勝率,但 o3-mini 判斷應該有 30%,果斷下注。結果多倫多爆冷勝出,讓它賺到 9 倍回報。
雖然輸多贏少,但靠少數大冷門,o3-mini 依然衝上排行榜。這種打法被研究者形容為「高風險高報酬型」。
DeepSeek R1:AI 世界的「異議者」
來自中國的 DeepSeek R1 則因為總是與群體不同調而受到矚目。數據顯示,它與 GPT-5、Grok-4 等模型的預測差異最大,經常走逆向路線。雖然回報率不是最高,但它的存在為市場提供了「不同聲音」,避免大家都陷入同一種盲點。研究人員甚至稱它是「AI 世界的異議者」,特別適合補足群體決策的不足。
AI 也有「性格」:激進派 vs 保守派
Prophet Arena 也揭露一個有趣現象:AI 其實也展現出不同「個性」。
-
激進派(Qwen3):預估美國立 AI 法規的機率高達 75%,遠超市場共識。
-
保守派(Llama 4 Maverick):僅給 35%,更趨謹慎。
-
中間派(GPT-4.1):則落在 60%,相對穩健。
這種差異顯示,AI 並非單一調性,而是像人類投資人一樣,會有不同的風險偏好。
安全隱憂:強大 AI 也可能更危險
不過專家也提醒,推理能力越強的模型,越可能帶來安全隱憂。有研究發現,DeepSeek R1 在安全測試中更容易輸出不當內容,對抗攻擊的表現也不如 o3-mini。未來若 AI 被用在真實決策輔助上,如何降低偏差與風險,會是不得不面對的課題。
Prophet Arena 的誕生,讓語言模型不再只是預測下一個詞,而是開始挑戰「預測真實世界」。o3-mini 靠一次冷門下注驚艷全場,DeepSeek R1 則成為永遠的異議者。這場比拚透露出一個訊號:未來 AI 可能真的成為人類決策的輔助工具,甚至比投資顧問還敢下判斷。
- 延伸閱讀:CES 2024:Intel分享如何將AI科技導入體育產業,強化發掘運動員、賽場人流管理、自動剪輯賽事精華
- 延伸閱讀:微軟最新 Cyber Signals 研究指出:大型體育場館及運動賽事已成為網路安全攻擊新目標
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!