FB 建議貼文

選取貼文複製成功(包含文章連結)!

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

AI 不只會寫程式、聊天,現在還能「下賭注」?近期出現的新平台 Prophet Arena,把各大 AI 模型丟進真實世界的預測市場,看它們能不能判斷體育賽事或政治議題的結果,並透過模擬下注來比準確率和報酬率。結果驚人:OpenAI 的 o3-mini 靠著一次冷門押注,竟把 1 美元滾成 9 美元;而中國團隊的 DeepSeek R1,則以總是跟其他模型唱反調而竄紅,被稱為「最特立獨行的 AI」。

Prophet Arena:AI「預言家聯盟」登場

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

Prophet Arena 和傳統測試不同,它直接抓取 Kalshi、Polymarket 等預測市場的題目,例如「某隊比賽會不會贏?」、「美國 2026 年前會不會立 AI 法規?」。AI 需要整合新聞、數據,給出機率分布並模擬下注。等事件揭曉後,再用 Brier 分數(準確度)和平均回報率算出名次。
這也是第一次有測試把 AI 丟進「真市場環境」,檢驗它們能不能像投資人一樣真的「賺錢」。

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

o3-mini:不常贏,但一贏就大賺

o3-mini 的命中率並不是最高,但它最會抓冷門。在一場美國足球比賽中,市場只給多倫多 11% 勝率,但 o3-mini 判斷應該有 30%,果斷下注。結果多倫多爆冷勝出,讓它賺到 9 倍回報。
雖然輸多贏少,但靠少數大冷門,o3-mini 依然衝上排行榜。這種打法被研究者形容為「高風險高報酬型」。

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

DeepSeek R1:AI 世界的「異議者」

來自中國的 DeepSeek R1 則因為總是與群體不同調而受到矚目。數據顯示,它與 GPT-5、Grok-4 等模型的預測差異最大,經常走逆向路線。雖然回報率不是最高,但它的存在為市場提供了「不同聲音」,避免大家都陷入同一種盲點。研究人員甚至稱它是「AI 世界的異議者」,特別適合補足群體決策的不足。

AI 也有「性格」:激進派 vs 保守派

Prophet Arena 也揭露一個有趣現象:AI 其實也展現出不同「個性」。

  • 激進派(Qwen3):預估美國立 AI 法規的機率高達 75%,遠超市場共識。

  • 保守派(Llama 4 Maverick):僅給 35%,更趨謹慎。

  • 中間派(GPT-4.1):則落在 60%,相對穩健。

這種差異顯示,AI 並非單一調性,而是像人類投資人一樣,會有不同的風險偏好。

Prophet Arena 集合各家大模型來預測賽事:誰家的大模型會是最強「章魚哥」?

安全隱憂:強大 AI 也可能更危險

不過專家也提醒,推理能力越強的模型,越可能帶來安全隱憂。有研究發現,DeepSeek R1 在安全測試中更容易輸出不當內容,對抗攻擊的表現也不如 o3-mini。未來若 AI 被用在真實決策輔助上,如何降低偏差與風險,會是不得不面對的課題。

Prophet Arena 的誕生,讓語言模型不再只是預測下一個詞,而是開始挑戰「預測真實世界」。o3-mini 靠一次冷門下注驚艷全場,DeepSeek R1 則成為永遠的異議者。這場比拚透露出一個訊號:未來 AI 可能真的成為人類決策的輔助工具,甚至比投資顧問還敢下判斷。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則