FB 建議貼文

選取貼文複製成功(包含文章連結)!

Google 推出 Gemini 2.5 Deep Think 模型,實測效能超越 GPT-4o 與 Grok 4

Google 推出 Gemini 2.5 Deep Think 模型,實測效能超越 GPT-4o 與 Grok 4

Google 正式推出 Gemini 2.5 Deep Think 模型,是 5 月 Google I/O 2025 所發表版本的升級版。根據官方說法,新版模型在多項 AI 基準測試中表現卓越,甚至超越 OpenAI GPT-4o 與 Elon Musk 支援的 Grok 4。

強調「多假設推理」能力,來自數學奧林匹亞金牌技術

Gemini 2.5 Deep Think 強調具備更強的「深度思考」能力,在生成回應前能考慮多種假設路徑。Google 表示,這套模型在開發過程中融入來自數學奧林匹亞(IMO)金牌選手所使用的解題技術,是其專為邏輯推理與複雜分析優化的版本。

不過,為了加快運行速度並適用於一般用戶,Google 對該模型進行調校,使其在 2025 IMO 測試中的實際表現僅達到「銅牌級」,但依然能在其他測試項目中維持高分。

根據 Google 提供的測試數據,Gemini 2.5 Deep Think 模型在以下測試中表現出色:

  • LiveCodeBench V6:代碼生成與即時修正能力

  • Humanity's Last Exam:綜合理解與推理挑戰

  • IMO 2025 / AIME 2025:數學與邏輯能力指標

這些數據顯示,該模型在「結構化思維」、「代碼分析」、「抽象邏輯」等方面表現不俗,甚至可能在某些領域短期內領先 GPT-4o。

Deep Think 模式已開放部分用戶試用

目前,Google 已向 Gemini AI Ultra 訂閱用戶開放這項 Deep Think 模式,用戶在選擇 Gemini 2.5 Pro 模型時,可於提示欄中點選「Deep Think」選項啟用。

Google 推出 Gemini 2.5 Deep Think 模型,實測效能超越 GPT-4o 與 Grok 4

這個模式可與 Gemini 內建的程式碼執行器與 Google 搜尋工具整合,增強複雜查詢的解析能力。Google 也預計在接下來數週內,透過 Gemini API 向一部分信任開發者提供帶工具與不帶工具版本的 Deep Think 模型。

最大懸念仍是:OpenAI 的 GPT-5 是否能在即將到來的更新中於相同基準測試中逆轉情勢?畢竟 GPT-5 被認為將會大幅提升推理與模態整合能力,對 Gemini Deep Think 形成直接威脅。

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則