2025.05.22 14:30

Google 強化 Gemini 2.5 模型,2.5 Pro 表現橫掃榜單、Deep Think 開啟推理新境界

ADVERTISEMENT

在 Google I/O 2025 上,Google 說明了 Gemini 2.5 系列模型的幾個里程碑。

繼三月推出號稱最聰明的 Gemini 2.5 Pro 後,Google 持續測試模型能力,Gemini 2.5 Pro 不僅在學術基準測試中表現亮眼,近期更在熱門程式開發榜單「WebDev Arena」上奪冠,ELO 分數高達 1415;在以人類偏好為基準的「LMArena」各大榜單亦全面領先,顯示其綜合實力受到高度肯定,此外,其擁有百萬字元等級的長上下文處理能力,在影片與語境理解方面表現亦屬頂尖。

教育領域方面,Gemini 2.5 Pro融入由教育專家協作開發的「LearnLM」技術,根據內部測試,Gemini 2.5 Pro 在五大學習科學原則上全面勝出,是目前最受好評的 AI 學習助手。

ADVERTISEMENT

原生語音、強化安全與「Deep Think」前瞻推理功能上線

新版本的 Gemini 2.5 Pro 與輕量版 2.5 Flash 現已支援原生語音輸出,提供更自然的對話體驗,並強化資安防護機制,Google 也導入「Project Mariner」計畫中的電腦應用功能,拓展模型的多工能力。

Gemini 2.5 Pro 開始測試名為「Deep Think」的實驗性推理模式,可在回答問題前進行多重假設思考,讓模型具備更深層的邏輯處理能力,根據 Google 公布的資料,Deep Think 模式在 2025 年版美國數學奧林匹亞(USAMO)中拿下高分,在高難度程式競賽「LiveCodeBench」中表現領先,並於多模態推理測試 MMM-U 中取得 84% 的高分。

ADVERTISEMENT

由於「Deep Think」性質特殊,Google 將採取審慎開放的策略,僅提供給特定開發者與專家進行測試,待安全評估與回饋完善後才會全面推廣。

Gemini 2.5 Flash 全面開放、API 工具再升級

同時 Google 也宣布,Gemini 2.5 Flash 版現已在 Gemini 應用程式中向所有用戶開放使用;而開發者則可於六月初在 Google AI Studio 與 Vertex AI 平台使用更新版 Gemini 2.5 Flash,Gemini 2.5 Pro 則將於稍後推出。

開發工具方面,Gemini API 新增「思考摘要(thought summaries)」與開放原始碼工具支援,並擴大 Gemini 2.5 Pro 的推理資源配置,為開發者提供更細緻的控制權。

ADVERTISEMENT

ADVERTISEMENT