不讓 Google 專美於前！Grok 4.1 登頂 LMArena 榜首，手機 App 同步推出

雖然 Google Gemini 3 上線的新聞現在沸沸揚揚，不過先前馬斯克（Elon Musk）搶先一步更新了xAI 旗下的最新大型語言模型 Grok 4.1，也是值得關注的。不僅回應速度顯著提升，過去常見的「AI 幻覺」大幅降低，回答也變得精準且更具「人味」。

這次 xAI 一口氣推出了兩種版本：「Grok 4.1」與「Grok 4.1 Thinking」。其中 Thinking 版本是增強推理的變體，兩者採用相同的底層模型，但在推理配置上有所不同。最佛心的是，Grok 4.1 目前對所有用戶免費開放，除了網頁版與 X（前 Twitter）平台外，也同步推出了 iOS 和 Android 雙平台的行動 App，讓手機用戶也能隨時使用。

如果用戶需要更有深度的專業回答，只需一鍵切換，就能讓 AI 進入「努力思考」模式。根據權威評測平台 LMArena 的最新數據，Grok 4.1 Thinking 以 1483 Elo 的高分斷層式領先，比 Google 的 Gemini 2.5 Pro 高出了 31 分。更驚人的是，即便是不開啟思考鏈（Chain-of-thought）的標準版 Grok 4.1，依然穩居榜單第二，顯示其底層模型的穩定性相當強悍。

Grok 4.1 之所以能有如此大的躍進，關鍵在於訓練方式的重構。xAI 引入了大規模強化學習系統，並利用前沿的推理模型作為獎勵模型，讓 AI 在訓練過程中能自我評估並快速迭代。這直接反應在數據上：Grok 4.1 的幻覺率從前代的 12.09% 大幅下降至 4.22%，降幅接近三倍。這意味著在涉及資料檢索或引用事實的場景中，新版模型不再依賴語義猜測，而是能給出更具證據力的回答。

除了變聰明，Grok 4.1 的「情商（EQ）」也變高了。在 EQ-Bench 測試中，Grok 4.1 拿下了 1586 Elo 的高分，比上一代提升了一百多點，擊敗了包括 GPT-5 Chat、Gemini 2.5 Pro 和 Claude Opus 4 等一眾強敵。官方展示了一個「安慰失去貓咪」的對話案例，舊版 Grok 的回答雖然溫和，但 Grok 4.1 的表達明顯更細膩，能捕捉到飼主對於空蕩睡窩、聽不到貓叫聲的具體悲傷，讀起來更像是一個真正懂你的朋友。

在創意寫作方面，Grok 4.1 也有長足進步。在 Creative Writing v3 測試中，得分躍升至 1722 Elo，與前代拉開了近 600 分的差距，正式進入全球最強創意寫作梯隊。

總體而言，Grok 4.1 從邏輯推理、事實準確度到情感互動，都展現了頂級模型的水準。對於想要嘗鮮的用戶來說，現在正是免費體驗這款「馬斯克牌」AI 的最佳時機。