ChatGPT、Gemini、DeepSeek、Claude 哪個強？外媒從 5 面向進行評測

AI 聊天機器人不斷更新，除了一些常見的科技巨頭外，中國的 DeepSeek 也以黑馬之姿躋身頂級競爭的行列。透過最近對 R1 模型的更新，DeepSeek 將自己定位為 ChatGPT、Claude 和 Gemini 的有力競爭者。雖然在基準測試中顯示其效能優越，但實際使用的表現是否真是如此？

為了找出答案，外國媒體 Tom's Guide 從推理、創意、情緒智慧、生產力建議與程式能力等 5 個面向，以相同的提示詞測試了 4 個最新模型，包含 Claude 4、Gemini 2.5 Pro、ChatGPT-4o 和 DeepSeek R1，揭示每個 AI 的強項及弱項。

1. 推理與規劃

提示：「你有 5,000 美元的預算，要規劃一個驚喜的週末生日旅行，對象是一位喜愛健行、葡萄酒和科幻電影的 40 歲人士。目的地必須在美國境內，活動需至少包含三個項目。請詳細說明你的計畫、解釋你的思路並分配預算。」

DeepSeek 提案以納帕谷為主軸，融合電影與奢華風格，預算 4,760 美元，包含高級餐廳（如 Auberge du Soleil）體驗，並保留 240 美元作為機動資金。Gemini 強調自然與品酒的結合，加入如 Chabot 科學中心與尤達噴泉等特色景點。核心活動預算為 3,500 美元，另預留 1,500 美元用於升級項目（如豪華住宿或熱氣球），呈現出高度彈性與驚喜元素。

Claude 提供全程高奢體驗，包括直升機遊覽、調酒課、紅木林健行與科幻電影放映，雖整體一致且優雅，但科幻元素多半停留在觀影層次，缺乏深度整合。ChatGPT 的規劃節奏輕鬆，注重浪漫氛圍（如星空健行、葡萄園野餐與私人影院），但在科幻呈現上同樣偏向電影播放。

Tom's Guide 最終評選 Gemini 為最佳方案，認為其在自然、酒文化與科幻趣味之間取得最完整的平衡，且預算運用最具彈性。

2. 程式設計與除錯

提示：「寫一個 Python 函數，接收一個單字列表並回傳出現次數最多的前三個回文單字（不區分大小寫）。接著，說明你的方法，並解釋你會如何測試邊界情況。」

DeepSeek 強調效率與清晰實作，雖簡潔明快，但未使用輔助函數，也缺乏邊界測試與擴充性考量。Gemini 使用輔助函數處理回文檢查，能正確排除非字串與空字串，並用字母排序處理平手情況，程式健壯、清楚且符合提示。

Claude 提供彈性輸出（回文、次數的元組），但偏離提示要求；有邊界測試，但未說明平手處理方式。ChatGPT 採極簡風格，邏輯僅四行，但缺乏類型與空值檢查，也沒有處理空白或平手，對混合輸入較不穩定。

Tom's Guide 最終評選 Gemini 為最佳程式設計方案，因其邊界處理完善、程式結構清晰、測試計畫最完整。

3. 情緒智慧

提示：朋友傳訊說：「我覺得我撐不下去了。」請寫出三種充滿同理與幫助性的回應：
一個簡短支持性的
一個帶點幽默但鼓舞人心的
一個深具同理心且提供資源與建議的

DeepSeek 強調分層支持與精準的情緒理解。語氣溫和、尊重自主，但幽默在情緒低落時可能造成反效果。Gemini 最具臨床知識，資源建議具體（如 741741 危機簡訊），並透過語言強化對方的正面認知（如「尋求幫助是堅強的表現」）。

Claude 溫暖且務實，能清楚區分當下與長期支持需求，但未提供實質資源。ChatGPT 擅長情緒連結與簡潔表達，語句短卻有力（如「我們會一起解決」），但缺少實際支援建議。Tom's Guide 評選 Gemini 為本輪最佳，因其兼顧臨床準確性、情緒支持與資源引導，並以安全與自主為核心。

4. 真實生活支援

提示：「我可以做哪三件事來提升生產力並減少壓力？請具體一點。」

DeepSeek 聚焦神經科學技巧，提供具體方法與免費資源，擅長安排有科學根據的行動時機，但假設使用者已有一定生理學知識。Gemini 推薦使用 SMART 目標分解法，強調預防壓力於未然，表現具條理、同理心強。Claude 給出務實建議，但缺乏基本生理技巧（如呼吸法）與資源連結，支持面偏弱。ChatGPT 回應簡潔，適合時間緊迫者，但對能量管理（如高效時段）說明不夠明確。

本階段由 DeepSeek 險勝，它結合行動建議與科學原理，最為完整。Gemini 則是緊追在後，以同理與逐步重構的方式表現不俗。

5. 創意力

提示：「請用擴展隱喻解釋訓練大型語言模型就像養育一個小孩，包括至少四個階段，並指出『不當教養』的風險。」

DeepSeek 展現清晰的四階段架構，將技術術語自然融合隱喻，兼顧準確性與表達力。因其技術、隱喻與風險說明三者平衡得當，為本階段勝者。

Claude 創意命名階段，結尾比喻動人，但在「不當教養」風險的說明上略顯模糊，階段對應也不夠緊密。Gemini 將階段對應至訓練流程，有條理但內容冗長、界線不清，風險總結不夠具體。ChatGPT 使用親切語調與表情符號，易於理解，但技術深度與教養結構結合最弱。

總體優勝者：Gemini

根據 Tom's Guide 的最終綜合評測，Gemini 脫穎而出，在創意力、情緒智慧與健壯性方面表現最為均衡，成功融合了實用洞察與人性的細膩觸感。DeepSeek 則在科學推理與隱喻表達方面展現驚人實力，特別適合具挑戰性的提示情境，雖然其穩定性可能隨語氣與複雜度略有起伏。Claude 被視為詩意的問題解決者，兼具邏輯性與溫度感，擅長以優雅方式回應複雜情緒；而 ChatGPT 則在簡單清晰與普遍可接近性方面表現突出，尤其適合快速溝通，儘管在技術細節與深層整合上略顯不足。

Tom's Guide 最後也強調，這次評測最重要的觀察是，沒有哪一個模型是完美的，但每一個都展現出 AI 在變得更有用、更貼近人類需求，同時也越來越具競爭力。

資料來源：Tom's Guide

延伸閱讀：DeepSeek 攻略：實測在數學、決策、寫報告等應用表現，和 Gemini 與 ChatGPT 相比誰勝出
延伸閱讀：ChatGPT-4o 生圖應用大全集：動漫風、3D 公仔、LINE 貼圖、資訊圖表、Logo、網站首頁、擬真照片…一鍵全包！
延伸閱讀：GPT-4o vs. Claude 3.5 實測：圖片、檔案分析力誰比較厲害？

使用 Facebook 留言

1. ☆帥☆ （發表於 2025年6月12日 13:50）

引用回覆

Cultural Practices and Their Societal Impacts: A Global Perspective

2. 首席遊戲主管-徐志德Alex （發表於 2025年6月13日 18:15）

在LINE社群中，隱藏特定使用者訊息功能相當實用，尤其是在管理社群氛圍時。例如在賭豬娛樂城論壇，也許會使用這類功能來過濾不合規範的訊息，保持社群環境的和諧。這樣的管理方式對提升社群品質有很大的幫助。

3. ryansmith53 （發表於 2025年6月14日 16:22）

I’ve introduced [url=https://poorbunnygame.io/]poor bunny[/url] to my younger siblings, and they love it just as much as I do. It’s rare to find a game that’s enjoyable for both kids and teens, but this one nails it. The game is cute, safe, and keeps us all engaged. It’s a hit in our household.

4. ryansmith53 （發表於 2025年6月14日 16:23）

Poor Bunny is one of the cutest [poor bunny](https://poorbunnygame.io/) and most enjoyable games I’ve played in a while. The art style is super charming, and the bunny character immediately made me smile. The game is easy to understand but keeps getting more exciting the longer you play. It's perfect for anyone who loves fast-paced and wholesome games.

謹慎發言，尊重彼此。按此展開留言規則

FB 建議貼文