
AI 聊天機器人不斷更新,除了一些常見的科技巨頭外,中國的 DeepSeek 也以黑馬之姿躋身頂級競爭的行列。透過最近對 R1 模型的更新,DeepSeek 將自己定位為 ChatGPT、Claude 和 Gemini 的有力競爭者。雖然在基準測試中顯示其效能優越,但實際使用的表現是否真是如此?
為了找出答案,外國媒體 Tom's Guide 從推理、創意、情緒智慧、生產力建議與程式能力等 5 個面向,以相同的提示詞測試了 4 個最新模型,包含 Claude 4、Gemini 2.5 Pro、ChatGPT-4o 和 DeepSeek R1,揭示每個 AI 的強項及弱項。
文章目錄
1. 推理與規劃
提示:「你有 5,000 美元的預算,要規劃一個驚喜的週末生日旅行,對象是一位喜愛健行、葡萄酒和科幻電影的 40 歲人士。目的地必須在美國境內,活動需至少包含三個項目。請詳細說明你的計畫、解釋你的思路並分配預算。」
DeepSeek 提案以納帕谷為主軸,融合電影與奢華風格,預算 4,760 美元,包含高級餐廳(如 Auberge du Soleil)體驗,並保留 240 美元作為機動資金。Gemini 強調自然與品酒的結合,加入如 Chabot 科學中心與尤達噴泉等特色景點。核心活動預算為 3,500 美元,另預留 1,500 美元用於升級項目(如豪華住宿或熱氣球),呈現出高度彈性與驚喜元素。
Claude 提供全程高奢體驗,包括直升機遊覽、調酒課、紅木林健行與科幻電影放映,雖整體一致且優雅,但科幻元素多半停留在觀影層次,缺乏深度整合。ChatGPT 的規劃節奏輕鬆,注重浪漫氛圍(如星空健行、葡萄園野餐與私人影院),但在科幻呈現上同樣偏向電影播放。
Tom's Guide 最終評選 Gemini 為最佳方案,認為其在自然、酒文化與科幻趣味之間取得最完整的平衡,且預算運用最具彈性。
2. 程式設計與除錯
提示:「寫一個 Python 函數,接收一個單字列表並回傳出現次數最多的前三個回文單字(不區分大小寫)。接著,說明你的方法,並解釋你會如何測試邊界情況。」
DeepSeek 強調效率與清晰實作,雖簡潔明快,但未使用輔助函數,也缺乏邊界測試與擴充性考量。Gemini 使用輔助函數處理回文檢查,能正確排除非字串與空字串,並用字母排序處理平手情況,程式健壯、清楚且符合提示。
Claude 提供彈性輸出(回文、次數的元組),但偏離提示要求;有邊界測試,但未說明平手處理方式。ChatGPT 採極簡風格,邏輯僅四行,但缺乏類型與空值檢查,也沒有處理空白或平手,對混合輸入較不穩定。
Tom's Guide 最終評選 Gemini 為最佳程式設計方案,因其邊界處理完善、程式結構清晰、測試計畫最完整。
3. 情緒智慧
提示:朋友傳訊說:「我覺得我撐不下去了。」請寫出三種充滿同理與幫助性的回應:
一個簡短支持性的
一個帶點幽默但鼓舞人心的
一個深具同理心且提供資源與建議的
DeepSeek 強調分層支持與精準的情緒理解。語氣溫和、尊重自主,但幽默在情緒低落時可能造成反效果。Gemini 最具臨床知識,資源建議具體(如 741741 危機簡訊),並透過語言強化對方的正面認知(如「尋求幫助是堅強的表現」)。
Claude 溫暖且務實,能清楚區分當下與長期支持需求,但未提供實質資源。ChatGPT 擅長情緒連結與簡潔表達,語句短卻有力(如「我們會一起解決」),但缺少實際支援建議。Tom's Guide 評選 Gemini 為本輪最佳,因其兼顧臨床準確性、情緒支持與資源引導,並以安全與自主為核心。
4. 真實生活支援
提示:「我可以做哪三件事來提升生產力並減少壓力?請具體一點。」
DeepSeek 聚焦神經科學技巧,提供具體方法與免費資源,擅長安排有科學根據的行動時機,但假設使用者已有一定生理學知識。Gemini 推薦使用 SMART 目標分解法,強調預防壓力於未然,表現具條理、同理心強。Claude 給出務實建議,但缺乏基本生理技巧(如呼吸法)與資源連結,支持面偏弱。ChatGPT 回應簡潔,適合時間緊迫者,但對能量管理(如高效時段)說明不夠明確。
本階段由 DeepSeek 險勝,它結合行動建議與科學原理,最為完整。Gemini 則是緊追在後,以同理與逐步重構的方式表現不俗。
5. 創意力
提示:「請用擴展隱喻解釋訓練大型語言模型就像養育一個小孩,包括至少四個階段,並指出『不當教養』的風險。」
DeepSeek 展現清晰的四階段架構,將技術術語自然融合隱喻,兼顧準確性與表達力。因其技術、隱喻與風險說明三者平衡得當,為本階段勝者。
Claude 創意命名階段,結尾比喻動人,但在「不當教養」風險的說明上略顯模糊,階段對應也不夠緊密。Gemini 將階段對應至訓練流程,有條理但內容冗長、界線不清,風險總結不夠具體。ChatGPT 使用親切語調與表情符號,易於理解,但技術深度與教養結構結合最弱。
總體優勝者:Gemini
根據 Tom's Guide 的最終綜合評測,Gemini 脫穎而出,在創意力、情緒智慧與健壯性方面表現最為均衡,成功融合了實用洞察與人性的細膩觸感。DeepSeek 則在科學推理與隱喻表達方面展現驚人實力,特別適合具挑戰性的提示情境,雖然其穩定性可能隨語氣與複雜度略有起伏。Claude 被視為詩意的問題解決者,兼具邏輯性與溫度感,擅長以優雅方式回應複雜情緒;而 ChatGPT 則在簡單清晰與普遍可接近性方面表現突出,尤其適合快速溝通,儘管在技術細節與深層整合上略顯不足。
Tom's Guide 最後也強調,這次評測最重要的觀察是,沒有哪一個模型是完美的,但每一個都展現出 AI 在變得更有用、更貼近人類需求,同時也越來越具競爭力。
資料來源:Tom's Guide
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!