AI 繪圖大比拼：ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

從社群媒體到專業設計領域，AI 生成圖像如今已無處不在，有人甚至預言它將取代傳統圖庫和修圖軟體。目前專業級 AI 已能達到以假亂真的程度，但對於一般用戶而言，AI 圖像生成真的夠實用嗎？為了探討這個問題，本文將針對目前市面上 3 大主流 AI 平台，包括 ChatGPT、Gemini 以及 Grok，從生成限制、功能細節到實際操作表現等面向進行評測，找出各模型在圖像生成方面的真正強項。

延伸閱讀：ChatGPT、Gemini「學習模式」實測：引導思考與穩定度誰勝出？
延伸閱讀：Google Gemini 新增「引導式學習」功能，轉型成 AI 學習夥伴對抗 ChatGPT
延伸閱讀：Grok 4 AI 模型宣佈限時免費開放、原價月訂閱近台幣千元、挑戰 GPT-5 與 Claude

AI 圖片生成技術已趨於成熟

相信大家都有發現，目前各大科技巨頭都紛紛將目光投向 AI 影片生成模型，像是最先佈局的 OpenAI Sora，接著 Google 的 Veo 3 後來居上，Midjourney 推出 V1，而前陣子 Grok 4 發表時也宣布將有影片模型等等。這股趨勢暗示著 AI 圖像生成模型已趨於成熟，並將進入一個全新的階段。因此，我們決定實際測試一下，現有的技術是否真的已臻完善。

▲ 目前許多科技巨頭都已開始進入 AI 影片生成的領域，顯示著圖像生成技術已發展到一個相對成熟的階段。

3 款易用性高的通用型 AI

這次筆者總共挑選了三個主流的 AI 模型進行比較，分別是 OpenAI ChatGPT、Google Gemini、xAI Grok。或許有人會疑問，為什麼不選擇 Midjourney 這類專門生成圖片的模型？當然，就生成品質而言，專門處理單一技術的模型肯定會比通用型來得更好，可調整的參數和細節也一定更多，但對一般用戶來說，「易用性」可能比「專業」更為重要。畢竟有時候只是臨時的配圖需求，如果還要打開一個非常複雜的軟體，似乎就沒那麼實用了。

因此，像這種通用型 AI 聊天機器人，無需額外安裝任何軟體，直接打開網頁就能使用，對於非重度使用者或只是偶爾有需求的人來說，大概會是比較直覺的選項。目前 ChatGPT、Gemini 和 Grok 這三個 AI 也都支援免費生成圖片，這也是選擇它們進行比較的原因。

▲ 像 Midjourney 這類專注於圖像生成的程式，雖然可調整的參數非常多，但相對使用門檻也比較高。

打開對話框即可開始生成

那要如何透過這些 AI 聊天機器人生成圖片呢？實際上使用方式非常簡單，只需進入該網站的網頁並登入帳號，接著直接在聊天室對話框中輸入提示詞即可開始生成，無需再切換任何圖片模型、或操作任何多餘的步驟。三者目前僅有 Grok 支援不登入即可生成圖片，不過所有帳號都可以直接利用 Google 帳號登入，登入後也能保存生成紀錄，因此會建議在使用前都先登入。

▲ 使用聊天機器人生成影像只需在對話框中輸入提示詞並送出即可。其中，Grok 無需登入便能直接使用。

基本圖片生成規範一覽

在深入比較這些 AI 聊天機器人生成的圖片品質之前，我們先來了解它們各自的限制與規範，包含單次能產出幾張圖片、每天可生成的總額度、圖片的解析度、支援的檔案格式，以及是否能調整圖片的長寬比例等，這些對日常使用來說都相當重要。

數量、額度與速度限制

在單次生成數量方面，Gemini 和 ChatGPT 目前都是一次生成一張圖片，而ChatGPT 在生成約三到五張圖片後，系統會提示已達上限，通常到隔天才會更新額度。Grok 則是一次能生成兩張圖片，並且在實際測試過程中，Gemini 和 Grok 都尚未遇到生成上限的問題。

至於生成速度，Gemini 和 Grok 在體感上差異不大，根據 Grok 圖片下方顯示的運算時間，大約落在 10 到 20 秒之間。ChatGPT 需要稍微久一點，而且有時候圖片其實已經生成完畢，畫面卻仍會顯示正在運算，需要手動重新整理圖片才會出現；另外如果當下有很多人在使用，則可能會需要排隊等待。

▲ Grok 和 ChatGPT 皆提供一個專屬區域供使用者一次瀏覽所有生成的內容，點擊單一圖片還可接續編輯。

▲ ChatGPT 偶爾會生成兩個回應給使用者選擇，同時用來改善成果品質，不過通常還是以單一回答為主。

圖片尺寸、格式與長寬比彈性

在圖片的尺寸部分， Gemini 最大可以生成 2048 x 2048 像素的圖片，其預設通常是正方形。ChatGPT 預設多為 1024 x 1536 的長形，並會根據指令內容自動調整直向或橫向，若需要正方形圖片，尺寸則會是 1024 x 1024。Grok 最大尺寸則是 960 x 960 像素，預設多為 720 x 960 的長形。而 Grok 生成的是 JPG 格式，Gemini 和 ChatGPT 則輸出 PNG 。

至於長寬比的調整彈性，當嘗試指令將圖片改為 16:9 比例時，Gemini 雖然能生成 2816 x 1584 的圖片，但這仍不是精確的 16:9 比例。ChatGPT 只能將圖片轉換為橫向，並維持 1536 x 1024 像素的尺寸，Grok 也是維持原始的 960 x 720 長形比例。可以看出目前這些通用型 AI 在精確控制圖片長寬比方面仍存在一定限制。

▲ Gemini 生成出來的圖片尺寸最大，若沒有特別指定，通常會是 2048 x 2048 的正方形。

▲ Grok 在比例調整上最不靈光，甚至在提示詞中明確說明「橫式」，還是有可能會生成出直式圖片。

指定風格表現力實測

AI 繪圖的一大重點，便是其「應用範圍」的廣泛性。因此，首先要實測的是各模型是否能駕馭各種風格。

風格多元性各有千秋

在消化使用者指令中的風格方面，ChatGPT、Gemini 和 Grok 三者幾乎都能很好地處理。無論是海賊王等漫畫風格、清新的水彩風景畫，或是模仿各大畫家藝術流派，它們都能產出符合預期的圖像，讓人一眼便能辨識其所描繪的內容。這顯示通用型 AI 在風格多樣性上已具備不錯的能力。

而就細節方面，筆者個人認為，ChatGPT 在總體表現上最為平均，每張圖都顯得比較精緻，也較少出現不合邏輯的元素。Grok 則最擅於生成真實人物肖像，是三者中在皮膚紋理處理上最為細緻的。Gemini 也能很好地表現各種類型，但個人覺得其精緻程度略遜於 ChatGPT。不過需要強調的是，AI 生成具有隨機性，這些觀察都僅是根據本次個人測試的結果與心得。

藝術家繪畫臨摹

此外，在繪畫流派之外，我又更進一步測試了包括梵谷星夜、秀拉點描派、莫內印象派、以及畢卡索抽象畫等特定藝術家的風格。基本上，只要是知名的畫家與流派，AI 都能模仿得維妙維肖。不過綜合表現，個人偏好 Gemini 的呈現。

ChatGPT 在生成圖片時，給我一種像是套用了「ChatGPT 濾鏡」的感覺，有一層暖色調，並略帶柔化效果。Grok 則是乍看之下風格正確，但在細節處理則顯得比較大而化之。Gemini 能清楚看出畫面中的「筆觸感」，這也是筆者個人偏愛它的原因。不過，這些細節處理的差異，或許可以透過更詳細的提示詞去做進一步調校，本次比較僅是以相對簡單的提示詞進行生成。

以下也提供大部分人應該都看過的梵谷《星夜》風格圖片，供大家參考。

▲ ChatGPT 生成的圖片普遍偏暖，並帶有些許綠色調，不過整體效果很精細。

▲ Grok 生成圖像時一次會產生兩張，雖然整體風格方向正確，但在細節上可以看出明顯差距。

▲ Gemini 特別強調筆觸感，因此成果更像一幅畫作，畫面則是比另外兩者更明亮。

手部細節生成實測

在初期，很多人都說要分辨一張圖是不是 AI 生成的，只需觀察圖像中人物的手指。因為 AI 生成圖最明顯的一大缺點就是無法好好地畫出人的手指，很容易出現多指或少指的情況。因此，接下來我們將針對這部分進行比較。

單純手勢表現

首先實測的是讓 AI 生成一個做出「OK」手勢的人物圖像。ChatGPT、Gemini和 Grok 這三個 AI 模型都能完美生成人物及手勢，手指頭完全沒有任何不合理的地方，甚至連掌紋都能呈現出來。接著，再下指令將「OK」手勢改成比「5」，在轉換上也都沒有任何問題。

而在圖片風格上，Grok 生成的圖像最為自然，Gemini 則很有「圖庫感」。ChatGPT 的表現則比較中規中矩，品質不差，但容易辨識出是 AI 生成的，其中一張圖片在牙齒部分也出現了一些瑕疵。

▲ 三個 AI 模型在生成純手勢圖像時都沒有任何問題。其中，Gemini（左圖）的風格偏向圖庫照片的質感，而 Grok（右圖）則讓人感覺更具親切感。

手持物品情境

在單純手勢看起來都沒有問題後，接著嘗試特寫手部、並讓手上拿著一杯珍珠奶茶。Gemini 和 ChatGPT 都能完美達成指令，包括手持的姿勢、角度，以及指甲、紋路等手部細節，還原度都非常高。不過，由於整體看起來過於完美與平滑，因此也能很清楚地辨識出是 AI 生成的。

然而，在 Grok 方面，AI 不只一次生成了「畸形手」，不是只剩下兩隻指頭，就是多出一個指節。儘管在多次嘗試中，Grok 也有成功生成出正常的手部，但錯誤率相對較高。另外值得一提的是，Grok 會將珍珠奶茶中的「珍珠」誤認為真正的珍珠，甚至使用英文指令，也無法生成出手搖飲中可食用的珍珠。

▲ ChatGPT 生成的手持珍珠奶茶形象照，無論是手部、商品呈現，還是整體氛圍都趨近完美，但也因此容易讓人有 AI 感。

▲ 在手持杯子的情境中，Grok 曾生成出「畸形手」的圖像。此外，Grok 也將珍珠奶茶中的「珍珠」誤解為寶石的「珍珠」。

街道透視與招牌文字

除了手部細節問題，AI 繪圖的另一大盲點便是「透視」與「文字」。由於 AI 模型僅是從大量圖像數據中學習透視的規律，並不像人類一樣真正理解三維空間的深度與物體之間的相對位置，因此在生成複雜場景時，就可能出現不一致的消失點。為此，我們以生成街道場景進行測試，並同步實測圖片中招牌文字的呈現效果。

簡單場景透視表現無礙

首先是透視表現，由於指令設定為「台灣的小吃街道」，場景相對不複雜，因此三個 AI 模型都沒有出現明顯的透視錯誤，頂多是在消失點處有輕微扭曲，但情況並不嚴重。

然而，如果提示詞拉長，並包含如鳥瞰視角、三點透視、摩天大樓對比微小光點般的車輛與行人等，這種多層次、多消失點、多尺度對比的複雜場景，AI 生成的成果就變得較為不可控。不過，考量到這類情境的使用時機可能較少，因此我們便不再進一步比較。

中文字仍是 AI 難題

接著觀察招牌上的文字內容，這部分就出現了比較明顯的差異。ChatGPT 在中文字方面的表現是三者中最好的，但還是有一些誤用的情況，且在整體圖片風格上不太像是真實場景。而 Gemini 則最具台灣街道感，但招牌及柏油路上的文字大部分都坨在一起，然後在右下角還能看出訓練資料中的浮水印痕跡；不過，若將圖片中的文字改成英文，像是生成美國街道，呈現效果就會正常許多。

Grok 則無論是中文或英文都無法好好呈現文字，看上去基本上都是亂碼，完全不具有可讀性，勉強只能辨識出一些零星的英文字母。另外，在風格部分，Grok 生成的台灣街道莫名出現了「中國感」，很像是在短影音裡會出現的小吃攤販。

▲ ChatGPT 在中文字的完成度相較之下已經算很高的，但仍會看出明顯錯誤，後面比較小的招牌甚至已經不是文字了。

▲ Gemini 生成的圖片很有台灣街道的特色，無論是建築外觀還是錯落有致的招牌都相當到位，可惜的是目前無法良好地處理中文文字的呈現。

▲ Grok 在文字處理方面表現最差，無論是中文還是英文，生成的內容大部分都無法辨識。

人物生成 4 大情境比較

最後要測試的是 AI 在人物生成方面的表現，本次共設定了四種情境，包括吉卜力風格、真人肖像、局部重繪，以及照片合成。

說到 AI 繪圖，相信許多人最先想到的會是先前在社群媒體上掀起熱潮的「吉卜力」風格。當時這股熱潮不僅讓 ChatGPT 的下載量暴增，也一度造成流量塞車。那麼經過這段時間，其他 AI 模型是否也能達到相同效果？表現又如何呢？除了繪畫風格外，AI 在真實風格的人物生成、以及能否生成真實世界人物的肖像也是備受討論的重點，因此後續也會針對此部分進行實測。

而鑑於 AI 修圖功能同樣廣受討論，因此我們也對局部重繪進行了測試，例如更換衣物、加上飾品或變換背景，看看 AI 是否能在固定人物主體的前提下，僅改動指定局部位置。最後則是照片合成功能，檢視 AI 能否將人物的衣服換成指定樣式，或是將不同照片中的兩個人物合成為一張圖像。

吉卜力風格

ChatGPT 還原程度仍舊最高，圖中不管是人物還是物品都能準確轉換，Gemini不確定是否因版權問題，生成的圖與吉卜力毫無關聯，有時甚至會直接顯示無法生成。而 Grok 乍看之下風格正確，但仔細看會發現細節有誤，例如圖片中原本應是水豚春聯，卻變成了兩隻真的水豚。

ChatGPT

Gemini

Grok

真人肖像

ChatGPT 和 Gemini 生成的人物皮膚都過於光滑，看起來帶有明顯的「AI 感」，且目前幾乎無法生成真實世界的人物。Grok 在皮膚紋理的處理上則相當細膩，對於生成真實人物也沒有太多限制。不過，其資料庫目前以西方人物為主，且多數只能生成胸部以上的特寫尺寸。

ChatGPT

Gemini

Grok

局部重繪

Gemini 在更換衣服、新增飾品時的局部重繪效果最佳，人物臉部幾乎能完美重現，但在更換背景的表現卻大起大落。ChatGPT 與 Grok 雖然人物臉部會略微變形，但較少出現完全失敗的情況。不過要特別注意，若原始圖片人臉過小或解析度不足，所有 AI 模型進行重繪時都容易失敗。

原圖

ChatGPT

Gemini

Grok

合成兩張圖

筆者找來一張 UNIQLO 洋裝的圖片，並指令 AI 將其穿在情境 2 中由 ChatGPT生成的人物肖像上。ChatGPT 與 Gemini 皆能勉強達成指令，但也能明顯看出與原圖的差異，而 Grok 則完全無法理解指令意圖。所以再更進一步想要將不同照片中的兩個人物合成為一張圖像時，目前來說還是做不到的。