FB 建議貼文

選取貼文複製成功(包含文章連結)!

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

從社群媒體到專業設計領域,AI 生成圖像如今已無處不在,有人甚至預言它將取代傳統圖庫和修圖軟體。目前專業級 AI 已能達到以假亂真的程度,但對於一般用戶而言,AI 圖像生成真的夠實用嗎?為了探討這個問題,本文將針對目前市面上 3 大主流 AI 平台,包括 ChatGPT、Gemini 以及 Grok,從生成限制、功能細節到實際操作表現等面向進行評測,找出各模型在圖像生成方面的真正強項。

AI 圖片生成技術已趨於成熟

相信大家都有發現,目前各大科技巨頭都紛紛將目光投向 AI 影片生成模型,像是最先佈局的 OpenAI Sora,接著 Google 的 Veo 3 後來居上,Midjourney 推出 V1,而前陣子 Grok 4 發表時也宣布將有影片模型等等。這股趨勢暗示著 AI 圖像生成模型已趨於成熟,並將進入一個全新的階段。因此,我們決定實際測試一下,現有的技術是否真的已臻完善。

目前許多科技巨頭都已開始進入 AI 影片生成的領域,顯示著圖像生成技術已發展到一個相對成熟的階段。

3 款易用性高的通用型 AI

這次筆者總共挑選了三個主流的 AI 模型進行比較,分別是 OpenAI ChatGPT、Google Gemini、xAI Grok。或許有人會疑問,為什麼不選擇 Midjourney 這類專門生成圖片的模型?當然,就生成品質而言,專門處理單一技術的模型肯定會比通用型來得更好,可調整的參數和細節也一定更多,但對一般用戶來說,「易用性」可能比「專業」更為重要。畢竟有時候只是臨時的配圖需求,如果還要打開一個非常複雜的軟體,似乎就沒那麼實用了。

因此,像這種通用型 AI 聊天機器人,無需額外安裝任何軟體,直接打開網頁就能使用,對於非重度使用者或只是偶爾有需求的人來說,大概會是比較直覺的選項。目前 ChatGPT、Gemini 和 Grok 這三個 AI 也都支援免費生成圖片,這也是選擇它們進行比較的原因。

像 Midjourney 這類專注於圖像生成的程式,雖然可調整的參數非常多,但相對使用門檻也比較高。

打開對話框即可開始生成

那要如何透過這些 AI 聊天機器人生成圖片呢?實際上使用方式非常簡單,只需進入該網站的網頁並登入帳號,接著直接在聊天室對話框中輸入提示詞即可開始生成,無需再切換任何圖片模型、或操作任何多餘的步驟。三者目前僅有 Grok 支援不登入即可生成圖片,不過所有帳號都可以直接利用 Google 帳號登入,登入後也能保存生成紀錄,因此會建議在使用前都先登入。 

使用聊天機器人生成影像只需在對話框中輸入提示詞並送出即可。其中,Grok 無需登入便能直接使用。

基本圖片生成規範一覽

在深入比較這些 AI 聊天機器人生成的圖片品質之前,我們先來了解它們各自的限制與規範,包含單次能產出幾張圖片、每天可生成的總額度、圖片的解析度、支援的檔案格式,以及是否能調整圖片的長寬比例等,這些對日常使用來說都相當重要。

數量、額度與速度限制

在單次生成數量方面,Gemini 和 ChatGPT 目前都是一次生成一張圖片,而ChatGPT 在生成約三到五張圖片後,系統會提示已達上限,通常到隔天才會更新額度。Grok 則是一次能生成兩張圖片,並且在實際測試過程中,Gemini 和 Grok 都尚未遇到生成上限的問題。

至於生成速度,Gemini 和 Grok 在體感上差異不大,根據 Grok 圖片下方顯示的運算時間,大約落在 10 到 20 秒之間。ChatGPT 需要稍微久一點,而且有時候圖片其實已經生成完畢,畫面卻仍會顯示正在運算,需要手動重新整理圖片才會出現;另外如果當下有很多人在使用,則可能會需要排隊等待。

Grok 和 ChatGPT 皆提供一個專屬區域供使用者一次瀏覽所有生成的內容,點擊單一圖片還可接續編輯。

ChatGPT 偶爾會生成兩個回應給使用者選擇,同時用來改善成果品質,不過通常還是以單一回答為主。

圖片尺寸、格式與長寬比彈性

在圖片的尺寸部分, Gemini 最大可以生成 2048 x 2048 像素的圖片,其預設通常是正方形。ChatGPT 預設多為 1024 x 1536 的長形,並會根據指令內容自動調整直向或橫向,若需要正方形圖片,尺寸則會是 1024 x 1024。Grok 最大尺寸則是 960 x 960 像素,預設多為 720 x 960 的長形。而 Grok 生成的是 JPG 格式,Gemini 和 ChatGPT 則輸出 PNG 。

至於長寬比的調整彈性,當嘗試指令將圖片改為 16:9 比例時,Gemini 雖然能生成 2816 x 1584 的圖片,但這仍不是精確的 16:9 比例。ChatGPT 只能將圖片轉換為橫向,並維持 1536 x 1024 像素的尺寸,Grok 也是維持原始的 960 x 720 長形比例。可以看出目前這些通用型 AI 在精確控制圖片長寬比方面仍存在一定限制。

Gemini 生成出來的圖片尺寸最大,若沒有特別指定,通常會是 2048 x 2048 的正方形。

Grok 在比例調整上最不靈光,甚至在提示詞中明確說明「橫式」,還是有可能會生成出直式圖片。

指定風格表現力實測

AI 繪圖的一大重點,便是其「應用範圍」的廣泛性。因此,首先要實測的是各模型是否能駕馭各種風格。

風格多元性各有千秋

在消化使用者指令中的風格方面,ChatGPT、Gemini 和 Grok 三者幾乎都能很好地處理。無論是海賊王等漫畫風格、清新的水彩風景畫,或是模仿各大畫家藝術流派,它們都能產出符合預期的圖像,讓人一眼便能辨識其所描繪的內容。這顯示通用型 AI 在風格多樣性上已具備不錯的能力。

而就細節方面,筆者個人認為,ChatGPT 在總體表現上最為平均,每張圖都顯得比較精緻,也較少出現不合邏輯的元素。Grok 則最擅於生成真實人物肖像,是三者中在皮膚紋理處理上最為細緻的。Gemini 也能很好地表現各種類型,但個人覺得其精緻程度略遜於 ChatGPT。不過需要強調的是,AI 生成具有隨機性,這些觀察都僅是根據本次個人測試的結果與心得。

藝術家繪畫臨摹

此外,在繪畫流派之外,我又更進一步測試了包括梵谷星夜、秀拉點描派、莫內印象派、以及畢卡索抽象畫等特定藝術家的風格。基本上,只要是知名的畫家與流派,AI 都能模仿得維妙維肖。不過綜合表現,個人偏好 Gemini 的呈現。

ChatGPT 在生成圖片時,給我一種像是套用了「ChatGPT 濾鏡」的感覺,有一層暖色調,並略帶柔化效果。Grok 則是乍看之下風格正確,但在細節處理則顯得比較大而化之。Gemini 能清楚看出畫面中的「筆觸感」,這也是筆者個人偏愛它的原因。不過,這些細節處理的差異,或許可以透過更詳細的提示詞去做進一步調校,本次比較僅是以相對簡單的提示詞進行生成。

以下也提供大部分人應該都看過的梵谷《星夜》風格圖片,供大家參考。

ChatGPT 生成的圖片普遍偏暖,並帶有些許綠色調,不過整體效果很精細。

Grok 生成圖像時一次會產生兩張,雖然整體風格方向正確,但在細節上可以看出明顯差距。

Gemini 特別強調筆觸感,因此成果更像一幅畫作,畫面則是比另外兩者更明亮。

手部細節生成實測

在初期,很多人都說要分辨一張圖是不是 AI 生成的,只需觀察圖像中人物的手指。因為 AI 生成圖最明顯的一大缺點就是無法好好地畫出人的手指,很容易出現多指或少指的情況。因此,接下來我們將針對這部分進行比較。

單純手勢表現

首先實測的是讓 AI 生成一個做出「OK」手勢的人物圖像。ChatGPT、Gemini和 Grok 這三個 AI 模型都能完美生成人物及手勢,手指頭完全沒有任何不合理的地方,甚至連掌紋都能呈現出來。接著,再下指令將「OK」手勢改成比「5」,在轉換上也都沒有任何問題。

而在圖片風格上,Grok 生成的圖像最為自然,Gemini 則很有「圖庫感」。ChatGPT 的表現則比較中規中矩,品質不差,但容易辨識出是 AI 生成的,其中一張圖片在牙齒部分也出現了一些瑕疵。

三個 AI 模型在生成純手勢圖像時都沒有任何問題。其中,Gemini(左圖)的風格偏向圖庫照片的質感,而 Grok(右圖)則讓人感覺更具親切感。

手持物品情境

在單純手勢看起來都沒有問題後,接著嘗試特寫手部、並讓手上拿著一杯珍珠奶茶。Gemini 和 ChatGPT 都能完美達成指令,包括手持的姿勢、角度,以及指甲、紋路等手部細節,還原度都非常高。不過,由於整體看起來過於完美與平滑,因此也能很清楚地辨識出是 AI 生成的。

然而,在 Grok 方面,AI 不只一次生成了「畸形手」,不是只剩下兩隻指頭,就是多出一個指節。儘管在多次嘗試中,Grok 也有成功生成出正常的手部,但錯誤率相對較高。另外值得一提的是,Grok 會將珍珠奶茶中的「珍珠」誤認為真正的珍珠,甚至使用英文指令,也無法生成出手搖飲中可食用的珍珠。

ChatGPT 生成的手持珍珠奶茶形象照,無論是手部、商品呈現,還是整體氛圍都趨近完美,但也因此容易讓人有 AI 感。

在手持杯子的情境中,Grok 曾生成出「畸形手」的圖像。此外,Grok 也將珍珠奶茶中的「珍珠」誤解為寶石的「珍珠」。

街道透視與招牌文字

除了手部細節問題,AI 繪圖的另一大盲點便是「透視」與「文字」。由於 AI 模型僅是從大量圖像數據中學習透視的規律,並不像人類一樣真正理解三維空間的深度與物體之間的相對位置,因此在生成複雜場景時,就可能出現不一致的消失點。為此,我們以生成街道場景進行測試,並同步實測圖片中招牌文字的呈現效果。

簡單場景透視表現無礙

首先是透視表現,由於指令設定為「台灣的小吃街道」,場景相對不複雜,因此三個 AI 模型都沒有出現明顯的透視錯誤,頂多是在消失點處有輕微扭曲,但情況並不嚴重。

然而,如果提示詞拉長,並包含如鳥瞰視角、三點透視、摩天大樓對比微小光點般的車輛與行人等,這種多層次、多消失點、多尺度對比的複雜場景,AI 生成的成果就變得較為不可控。不過,考量到這類情境的使用時機可能較少,因此我們便不再進一步比較。

中文字仍是 AI 難題

接著觀察招牌上的文字內容,這部分就出現了比較明顯的差異。ChatGPT 在中文字方面的表現是三者中最好的,但還是有一些誤用的情況,且在整體圖片風格上不太像是真實場景。而 Gemini 則最具台灣街道感,但招牌及柏油路上的文字大部分都坨在一起,然後在右下角還能看出訓練資料中的浮水印痕跡;不過,若將圖片中的文字改成英文,像是生成美國街道,呈現效果就會正常許多。

Grok 則無論是中文或英文都無法好好呈現文字,看上去基本上都是亂碼,完全不具有可讀性,勉強只能辨識出一些零星的英文字母。另外,在風格部分,Grok 生成的台灣街道莫名出現了「中國感」,很像是在短影音裡會出現的小吃攤販。

ChatGPT 在中文字的完成度相較之下已經算很高的,但仍會看出明顯錯誤,後面比較小的招牌甚至已經不是文字了。

Gemini 生成的圖片很有台灣街道的特色,無論是建築外觀還是錯落有致的招牌都相當到位,可惜的是目前無法良好地處理中文文字的呈現。

Grok 在文字處理方面表現最差,無論是中文還是英文,生成的內容大部分都無法辨識。

人物生成 4 大情境比較

最後要測試的是 AI 在人物生成方面的表現,本次共設定了四種情境,包括吉卜力風格、真人肖像、局部重繪,以及照片合成。

說到 AI 繪圖,相信許多人最先想到的會是先前在社群媒體上掀起熱潮的「吉卜力」風格。當時這股熱潮不僅讓 ChatGPT 的下載量暴增,也一度造成流量塞車。那麼經過這段時間,其他 AI 模型是否也能達到相同效果?表現又如何呢?除了繪畫風格外,AI 在真實風格的人物生成、以及能否生成真實世界人物的肖像也是備受討論的重點,因此後續也會針對此部分進行實測。

而鑑於 AI 修圖功能同樣廣受討論,因此我們也對局部重繪進行了測試,例如更換衣物、加上飾品或變換背景,看看 AI 是否能在固定人物主體的前提下,僅改動指定局部位置。最後則是照片合成功能,檢視 AI 能否將人物的衣服換成指定樣式,或是將不同照片中的兩個人物合成為一張圖像。

吉卜力風格

ChatGPT 還原程度仍舊最高,圖中不管是人物還是物品都能準確轉換,Gemini不確定是否因版權問題,生成的圖與吉卜力毫無關聯,有時甚至會直接顯示無法生成。而 Grok 乍看之下風格正確,但仔細看會發現細節有誤,例如圖片中原本應是水豚春聯,卻變成了兩隻真的水豚。

ChatGPT

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Gemini

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Grok

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

真人肖像

ChatGPT 和 Gemini 生成的人物皮膚都過於光滑,看起來帶有明顯的「AI 感」,且目前幾乎無法生成真實世界的人物。Grok 在皮膚紋理的處理上則相當細膩,對於生成真實人物也沒有太多限制。不過,其資料庫目前以西方人物為主,且多數只能生成胸部以上的特寫尺寸。

ChatGPT

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Gemini

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Grok

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

局部重繪

Gemini 在更換衣服、新增飾品時的局部重繪效果最佳,人物臉部幾乎能完美重現,但在更換背景的表現卻大起大落。ChatGPT 與 Grok 雖然人物臉部會略微變形,但較少出現完全失敗的情況。不過要特別注意,若原始圖片人臉過小或解析度不足,所有 AI 模型進行重繪時都容易失敗。

原圖

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

ChatGPT

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Gemini

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Grok

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

合成兩張圖

筆者找來一張 UNIQLO 洋裝的圖片,並指令 AI 將其穿在情境 2 中由 ChatGPT生成的人物肖像上。ChatGPT 與 Gemini 皆能勉強達成指令,但也能明顯看出與原圖的差異,而 Grok 則完全無法理解指令意圖。所以再更進一步想要將不同照片中的兩個人物合成為一張圖像時,目前來說還是做不到的。

UNIQLO 官網圖

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

ChatGPT

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Gemini

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

Grok

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

不過就在前幾天,Google 又更新了 Gemini 圖像編輯模型,以上的比較皆是以先前的版本進行實測的,筆者也有在模型推出的當天進行與舊模型生成結果的比較,有興趣的讀者可以參考下方文章。

延伸閱讀:Google Gemini最強圖像編輯模型「Nano banana」上線,人物一致性以及多圖合圖功能更提升

延伸閱讀:Gemini 2.5 Flash Image 圖像編輯模型實測:人物一致性、去除雜物、圖片合成效果是否真有那麼神?

本文不開放合作媒體轉載

AI 繪圖大比拼:ChatGPT、Gemini、Grok 三大平台圖像生成能力全面評測

歡迎加入 PC home 雜誌粉絲團

ycr
作者

PC home 雜誌、T 客邦產業編輯,也負責 T 客邦影新聞 YouTube 頻道短影音製作。關注 AI 相關應用,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則