2024.01.18 15:30

Gemini Pro vs GPT-4 V:研究幫Google平反,兩者優勢不同Google在AI模型發展並無落後

ADVERTISEMENT

Google發佈最強模型Gemini Pro,但有人聲稱與其競爭對手 OpenAI 的 GPT-4 相比,它沒有達到預期,持續的爭論圍繞著 Gemini 還是 GPT-4 V 更全面、到底誰更勝一籌。雖然許多觀點傾向於 GPT-4 V,但必須承認 Google 的 Gemini Pro 也不甘落後。

最近,來自香港和上海的研究人員發表了一篇題為《Gemini Pro vs GPT-4 V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases》的研究論文,比較了兩個模型的視覺能力,結果相當有趣。

Gemini Pro在特定推理任務中表現卓越,特別是邏輯推理和事實精準性。這使得 Gemini 成為需要強大理解和分析能力的任務時的合適選擇。因此,認識到這兩種模型的優勢非常重要。

GPT-4 V VS Gemini Pro

研究表明,GPT-4 V 表現出精確性和簡潔性,顯示出在上下文理解方面的顯著優勢。另一方面,Gemini Pro 擅長提供詳細而廣泛的答案,再加上相關的圖像和連結,凸顯了其生成豐富內容的能力。在工業應用場景中,兩種模型都表現出了能力,儘管存在細微差別。

ADVERTISEMENT

Gemini 一次輸入單個圖像的限制取決於隨附的文字指令,這與 GPT-4 V 連續攝取多個圖像的能力形成鮮明對比,從而增強了其記憶能力。雖然這兩種模型在基本圖像辨識任務中表現出相當的熟練程度,但 GPT-4 Vision 在現實世界的對象定位方面表現出色,特別是在抽象圖像(七巧板)定位方面。

從圖像中提取文字是這兩個模型的強項,但 Gemini 在讀取表格資訊方面超越了 GPT-4 Vision。兩種模型都在高級推理任務中展示了常識性理解,Gemini在某些智力測試中稍稍落後。值得注意的是,這兩種模型都在情感理解和表達方面表現出色。

ADVERTISEMENT

GPT-4 和 Gemini 之間的選擇取決於具體的任務要求。GPT -4 適合多模式和提示任務,Gemini 適合與程式碼相關的工作或優先考慮計算效率的場景。

Gemini通過考驗了嗎?

當Google在發佈時透過影片展示 Gemini Ultra 的多模式功能時,每個人都驚嘆不已。但後來發現,該影片是剪輯過的。

ADVERTISEMENT

Google上傳的六分鐘影片,展示了與Gemini進行流利對話、回答查詢以及參與像是與人玩石頭剪刀布等遊戲等活動的各種例子。

在展示中,一切似乎都是即時發生的,Gemini 可以快速響應。然而,Youtube 上對該影片的描述是:「出於本展示的目的,為了簡潔起見,延遲已經減少,Gemini 輸出也已縮短。」 但 Gemini Pro 的性能卻並非如此。

ADVERTISEMENT

在強調 GPT-4 V 在基準場景中令人印象深刻的功能時,認識到 Gemini Pro 與之共享的平行優勢至關重要。Gemini 因其能夠提供簡潔而直接的響應而脫穎而出,在需要事實精準性和及時資訊檢索的任務中具有顯著優勢。

這種共性強調了兩種模型在應對特定挑戰方面的微妙有效性,並強化了這樣一種觀念,即一種模型的進步往往可以與另一種模型的能力產生共鳴。其強大的推理能力,特別是在專家任務中,以及提高的辨識精準性,特別是在辨識名人方面,展示了其在專業領域的實力。

Gemini 在程式碼相關任務中脫穎而出,在程式碼生成、理解、翻譯和錯誤檢測方面表現出熟練程度,使其成為開發人員的首選。它還擁有通用推理能力,並因其可擴展性和效率而備受推崇。

然而,這兩種模型都有共同的弱點,包括空間意識的侷限性、OCR 不可靠、推理不一致以及對提示的敏感性。由於缺乏具體報告的詳細資訊,阻礙了更深入的分析,強調了定量基準的必要性以及及時瞭解正在積極發展的兩個模型的持續發展的必要性。雖然 Gemini Ultra 將於明年發佈,但如果是優先考慮實用性、效率和更廣泛的可訪問性,Pro 可能是更好的選擇。

 

 

ADVERTISEMENT