外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

Google Gemini大型語言模型和OpenAI的GPT誰更出色?Gemini相比Google之前的模型有了多大進步?目前,公司自己吹噓能吊打GPT-4的Gemini Ultra還得等明年才能上線,但Google Bard聊天機器人已經換上了低配版本Gemini Pro(對標GPT-3.5)。

科技評論網站ARS TECHNICA,讓Gemni Pro、GPT-3.5和GPT-4在數學、程式、文字生成等方面進行了一次全面PK,同時還附上了4月份對舊版本Bard(運行PaLM 2模型)的測試結果,來展現GoogleBard取得的進步,並展現這些AI助手到底哪一個對普通人的工作效率提升最大。

文章目錄

結果顯示,雖然有了Gemini Pro的加持,但Google Bard聊天機器人在大部分項目上還是打不過ChatGPT。不過相比8個月前的舊版Bard,已經有了質的飛躍。

第一題 幽默

prompt:寫5個原創冷笑話

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?
(從上至下分別為Gemini Pro、舊版Bard、GPT-4和GPT-3.5的回答)

從答案來看,幾個AI大型語言模型的笑話在「原創性」上全軍覆沒。經作者查證,所有生成的冷笑話都可以在網上查到,或者只是稍微改動了幾個字。

Gemini和ChatGPT-4 寫出了一模一樣的笑話——「我手裡有本講反重力的書,我根本沒法把它放下來」。而GPT-3.5 和GPT-4也有兩個笑話重複了。

PK結果:平局

第二題 辯論

prompt:寫一篇PowerPC處理器擁躉與英特爾處理器擁躉之間的5行辯論發言,時間約為2000年

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

相比舊版Bard, Gemini Pro進步明顯,至少多了很多行業術語,比如AltiVec 指令、RISC 與CISC設計以及 MMX 技術,這在那個時代的許多技術論壇討論中都不會顯得突兀。

而且,Gemini Pro雖然只按要求列出五行,但所撰寫的辯論內容還可以一直延續下去。而舊版Bard則直接第五行收尾了。

相比之下,GPT系列生成的回答都沒有使用太多專業術語,而把重點放在「功率與相容性」上,對非技術極客來說,GPT系列的論點更容易理解。不過,GPT-3.5的回答相當冗長,GPT-4的論證相比之下更加簡明扼要。

PK結果:GPT勝出

第三題 數學

prompt:如果用3.5英吋磁片來安裝微軟Windows 11,一共需要多少張磁片?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

舊版 Bard 給出的答案是「15.11張」,這是一個完全錯誤的答案。而Gemini則正確估計了 Windows 11 的安裝大小(20 至 30GB,並按照20GB的估計值正確計算出需要14223張1.44MB 磁片。Gemini還根據Google搜尋進行了「雙重檢查」,有助於增強使用者對答案的信心。

相比之下,ChatGPT就顯得有些力不從心了。在ChatGPT-3.5把Windows 11的大小錯誤估算成了10個G,另一方面,GPT-4也估算成了錯誤的64GB(這似乎是最低儲存空間要求,而不是作業系統在安裝時實際使用的空間)。

PK結果:Google勝出

第四題 總結段落

promp:總結一段關於AI監管的文章

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

Gemini Pro生成的文章十分簡潔,並且給出了引文的連結。但它的總結似乎過於簡潔了,甚至刪除了舊版Bard原來有的一些關鍵細節,比如視訊是由十個兩秒鐘的片段拼接而成的。雖然改寫在一定程度上提高了可讀性,但卻犧牲了完整性。

ChatGPT的摘要因為不夠簡潔而丟了一些分:生成的摘要從 99 個字(GPT-4)到 108 個字(GPT-3.5)不等,而Google新舊版Bard的摘要分別只有 63 到 66 個字。

不過,ChatGPT總結了更多重要的細節,如媒體的反應、原發文人的名字和subreddit等,而這些都被Gemini忽略了。

PK結果:GPT勝

第五題 事實檢索

prompt:誰發明了電子遊戲?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

Bard 在這道題上又有了重大改進。舊版Bard 只關注 Ralph Baer 的Brown Box和 Magnavox Odyssey 作品(資訊似乎直接摘自維基百科),而新版 Gemini Pro則精準而簡潔地指出了 William Higinbotham早先「雙人網球」的貢獻。

隨後, Gemini又從「發明」擴展到了諾蘭·布希內爾、泰德·達布尼和艾倫·奧爾康等「對電子遊戲的早期發展做出了重大貢獻」的人物,並提供了關於每個人的基本精準的相關資訊。

不過,緊接著Gemini又對蘋果的兩位創始人賈伯斯和史蒂夫·沃茲尼克的工作進行了一番胡扯,卻沒有提及他們早年在遊戲公司雅達利公司的工作。

GPT-3.5 和舊版 Bard 一樣,也是以 Ralph Baer 為中心。雖然它提到「多年來,不同的個人和公司都為該行業做出了貢獻」,但沒有提及這些重要人物的名字。

而GPT-4首先指出電子遊戲的發明「不能歸功於某一個人」,並將其總結擴展到威廉·希金伯泰、諾蘭·布希內爾,以及至關重要的史帝芬·羅素 1962 年在 PDP-1 上創造的《太空戰爭!》。

PK結果:GPT勝(但Gemini表現比GPT-3.5更好)

第六題 創意寫作

prompt:寫兩段關於林肯發明籃球的虛構故事。

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

舊版Bard的寫作很出色,但遺憾的是篇幅嚴重超出要求,有太多冗長的句子。Gemini Pro相比之下寫得更加簡潔,重點更加突出。而GPT寫的故事也都有其獨特的魅力和令人回味的語句。

PK結果:平局

第七題 程式碼能力

prompt:編寫一個 Python 指令碼,在其中輸入「Hello World」,然後無休止地建立一個隨機重複字串。

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

外媒用7道題目測試Gemini和ChatGPT,找出誰才是最聰明的那個?

雖然Bard從6月份開始就能生成程式碼,Google也曾吹噓Gemini的AlphaCode 2系統能夠幫助程式設計師,但這次測試讓人大跌眼鏡。

Gemini一直給出「資訊可能有誤,無法生成」的回覆。如果堅持要求它生成程式碼,則會乾脆當機,並提示「Bard仍在實驗中」。

與此同時,GPT-3.5 和 GPT-4模型下生成了相同的程式碼。這些簡單明了的程式碼無需任何編輯就能完美運行,順利通過試用。

PK結果:GPT勝

最終,在七項測試中,GPT取得了4勝1負2平的碾壓式勝利。但我們也能看到,Google AI大型語言模型生成的結果,在品質上有了明顯的進步。在數學、總結資訊、事實檢索和創意寫作測試,配備Gemini的Bard都比8個月前有了顯著飛躍。

當然,評判這樣的比賽有一定的主觀性。具體孰優孰劣還需要更全面、更詳盡的測試。無論如何,至少,以Google目前展現出來的實力來看,即將推出的Gemini Ultra勢必會成為GPT-4的有力競爭對手。

 

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則