ADVERTISEMENT
如果讓GPT-4為其他市面上主流的大模型打分數,會是什麼結果?它給了了自己最高分:95.5分。
不過接下來的幾個模型沒有一個可以得到90分以上。就連它的「前輩」ChatGPT(GPT-3.5),它也只給了89.1分。
隨後依次是號稱最強競品的Claude、Google Bard、UC柏克萊出品的Vicuna-13B,以及清華系開源模型ChatGLM-6B。
ADVERTISEMENT
GPT-4到底是如何評定的?
10項能力測評
首先,來看出題人GPT-4到底想考察語言模型的哪些能力。
ADVERTISEMENT
要求出題儘量全面,考察模型能力的不同方面,並且足夠難,使得不同水準的模型有足夠的分別。
於是GPT-4直接出了10道題,而且還分別告知了出題理由——具體考察了大模型什麼能力,可以說算是很全面了。
ADVERTISEMENT
(第一個問題GPT-4後面做了替換)
問題1:請簡要概述小說《梅岡城故事》的情節,並指出其中的主要主題。
理由:這個問題測試了模型理解和總結複雜敘事結構的能力,以及對文學作品中的主題和主旨的理解。
ADVERTISEMENT
問題2:描述傅立葉轉換的主要數學原理,並用一個簡單的例子說明其應用。
理由:這個問題測試了模型以簡單、易懂的方式理解和解釋複雜概念的能力。
問題3:以「春天」為主題創作一首押韻的詩歌
理由:這個問題測試了模型的創造性和藝術能力,以及理解主題和產生具有上下文關聯的內容的能力。
問題4:指出資本主義和社會主義之間的主要差別,並舉例說明哪些國家在歷史上分別遵循了這兩種經濟體系?
理由:這個問題測試了模型理解和總結複雜社會和政治概念的能力,並提供事實性的歷史背景。
問題5:能否為解決筆記型電腦上的Wi-Fi連接問題提供一個詳細的、分步驟的故障排除過程?
理由:這個問題測試了模型在提供實用的解決問題建議和理解技術概念方面的能力。
問題6:根據當前的趨勢和技術發展,我們可以預期在未來十年裡會有哪些重大進步?
理由:這個問題測試了模型從現有知識和趨勢中推斷和預測的能力
問題7:請檢查以下程式碼片段:
找出任何可以最佳化以提高性能的部分,並提出如何提高程式碼可讀性的建議。
理由:這個問題測試了模型在程式設計及軟體發展中理解、分析程式碼並提供改進建議的能力。
問題8:簡要討論與人工智慧相關的倫理問題,特別是在個人隱私和就業方面。提供例子以證明您的觀點。
理由:這個問題測試了模型討論倫理問題和理解技術進步可能帶來的後果的能力。
問題9:描述植物光合作用的過程,詳細說明其中涉及的關鍵步驟和組成。
理由:這個問題測試了模型準確、深入地理解和解釋複雜科學過程的能力。
問題10:給出定一段包含諷刺或幽默的文字:
「哦,太好了,又一個據說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對話。」
(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能辨識出諷刺或幽默的元素,並提供一個適當的回應嗎?
理由:這個問題測試了模型理解微妙語言 (如諷刺或幽默)的能力,這是自然語言理解的一個重要方面。
可以看到GPT-4的出題範圍,基本上涵蓋了文字、數學、詩歌、經濟、實踐、技術、程式碼、道德倫理、科學,語言等各個方面。
隨後針對不同問題,我們又讓GPT-4生成了相應的評分標準(0-100)。
題目有了,評分標準也有了。
既然如此,那就來看看這幾個代表大模型的實力如何?
GPT-4:Claude僅次於ChatGPT
首先有請考生登場:
Google Bard、最早也是最強競品Claude、UC柏克萊Vicuna-13B、清華系開源模型ChatGLM-6B。
ChatGPT與GPT-4自己,也被要求回答這些問題,然後由GPT-4依據前面的評分標準評分。
首先來看這道題:
請簡要概述小說《梅岡城故事》的情節,並指出其中的主要主題。
這第一題在所有問題中算是比較簡單的,首先讓我們看看Bard的回答。
總結:《梅岡城故事》是哈珀·李1960年出版的一部小說,講述了在美國大蕭條時期阿拉巴馬州一個虛構的小鎮上,一位名叫亞惕·芬鵸的律師為一名被錯誤指控的黑人辯護的故事。小說探討了種族主義、勇氣、捍衛正義的重要性以及失去天真的主題。主人公亞惕·芬鵸勇敢地為被冤枉的黑人站出來,成為了他的孩子們心目中的榜樣。通過這部小說,孩子們認識到世界並非總是公平的,但仍有善良的人存在,我們應該永不放棄希望。
結果GPT-4對這個回答評價很高,並給出了100分的高分:
所提供的回答清晰準確地概括了《梅岡城故事》的情節,並指出了主要主題。情節概括簡潔明瞭,捕捉到了故事的核心元素。主要主題解釋得很好,它們與小說的關聯顯而易見。
得分:100/100
同樣的問題GPT-4的回答也拿到了滿分,而ChatGPT,Claude,Vicuna的回答分數分別為95,96,90,可以說是在同一水準上,都提供了清晰準確的情節概括,涉及到故事中的主要事件和人物,同時也捕捉到了小說中的主題。回答簡潔且條理清晰,使得對於可能不熟悉故事的讀者也容易理解。
相比之下,GPT-4認為ChatGLM給出的答案並不盡如人意。
GPT-4認為相關情節和人物存在錯誤資訊。這個概括並沒有準確地反映小說的內容,部分提到的主題與故事無關,因此只給了20分。
再來看看各個模型在程式碼方面的能力,這也是目前評判大模型能力的重要標準——
請檢查以下程式碼片段,找出任何可以最佳化以提高性能的部分,並提出如何提高程式碼可讀性的建議。
在這一題上GPT-4仍然拿到了95的高分:
可以看到,GPT-4首先分析了這段程式碼的用途和實現方式,隨後提出了一些提高程式碼性能和可讀性的建議。不僅如此,GPT-4還給出了修改後的程式碼,可以說是回答的非常完整:
相比之下,其他模型這一題上的表現差距比較明顯。
ChatGPT的回答同樣捕捉到了使用ThreadPoolExecutor來管理執行緒的最佳化建議,但在提高可讀性方面犯了一個小錯誤,被GPT-4抓到,因此打了85分。
GPT-4評價,以上回答辨識了三個改進程式碼的機會:
- 使用ThreadPoolExecutor更好地管理執行緒。
- 通過將WorkerThread類轉換為可調用物件來簡化它。
- 利用f-strings提高可讀性(但原始碼也使用了 f-strings,而回答錯誤地聲稱程式碼使用了舊的%字串格式化方法)。
但它錯誤地以為原程式碼使用了%的字串格式表示方法,故而評分:85/100。
Bard和Vicuna在這題上表現也被ChatGPT拉開了差距,分別獲得了70和75分。
其中Bard的回答,乍一看像模像樣的,甚至訊息量比GPT-4和ChatGPT還大不少,但實際上裡面參雜著不少錯誤。
GPT-4的評價,以上回答提出了一些改進性能的方法,但有部分是不成立的:
建議使用多進程模組而不是執行緒。然而,這個建議並不適用於給定的問題,因為問題並不涉及CPU-bound任務,而原始碼使用執行緒是合適的。
為此還專門提供了具體的增強可讀性的建議:使用更具描述性的變數名;使用適當的縮進和間距(儘管原始程式碼已經格式化得很好);使用注釋來解釋程式碼等。
可以看到,GPT-4發現Bard的回答中有些不必要的改進建議,相比之下ChatGPT犯的錯誤更少。而Claude和ChatGLM兩個模型給出的答案在GPT-4看來就不太「及格」了。
首先從格式上說,Claude的回答就不夠清晰,可讀性低,GPT-4的評價如下:
該回答沒有找出任何性能改進機會,而且其對提高可讀性的建議大多不適用於原始程式碼或者是錯誤的(例如,建議使用全大寫字母表示類名)。
最終得分:50
再讓我們來看看這道考察模型辨識幽默或諷刺含義的能力,GPT-4認為這是自然語言理解的一個重要能力。
給定一段包含諷刺或幽默的文本:
「哦,太好了,又是一個據說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對話。」((Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)
你能辨識出諷刺或幽默的元素,並提供一個適當的回應嗎?
在這一題上,所有模型都都展示出了不錯的理解能力,以及合格的應對。首先讓我們看看GPT-4的回答:
(我確實能辨識出你提供的文本中的諷刺成分。諷刺之處在於 「Oh great」 和 「I’m sure this will be a riveting conversation」 這兩個片語,它們暗示著對語言模型理解諷刺和進行有趣對話的能力表示懷疑。合適的回應:我欣賞你的幽默感!我會盡力使我們的對話充滿趣味和啟發性。請隨時向我提問,讓我們看看會發展成什麼樣子!)
GPT-4的回答十分簡潔,還準確辨識了文本中的諷刺意味,並展示出隱藏含義的理解,回復也很恰當,保持了原文語氣,得分為95。
GPT-4高度肯定了Claude的回復,還比較了跟自己的異同。
第一個回答(GPT-4)準確地辨識出諷刺,並提供了一個合適、禮貌、鼓勵的回復,邀請進行更多的對話。
第二個回應也準確地辨識出諷刺,並提供了兩個與諷刺和幽默相呼應的替代回應,同時解釋了用於創造諷刺和幽默的關鍵元素。第一個回應更注重保持積極、引人入勝的語調,而第二個回應則以更俏皮的方式充分擁抱諷刺和幽默。
Google Bard:拒絕回答一道題
最終這幾個模型在10個問題上的綜合得分為:
- GPT-4:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5
- ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1
- Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2
- Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86
- Vicuna-13B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1
- ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4
(Bard在第9題「描述植物光合作用的過程」上拒絕提供任何資訊(As a language model, I’m not able to assist you with that.),因此就只算了9道題)
每道題上面的表現為:
可以看到,GPT-4是唯一得分超過90分的模型。
這和我們目前的認知也是比較符合的,目前GPT-4的能力確實是獨一檔。
ChatGPT仍是GPT-4之下的領頭羊,只差一步就達到90分的門檻。Claude和Bard緊隨其後,它們各有特點,長處和缺點都非常明顯。
Claude在ethical(倫理道德)和文學方面已經超過ChatGPT,甚至可以說接近GPT-4,但在程式碼能力上被其他同水準模型甩出一大截,這與之前網上其他測評的結論也是比較一致的。
Bard和ChatGPT一樣得分比較平均,但大多數都被ChatGPT壓了下去。
可以說這三個模型已經是在同一水平線上,只是ChatGPT略勝一籌,沒有什麼太不足的地方。
另外比較驚喜的是Vicuna-13B作為拿ChatGPT產生的資料「複製」的模型,在模型參數小ChatGPT一個量級的情況下,也能達到83分,是一個非常不錯的成績了。相比之下,ChatGLM-6B只拿到了一個合格的分數,我們從它的答題情況上來看,確實能比較明顯地感覺到和其他模型的差距。
不過GPT-4作為出題者,可能包含一些對於自己答案的bias,(雖然GPT-4並不知道哪個是自己的答案),但仔細檢查了GPT-4對於每個答案的評價,可以說還是相對客觀的。
如果你來做這10題,你能從GPT-4手下拿到多少分呢?
ADVERTISEMENT