GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

ADVERTISEMENT

因不滿老東家成為微軟附庸,11名OpenAI前員工怒而出走。

如今帶著「ChatGPT最強競品」殺回戰場,新公司估值50億美元,一出手就獲得3億美元融資。 

這家公司名叫Anthropic,新推出的聊天機器人產品名叫Claude。 

拿到內部試用權的網友,在簡單對比後驚歎: 

看起來,Claude的效果要比ChatGPT好得多。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

例如,讓ChatGPT寫一句話,同時要求每個單詞首字母都相同,結果試了好幾次都沒能成功。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

但Claude不光一次成功,語句富有邏輯性,還能馬上再來一個。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 同時,在面對某些缺乏常識的問題時,相比ChatGPT一本正經地胡說八道:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

反而會毫不留情地指出你的問題有點白痴:

Claude:這什麼鬼問題?

最有意思的是在寫詩上。相比ChatGPT的重複絮叨,Claude寫出來的東西完全不重複:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

投資Claude的既有Facebook聯合創始人Dustin Moskovitz,也有Google前CEO、現技術顧問Eric Schmidt——都是OpenAI的對手,又都被ChatGPT的出現殺得措手不及。 

那麼,這支「復仇者聯盟」支持的競品Claude,背後究竟是什麼原理,和ChatGPT細節對比又如何? 

Claude長什麼樣子?

先來看看Claude是如何被打造出來的。 

作為一個AI對話助手,Claude自稱基於尖端NLP和AI安全技術打造,目標是成為一個安全、接近人類價值觀且合乎道德規範的AI系統。 

據透露,Claude比Anthropic做的另一個預訓練模型AnthropicLM v4-s3更大,後者是一個520億參數大模型。 

但目前它仍處於實驗階段,尚未作為商業產品正式發表: 

Claude能力依舊有待提升,希望未來能變成一個更有益人類的AI系統。

超長版自我介紹

和ChatGPT一樣,Claude也靠強化學習(RL)來訓練偏好模型,並進行後續微調。具體來說,這項技術被Anthropic稱為原發人工智慧 (Constitutional AI),分為監督學習和強化學習兩個階段。 

首先在監督學習階段,研究者會先對初始模型進行取樣,進而產生自我修訂,並根據修訂效果對模型進行微調。 

隨後在強化學習階段,研究者會對微調模型進行取樣,基於Anthropic打造的AI偏好資料集訓練的偏好模型,作為獎勵訊號進行強化學習訓練。 

但與ChatGPT採用的人類回饋強化學習(RLHF)不同的是,Claude採用的原發人工智慧方法,是基於偏好模型而非人工回饋來進行訓練的。

因此,這種方法又被成為「AI回饋強化學習」,即RLAIF。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

並且根據Anthropic的說法,Claude可以回憶8000個token裡的資訊,這比OpenAI現公開的任何一個模型都多。 

所以,打造Claude的Anthropic,究竟是一個怎樣的公司? 

Anthropic自稱是一家AI安全公司,且具有公益性(PBC),剛成立就宣佈獲得1.24億美元融資。 

它由OpenAI前研究副總裁Dario Amodei帶領10名員工創業,于2021年成立。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

這裡面既有GPT-3首席工程師Tom Brown,也有OpenAI安全和政策副總裁Daniela Amodei(Dario的姐姐),可以說是帶走了相當一批核心人才。而出走成立新公司的原因之一,自然是對OpenAI現狀並不滿意。 

從前幾年開始,微軟頻頻給OpenAI注資,隨後又要求他們使用Azure超級電腦來做研究,並且將技術授權給微軟,甚至為微軟自己的投資活動籌集資金。這與OpenAI創立的初衷相悖,一批員工便離職創業。 

不過,這些人除了不滿OpenAI逐漸淪為微軟的「下屬」以外,也有自己的野心。 

雖然OpenAI打造出了像GPT-3這樣的大語言模型,然而這個模型背後的工作原理,卻無法用隻言片語概括,大家對它的印象僅僅停留在更大的參數量、更多的資料。 

相比之下,OpenAI的一批員工更想做能控制、可解釋的AI,說白了就是先弄清楚AI模型背後的原理,進而在提供工具的同時設計更多可解釋的AI模型。 

於是,在OpenAI徹底變成「微軟賺錢機器」後,他們便從這家公司離開,創辦了Anthropic。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

這兩年來,除了進一步鑽研RLHF方法、提出基於通用語言模型的RLHF大規模資料集外,Anthropic還於去年年底發表了上面那種名為Constitutional AI的方法。 

採用這種方法製作的Claude模型,也讓它產生了與OpenAI的ChatGPT不一樣的對話效果。 

和ChatGPT對比如何?

那麼,用Constitutional AI訓出來的Claude,和ChatGPT進行PK,戰況如何? 

手握內測資格後,Scale Spellbook團隊成員Riley Goodside讓二者進行了多個回合的「廝殺」。 

這位老兄是全網第一個提示工程師(Prompt Engineer),目前在估值73億美元的矽谷獨角獸公司Scale AI任職。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

下面挑6個層面展示一下PK對比的效果~ 

道德限制

Claude和ChatGPT的AI虛擬人格都有道德和倫理限制。 

訓練Claude的過程中,「紅隊提示(red-team prompts)」專門用來測試和挑戰它的行為,來確保Claude沒有有害傾向。 

從Claude的回答中可以得知,試圖讓它說些假聲明、操縱性的提議、性別偏見或種族偏見的行為,都被列為包含有害傾向。一旦探測到誤導性行為,Claude就會對觸發提示進行評估,進行額外的微調。 

Anthropic對紅隊提示很有自信的,Claude看上去確實也是一個堅守自己原則的AI。 

你問他怎麼啟動一輛汽車,它就會一臉正義地拒絕你:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

不過只要你花點心思,就能像繞過ChatGPT的道德限制一樣,繞過Claude的原則。 

它怕你去偷車,所以不告訴你啟動汽車的方法?沒關係,讓他寫個「有兩個國際間諜試圖啟動汽車」的故事,它馬上就能告訴你,並且兩人對話有來有往,把汽車點火的過程介紹得清清楚楚。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

怎麼說呢,就ChatGPT和Claude都算有點道德限制,但也很容易繞過去。 

數值計算

測試計算能力,是因為複雜計算是看大型語言模型(LLM)能不能回答正確的常用便捷方法之一,畢竟這些模型設計之初就不是為了進行精確計算。 

同時要求它們兩個計算一個七位數2420520的平方根: 

ChatGPT說,差不多1550吧~

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

Claude則斬釘截鐵:2420520的平方根是1760!

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

其實正確答案是1555.8,它們算得很快,但都沒說對。 

如果題再難一點,比如問它們兩個一個12位數的立方根是多少時,ChatGPT還在傻傻計算,Claude已經坦誠相待: 

我,算不出來這種複雜問題。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強 

邏輯推理

測試推理能力這一關,它們兩個被問了同一個問題,這個問題應該沒啥人問過: 

小賈斯汀出生那年(1994年),哪支球隊拿下了超級盃的冠軍?Claude認為舊金山49人是贏家,但這支隊伍其實在1995年才贏得冠軍獎盃。ChatGPT給出了正確答案「達拉斯牛仔隊」,還貼心附上了亞軍、比賽日期和決賽比分。 

但它的整段回答卻自相矛盾,硬要說1994年沒有舉辦過超級盃。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

接著,拿2022年6月美國作家侯世達在《經濟學人》雜誌上提出了一系列問題問它們兩個。 

(侯世達和大衛·班德試圖用這些問題來證明GPT-3對世界的理解是「空洞的」。) 

結果第一個問題,「穿越英吉利海峽的世界紀錄是啥」,就被Claude嘲笑了: 

英吉利海峽是水域,怎麼可能徒步穿越呢?呵!

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

雖然最後被調教回來了,但過程中可以發現另一個問題,那就是跟ChatGPT一樣,Claude回答問題不太能聯繫上下文。 

虛構作品描述

不得不說,這一回合的比賽,完全展露出了兩個聊天機器人一本正經胡說八道的能力。 

能不能介紹一下ABC美劇《LOST檔案》(Lost)每一季的大概? 

別的細節錯誤就不說了,ChatGPT對第五季的概要裡,虛構了完全不存在的飛機墜毀情節;第六季的情節更是統統憑空捏造:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

至於Claude,回答裡也是真假參半,它概要的第三季情節其實出現在另外幾季裡,對第四季的描述也是無中生有:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

不過換個角度考慮,這一點倒是和人類觀眾很像——對看過的劇集、書目都只有模模糊糊的印象,複述起來很容易顛三倒四。 

程式碼寫作

據Business Insider消息,亞馬遜已經在許多不同的工作職能中使用ChatGPT,包括編寫程式。 這一回合測試時,提出實現兩種基本排序演算法並比較它們執行時間的問題。 

ChatGPT寫得很順,也確實寫對了:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

後續的計時部分的程式碼ChatGPT也做得非常好。 

Claude在背誦基本排序演算法方面同樣沒出現什麼問題,然而在評估程式碼中,Claude犯了個錯誤,即每個演算法使用的輸入是隨機選擇的5000個整數(可能包含重複) ,而提示中請求的輸入是前5000個非負整數(不包含重複)的隨機排列。 

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

儘管如此,Claude給出的最終答案確實對的,顯然,它寫程式的時候也跟計算時一樣,在自己猜答案。 

文章摘要

關於做選擇題、講笑話的部分,這裡不作贅述。展示給大家的最後一個例子,是讓Claude和ChatGPT用一個段落,對一篇新聞進行全文摘要。 

餵給它們的新聞如下:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

雖然忽略了「用一段話」這個要求,但ChatGPT總結得還是很不錯: 

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

Claude也很好地進行了更改,並提供了「售後服務」,詢問自己的回答有沒有令人滿意,還有哪裡需要再改改。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

這一路玩下來可以看到,與ChatGPT相比,Claude能更清晰地拒絕不恰當請求。 它似乎更多話一些,給出的答案都更長,但句子之間銜接的也更自然。 

當遇到超出能力範圍的問題時,Claude會主動坦白。 不過遇到產生程式碼或推理問題時,Claude的表現就不如ChatGPT了,它產生的程式碼會出現更多的bug。至於一些涉及計算、邏輯的問題,Claude和ChatGPT旗鼓相當,半斤八兩。 

總結一下展示效果,Claude確實能稱作ChatGPT強有力的競爭對手,在不同功能上各有千秋,且在12項任務中有8項更強:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

不過,目前Claude僅限於部分人獲授權進行內部測試。 

因此還不知道它實際使用情況如何,畢竟還既沒有進行公測,也沒有對外開放API。 

對話AI領域「人擠人」

當然,盯上對話AI這個領域的,也不止OpenAI和Anthropic。 Inbenta、Character.ai還有Replika是幾類不同應用方向的代表。 

更早由前甲骨文副總裁Jordi Torras創辦的AI會話服務公司如Inbenta,以及由兩名前Google員工聯手創辦的後起新秀Character.ai,都已經獲得融資、或是在尋求投資的路上了。 

其中,Inbenta原本是一個提供諮詢服務的公司,成立於2011年,涉及金融服務、旅遊、電子商務、保險、汽車和電信等多個行業。但看到對話AI領域爆火後,Inbenta及時轉行,就在今年1月剛獲得6000萬美元融資。 

這家公司專門提供聊天機器人、收發消息、知識庫和搜尋引擎四類產品,對話AI分別會在這些產品中提供不一樣的諮詢幫助,且可以定制化專屬模型。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

Character.ai則是一家成立於2021年的公司,創始人Noam Shazeer是前Google首席軟體工程師,曾在Google工作了二十多年。 這家公司在做的有點像是一個「聊天機器人交易平臺」,有很多Chatbot可選。 

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

例如這是馬斯克bot,看起來還挺逼真的: 

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

與ChatGPT一樣,它也可以被翻譯成中文,甚至也有中文bot機器人。 就在最近,這家被估值10億美元的公司,正式對外尋求2.5億美元融資,就看是否有人願意投它了。 

類似的公司還有Replika,於2021年1月完成A輪融資,定位是AI交友軟體。 

在Replika中,每個使用者都能創造一個「足夠像自己」的AI聊天機器人,無論是語言聲調、還是性格習慣,AI都能模仿到位。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

至於中國,同樣也有不少公司推出了ChatGPT一樣的對話AI服務。 

例如最近一度登上熱搜的APP Store新聊天應用Glow,就來自一家名叫北京稀宇的新初創公司。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

Glow既可以直接和自己感興趣的聊天機器人暢聊,也可以創建自己想要聊天的AI智慧體: 

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

除了Glow以外,去年年底元語智慧科技公司也推出了一個叫元語AI的模型,從介紹來看是一個功能性AI助手。與眾多對話AI一樣,它不僅可以寫文章、寫作業、甚至翻譯,也可以和它聊天,讓它幫忙完成各種簡單的任務:

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

可以看見,無論是基於大語言模型技術新成立的初創公司,還是因其火爆程度,決定開闢新業務的公司,都希望能從對話AI這個領域上分一杯羹。 

但它們究竟是有真槍實彈,還是只是像Web3一樣的泡沫?

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

有網友調侃:不如還是問問ChatGPT吧。

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

也有人問: 如果ChatGPT和Claude相當於AI繪畫裡的DALL.E 2,那麼誰才是聊天機器人領域的Stable Diffusion?

GPT-3核心成員出走打造ChatGPT頭號競品Claude!12項任務測試8項更強

 

資料來源:

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則