ChatGPT對手再+1,Meta 宣布 AI 語言模型 LLaMA 體積更小性能更好

ChatGPT對手再+1,Meta 宣布 AI 語言模型 LLaMA 體積更小性能更好

Meta 宣佈,它將推出一種針對研究社區的基於人工智慧 (AI) 的新型大型語言模型,與微軟、Google等一眾受到 ChatGPT 刺激的公司一同加入人工智慧競賽。

Meta 的 LLaMA 是「大型語言模型 Meta AI」 (Large Language Model Meta AI)的縮寫,它可以在非商業許可下提供給政府、社區和學術界的研究人員和實體工作者。

該公司將提供底層程式碼供使用者使用,因此使用者可以自行調整模型,並將其用於與研究相關的用例。Meta 表示,該模型對算力的要求要比其它廠商的同級產品「低得多」。

據介紹,該公司正在開發多種規格(7B、13B、33B 和 65B)的 LLaMA。其中,LLaMA 65B 和 LLaMA 33B 在 1.4 兆個 tokens 上訓練,而最小的模型 LLaMA 7B 也經過了 1 兆個 tokens 的訓練。

據他們表示,效果比GPT還好,更重要的是所有規格均開源,甚至13B的LLaMA在單個GPU上就能運行。

發佈時間點引人注意

Meta的發布時間點也很獨特,因為他們並未在 ChatGPT爆紅的第一時間之後發聲。往往讓人認為Meta錯過的AI的話題。

不過,微軟雖然因為推出Bing聊天而受到矚目,但之後的Google聊天機器人也因為給了錯誤的答案而股價暴跌,Meta的謹慎可能也不是件壞事。

與其他大型語言模型一樣,LLaMA 的工作原理是將一系列單詞作為「輸入」並預測下一個單詞以遞迴生成文字。為了這套模型,Meta 從使用人數最多的 20 種語言中選擇文字進行訓練,重點是拉丁語和西里爾字母。

當然,與其他模型一樣,LLaMA 也面臨著偏見、有毒評論和幻覺的挑戰,Meta 還需要做更多的研究來解決這類語言模型中的不足。

Meta 表示,LLaMA 作為一個基礎模型被設計成多功能的,可以應用於許多不同的用例,而不是為特定任務設計的微調模型。通過開源 LLaMA 的程式碼,其他研究人員可以更輕鬆地找到限制或消除這些問題的新方法。Meta 還在本文中提供了一組評估模型偏差和毒性的基準評估標準,以顯示模型的侷限性並支援研究人員在這一關鍵領域的進一步研究。

值得一提的是,Meta 在去年 5 月也曾推出過大型語言模型 OPT-175B。該項目同樣也是針對研究人員的,這構成了其聊天機器人 blenterbot 新一代的基礎。

後來,該公司還推出了一款名為Galactica 的模型,據稱它可以撰寫科學文章和解決數學問題,但其展示版本後來被下架,因為它生成的內容往往有給人「聽起來很權威」的印象。

IFENG
作者

鳳凰網(科技),集綜合資訊、視訊分發、原創內容製作、網路廣播、網路直播、媒體電商等多領域於一身,並於2011年在紐交所上市(紐交所代碼:FENG),成為全球首個從傳統媒體分拆上市的新媒體公司。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則