挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

ADVERTISEMENT

週四,美國 AI 創業公司 Inflection AI 正式發表新一代大語言模型 Inflection-2.5。 

據介紹,Inflection-2.5 將強大的 LLM 能力與 Inflection 象徵性的「同理心微調」結合在一起,兼具高情商與高智商,可連網獲取事實資訊,其性能可與 GPT-4、Gemini 等領先大模型相媲美。 

Inflection-2.5 現已向所有 Pi 使用者開放,在 PC 端、iOS 和Android App 上均可以免費使用。 

連結:https://pi.ai/talk

值得注意的是,Inflection-2.5 實現了接近 GPT-4 的性能,而訓練過程卻僅使用 GPT-4 40% 的算力。 

Inflection AI 表示,新一代大模型在編碼和數學等智商領域取得了特別的進步。這轉化為對關鍵行業基準的具體改進,確保 Pi 始終處於技術尖端。Pi 現在還融入了世界一流的即時網路搜尋功能,以確保使用者獲得高品質的突發新聞和最新資訊。 

Inflection-2.5 vs GPT-4 

Inflection-1 訓練使用的 FLOP 約為 GPT-4 的 4%,在各種「IQ 導向」型任務中,其平均性能約為 GPT-4 水準的 72%。現在,Inflection-2.5 儘管只使用 GPT-4 40% 的 FLOP 來進行訓練,但其平均性能卻達到了 GPT-4 的 94% 以上。如下圖所示,Inflection-2.5 的性能取得了全面的顯著提升,其中 STEM 領域知識的改進最大。 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

Inflection-2.5 在兩項不同 STEM 考試 —— 匈牙利數學考試、物理學研究生入學考試(GRE)—— 的成績如下: 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

如下表所示,該研究還在 MMLU 基準、GPQA Diamond 基準上評估了 Inflection-2.5。MMLU 基準涵蓋 STEM、人文、社會科學等領域的 57 個學科,能夠有效地測試 LLM 的綜合知識能力,而 GPQA Diamond 基準是一個極其困難的專家級基準。 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

在 BIG-Bench-Hard 基準上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,並且可與 GPT-4 相媲美。BIG-Bench-Hard 基準主要涵蓋大型語言模型難以解決的問題。 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

該研究還在 MT-Bench 基準上進行了評估。然而,研究團隊意識到該基準在推理、數學和編碼類別中有很大一部分(近 25%)的樣本示例具有不正確的參考解決方案或前提有缺陷。因此,該研究更正了這些示例,並再次進行評估實驗,結果如下表所示: 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

在 GSM8k 和 MATH 基準上的評估結果表明,Inflection-2.5 在數學和編碼能力方面比 Inflection-1 有顯著改進: 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

為了進一步測試 Inflection-2.5 的編碼能力,該研究在 MBPP+ 和 HumanEval+ 兩個編碼基準上進行了評估實驗,結果如下表所示: 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

研究團隊在 HellaSwag 和 ARC-C、以及各種模型常識和科學基準上評估了 Inflection-2.5。從下圖結果來看,Inflection-2.5 在這些基準上實現了強勁性能。 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

此外,以上所有評估都是使用現在支援 Pi 的模型完成的。但也需要注意,由於網路檢索(以上基準沒有使用網路檢索)、few-shot 提示的結構以及其他生產方面的影響,使用者體驗可能略有差異。 

簡而言之,Inflection-2.5 保持了 Pi 獨特、平易近人的個性和極高的安全標準,成為了一個更全面的有用模型。

最近一段時間,大語言模型的技術競爭進入了白熱化階段,在眾多科技公司中,Mistral AI(Mistral  Large)、Anthropic(Claude 3)脫穎而出,提出的新技術實現了與 GPT-4、Gemini Ultra 接近的能力。剛出現的 Inflection-2.5,似乎也要加入第一梯隊的行列。 

作為矽谷明星創業公司,Inflection AI 的來頭不小,它成立與 2022 年,三位聯合創始人分別是原 DeepMind 聯合創始人 Mustafa Suleyman、Linkedln 聯合創始人 Reid Hoffman,還有前 DeepMind 首席科學家 Karen Simonyan。 

挑戰OpenAI的新一代大語言模型 Inflection-2.5免費上線,性能接近GPT-4卻僅使用GPT-4 40%算力

去年 6 月,Inflection AI 宣佈獲得 13 億美元融資,由微軟、NVIDIA以及 Reid Hoffman、比爾·蓋茲、Google前 CEO艾瑞克·施密特領投。目前,Inflection AI 已成為全球第四大生成式 AI 創業公司。

資料來源:

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則