FB 建議貼文

選取貼文複製成功(包含文章連結)!

Google 推出首款 Gemini Embedding 2 多模態嵌入模型,AI 理解力再進化

Google 推出首款 Gemini Embedding 2 多模態嵌入模型,AI 理解力再進化

隨著人工智慧技術的演進,如何讓電腦理解人類世界中複雜的影音與文字資訊,一直是開發者努力的目標。Google 近日正式發布了最新的 Gemini Embedding 2 模型,這是 Google 首款「原生多模態」嵌入模型,旨在將不同類型的資料轉化為 AI 能理解的數值表示,讓電腦在處理文字、圖片、影音與文件時,能具備更深層的關聯理解能力。

什麼是「嵌入(Embedding)」?

簡單來說,嵌入技術就像是將資料轉換成 AI 能聽懂的「座標」。當我們搜尋或是分析資料時,AI 會利用這些座標來判斷兩者之間的相似度。例如,當你搜尋一張「在雨中散步的狗」的照片時,模型能透過理解語意,從文字與影音庫中找到最貼切的結果,而不僅僅是進行關鍵字比對。

打破隔閡,多媒體整合的新嘗試

過去,AI 模型大多專注於處理單一類型的資料(例如僅處理文字,或僅處理圖像)。Gemini Embedding 2 的突破在於它將這些功能整合在同一個架構中,能同時處理:

  • 文字:支援最高 8,192 個標記(tokens)的上下文。
  • 影像:單次請求可處理最多 6 張圖片。
  • 影音:可直接分析長達 120 秒的影片(MP4 與 MOV 格式)。
  • 音訊:不需經過轉錄成文字的步驟,能直接理解音訊內容。
  • 文件:直接支援最多 6 頁的 PDF 檔案。

更重要的是,該模型能夠處理「交錯輸入」,意即開發者可以在同一個請求中同時放入圖片與文字,讓模型能更精準地掌握這些媒材之間複雜的關聯性。

Google 推出首款 Gemini Embedding 2 多模態嵌入模型,AI 理解力再進化

效能與彈性的兼顧

為了讓開發者能在運算效能與儲存成本之間取得平衡,Gemini Embedding 2 採用了「Matryoshka 表徵學習」技術。這允許開發者靈活調整輸出的維度(預設為 3072 維,亦可縮減至 1536 或 768 維),在維持一定準確度的前提下,大幅優化運算成本。

這項技術目前已正式進入公開預覽階段,企業與開發者可以透過 Google 的 Gemini API 或 Vertex AI 平台開始進行串接。

資料來源:Google

ycr
作者

PC home 雜誌、T 客邦編輯,也負責 T 客邦影新聞 YouTube 頻道影音製作。關注 AI 相關應用、產業趨勢等消息,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則