Google 推出首款 Gemini Embedding 2 多模態嵌入模型，AI 理解力再進化 | T客邦

T客邦為提供您更多優質的內容，採用網站分析技術，若您點選「我同意」或繼續瀏覽本網站，即表示您同意我們的隱私權政策。

我同意

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

Google 推出首款 Gemini Embedding 2 多模態嵌入模型，AI 理解力再進化

隨著人工智慧技術的演進，如何讓電腦理解人類世界中複雜的影音與文字資訊，一直是開發者努力的目標。Google 近日正式發布了最新的 Gemini Embedding 2 模型，這是 Google 首款「原生多模態」嵌入模型，旨在將不同類型的資料轉化為 AI 能理解的數值表示，讓電腦在處理文字、圖片、影音與文件時，能具備更深層的關聯理解能力。

什麼是「嵌入（Embedding）」？

簡單來說，嵌入技術就像是將資料轉換成 AI 能聽懂的「座標」。當我們搜尋或是分析資料時，AI 會利用這些座標來判斷兩者之間的相似度。例如，當你搜尋一張「在雨中散步的狗」的照片時，模型能透過理解語意，從文字與影音庫中找到最貼切的結果，而不僅僅是進行關鍵字比對。

打破隔閡，多媒體整合的新嘗試

過去，AI 模型大多專注於處理單一類型的資料（例如僅處理文字，或僅處理圖像）。Gemini Embedding 2 的突破在於它將這些功能整合在同一個架構中，能同時處理：

文字：支援最高 8,192 個標記（tokens）的上下文。
影像：單次請求可處理最多 6 張圖片。
影音：可直接分析長達 120 秒的影片（MP4 與 MOV 格式）。
音訊：不需經過轉錄成文字的步驟，能直接理解音訊內容。
文件：直接支援最多 6 頁的 PDF 檔案。

更重要的是，該模型能夠處理「交錯輸入」，意即開發者可以在同一個請求中同時放入圖片與文字，讓模型能更精準地掌握這些媒材之間複雜的關聯性。

效能與彈性的兼顧

為了讓開發者能在運算效能與儲存成本之間取得平衡，Gemini Embedding 2 採用了「Matryoshka 表徵學習」技術。這允許開發者靈活調整輸出的維度（預設為 3072 維，亦可縮減至 1536 或 768 維），在維持一定準確度的前提下，大幅優化運算成本。

這項技術目前已正式進入公開預覽階段，企業與開發者可以透過 Google 的 Gemini API 或 Vertex AI 平台開始進行串接。

資料來源：Google

延伸閱讀：Google DeepMind Genie 3開放美國用戶使用！AI世界模型進化，24fps即時探索，未來遊戲就長這樣？
延伸閱讀：Google Veo 3.1 影片模型更新，提供更強的一致性、支援生成 4K 畫質
延伸閱讀：Google 高層開砲：大模型封裝應用與 AI 聚合平台沒有未來

#Google #人工智慧 #ai #多模態 #gemini embedding 2 #嵌入模型

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則