隨著人工智慧技術的演進,如何讓電腦理解人類世界中複雜的影音與文字資訊,一直是開發者努力的目標。Google 近日正式發布了最新的 Gemini Embedding 2 模型,這是 Google 首款「原生多模態」嵌入模型,旨在將不同類型的資料轉化為 AI 能理解的數值表示,讓電腦在處理文字、圖片、影音與文件時,能具備更深層的關聯理解能力。
什麼是「嵌入(Embedding)」?
簡單來說,嵌入技術就像是將資料轉換成 AI 能聽懂的「座標」。當我們搜尋或是分析資料時,AI 會利用這些座標來判斷兩者之間的相似度。例如,當你搜尋一張「在雨中散步的狗」的照片時,模型能透過理解語意,從文字與影音庫中找到最貼切的結果,而不僅僅是進行關鍵字比對。
打破隔閡,多媒體整合的新嘗試
過去,AI 模型大多專注於處理單一類型的資料(例如僅處理文字,或僅處理圖像)。Gemini Embedding 2 的突破在於它將這些功能整合在同一個架構中,能同時處理:
- 文字:支援最高 8,192 個標記(tokens)的上下文。
- 影像:單次請求可處理最多 6 張圖片。
- 影音:可直接分析長達 120 秒的影片(MP4 與 MOV 格式)。
- 音訊:不需經過轉錄成文字的步驟,能直接理解音訊內容。
- 文件:直接支援最多 6 頁的 PDF 檔案。
更重要的是,該模型能夠處理「交錯輸入」,意即開發者可以在同一個請求中同時放入圖片與文字,讓模型能更精準地掌握這些媒材之間複雜的關聯性。

效能與彈性的兼顧
為了讓開發者能在運算效能與儲存成本之間取得平衡,Gemini Embedding 2 採用了「Matryoshka 表徵學習」技術。這允許開發者靈活調整輸出的維度(預設為 3072 維,亦可縮減至 1536 或 768 維),在維持一定準確度的前提下,大幅優化運算成本。
這項技術目前已正式進入公開預覽階段,企業與開發者可以透過 Google 的 Gemini API 或 Vertex AI 平台開始進行串接。
資料來源:Google
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!