Google 宣布推出全新開源模型 Gemma 4 12B,定位介於輕量級 E4B 與高階 26B Mixture of Experts(MoE)模型之間,主打在較低記憶體需求下提供接近大型模型的推理能力。官方表示,Gemma 4 12B 可在僅配備 16GB VRAM 或統一記憶體的筆電上本地執行,讓多模態 AI 與代理應用更容易部署到個人設備。
Google 指出,Gemma 系列累積下載量已突破 1.5 億次,而 Gemma 4 12B 則是家族中首款中型規模、原生支援音訊輸入的模型,同時具備視覺、語音與文字理解能力。
主打 16GB 筆電即可運行
相較於 Gemma 4 26B MoE 模型,Gemma 4 12B 在標準基準測試中的表現已相當接近,但整體記憶體需求不到一半。官方表示,模型可直接部署於搭載獨立 GPU 或統一記憶體架構的消費級筆電上運行,讓開發者無須仰賴雲端資源,也能體驗多模態 AI 與代理工作流程。
此外,Gemma 4 12B 內建 Multi-Token Prediction(MTP)技術,可一次預測多個 Token,以降低推論延遲並提升執行效率。
採用全新無編碼器架構
Gemma 4 12B 最大特色之一,在於採用統一式(Unified)且無編碼器(Encoder-Free)的多模態架構。
傳統多模態模型通常會透過獨立的視覺編碼器與音訊編碼器,先將影像與聲音轉換為模型可理解的格式,再交由大型語言模型處理。然而這種設計往往會增加記憶體占用與延遲。

Gemma 4 12B 則直接將視覺與音訊資料送入大型語言模型主體處理:
- 影像處理:以輕量化嵌入模組取代傳統視覺編碼器,透過單次矩陣運算將影像資訊映射至模型空間。
- 音訊處理:移除獨立音訊編碼器,直接將原始音訊訊號轉換為與文字 Token 相同的表示空間。
Google 表示,這種架構可有效降低多模態推論延遲,同時減少記憶體占用,提升本地執行效率。
首款原生支援音訊的中型 Gemma 模型
過去 Gemma 系列雖已具備音訊能力,但僅限於 E2B、E4B 等較小型邊緣運算模型。
Gemma 4 12B 則成為系列中首款原生支援音訊輸入的中型模型,可直接處理語音內容,執行語音辨識(ASR)、逐字稿整理、翻譯、說話者辨識(Diarization)以及影片理解等任務。
官方展示中,Gemma 4 12B 可完全離線執行語音轉文字、格式整理與多語翻譯,不需連接雲端服務。
支援代理應用與本地 AI 開發
Google 表示,Gemma 4 12B 的推理能力已接近 26B 模型,可支援多步驟推理、程式開發、影片分析與代理工作流程。

官方示範中,Gemma 4 12B 透過 OpenCode 與 llama.cpp 建立一套影像處理應用程式,而該應用本身同樣由 Gemma 4 12B 提供 AI 能力。此外,模型也能分析長達 5 分鐘、包含超過 300 張畫面的影片內容,同時理解影像與音訊資訊。
推出 macOS 本地 AI 應用
配合 Gemma 4 12B 發表,Google 也同步推出全新 macOS 桌面應用。其中 Google AI Edge Gallery 將從行動平台擴展至桌面環境,可直接在 Apple Silicon 裝置上離線執行 Gemma 4 12B,並支援本地 Python 程式執行與科學圖表繪製。另一款 Google AI Edge Eloquent 則新增 Gemma 4 12B 支援,可提供本地語音互動與語音編輯功能。
Google 同時推出 LiteRT-LM,可將 Gemma 4 12B 作為相容 OpenAI API 的本地伺服器執行,方便整合 Continue、Aider、OpenCode 等開發工具,打造完全離線的 AI 工作環境。
目前 Gemma 4 12B 已透過 Apache 2.0 授權開放下載,開發者可透過 Hugging Face、Kaggle、Ollama、LM Studio 與 Hugging Face Transformers 等工具部署與微調模型。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!