Google 推出 Gemma 4 12B 開源模型，16GB 記憶體筆電就能本地執行

Google 宣布推出全新開源模型 Gemma 4 12B，定位介於輕量級 E4B 與高階 26B Mixture of Experts（MoE）模型之間，主打在較低記憶體需求下提供接近大型模型的推理能力。官方表示，Gemma 4 12B 可在僅配備 16GB VRAM 或統一記憶體的筆電上本地執行，讓多模態 AI 與代理應用更容易部署到個人設備。

Google 指出，Gemma 系列累積下載量已突破 1.5 億次，而 Gemma 4 12B 則是家族中首款中型規模、原生支援音訊輸入的模型，同時具備視覺、語音與文字理解能力。

主打 16GB 筆電即可運行

相較於 Gemma 4 26B MoE 模型，Gemma 4 12B 在標準基準測試中的表現已相當接近，但整體記憶體需求不到一半。官方表示，模型可直接部署於搭載獨立 GPU 或統一記憶體架構的消費級筆電上運行，讓開發者無須仰賴雲端資源，也能體驗多模態 AI 與代理工作流程。

此外，Gemma 4 12B 內建 Multi-Token Prediction（MTP）技術，可一次預測多個 Token，以降低推論延遲並提升執行效率。

採用全新無編碼器架構

Gemma 4 12B 最大特色之一，在於採用統一式（Unified）且無編碼器（Encoder-Free）的多模態架構。

傳統多模態模型通常會透過獨立的視覺編碼器與音訊編碼器，先將影像與聲音轉換為模型可理解的格式，再交由大型語言模型處理。然而這種設計往往會增加記憶體占用與延遲。

Gemma 4 12B 則直接將視覺與音訊資料送入大型語言模型主體處理：

影像處理：以輕量化嵌入模組取代傳統視覺編碼器，透過單次矩陣運算將影像資訊映射至模型空間。
音訊處理：移除獨立音訊編碼器，直接將原始音訊訊號轉換為與文字 Token 相同的表示空間。

Google 表示，這種架構可有效降低多模態推論延遲，同時減少記憶體占用，提升本地執行效率。

首款原生支援音訊的中型 Gemma 模型

過去 Gemma 系列雖已具備音訊能力，但僅限於 E2B、E4B 等較小型邊緣運算模型。

Gemma 4 12B 則成為系列中首款原生支援音訊輸入的中型模型，可直接處理語音內容，執行語音辨識（ASR）、逐字稿整理、翻譯、說話者辨識（Diarization）以及影片理解等任務。

官方展示中，Gemma 4 12B 可完全離線執行語音轉文字、格式整理與多語翻譯，不需連接雲端服務。

支援代理應用與本地 AI 開發

Google 表示，Gemma 4 12B 的推理能力已接近 26B 模型，可支援多步驟推理、程式開發、影片分析與代理工作流程。

官方示範中，Gemma 4 12B 透過 OpenCode 與 llama.cpp 建立一套影像處理應用程式，而該應用本身同樣由 Gemma 4 12B 提供 AI 能力。此外，模型也能分析長達 5 分鐘、包含超過 300 張畫面的影片內容，同時理解影像與音訊資訊。

推出 macOS 本地 AI 應用

配合 Gemma 4 12B 發表，Google 也同步推出全新 macOS 桌面應用。其中 Google AI Edge Gallery 將從行動平台擴展至桌面環境，可直接在 Apple Silicon 裝置上離線執行 Gemma 4 12B，並支援本地 Python 程式執行與科學圖表繪製。另一款 Google AI Edge Eloquent 則新增 Gemma 4 12B 支援，可提供本地語音互動與語音編輯功能。

Google 同時推出 LiteRT-LM，可將 Gemma 4 12B 作為相容 OpenAI API 的本地伺服器執行，方便整合 Continue、Aider、OpenCode 等開發工具，打造完全離線的 AI 工作環境。

目前 Gemma 4 12B 已透過 Apache 2.0 授權開放下載，開發者可透過 Hugging Face、Kaggle、Ollama、LM Studio 與 Hugging Face Transformers 等工具部署與微調模型。