Google 推出 DiffusionGemma 實驗模型，文字生成速度最高快 4 倍

Google 宣布推出全新開放實驗模型 DiffusionGemma，主打以「文字擴散」技術加速文字生成。這款模型採 Apache 2.0 授權釋出，為 26B Mixture of Experts（MoE）架構，但推論時僅啟用 3.8B 參數，可在專用 GPU 上帶來最高 4 倍的生成速度。

不同於傳統大型語言模型逐字、逐 token 生成內容，DiffusionGemma 可一次並行產生整段文字區塊。Google 表示，該模型在單張 NVIDIA H100 GPU 上可達每秒超過 1,000 tokens，在 GeForce RTX 5090 上也可達每秒超過 700 tokens。

文字生成從逐字輸出改為整段並行

DiffusionGemma 建立在 Gemma 4 系列與 Gemini Diffusion 研究基礎之上，並加入全新的 diffusion head，以提升生成速度。其核心差異在於不採用傳統自回歸模型由左至右逐字生成的方式，而是一次處理 256 個 tokens，再透過多輪迭代逐步修正內容。

Google 形容，傳統模型像打字機，一次只能輸出一個字；DiffusionGemma 則更像印刷機，可同時處理一整段文字。這讓模型在本地或低併發推論場景中，更能充分利用 GPU 或 TPU 的運算能力。

雙向注意力提升非線性任務表現

DiffusionGemma 具備雙向注意力機制，讓每個 token 都能參照同一段文字中的其他內容，因此在程式碼補全、行內編輯、數學圖形、胺基酸序列，甚至數獨等需要前後文互相推理的任務上更具優勢。由於模型會先從隨機 placeholder tokens 組成的「文字畫布」開始，再經過多輪迭代逐步修正內容，因此也有機會更穩定地處理複雜 Markdown 格式，或近即時生成與渲染程式碼。

Google 表示，DiffusionGemma 主要面向研究人員與開發者，適合探索速度優先的互動式本地 AI 工作流程，例如即時文字編輯、快速內容生成、程式碼填補，以及非線性文字結構生成。不過 Google 也提醒，DiffusionGemma 目前仍屬實驗模型，整體輸出品質低於標準 Gemma 4。若應用需求以最高文字品質為主，Google 建議仍採用 Gemma 4；若更重視低延遲與即時互動，DiffusionGemma 則更適合嘗試。

量化後可在高階消費級 GPU 執行

DiffusionGemma 雖然是 26B MoE 模型，但推論時只啟用 3.8B 參數，量化後可在 18GB VRAM 以內的高階消費級 GPU 上運行。Google 也與 NVIDIA 合作進行最佳化，支援 GeForce RTX 5090、4090，以及 Hopper、Blackwell、DGX Spark、DGX Station、RTX PRO 等硬體環境。

目前 DiffusionGemma 權重已可在 Hugging Face 取得，開發者可透過 MLX、vLLM、Hugging Face Transformers 等工具部署，也能使用 Hackable Diffusion、Unsloth 或 NVIDIA NeMo 進行微調。Google 表示，llama.cpp 官方支援也即將推出。