DiffusionGemma：文本生成速度提升4倍

Ctrl+D 收藏本站再次访问不迷路 ~

📰 来源：DeepMind　|　📅 翻译日期：2026年6月13日
🔗 原文：查看原文
🤖 翻译：DeepSeek AI · 仅供参考

全新实验模型引领速度革命

DiffusionGemma 是谷歌最新推出的实验性开源模型，采用 文本扩散技术，将文本生成速度提升至传统模型的 4倍。该模型基于 Apache 2.0 许可证发布，是一个 26B 参数的专家混合（MoE）模型，区别于传统自回归大语言模型（LLM）逐 token 的顺序生成方式，它能 同时生成整个文本块，在专用 GPU 上实现 4 倍 的推理提速。

核心技术：扩散机制与双向注意力

DiffusionGemma 融合了 Gemma 4 系列 的行业领先智能密度和 Gemini Diffusion 研究成果，配备专门设计的 扩散头 以最大化生成速度。其关键特性包括：

闪电级推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma 在专用 GPU 上实现了 4 倍 的 token 输出速度（单块 NVIDIA H100 上达到 1000+ tokens/s，NVIDIA GeForce RTX 5090 上达到 700+ tokens/s）。
低硬件门槛：作为 26B 总参数的 MoE 模型，推理时仅激活 3.8B 参数，量化后可在高端消费级 GPU 的 18GB 显存限制内运行。
双向注意力：每次前向传播并行生成 256 个 token，允许每个 token 关注所有其他 token，在 行内编辑、代码补全、氨基酸序列、数学图 等非线性领域具有显著优势。
智能自校正：模型迭代优化自身输出，一次性评估整个文本块，实时修正错误。

实验性状态与生产建议：由于优先考虑速度和并行布局生成，DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于追求最高质量的应用，建议部署标准 Gemma 4。

微调示例：Sudoku 任务

通过微调可提升 DiffusionGemma 在特定任务上的表现。例如，Unsloth 团队微调后的 DiffusionGemma 能够解决 Sudoku 谜题——这是个自回归模型难以应对的任务，因为每个 token 依赖于未来的 token，而 DiffusionGemma 的双向注意力使其轻松胜任。

为什么选择文本扩散？

传统语言模型像一台 打字机，从左到右逐词生成。在云端，批处理多用户请求可以充分利用硬件；但本地单用户运行时，逐词生成导致 GPU 或 TPU 利用率低下，大部分时间在等待下一个“按键”。

DiffusionGemma 扭转了这一低效局面：不再顺序预测单词，而是 一次性起草整个 256-token 段落。这相当于将模型推理从单打字机升级为 大型印刷机，同时印出整个文本块。

适用场景：DiffusionGemma 的加速专为本地和低并发推理设计。在高 QPS 云服务中，自回归模型可通过部署饱和计算，扩散模型并行解码的收益递减，甚至可能增加服务成本。在单加速器的低到中等批量下，吞吐量优势最为显著。

文本扩散的工作原理

类似于 AI 图像生成器从视觉噪音开始、逐步迭代为清晰图像，DiffusionGemma 将这一过程应用于文本：

画布：模型从随机占位符 token 的“画布”开始。
迭代优化：模型多次传递，锁定正确 token，并以其为上下文线索优化剩余部分。
最终打磨：文本收敛为高质量输出。

由于模型在生成过程中能同时处理整个段落，它解锁了新的行为模式，例如完美闭合复杂 Markdown 格式，或近实时地生成和渲染代码。

立即开始

下载权重：获取实验模型权重（Apache 2.0 许可），开始探索速度关键的交互式本地工作流。
更多资源：查看官方博客和 Hugging Face Demo。

📌 *本文由 DeepSeek AI 自动翻译排版，如有不准确之处欢迎指正* 🏠 [返回首页](https://www.suiyuanlu.cn) · 📖 [查看原文](https://deepmind.google/blog/diffusiongemma-4x-faster-text-generation/)

文章版权归作者所有，未经允许请勿转载。

THE END

代码海·开源精选