DiffusionGemma：文本生成速度提升4倍

Ctrl+D 收藏本站再次访问不迷路 ~

📰 来源：DeepMind　|　📅 翻译日期：2026年6月11日
🔗 原文：查看原文
🤖 翻译：DeepSeek AI · 仅供参考

模型发布

今天，我们推出了 DiffusionGemma，一款探索文本扩散的实验性开源模型，这是一种极快的文本生成方法。该模型以 Apache 2.0 许可证发布，是一个 26B 参数的混合专家（MoE）模型，超越了传统自回归大语言模型（LLM）的逐个 token 顺序处理方式。它能够同时生成整段文本，在 GPU 上实现最高 4 倍的文本生成速度。

技术基础与目标用户

DiffusionGemma 基于我们业界领先的 Gemma 4 系列（每参数智能水平）和前沿的 Gemini 扩散研究成果，集成了一个旨在最大化生成速度的新型扩散头。虽然自回归的 Gemma 4 模型仍是高质量生产输出的标准，但 DiffusionGemma 专为探索速度关键、交互式本地工作流的研究人员和开发者设计，例如内联编辑、快速迭代以及生成非线性文本结构。

为开发者解锁新价值

开发实时交互式 AI 应用的开发者常常面临本地推理的延迟瓶颈。DiffusionGemma 直接应对这些挑战，但也有一些关键权衡：

极速推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma 在专用 GPU 上实现了高达 4 倍的 token 输出速度。（单块 NVIDIA H100 上超过 1000 tokens/s，NVIDIA GeForce RTX 5090 上超过 700 tokens/s）
硬件门槛低：作为一个 26B 总参数的 MoE 模型，推理时仅激活 3.8B 参数，量化后可在高端消费级 GPU 的 18GB VRAM 限制内轻松运行。
双向注意力：每次前向传递并行生成 256 个 token，每个 token 都能关注所有其他 token。这为非线性领域（如内联编辑、代码填充、氨基酸序列或数学图）提供了显著优势。
智能自我修正：模型迭代改进自身输出，能够一次性评估整个文本块，实时修正错误。
实验性质与生产建议：由于优先考虑速度和并行布局生成，DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于追求最高质量的应用，我们建议部署标准 Gemma 4。

微调提升性能

通过微调，可以提升 DiffusionGemma 在特定任务上的表现。在下例中，Unsloth 微调了 DiffusionGemma 来玩数独——这是自回归模型难以处理的任务，因为每个 token 都依赖于未来的 token。DiffusionGemma 的双向注意力使这一任务变得简单得多。

微调后的 DiffusionGemma 解决数独示例。

为什么对文本使用扩散？

虽然 AI 研究社区多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍是一个挑战。DiffusionGemma 通过改变模型使用硬件的方式改变了这一现状。

传统模型的权衡
大多数语言模型像打字机一样，从左到右逐个生成 token。在云端，这种模式效率较高，因为服务器可以将数千个用户请求批量处理，共享硬件负载。但在本地单用户运行时，逐词生成过程会导致你的专用 GPU 或 TPU 利用率不足——大部分时间都在等待下一个“按键”。

DiffusionGemma 的革命性
DiffusionGemma 扭转了这种低效。它不是顺序预测单词，而是同时草拟整个 256 token 的段落。通过让计算机处理器一次性处理更大块的任务，DiffusionGemma 充分发挥了硬件的潜力。它将模型推理从单台顺序打字机升级为一台巨型印刷机，一次性地印出整个文本块。

由 Hugging Face 提供的 DiffusionGemma 文本到 3D SVG 演示。逐步生成展示。

这意味着 DiffusionGemma 的加速是为本地和低并发推理设计的。在高 QPS 的云端服务中，自回归模型可以通过批量部署来高效利用计算资源，因此 DiffusionGemma 的并行解码带来的收益递减，甚至可能导致更高的服务成本。其吞吐量优势在单加速器的低到中等批次规模时最强。

文本扩散的工作原理

类似于 AI 图像生成器从视觉噪声开始并迭代优化为清晰图片，DiffusionGemma 将其应用于文本：

画布：模型从随机占位 token 的画布开始。
迭代细化：模型多次迭代，锁定正确 token，并利用它们作为上下文线索来优化其余部分。
最终润色：文本收敛为连贯输出。

📌 *本文由 DeepSeek AI 自动翻译排版，如有不准确之处欢迎指正* 🏠 [返回首页](https://www.suiyuanlu.cn) · 📖 [查看原文](https://deepmind.google/blog/diffusiongemma-4x-faster-text-generation/)

文章版权归作者所有，未经允许请勿转载。

THE END

代码海·开源精选