📰 来源:DeepMind | 📅 翻译日期:2026年6月11日
🔗 原文:查看原文
🤖 翻译:DeepSeek AI · 仅供参考
模型发布
今天,我们推出了 DiffusionGemma,一款探索文本扩散的实验性开源模型,这是一种极快的文本生成方法。该模型以 Apache 2.0 许可证发布,是一个 26B 参数的混合专家(MoE)模型,超越了传统自回归大语言模型(LLM)的逐个 token 顺序处理方式。它能够同时生成整段文本,在 GPU 上实现最高 4 倍的文本生成速度。
技术基础与目标用户
DiffusionGemma 基于我们业界领先的 Gemma 4 系列(每参数智能水平)和前沿的 Gemini 扩散研究成果,集成了一个旨在最大化生成速度的新型扩散头。虽然自回归的 Gemma 4 模型仍是高质量生产输出的标准,但 DiffusionGemma 专为探索速度关键、交互式本地工作流的研究人员和开发者设计,例如内联编辑、快速迭代以及生成非线性文本结构。
为开发者解锁新价值
开发实时交互式 AI 应用的开发者常常面临本地推理的延迟瓶颈。DiffusionGemma 直接应对这些挑战,但也有一些关键权衡:
- 极速推理:通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma 在专用 GPU 上实现了高达 4 倍的 token 输出速度。(单块 NVIDIA H100 上超过
1000 tokens/s,NVIDIA GeForce RTX 5090 上超过700 tokens/s) - 硬件门槛低:作为一个
26B总参数的 MoE 模型,推理时仅激活3.8B参数,量化后可在高端消费级 GPU 的18GBVRAM 限制内轻松运行。 - 双向注意力:每次前向传递并行生成
256个 token,每个 token 都能关注所有其他 token。这为非线性领域(如内联编辑、代码填充、氨基酸序列或数学图)提供了显著优势。 - 智能自我修正:模型迭代改进自身输出,能够一次性评估整个文本块,实时修正错误。
- 实验性质与生产建议:由于优先考虑速度和并行布局生成,DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于追求最高质量的应用,我们建议部署标准 Gemma 4。
微调提升性能
通过微调,可以提升 DiffusionGemma 在特定任务上的表现。在下例中,Unsloth 微调了 DiffusionGemma 来玩数独——这是自回归模型难以处理的任务,因为每个 token 都依赖于未来的 token。DiffusionGemma 的双向注意力使这一任务变得简单得多。
微调后的 DiffusionGemma 解决数独示例。
为什么对文本使用扩散?
虽然 AI 研究社区多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍是一个挑战。DiffusionGemma 通过改变模型使用硬件的方式改变了这一现状。
传统模型的权衡
大多数语言模型像打字机一样,从左到右逐个生成 token。在云端,这种模式效率较高,因为服务器可以将数千个用户请求批量处理,共享硬件负载。但在本地单用户运行时,逐词生成过程会导致你的专用 GPU 或 TPU 利用率不足——大部分时间都在等待下一个“按键”。
DiffusionGemma 的革命性
DiffusionGemma 扭转了这种低效。它不是顺序预测单词,而是同时草拟整个 256 token 的段落。通过让计算机处理器一次性处理更大块的任务,DiffusionGemma 充分发挥了硬件的潜力。它将模型推理从单台顺序打字机升级为一台巨型印刷机,一次性地印出整个文本块。
由 Hugging Face 提供的 DiffusionGemma 文本到 3D SVG 演示。逐步生成展示。
这意味着 DiffusionGemma 的加速是为本地和低并发推理设计的。在高 QPS 的云端服务中,自回归模型可以通过批量部署来高效利用计算资源,因此 DiffusionGemma 的并行解码带来的收益递减,甚至可能导致更高的服务成本。其吞吐量优势在单加速器的低到中等批次规模时最强。
文本扩散的工作原理
类似于 AI 图像生成器从视觉噪声开始并迭代优化为清晰图片,DiffusionGemma 将其应用于文本:
- 画布:模型从随机占位 token 的画布开始。
- 迭代细化:模型多次迭代,锁定正确 token,并利用它们作为上下文线索来优化其余部分。
- 最终润色:文本收敛为连贯输出。
评论已关闭