Ctrl+D 收藏本站 再次访问不迷路 ~
📰 来源:DeepMind | 📅 翻译日期:2026年6月13日
🔗 原文:查看原文
🤖 翻译:DeepSeek AI · 仅供参考
全新实验模型引领速度革命
DiffusionGemma 是谷歌最新推出的实验性开源模型,采用 文本扩散技术,将文本生成速度提升至传统模型的 4倍。该模型基于 Apache 2.0 许可证发布,是一个 26B 参数的专家混合(MoE)模型,区别于传统自回归大语言模型(LLM)逐 token 的顺序生成方式,它能 同时生成整个文本块,在专用 GPU 上实现 4 倍 的推理提速。
核心技术:扩散机制与双向注意力
DiffusionGemma 融合了 Gemma 4 系列 的行业领先智能密度和 Gemini Diffusion 研究成果,配备专门设计的 扩散头 以最大化生成速度。其关键特性包括:
- 闪电级推理:通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma 在专用 GPU 上实现了
4 倍的 token 输出速度(单块 NVIDIA H100 上达到1000+ tokens/s,NVIDIA GeForce RTX 5090 上达到700+ tokens/s)。 - 低硬件门槛:作为 26B 总参数的 MoE 模型,推理时仅激活
3.8B参数,量化后可在高端消费级 GPU 的18GB显存限制内运行。 - 双向注意力:每次前向传播并行生成
256个 token,允许每个 token 关注所有其他 token,在 行内编辑、代码补全、氨基酸序列、数学图 等非线性领域具有显著优势。 - 智能自校正:模型迭代优化自身输出,一次性评估整个文本块,实时修正错误。
实验性状态与生产建议:由于优先考虑速度和并行布局生成,DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于追求最高质量的应用,建议部署标准 Gemma 4。
微调示例:Sudoku 任务
通过微调可提升 DiffusionGemma 在特定任务上的表现。例如,Unsloth 团队微调后的 DiffusionGemma 能够解决 Sudoku 谜题——这是个自回归模型难以应对的任务,因为每个 token 依赖于未来的 token,而 DiffusionGemma 的双向注意力使其轻松胜任。
为什么选择文本扩散?
传统语言模型像一台 打字机,从左到右逐词生成。在云端,批处理多用户请求可以充分利用硬件;但本地单用户运行时,逐词生成导致 GPU 或 TPU 利用率低下,大部分时间在等待下一个“按键”。
DiffusionGemma 扭转了这一低效局面:不再顺序预测单词,而是 一次性起草整个 256-token 段落。这相当于将模型推理从单打字机升级为 大型印刷机,同时印出整个文本块。
适用场景:DiffusionGemma 的加速专为本地和低并发推理设计。在高 QPS 云服务中,自回归模型可通过部署饱和计算,扩散模型并行解码的收益递减,甚至可能增加服务成本。在单加速器的低到中等批量下,吞吐量优势最为显著。
文本扩散的工作原理
类似于 AI 图像生成器从视觉噪音开始、逐步迭代为清晰图像,DiffusionGemma 将这一过程应用于文本:
- 画布:模型从随机占位符 token 的“画布”开始。
- 迭代优化:模型多次传递,锁定正确 token,并以其为上下文线索优化剩余部分。
- 最终打磨:文本收敛为高质量输出。
由于模型在生成过程中能同时处理整个段落,它解锁了新的行为模式,例如完美闭合复杂 Markdown 格式,或近实时地生成和渲染代码。
立即开始
- 下载权重:获取实验模型权重(Apache 2.0 许可),开始探索速度关键的交互式本地工作流。
- 更多资源:查看官方博客和 Hugging Face Demo。
📌 *本文由 DeepSeek AI 自动翻译排版,如有不准确之处欢迎指正*
🏠 [返回首页](https://www.suiyuanlu.cn) · 📖 [查看原文](https://deepmind.google/blog/diffusiongemma-4x-faster-text-generation/)
©版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
评论已关闭