用扩散模式‘草稿’再用自回归模式‘校对’,同一个大模型生成快了6.75倍
🚀 自我推测(Self-speculation)借助 SGLang 推理,为大语言模型(LLM)生成带来 6.75 倍的实际加速!
同一模型先以扩散模式(Diffusion mode)草拟未来 token,再以自回归(AR,因果)模式验证它们。
仅需一个模型、一个 KV cache——区别仅在于注意力掩码(attention masks)。
得益于完美的对齐设计,我们的接受长度(acceptance length)比 MTP 类技术(Eagle-3、MTP、dFlash)高出 2 倍。
我们执行 2 次前向传播……但因接受长度翻倍,已实现盈亏平衡。
更重要的是:MTP 所需的额外草稿器(drafter)、额外 KV cache 和额外 LM head 均无零开销——这些资源并非免费。
上周我们发布了 Nemotron-Labs-Diffusion + 三模态 LLM!
我们在 Ministral-3 模型上开展持续预训练,通过切换注意力模式(块因果 <> 双向)实现。
结果:单个模型即可运行自回归(AR)模式、扩散(Diffusion)模式与自我推测(Self-Speculation)模式。
扩散模式已在基准测试中展现出高准确率——我们非常期待有人突破从左到右(left-to-right)接受范式的极限!🔥
Github:
Paper:
SGLang inference:
Try the models on HF:
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖