📡 X 信号

用扩散模式‘草稿’再用自回归模式‘校对’，同一个大模型生成快了6.75倍

@PavloMolchanov 5.7万浏览 · 507 喜欢 · 58 转推 · 423 收藏 AI研究性能

🚀 自我推测（Self-speculation）借助 SGLang 推理，为大语言模型（LLM）生成带来 6.75 倍的实际加速！
同一模型先以扩散模式（Diffusion mode）草拟未来 token，再以自回归（AR，因果）模式验证它们。
仅需一个模型、一个 KV cache——区别仅在于注意力掩码（attention masks）。

得益于完美的对齐设计，我们的接受长度（acceptance length）比 MTP 类技术（Eagle-3、MTP、dFlash）高出 2 倍。
我们执行 2 次前向传播……但因接受长度翻倍，已实现盈亏平衡。
更重要的是：MTP 所需的额外草稿器（drafter）、额外 KV cache 和额外 LM head 均无零开销——这些资源并非免费。

上周我们发布了 Nemotron-Labs-Diffusion + 三模态 LLM！
我们在 Ministral-3 模型上开展持续预训练，通过切换注意力模式（块因果 <> 双向）实现。
结果：单个模型即可运行自回归（AR）模式、扩散（Diffusion）模式与自我推测（Self-Speculation）模式。

扩散模式已在基准测试中展现出高准确率——我们非常期待有人突破从左到右（left-to-right）接受范式的极限！🔥

Github：
Paper：
SGLang inference：
Try the models on HF：

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse