扩散模型终于追平自回归模型，靠的不是堆参数而是新解码法

📅 2026 年 4 月 15 日 📖 约 6 分钟 introspective-diffusion.github.io AI开源工程

I-DLM是第一个在生成质量上真正追平同规模自回归（AR）模型的扩散语言模型。过去DLM只学去噪，不学自检；AR模型却像边写作文边读一遍，天然带校对——这个差距一直卡着扩散模型的脖子。

它的8B版本在AIME-24上拿了69.6分，比16B的LLaDA-2.1-mini高出26分。LiveCodeBench-v6上45.7分，也甩开后者15分。

性能不是靠堆数据或延长训练，而是解码逻辑变了。I-DLM每轮前向传播生成N个新token时，会回头检查已生成内容是否自洽——这叫“内省式跨步解码”（ISD）。它用因果注意力、logit偏移和全掩码目标，硬是把AR模型那种“边写边核”的本能给复刻出来了。更妙的是，它不另起炉灶，而是把现成AR模型“转译”成扩散范式，输出结果bit-for-bit完全一致，老接口照用不误。

高并发下（C=64），I-DLM吞吐是LLaDA-2.1-mini的2.9到4.1倍。每FLOP产出的有效token效率达1.22，远超AR模型，而同类DLM如SDAR只有0.31。瓶颈不在算力，而在内存带宽——这玩意儿在GPU上反而是最好加的。

现在再问“该不该试扩散语言模型”，答案没那么纠结了。

📎 阅读原文 · introspective-diffusion.github.io