扩散模型终于追平自回归模型,靠的不是堆参数而是新解码法
I-DLM是第一个在生成质量上真正追平同规模自回归(AR)模型的扩散语言模型。过去DLM只学去噪,不学自检;AR模型却像边写作文边读一遍,天然带校对——这个差距一直卡着扩散模型的脖子。
它的8B版本在AIME-24上拿了69.6分,比16B的LLaDA-2.1-mini高出26分。LiveCodeBench-v6上45.7分,也甩开后者15分。
性能不是靠堆数据或延长训练,而是解码逻辑变了。I-DLM每轮前向传播生成N个新token时,会回头检查已生成内容是否自洽——这叫“内省式跨步解码”(ISD)。它用因果注意力、logit偏移和全掩码目标,硬是把AR模型那种“边写边核”的本能给复刻出来了。更妙的是,它不另起炉灶,而是把现成AR模型“转译”成扩散范式,输出结果bit-for-bit完全一致,老接口照用不误。
高并发下(C=64),I-DLM吞吐是LLaDA-2.1-mini的2.9到4.1倍。每FLOP产出的有效token效率达1.22,远超AR模型,而同类DLM如SDAR只有0.31。瓶颈不在算力,而在内存带宽——这玩意儿在GPU上反而是最好加的。
现在再问“该不该试扩散语言模型”,答案没那么纠结了。