AI应用响应快3倍:Google新方法一次预测多个词,质量不变
用AI聊天或写代码时,等回复有时要等好几秒。因为标准语言模型一次只能生成一个词,处理器大部分时间花在把数十亿参数从显存搬到计算单元上。内存带宽成了瓶颈,慢是常态。
Google最近为Gemma 4系列模型推出了Multi-Token Prediction(多词预测)起草器,试图打破这个瓶颈。原理是推测解码:用一个轻量级的起草器先一次性猜出几个未来词,然后让大模型并行验证它们对错。如果大模型同意,它就会在一次前向传播中接受整个序列,并且还能额外生成一个自己的词。
Google表示,这种架构最高可以实现3倍加速,且不降低输出质量或推理逻辑。以Gemma 4 26B模型在NVIDIA RTX PRO 6000上运行为例,使用起草器后每秒生成词数明显提升,用户等待时间减半。不过,3倍加速需要在特定硬件和场景下才能达到,并非所有应用都能触发这个上限。
起草器还利用了目标模型的激活值和KV缓存,不需要重新计算上下文,进一步减少开销。对于E2B和E4B这类边缘设备模型,Google甚至在嵌入器中实现了高效聚类技术,加速最终层的计算。
使用基于Gemma 4的AI应用,响应速度会变快,交互更流畅。对于在个人电脑或消费级GPU上本地运行大模型的开发者,等待时间缩短,开发体验更好。在手机等设备上,生成速度也会加快。
MTP起草器以Apache 2.0开源许可证发布,目前可在Hugging Face、Kaggle下载,支持transformers、MLX、vLLM、SGLang、Ollama等主流框架。Google还发布了技术解释文档,详细说明了视觉架构、KV缓存共享和高效嵌入器。
目前还不清楚哪些现有应用会率先集成这项技术。与Llama 3等其他模型的推测解码方案相比,MTP起草器的具体优势和劣势也尚不明确。但开源的许可和广泛的框架支持,让更多开发者可以免费使用并集成到自己的产品中。