AI应用响应快3倍：Google新方法一次预测多个词，质量不变

📅 2026 年 5 月 6 日 📖 约 5 分钟 Google AI开源工程

用AI聊天或写代码时，等回复有时要等好几秒。因为标准语言模型一次只能生成一个词，处理器大部分时间花在把数十亿参数从显存搬到计算单元上。内存带宽成了瓶颈，慢是常态。

Google最近为Gemma 4系列模型推出了Multi-Token Prediction（多词预测）起草器，试图打破这个瓶颈。原理是推测解码：用一个轻量级的起草器先一次性猜出几个未来词，然后让大模型并行验证它们对错。如果大模型同意，它就会在一次前向传播中接受整个序列，并且还能额外生成一个自己的词。

Google表示，这种架构最高可以实现3倍加速，且不降低输出质量或推理逻辑。以Gemma 4 26B模型在NVIDIA RTX PRO 6000上运行为例，使用起草器后每秒生成词数明显提升，用户等待时间减半。不过，3倍加速需要在特定硬件和场景下才能达到，并非所有应用都能触发这个上限。

起草器还利用了目标模型的激活值和KV缓存，不需要重新计算上下文，进一步减少开销。对于E2B和E4B这类边缘设备模型，Google甚至在嵌入器中实现了高效聚类技术，加速最终层的计算。

使用基于Gemma 4的AI应用，响应速度会变快，交互更流畅。对于在个人电脑或消费级GPU上本地运行大模型的开发者，等待时间缩短，开发体验更好。在手机等设备上，生成速度也会加快。

MTP起草器以Apache 2.0开源许可证发布，目前可在Hugging Face、Kaggle下载，支持transformers、MLX、vLLM、SGLang、Ollama等主流框架。Google还发布了技术解释文档，详细说明了视觉架构、KV缓存共享和高效嵌入器。

目前还不清楚哪些现有应用会率先集成这项技术。与Llama 3等其他模型的推测解码方案相比，MTP起草器的具体优势和劣势也尚不明确。但开源的许可和广泛的框架支持，让更多开发者可以免费使用并集成到自己的产品中。

📎 阅读原文 · Google

📬 订阅 AI Pulse