谷歌新MTP技术让AI推理快3倍输出质量不变

📅 2026 年 5 月 6 日 📖 约 5 分钟 Google AI开源工程

谷歌发布了Gemma 4系列的MTP drafters（多令牌预测草稿模型）。Gemma 4发布才几周，下载量已超过6000万次。

MTP使用投机解码架构。标准大模型推理卡在内存带宽上：处理器大部分时间在把参数从显存搬到计算单元，只为生成一个词。投机解码把生成和验证拆开——轻量级草稿模型先猜好几个未来词，目标模型再并行校验。如果目标模型同意草稿，一次前向传播就能接受整个序列，还能额外生成一个自己的词。草稿模型直接借用目标模型的激活和KV缓存，不用重算上下文。

结果是：最高3倍加速，输出质量和推理逻辑完全不变。在NVIDIA RTX PRO 6000上，Gemma 4 26B用MTP后，每秒生成的词数提升，等待时间减半。在Apple Silicon上，26B混合专家模型batch size为1时路由有挑战，但处理4到8个请求同时时，本地能跑到约2.2倍加速。Nvidia A100上增大batch size效果类似。对于E2B和E4B边缘模型，谷歌在嵌入器里用了高效聚类技术来加速生成。

MTP以Apache 2.0开源许可证发布，可免费下载、使用和修改。权重已上传Hugging Face、Kaggle，支持transformers、MLX、vLLM、SGLang、Ollama等框架，也能在Google AI Edge Gallery上试用。

开发者拿它做聊天机器人、代码助手、语音应用，响应更快。本地跑大模型缩短了等待时间，边缘设备上的AI功能也更省电。这套技术完全开源，任何人都能上手试。

阅读原文

📚 相关主题开源工程

📬 订阅 AI Pulse