AI Pulse

谷歌新MTP技术让AI推理快3倍 输出质量不变

谷歌新MTP技术让AI推理快3倍 输出质量不变

谷歌发布了Gemma 4系列的MTP drafters(多令牌预测草稿模型)。Gemma 4发布才几周,下载量已超过6000万次。

MTP使用投机解码架构。标准大模型推理卡在内存带宽上:处理器大部分时间在把参数从显存搬到计算单元,只为生成一个词。投机解码把生成和验证拆开——轻量级草稿模型先猜好几个未来词,目标模型再并行校验。如果目标模型同意草稿,一次前向传播就能接受整个序列,还能额外生成一个自己的词。草稿模型直接借用目标模型的激活和KV缓存,不用重算上下文。

结果是:最高3倍加速,输出质量和推理逻辑完全不变。在NVIDIA RTX PRO 6000上,Gemma 4 26B用MTP后,每秒生成的词数提升,等待时间减半。在Apple Silicon上,26B混合专家模型batch size为1时路由有挑战,但处理4到8个请求同时时,本地能跑到约2.2倍加速。Nvidia A100上增大batch size效果类似。对于E2B和E4B边缘模型,谷歌在嵌入器里用了高效聚类技术来加速生成。

MTP以Apache 2.0开源许可证发布,可免费下载、使用和修改。权重已上传Hugging Face、Kaggle,支持transformers、MLX、vLLM、SGLang、Ollama等框架,也能在Google AI Edge Gallery上试用。

开发者拿它做聊天机器人、代码助手、语音应用,响应更快。本地跑大模型缩短了等待时间,边缘设备上的AI功能也更省电。这套技术完全开源,任何人都能上手试。

阅读原文
📚 相关主题 开源工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部