AI Pulse
📡 X 信号

新研究能让长文本AI推理快差不多一倍

本文通过让每个 token 只使用它需要的查询头,让长上下文注意力变得更便宜、更快。当上下文长度变大时,预填充速度提高了约 1.7 到 1.8 倍。

标准注意力要求每个 token 都经过所有注意力头的处理,哪怕其中某些头对这个 token 来说毫无用处。本文提出的方法名为 Grouped Query Experts,它保留了分组查询注意力中的常规键值缓存,但会将每个 token 只路由给少数几个查询头专家。

Grouped Query Experts 建立在分组查询注意力之上,这是很多长上下文模型已经在用的技巧,用来降低键值缓存的成本。这种架构就像是给模型提供了大量可能的注意力模式,同时每个 token 只需要为看起来有用的那一小部分模式付费。

作者训练了 250M 参数的模型,训练数据总量为 30B 个 token,并将该方法与常规分组查询注意力基线进行了对比。最优版本的平均准确率和基线相当,分别是 56.04 对比 55.86,同时只使用了 16 次查询注意力计算中的 9 次。

研究表明,只要路由器能获得足够强的学习信号,并且保留一个始终激活的共享头,就可以在分组查询注意力内部实现稀疏注意力,同时不损害模型质量。

链接:arxiv.org/abs/2606.20945
标题:"Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention"

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部