📡 X 信号

新研究能让长文本AI推理快差不多一倍

@rohanpaul_ai 1.7K 浏览 · 15 喜欢 · 2 转推 · 8 收藏 AI研究

本文通过让每个 token 只使用它需要的查询头，让长上下文注意力变得更便宜、更快。当上下文长度变大时，预填充速度提高了约 1.7 到 1.8 倍。

标准注意力要求每个 token 都经过所有注意力头的处理，哪怕其中某些头对这个 token 来说毫无用处。本文提出的方法名为 Grouped Query Experts，它保留了分组查询注意力中的常规键值缓存，但会将每个 token 只路由给少数几个查询头专家。

Grouped Query Experts 建立在分组查询注意力之上，这是很多长上下文模型已经在用的技巧，用来降低键值缓存的成本。这种架构就像是给模型提供了大量可能的注意力模式，同时每个 token 只需要为看起来有用的那一小部分模式付费。

作者训练了 250M 参数的模型，训练数据总量为 30B 个 token，并将该方法与常规分组查询注意力基线进行了对比。最优版本的平均准确率和基线相当，分别是 56.04 对比 55.86，同时只使用了 16 次查询注意力计算中的 9 次。

研究表明，只要路由器能获得足够强的学习信号，并且保留一个始终激活的共享头，就可以在分组查询注意力内部实现稀疏注意力，同时不损害模型质量。

链接：arxiv.org/abs/2606.20945
标题："Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention"

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse