AI Pulse
📡 X 信号

强化学习的大部分收益居然只来自一层Transformer

如果强化学习的大部分增益都来自一个Transformer层呢?研究者测试了这个奇特的想法,发现它往往可行:只训练一个层,冻结其余所有层。

这篇论文发现, reward 训练更接近层选择,而非全模型学习。问题在于,强化学习后训练通常会更新整个模型,因此掩盖了究竟哪些部分真正学到了有用的行为。

这篇论文冻结了几乎所有层,一次只训练一个 Transformer 层,随后检测这个单层能恢复完整强化学习提升中的多少比例。这个被称为层贡献度的分数显示,有用的强化学习变化并没有均匀分布在整个网络中。

在7个模型、3种强化学习方法,以及数学、代码和智能体任务上,表现最好的层通常都靠近模型中部,而早期和晚期层的帮助小得多。

实际结论是,只训练最好的中间层就能击败全参数强化学习训练,例如在 Qwen3-8B 上,该方法能达到69.1的数学准确率,而全强化学习为66.4。

链接 – arxiv.org/abs/2607.01232v1
标题:"Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training"

本文由 AI 翻译自英文原帖,技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部