📡 X 信号

强化学习的大部分收益居然只来自一层Transformer

@rohanpaul_ai 1.3K 浏览 · 4 喜欢 · 3 收藏 AI研究

如果强化学习的大部分增益都来自一个Transformer层呢？研究者测试了这个奇特的想法，发现它往往可行：只训练一个层，冻结其余所有层。

这篇论文发现， reward 训练更接近层选择，而非全模型学习。问题在于，强化学习后训练通常会更新整个模型，因此掩盖了究竟哪些部分真正学到了有用的行为。

这篇论文冻结了几乎所有层，一次只训练一个 Transformer 层，随后检测这个单层能恢复完整强化学习提升中的多少比例。这个被称为层贡献度的分数显示，有用的强化学习变化并没有均匀分布在整个网络中。

在7个模型、3种强化学习方法，以及数学、代码和智能体任务上，表现最好的层通常都靠近模型中部，而早期和晚期层的帮助小得多。

实际结论是，只训练最好的中间层就能击败全参数强化学习训练，例如在 Qwen3-8B 上，该方法能达到69.1的数学准确率，而全强化学习为66.4。

链接 – arxiv.org/abs/2607.01232v1
标题："Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training"

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse