📡 X 信号

SAERL用稀疏自编码器激活指导大模型训练数据工程

@yi_jing04 7.8K 浏览 · 131 喜欢 · 16 转推 · 116 收藏 AI可解释性强化学习

(1/6) 可解释性研究常被批评富有洞见却缺乏可操作性。研究团队提出一个不同问题：稀疏自动编码器（SAE）表征能否直接指导大语言模型（LLM）后训练阶段的数据工程？论文链接：

(2/6) 当前后训练数据工程（包括数据选择、排序与批处理）严重依赖外部信号，例如LLM裁判或rollout成功率。但评估中间状态成本高昂——现有难度标注流程通常需耗费数十GPU小时。

(3/6) 团队提出SAERL方法：将SAE激活作为强化学习（RL）数据的内在表征空间。通过将token投影至模型自身的内部特征空间，把隐藏机制转化为训练时的引导信号，无需大量外部采样。

(4/6) SAERL直接从模型内部激活中提取三类可操作的数据属性：多样性（基于SAE空间聚类与适度批内混合以增强探索）、难度（作为由易到难课程排序的内在代理指标）、质量（用于数据过滤）。

(5/6) 在数学推理RLVR基准上，SAERL相较GRPO稳定提升：平均准确率+3%，达到目标准确率所需步数减少20%，编码10万样本仅需0.5个H100 GPU小时；且单个SAE可在不同模型家族与参数规模间迁移复用。

(6/6) 研究的长期愿景是范式转变：将机制可解释性从训练后的检查工具，转变为训练过程中的主动驱动因素。模型内部是否还存在其他尚未发掘的内在引导信号？

📬 订阅 AI Pulse