Claude写代码教小模型做数学题,700行合成数据提分3%
发布 /synthetic-self-improve-rl:Claude Code(教师)技能,用于设计/编写合成数据、环境及奖励函数,以对更小的模型(学生)进行后训练。它先在真实数据集上对“学生”模型进行后训练,读取其失败轨迹,再据此编写合成数据、验证器环境(verifiers env)和奖励函数,以填补能力缺口;随后重新训练;循环执行。
循环流程:
→ 在真实数据上建立基线
→ 分析低奖励的 rollout
→ 生成约 500–1000 行的合成数据集
→ 围绕该数据集编写验证器环境(verifiers env)+ 评分标准(rubric)
→ 从后训练后的检查点恢复训练
→ 在真实测试集上评估
→ 保留有效改进,对无效部分迭代优化
1. 结果:qwen3-0.6B-base 在 GSM8K 上的表现。700 行合成数据使其在完整测试集上的准确率从 0.7854 提升至 0.8158。
2. 可按任意实际耗时预算(wall-clock budget)或迭代次数上限运行;循环将持续执行直至预算耗尽。
3. 基于 @willccbb 的 verifiers 和 @PrimeIntellect 进行训练。适用于任何具备训练集与验证集的环境。
p.s. 目前仍在思考该方法的命名。感觉与 @karpathy 的 autoresearch 或 synthetic envs 比较接近?
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖