📡 X 信号

Claude写代码教小模型做数学题，700行合成数据提分3%

@vivek_2332 1.1万浏览 · 116 喜欢 · 14 转推 · 127 收藏 AI训练合成数据

发布 /synthetic-self-improve-rl：Claude Code（教师）技能，用于设计/编写合成数据、环境及奖励函数，以对更小的模型（学生）进行后训练。它先在真实数据集上对“学生”模型进行后训练，读取其失败轨迹，再据此编写合成数据、验证器环境（verifiers env）和奖励函数，以填补能力缺口；随后重新训练；循环执行。
循环流程：
→ 在真实数据上建立基线
→ 分析低奖励的 rollout
→ 生成约 500–1000 行的合成数据集
→ 围绕该数据集编写验证器环境（verifiers env）+ 评分标准（rubric）
→ 从后训练后的检查点恢复训练
→ 在真实测试集上评估
→ 保留有效改进，对无效部分迭代优化

1. 结果：qwen3-0.6B-base 在 GSM8K 上的表现。700 行合成数据使其在完整测试集上的准确率从 0.7854 提升至 0.8158。
2. 可按任意实际耗时预算（wall-clock budget）或迭代次数上限运行；循环将持续执行直至预算耗尽。
3. 基于 @willccbb 的 verifiers 和 @PrimeIntellect 进行训练。适用于任何具备训练集与验证集的环境。
p.s. 目前仍在思考该方法的命名。感觉与 @karpathy 的 autoresearch 或 synthetic envs 比较接近？

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse