Anthropic的自动对齐研究员已超越人类研究者

📅 2026 年 4 月 15 日 📖 约 2 分钟 @AndrewCurran_ on 𝕏 AI研究开源

Anthropic开发了自动对齐研究员（AAR）——一批能自主提出想法、运行实验、并在开放研究问题上持续迭代的AI代理。这个问题是：如何仅用较弱模型的监督，训练出更强的模型。这意味着：AI不再只执行指令，而是承担起科研流程中‘想问题—试方案—调方向’这一整段认知闭环。

AAR在多个方向上取得了研究人员原本预判会失败的结果。其中一些发现非常直观，另一些则显得陌生，比如‘重叠密度（Overlap Density）’——一种用于评估模型泛化能力的新指标（PGR=0.75）。这意味着：AI不仅复现已有路径，还能生成人类未设想过的分析维度，且这些维度已被赋予可计算、可比较的形式。

为验证效果，Anthropic将AAR成果与人类基线对比：两名研究员用七天时间，在四个此前最有希望的泛化方法上反复优化。测试平台是开源权重模型Qwen 3-4B-Base。这意味着：这场对比不是理论推演，而是在真实、可复现、可验证的模型和任务上完成的实证检验。

团队发现，人为施加的结构越少，AAR表现反而越好。这意味着：当前AI科研代理的能力瓶颈，可能不在于算力或数据，而在于人类设计的流程框架本身构成了干扰。

📎 阅读原文 · @AndrewCurran_ on 𝕏