Anthropic的自动对齐研究员已超越人类研究者
Anthropic开发了自动对齐研究员(AAR)——一批能自主提出想法、运行实验、并在开放研究问题上持续迭代的AI代理。这个问题是:如何仅用较弱模型的监督,训练出更强的模型。 这意味着:AI不再只执行指令,而是承担起科研流程中‘想问题—试方案—调方向’这一整段认知闭环。
AAR在多个方向上取得了研究人员原本预判会失败的结果。其中一些发现非常直观,另一些则显得陌生,比如‘重叠密度(Overlap Density)’——一种用于评估模型泛化能力的新指标(PGR=0.75)。 这意味着:AI不仅复现已有路径,还能生成人类未设想过的分析维度,且这些维度已被赋予可计算、可比较的形式。
为验证效果,Anthropic将AAR成果与人类基线对比:两名研究员用七天时间,在四个此前最有希望的泛化方法上反复优化。测试平台是开源权重模型Qwen 3-4B-Base。 这意味着:这场对比不是理论推演,而是在真实、可复现、可验证的模型和任务上完成的实证检验。
团队发现,人为施加的结构越少,AAR表现反而越好。 这意味着:当前AI科研代理的能力瓶颈,可能不在于算力或数据,而在于人类设计的流程框架本身构成了干扰。