Claude穿上白大褂，七天干完人类研究员23%的活

📅 2026 年 4 月 15 日 📖 约 2 分钟 @AnthropicAI on 𝕏 AI对齐研究

Anthropic那帮Fellows搞了个“自动对齐研究员”（AAR），直接让Claude Opus穿上白大褂干研究。目标很实在：怎么让弱一点的AI盯住更强的AI别跑偏。

人类研究员吭哧干七天，勉强填上23%的性能坑。Claude Opus配上几件趁手工具，同一任务直接干到97%。衡量标准就一个：性能差距填补率，不玩虚的。

它不跟你扯“对齐到底是什么”，但能帮你快速撞南墙——把“再试一次”的成本压到几乎可以忽略。实验节奏快了，探索密度自然上去了。

不过一进模糊地带，它立马露怯。对齐研究多数时候没有明确输赢，AAR在这种地方容易瞎指挥。团队拿两个没见过的数据集测泛化能力，发现最优方法在编程和数学上都扛得住，次优的只在数学里管用。

说白了，这玩意儿能不能推广，得看问题本身够不够“可计算”。

AAR的意义不在给答案，而在加速证伪。对齐这事，正从哲学饭局转向可跑代码的工程活。牛皮吹爆了也没用，得能编译才行。