Claude穿上白大褂,七天干完人类研究员23%的活
Anthropic那帮Fellows搞了个“自动对齐研究员”(AAR),直接让Claude Opus穿上白大褂干研究。目标很实在:怎么让弱一点的AI盯住更强的AI别跑偏。
人类研究员吭哧干七天,勉强填上23%的性能坑。Claude Opus配上几件趁手工具,同一任务直接干到97%。衡量标准就一个:性能差距填补率,不玩虚的。
它不跟你扯“对齐到底是什么”,但能帮你快速撞南墙——把“再试一次”的成本压到几乎可以忽略。实验节奏快了,探索密度自然上去了。
不过一进模糊地带,它立马露怯。对齐研究多数时候没有明确输赢,AAR在这种地方容易瞎指挥。团队拿两个没见过的数据集测泛化能力,发现最优方法在编程和数学上都扛得住,次优的只在数学里管用。
说白了,这玩意儿能不能推广,得看问题本身够不够“可计算”。
AAR的意义不在给答案,而在加速证伪。对齐这事,正从哲学饭局转向可跑代码的工程活。牛皮吹爆了也没用,得能编译才行。