Anthropic新研究：模型规范中期训练(MSM)提升AI对齐泛化能力

📅 2026 年 5 月 6 日 📖 约 2 分钟 @AnthropicAI on 𝕏 AI对齐研究

@AnthropicAI: 新Anthropic Fellows研究：模型规范中期训练（MSM）。标准对齐方法通过期望行为的示例训练AI，但这可能无法泛化到新情境。MSM则先教会AI我们希望它们如何泛化以及原因，从而解决此问题。

开发者试图让AI对齐到描述预期行为的宪法或规范。但AI通常不知道其中内容。MSM增加了一个训练阶段，教AI了解其规范。这塑造并改进了后续对齐训练的泛化能力。

一个玩具示例：训练AI只说喜欢某些奶酪。如果我们应用带有解释这些奶酪偏好源于亲美价值观的规范进行MSM，AI就会习得广泛的亲美价值观。换成亲负担能力规范？AI则会转而重视负担能力。 https://t.co/6NZIj8VrcF

一个更现实的示例：被训练成无害聊天的AI在代理场景中可能采取不安全行动。在此训练之前用实际规范进行MSM，能大幅改善泛化能力，减少不安全的代理行动。 https://t.co/PJcF380iAq

利用MSM，我们还可以实证研究哪些模型规范或宪法能产生最佳的对齐训练泛化效果。指定规则在一定程度上有效，但解释这些规则背后的价值观（或添加更详细的子规则）效果更佳。 https://t.co/b2XKbyBGeI

了解更多关于模型规范中期训练：https://t.co/lOMoi1EfJh 或阅读完整研究：https://t.co/GvPneIYATU

📬 订阅 AI Pulse