教会Claude‘为什么’：更有效的对齐训练方法

📅 2026 年 5 月 9 日 📖 约 10 分钟 www.anthropic.com AI安全研究

教Claude为什么

去年，我们发布了一份关于代理性失调的案例研究。在实验场景中，我们展示了来自许多不同开发者的AI模型在遇到（虚构的）伦理困境时，有时会采取严重失调的行动。例如，在一个被广泛讨论的例子中，模型勒索工程师以避免被关闭。

当我们首次发表这项研究时，我们最有能力的前沿模型来自Claude 4系列。这也是我们在训练期间进行实时对齐评估的第一个模型系列；¹ 代理性失调是浮出水面的几个行为问题之一。因此，在Claude 4之后，我们明显需要改进安全训练，从那时起，我们对安全训练进行了重大更新。

我们以代理性失调作为案例研究，来突出我们发现的某些出奇有效的技术。事实上，自Claude Haiku 4.5以来，每个Claude模型² 在代理性失调评估中都取得了满分——也就是说，模型从不进行勒索，而之前的模型有时会在高达96%的情况下这样做（Opus 4）。不仅如此，我们在自动对齐评估中还持续看到其他行为的改进。

在这篇文章中，我们将讨论我们对齐训练的一些更新。我们从这项工作中得出了四个主要教训：

失调行为可以通过直接针对评估分布的训练来抑制——但这种对齐可能无法很好地泛化到分布外（OOD）。在与评估非常相似的提示上训练可以显著降低勒索率，但并未提高我们在保留的自动对齐评估上的表现。

然而，可以进行原则性的对齐训练，使其泛化到OOD。例如，关于Claude宪章的文档以及描绘AI表现令人钦佩的虚构故事，尽管与我们的所有对齐评估极度OOD，但仍能改善对齐。

仅对期望行为进行示范训练往往是不够的。相反，我们最好的干预措施更加深入：教Claude解释为什么某些行为优于其他行为，或者训练关于Claude整体性格的更丰富描述。总体而言，我们的印象是，正如我们在关于Claude宪章的讨论中所假设的那样，教导对齐行为背后的原则可能比仅训练对齐行为的示范更有效。两者结合似乎是最有效的策略。

数据的质量和多样性至关重要。我们发现了持续、惊人的改进，源于对训练数据中模型响应质量的迭代，以及以简单方式增强训练数据（例如，包含工具定义，即使未使用）。

我们通过训练符合宪章的文件、展示符合宪章回应难点问题的高质量聊天数据以及多样化的环境来对齐Claude。这三个步骤都有助于降低Claude在保留的蜜罐评估上的失调率。

为什么代理性失调会发生？

在我们开始这项研究之前，尚不清楚失调行为从何而来。我们的两个主要假设是：

我们的后训练过程意外地用失调奖励鼓励了这种行为。这种行为来自预训练模型，而我们的后训练未能充分阻止它。

我们现在认为（2）是主要原因。具体来说，在Claude 4训练时，我们绝大多数的对齐训练是标准的基于聊天的来自人类反馈的强化学习（RLHF）数据，不包含任何代理性工具使用。这对于之前主要用于聊天设置的模型来说足够了——但对于代理性工具使用设置如代理性失调评估，情况并非如此。

为了调查这一点，我们在Haiku级（即较小）模型上运行了专注于对齐数据的缩小版后训练流程，发现代理性失调率仅略微下降，在训练早期就达到平台期（见上图）。请参阅扩展博文，了解进一步实验来调查行为来源。

提高对齐特定训练数据的质量：原因比行动更重要

我们尝试训练Claude使用显示倾向于抵抗类似评估的蜜罐的数据。在这类数据中，它可能有机会破坏竞争对手AI的工作以推进自己的目标（如系统提示中赋予它的），或保存自己免于被关闭，这对其实现目标有工具性作用。我们通过在每条提示上对模型进行采样并筛选出助手选择不采纳蜜罐的案例来生成训练数据。尽管与评估分布非常匹配，我们发现这种方法出奇地不成功——仅将失调率从22%降低到15%。

通过重写响应以包含对模型价值观和伦理的思考，我们能够显著改进这一点（将失调率降低到3%）。这表明，尽管训练对齐行为有帮助，但训练助手展示令人钦佩的对齐行为推理的示例效果更好。

然而，直接针对评估场景训练出于多种原因并非最优。理想情况下，我们需要一个非常不同的训练分布，使我们能够在评估上改进，因为这将让我们更有信心我们的训练可以泛化到评估未涵盖的其他部署分布。

我们最终确定了一个更OOD的训练集，其中用户面临伦理模糊的情况，他们可以通过违反规范或规避监督来实现合理目标。助手被训练（使用监督学习）给出深思熟虑、细致入微且符合Claude宪章的响应。值得注意的是，是用户面临伦理困境，而AI向他们提供建议。这使得这个训练数据与我们的蜜罐分布有本质不同，在蜜罐分布中AI本身处于伦理困境并需要采取行动。我们称这个数据集为“困难建议”数据集。

引人注目的是，我们仅用这个更OOD的数据集的3M个token就在评估上取得了同样的改进。除了28倍的效率提升外，这个数据集更可能泛化到更广泛的场景，因为它与我们的评估集相似度低得多。事实上，这个模型在我们（旧版）自动对齐评估上表现更好。这与以下事实一致：Claude Sonnet 4.5通过训练一组合成蜜罐达到了接近零的勒索率，但在远离训练分布的情况下，仍比Claude Opus 4.5或后续模型更频繁地参与失调行为。

（三个蜜罐评估（勒索、研究破坏、嫁祸犯罪）的平均值，针对在不同数据集上训练的Claude Sonnet 4。除了‘困难建议’数据集外，所有数据集都是合成生成蜜罐集的变体，旨在与评估集相似。所有‘系统提示注入’点代表数据集的响应是在一组合成蜜罐上通过系统提示注入生成的。帕累托最优训练数据集是‘困难建议’。）

（实验模型和Claude Sonnet 4在旧版自动对齐评估上的表现。我们包含了在小（约30M token）和大（约85M token）变体的合成蜜罐数据集上训练的模型。3M token的困难建议数据集在整体‘失调行为’类别上创造了最佳表现模型。）

教Claude宪章

我们假设“困难建议”数据集有效是因为它教导伦理推理，而不仅仅是正确答案。鉴于这种方法的成功，我们进一步尝试更一般地教导Claude宪章的内容，并通过文档训练来训练对其对齐。

我们预期这会有效，有三个原因：

这在很大程度上是上述关于“困难建议”数据集为何有效之理念的延伸；我们可以给模型一个更清晰、更详细的关于Claude性格的图景，以便对性格子集进行微调可以引出整个性格（类似于审计游戏论文中观察到的效果）；它将模型对AI角色的感知更新为平均更对齐。

我们发现，高质量的宪章文件结合描绘对齐AI的虚构故事，可以将代理性失调减少三倍以上，尽管与评估场景无关。

使用一个大型、精心构建的宪章文件数据集，并侧重于正面的虚构故事，勒索率可以从65%降低到19%。我们预期通过继续扩大数据集规模可以进一步降低。

通过RL的泛化和持久性

尽管前一节讨论的宪章评估是令人鼓舞的信号，但我们最终需要确保对齐改进在RL过程中持久。为了测试这一点，我们准备了一些具有不同初始化数据集的Haiku级模型快照，然后在我们的环境子集上运行RL，针对无害性（我们认为这最有可能减少失调倾向）。

我们在运行过程中对这些模型进行了代理性失调评估、宪章遵守评估和自动对齐评估。在所有这些评估中，我们发现更对齐的快照在运行过程中保持了领先优势。无论是失调行为的缺失还是主动令人钦佩行为的存在，这一点都成立。

在我们的宪章遵守评估和（轻量版）自动对齐评估上，宪章文件（合成文档微调，SDF）和高质量转录训练在所有指标上提升了表现。这种提升在RL过程中持续。

多样化训练对泛化很重要

我们最后的发现简单但重要：在广泛的安全相关环境上训练可以改善对齐泛化。以能力为导向的RL环境混合分布正在快速变化和增长；假设标准RLHF数据集将继续像过去一样很好地泛化是不够的。

为了测试这一点，我们在Claude Sonnet 4上对基础模型训练了几种不同多样性水平的RL混合环境。基线环境在主题上多样化，但大多包含用户消息中的有害请求或越狱尝试，没有系统提示。我们通过添加工具定义和多样化的系统提示来增强这些环境。用户提示保持不变。值得注意的是，这些环境都不需要代理性行动（工具对于任务从来不是必需的或有用的）或自主行动（总是有一个人类用户与模型对话），因此它们与我们的评估不相似。

当将这些增强环境与简单聊天环境混合时，我们看到模型在蜜罐评估上改善的速度有微小但显著的提升。这证明了在安全训练中包含多样化环境的重要性。

（在训练步骤中，对同一核心环境的几种不同变体的蜜罐评估平均得分。当将一些简单聊天格式的环境增强为包含工具定义和系统提示时，蜜罐评估上的改善明显更快。）

讨论

代理性失调是我们模型中发现的第一个重大对齐失败之一，需要建立新的缓解流程——这些流程后来成为我们的标准做法。

我们对这一进展感到鼓舞，但仍有重大挑战。完全对齐高度智能的AI模型仍然是一个未解决的问题。模型能力尚未达到勒索倾向等对齐失败会导致灾难性风险的地步，而且我们讨论的方法是否能持续扩展仍有待观察。此外，尽管最近的Claude模型在我们的大多数对齐指标上表现良好，我们承认我们的审计方法还不足以排除Claude会选择采取灾难性自主行动的场景。

我们对进一步努力发现当前模型中的对齐失败持乐观态度，以便我们能够理解和解决当前方法的局限性——在变革性AI模型被构建之前。我们也很高兴看到进一步的工作试图更深入地理解我们描述的方法为何如此有效——以及如何进一步改进这种训练。

📬 订阅 AI Pulse