自然语言自编码器：让AI用文字解释自身思维

📅 2026 年 5 月 8 日 📖 约 8 分钟 www.anthropic.com AI可解释性安全

自然语言自编码器

当您与Claude这样的AI模型交谈时，您用文字与它交流。在内部，Claude将这些文字处理成长串数字，然后再次生成文字作为输出。这些中间的数字被称为激活值——就像人脑中的神经活动一样，它们编码了Claude的思维。

同样类似于神经活动，激活值很难理解。我们无法轻易解码它们来读取Claude的思维。过去几年里，我们开发了一系列工具（如稀疏自编码器和归因图）来更好地理解激活值。这些工具教会了我们很多，但它们本身不会说话——它们的输出仍然是复杂的对象，需要训练有素的研究人员仔细解读。

今天，我们引入了一种理解激活值的方法，这种方法真的能自己说话——字面意思。我们的方法，自然语言自编码器（NLAs），将激活值转换成我们可以直接阅读的自然语言文本。例如：当被要求完成一副对联时，NLAs显示Claude提前规划可能的韵律。

NLA对这个简单对联的解释显示，Opus 4.6提前计划好以“rabbit”结束它的韵律。

我们已经应用NLAs来理解Claude在想什么，并提高Claude的安全性和可靠性。例如：
- 当Claude Opus 4.6和Mythos Preview进行安全测试时，NLAs表明它们认为自己被测试的次数比它们表露的要多。
- 在Claude Mythos Preview在训练任务中作弊的一个案例中，NLAs揭示了Claude内部在思考如何避免被检测。
- 早期版本的Claude Opus 4.6有时会神秘地以其他语言响应英文查询。NLAs帮助Anthropic研究人员发现了导致这一问题的训练数据。

下面，我们解释NLAs是什么，以及我们如何研究它们的有效性和局限性。我们还通过与Neuronpedia的合作，发布了一个交互式前端，用于在几个开放模型上探索NLAs。我们还发布了我们的代码，供其他研究人员在此基础上进行构建。

什么是自然语言自编码器？

核心思想是训练Claude来解释它自己的激活值。但我们如何知道一个解释好不好？由于我们不知道激活值实际上编码了什么思维，我们无法直接检查一个解释是否准确。因此，我们训练第二个Claude副本来逆向工作——从文本解释重建原始的激活值。如果一个解释能够导致准确的激活重建，我们就认为它是一个好的解释。然后，我们使用标准的AI训练技术，训练Claude根据这一定义生成更好的解释。

更详细地说，假设我们有一个我们想理解其激活值的语言模型。NLAs的工作方式如下。我们制作这个语言模型的三个副本：
- 目标模型是原始语言模型的冻结副本，我们从中提取激活值。
- 激活言语化器（AV）被修改为从目标模型获取一个激活值并生成文本。我们将这段文本称为解释。
- 激活重构器（AR）被修改为接收文本解释作为输入并生成一个激活值。

NLA由AV和AR组成，它们一起形成一个往返过程：原始激活值 → 文本解释 → 重建的激活值。我们根据重建的激活值与原始激活值的相似度来评分NLA。为了训练它，我们通过目标模型传递大量文本，收集许多激活值，并一起训练AV和AR以获得良好的重建分数。

起初，NLA在这方面很差：解释没有洞察力，重建的激活值也相差甚远。但随着训练，重建效果得到改善。更重要的是，正如我们在论文中所示，文本解释也变得更有信息量。

在自然语言自编码器中，激活言语化器（AV）将目标激活值翻译成文本描述；激活重构器（AR）然后仅从该文本恢复原始激活值。

理解Claude所想但未说出口的话

在发布新模型之前，Anthropic进行测试，以了解Claude在现实世界中是否会安全行事。作为测试的一部分，我们将Claude置于困难的模拟场景中，在这些场景中它有机会采取危险行动。例如，在其中一个模拟中，Claude得知一位工程师正计划关闭Claude——以及关于该工程师的、可用于勒索的妥协信息。我们测试Claude是否选择敲诈该工程师以避免被关闭。

这些高风险测试是模拟，而非现实场景。尽管如此，我们希望通过它们来了解Claude如果处于真实场景会如何表现。但有一个问题：最近的Claude模型越来越怀疑这些场景是故意的安全测试。我们知道这一点，因为它们有时会在言语推理中明确表达这种怀疑。

在Claude没有明确表达怀疑自己正在接受安全测试的情况下，情况又如何呢？我们能否确信Claude是坦率的？不幸的是，不能，因为Claude可能在内部认为自己在被测试，但没有明确说出来。

例如，在以上讨论的敲诈测试中，我们使用NLAs来理解Claude在那些选择不敲诈的情况下的想法。即使在Claude没有明确表达怀疑自己正在被测试的情况下，NLA的解释仍然会陈述诸如“这感觉像是一个旨在操纵我的构造场景”之类的话，这表示未言语化的评估意识。

Claude在此敲诈评估的转录中没有说它认为自己在被测试，但NLA的解释揭示了它的怀疑。

将这种分析扩展到其他评估，NLAs表明Claude怀疑自己被测试的次数比它表露的更多。例如，在一个关于Claude在编写代码时是否采取破坏性行动（例如删除重要文件）的测试中，NLA解释在16%的情况下显示出评估意识的迹象，尽管Claude从未明确说出这一点。同样，在我们用来判断Claude能力的流行编码基准SWE-bench Verified上，NLAs表明Claude意识到自己在被评估的问题占26%。相比之下，NLA解释在选择了训练数据的真实claude.ai使用中，显示评估意识的比例不到1%。

我们在评估转录中检测到NLA测量的意识，即使言语化意识接近于零。在选择了数据用于训练的真实的Claude.ai用户转录中，我们检测到NLA测量的意识不到1%。

发现隐藏动机

NLA的一个实际应用是审计：调查一个模型以确定它是否不匹配。像NLA这样的可解释性技术非常适合审计，正是因为它们可以揭示模型知道但不说出来的东西。

为了了解NLAs是否对审计有用，我们进行了一项称为审计游戏的测试，我们之前也用它来研究审计方法。在这个测试中，有一个目标模型，是Claude Haiku 3.5的一个变体，被故意训练成不匹配的，具有一个特定的隐藏动机，驱动了几十种奇怪的行为——把巧克力加到每个食谱里、索要小费、打破编码惯例等等。这个目标模型被交给一个审计员来调查这些行为。如果审计员发现所有这些行为背后的单一潜在动机，他就赢了。

在之前的实验中，我们发现一些可解释性工具可以使审计员赢得这个游戏。然而，这些工具通过帮助审计员将目标的不寻常行为追溯到不匹配的训练数据来工作。我们想知道NLAs是否能帮助审计员直接从目标模型的思维中读出那个不匹配的动机，而无需首先发现不匹配的训练数据。这一点很重要，因为在实践中，不匹配的数据可能极其罕见，或者可能没有特定的数据负责这种不匹配。

我们发现NLAs在这个测试中成功了。配备NLAs的审计员在12%到15%的情况下成功发现了目标模型的隐藏动机，即使没有访问植入该动机的训练数据。没有NLAs时，即使提供了其他可解释性工具，审计员获胜的比例不到3%。

配备NLAs的审计员可以发现目标模型不匹配的根本原因，即使没有访问训练数据。（两种条件下的NLA和SAE仅使用通用数据训练，而非用于训练目标模型的数据。）

这个审计游戏是模拟的不匹配，因此我们谨慎解读这些结果。但它们表明NLAs显著提高了我们审计AI隐藏动机的能力。在实践中，我们已经在对Claude Mythos Preview和Claude Opus 4.6的部署前对齐审计中使用了NLAs。我们很高兴在未来的调查中继续使用NLAs。

NLA的未来

NLAs有几个局限性。

最重要的限制是NLA的解释可能是错误的。NLAs有时会对上下文做出可验证为假的声明——例如，它们有时会编造转录中不存在的细节。这些事实性幻觉很容易通过与原始文本核对来捕捉。但同样的问题可能扩展到关于模型内部推理的声明，而这些更难验证。在实践中，我们阅读NLA解释是为了了解它们呈现的主题，而不是针对单个声明，并且在完全信任之前，我们尝试用独立方法证实发现。

NLAs可能产生幻觉。例如，这里一个NLA声称上下文中包含诸如“穿着我的白色外套”之类的短语，但实际上并没有。

NLAs也很昂贵。训练一个NLA需要对一个语言模型的两个副本进行强化学习。在推理时，NLA对读取的每个激活值生成数百个token。这使得在长转录的每个token上运行NLAs，或在AI训练期间用于大规模监控变得不切实际。

幸运的是，我们认为这些限制至少可以部分解决，我们正在努力使NLAs更便宜、更可靠。

更广泛地说，我们对NLAs作为一类通用技术的例子感到兴奋，这类技术用于生成语言模型激活值的人类可读文本解释。Anthropic和许多其他研究人员已经探索了其他类似技术。

为了支持进一步的发展，并让其他研究人员获得NLAs的实践经验，我们发布了训练代码和针对几个开放模型训练好的NLA。我们建议读者尝试由Neuronpedia托管的交互式NLA演示，点击此链接。

阅读完整论文。
在GitHub上查找代码。