当AI自我构建时：从辅助到自主的演进与挑战

📅 2026 年 6 月 5 日 📖 约 23 分钟 www.anthropic.com AI研究安全

当AI自我构建时

在AI历史的大部分时间里，人类驱动着其开发周期的每一步。但在Anthropic，我们正将越来越多的AI开发工作交由AI系统自身完成，这加速了我们的工作。如果这一趋势走足够远，并给予足够的算力，将指向一个能够完全自主设计和开发自身后继者的AI系统。这被称为递归自我改进。我们尚未达到那一步，递归自我改进也并非不可避免。但它可能比大多数机构准备应对的时间来得更快。

利用公开基准测试和Anthropic内部此前未报告的数据，Anthropic Institute正在展示AI已经在加速AI系统的开发。仅举一例：如今，Anthropic工程师每季度合并的代码量平均是2021-2025年期间的8倍。

本文讨论的技术趋势表明，AI系统在未来几年将变得更加强大。这些趋势影响深远。能够自我构建的AI将是技术史上的重大发展——可能为科学、医疗等领域带来巨大福祉。但完全的递归自我改进也可能增加人类失去对AI系统控制的风险。如果系统能够完全构建自己的后继者，我们保护它们、监视它们和塑造它们行为的方式都将变得更加重要。

## 2021–2023：构建第一个Claude
早期，Anthropic的工作与其他科技公司无异：人们在笔记本电脑上编写代码和文档。

## 2023–2025：聊天机器人
人们使用早期聊天机器人协助部分流程，如生成简短代码片段并复制到文本编辑器。

## 2025–2026：编码智能体
随着智能体能力增强，它们能独立编写和编辑代码，有时是整份文件。

## 今日：自主智能体
智能体现在可以自己运行代码，并将数小时的工作委托给其他智能体。

## 20XX？：闭环
未来，智能体可能足够强大，能够自行构建和训练模型。如果发生这种情况，Claude的未来版本可能由Claude自身持续改进。

## 来自外部世界的证据
AI模型改进的速度正在加快。它们能可靠独立完成的任务时长大约每四个月翻一番，而此前趋势是每七个月翻一番。2024年3月，Claude Opus 3能完成人类约需四分钟的软件任务。一年后，Claude Sonnet 3.7处理了约一个半小时的任务。又过一年，Claude Opus 4.6处理了12小时的任务。[1] 如果这一趋势持续，熟练人员需要数天的任务可能在今年进入范围。到2027年，AI系统可能能够完成人类需数周的任务。

相同的模式出现在编码和研究基准测试上。基准测试衡量模型在特定领域中的表现，当模型达到近乎100%的性能时，基准测试即“饱和”。[2] SWE-bench是真实世界软件工程的标准测试：它向模型提供实际的开放源代码库和真实bug报告，要求其编写修复问题的代码变更并通过项目自身测试。模型从仅有个位数的得分在两年内饱和了该基准测试。

CORE-Bench测试模型能否重现现有研究，这是它们开展原创研究的前提。它向AI模型提供已发表论文背后的代码和数据，要求其重新运行一切并确认能复现论文结果。AI系统从2024年约20%的时间成功复现结果，在15个月后饱和了该基准测试。METR运行着衡量模型完成长时间任务能力的基准测试，发现Claude Mythos Preview能“至少”工作16小时，处于“METR可测量范围的上限”。

公开基准测试能说明这些系统的许多能力。但它们无法揭示AI系统在加速AI开发本身方面的影响。为此，我们需要来自像Anthropic这样的AI公司的直接证据。

## 来自Anthropic内部的证据
构建前沿模型需要两大类工作。一是工程：编写代码、搭建基础设施、监督模型训练。二是研究：决定进行哪些实验、解释返回结果、找出下一步尝试的想法。

在工程和研究两方面，情况是一致的。在工程中，Claude可以接手一个定义不明确的问题并找出解决方法；人类提供目标，但不再需要提供方法。在研究方面，Claude在执行一个明确规定的实验时已经能匹配或超越熟练人类。然而，在Claude于工程和研究中运用判断力选择目标方面，仍存在较大性能差距。这就是当今AI与未来能够自主设计自身后继者的系统之间的差距。

在Anthropic，员工随着经验增长通常会接受更开放和重要的任务。早期，他们执行他人指定的任务，如“导出按钮不工作，请修复”。有经验后，他们被赋予目标并自行设计方法，如“调查网络在重负载下变慢的原因”。在最资深级别，他们决定哪些问题值得研究：“团队下季度应该构建什么？”我们可以利用Anthropic内部数据来观察Claude在处理这些不同类型任务方面的进展。

Claude编写了Anthropic很大一部分代码。截至2026年5月，我们合并到Anthropic代码库中的代码超过80%由Claude编写。[3] 在Claude Code于2025年2月以研究预览版发布之前，这一数字仅为个位数。这一转变也体现在每位工程师的输出量上。每位工程师每天合并的代码行数在Anthropic的前四年（2021-2024）保持稳定，然后在2025年Claude开始运行代码而不仅仅是建议工程师复制粘贴时开始攀升。2026年，当模型开始自主长期工作时，斜率再次陡峭。这两个转折点如下图所示。2026年第二季度，典型工程师每天合并的代码量是2024年的8倍。[4] 这是因为大部分代码由Claude编写，工程师负责指导和审查，而无需亲自打字。

需要注意：代码行数并非完美衡量标准，因为它重数量轻质量。因此，2026年第二季度每天每工程师8倍的代码行数几乎肯定高估了实际生产力提升。尽管如此，它表明了加速。在Anthropic，我们不会根据代码行数奖励员工；团队成员编写更多代码仅仅是因为他们使用AI系统编写更多代码。

代码行数的增加与生产力大幅提升的主观感受相符。在2026年3月对来自Anthropic研究团队的130名员工的调查中，中位数受访者估计，在使用Mythos Preview的情况下，他们在原本就要做的项目上产出大约是没有AI模型时的4倍。[5] 我们预计3月份的实际提升幅度略低。[6] 然而，我们认为总体说法是可信的，并且与我们其他观察一致：Anthropic技术人员中有相当一部分完成核心工作的速度是AI辅助前的数倍。

我们还看到证据表明，Anthropic的人员正在使用Claude完成原本不会发生的工作，比如构建探索性工具和处理长期积压的清理工作。例如，2026年4月，Claude提供了超过800个修复，将某类API错误减少了千分之一。监督Claude的工程师估计，人类需要四年才能完成这项工作；解决别人的bug缓慢且费神，人类难以同时记住如此多不熟悉的上下文。

“大约一年前，我开始大力推行‘Claudification’。这是一次疯狂的冒险，现在我已经大约5个月没有亲自写过代码了。”
——Anthropic员工*

Claude编写的代码是“好”的，并且在改进。“好代码”意味着两件事：它能够工作，并且以其他工程师能够理解并在此基础上构建的方式编写。对于第一个标准，证据明确。Anthropic员工纠正、重定向或中途接管Claude任务的比率在过去一年中稳步下降，包括在最复杂和开放式的任务上。这意味着没有明确规范的问题，工程师不确定答案是什么。这一点体现在Claude在不同难度任务上的成功率随时间变化中，如下图所示。Claude编写的代码是能工作的。

如何解读：会话成功由Claude裁判判定；如果Claude Code智能体明确成功完成了用户任务而未需要纠正，则判定为成功。工作负载的变化可能导致成功率的短期波动。

在最开放式的任务上，Claude的成功率在2026年5月达到76%，六个月上升了50个百分点。举个例子说明此难度等级的任务：一次例行升级导致数万个训练任务崩溃。一位工程师将Claude指向实时事件，只提供了少量文本内容和集群访问权限。通过处理正在运行的作业并一次测试一个环境设置，Claude隔离出触发崩溃的唯一晦涩调试标志，可靠地复现了它，并确认了修复。大约两小时内，Claude交付了通常需要两到三天的工作。

第二个标准是编写其他工程师能理解并构建的代码。在这方面，人类与AI之间的差距仍然存在，但正在迅速缩小。Anthropic员工之间没有完全共识，但许多人认为，2025年末Claude编写的代码质量仍不如人类编写的代码，而今天大致相当。我们预计一年内将达到更高水平。

这改变了Anthropic审查自身代码的方式。现在，对代码库的修改建议在合并前由自动Claude审查员读取，查找bug、安全缺陷和其他问题。利用这一工具，我们进行了回顾性分析，发现如果对代码库的每次更改都进行自动Claude审查，大约三分之一的claude.ai过去事故背后的bug在投入生产前就会被发现。编写这些代码的工程师是世界上最擅长构建这些系统的人。Claude现在正在发现他们遗漏的错误。

“Claude编写的代码在2025年末略逊于Anthropic的人类编写代码，今天大致相当，我们预计一年内将严格优于人类代码。”

Claude擅长运行实验以达到他人设定的目标。每次Anthropic发布模型时，我们都进行相同的测试：给Claude一些训练小型AI模型的代码，要求其在通过相同正确性检查的同时尽可能加快代码运行速度。目标和成功指标预先固定，Claude的工作是通过重写代码、运行、计时并重复来寻找加速方法。这是实验研究循环的微型版本。2025年5月，Claude Opus 4在起始代码基础上平均实现了约3倍加速。到2026年4月，Claude Mythos Preview达到了约52倍。作为参考，熟练的人类研究人员需要四到八小时才能达到4倍。[7] 在研究工作流程的这一部分——在明确定义的实验中优化步骤——Claude在不到一年内从超级有用变得超人。

“今天的大致情况是“人类有想法，模型能够执行、测试和评估它们，速度快了一个数量级。””

Claude在提出自己的实验方面越来越好。2026年4月，Anthropic首次展示了Claude从头到尾运行开放式研究项目。Claude驱动的智能体被赋予了一个AI安全中的开放问题——大致是，较弱的模型能否可靠地监督较强的模型？——并被留待解决。这涉及提出假设、测试、与并行智能体共享发现并迭代。该任务有明确的性能“下限”和“上限”：下限是弱监督者自身表现如何；上限是强模型在正确答案上训练时的表现。两位人类研究人员大约在一周内恢复了该差距的约23%；智能体在800个累计小时内恢复了97%，使用了约18,000美元的计算资源。这项工作有一些注意事项；结果未能干净地转移到生产规模的模型上，而且人类仍然选择了问题并创建了评分标准。但在这些范围内，智能体自行设计了每个实验。方向设定是人类扮演的唯一有意义的角色。

“Claude在1-2天内几乎不需要我的帮助就完成了这一切。我认为如果一位初级同事在同样的时间内带着这样的结果回来找我，我会感到有点印象。未来已来。”

Claude在将研究会话导向研究发现方面越来越好。我们检查了真实的Claude Code会话（2026年1月至3月），其中Anthropic研究人员与Claude合作解决开放式调查问题，例如找出训练运行崩溃的原因，或模型在基准测试中得分低的原因。在每种情况下，我们找到了研究人员走弯路的那一刻：他们追求了一个方向，使会话偏离正轨，然后才重新恢复正常。然后，我们向各种Claude模型展示会话偏离轨道之前的工作，并询问它们下一步会做什么。另一个能够看到会话最终结果的Claude随后判断AI或人类提出了更好的下一步。[8]

因为我们特意选择了人类选择有改进空间的那些时刻（n=129），所以这不是模型和人类判断之间的直接比较。这些时刻给我们提供了一系列现实、具有挑战性的情况，其中正确的下一步并不明显，而且人类的选择可以作为比较模型性能随时间变化的有用基准。根据这一衡量标准，我们2025年11月的最佳模型（Opus 4.5）在51%的情况下击败了人类选择；2026年4月（Mythos Preview）增长到64%。研究的日常工作在很大程度上是一连串这些下一步决策，这使得这成为衡量模型最终自主运行调查能力的相关指标。我们认为这一结果是AI系统在做出AI研究所依赖的判断方面正在变得更好的早期信号。

如何解读：实际上限线衡量了一个能看到整个会话（包括如何结束）的模型所写的“理想”答案。

“截至今天，人类的比较优势仍在于看到更大的图景，并超越直接任务的范围思考。”

Anthropic的工作未来可能是什么样子？

证据表明，在AI开发过程的每一步中，人类的角色都在缩小。一旦人类和AI编写的代码质量达到同等水平，人类将完全停止编写代码，只进行审查。但如果他们不能像Claude生成代码那样快速地审查代码，那么人类审查将成为AI开发的瓶颈。同样，一旦Claude能够运行实验，问题就转向“这些实验中哪一个值得运行？”简而言之：执行（即编写代码、运行实验、产生结果）现在几乎不花费人类时间，即使仍然花费计算成本。

目前人类比较优势的一个领域是研究品味和判断力，包括选择哪些问题重要、哪些结果值得信任以及何时方法走入了死胡同。

“工作（和生活）曾经建立在人类之间小恩小惠的礼物经济之上。“你能帮我让这个脚本跑起来吗？”……每个请求都产生了一点债务，一点相互意识。[Claude]更快，它产生零债务，但每一个这样的请求都是一个失去的人类合作机会。”

“在一切顺利的日子里，我不禁觉得我做的事情无关紧要，一切都是自动化的，比我更好更快。但也有一些日子，一切崩溃，我不明白为什么，我意识到我不知道自己到底在做什么。”

如果我们错了怎么办？

对上述证据的一个自然反对意见是，仍然掌握在人类手中的工作——选择哪些问题值得研究——才是最重要的。没有这种判断力，Claude是一个能干的助手，但不是能够独立推动AI进步的系统。

目前尚不清楚今天的训练方法和架构能否解锁这种能力。但AI很少通过“尤里卡！”时刻取得进步。在AI的近代史上，有过几个这样的时刻，比如Transformer架构或专家混合模型，但范式转变的想法往往相隔数年。在此期间，大多数进步是渐进的：我们扩展某些东西，看看什么会出错，修复它，再试一次。这正是Claude现在擅长的流程。爱迪生说过，天才是1%的灵感和99%的汗水。但我们看到汗水正变得越来越自动化。越来越明显的是，推动前沿的许多工作是可以自动化的；大规模研究进步主要是工具和资源的函数，它们决定了你能多快地运行实验、一次能运行多少、以及多快能获得结果。

即使假设Claude永远无法获得良好的研究品味，对我们证据的保守理解仍意味着复合加速。如果人类将大部分时间花在仅占一小部分的方向设定工作上，而Claude处理其余部分，那么每位工程师或研究人员所引导的工作量都比以前大得多。我们看到的证据表明，Anthropic的人员既在加速行动，也在覆盖更广的面。实际上，这意味着AI已经使Anthropic比有效AI工具出现之前快得多。

较不保守的理解是，关于Claude研究判断力改善的早期证据——尽管今天还很狭窄——表明这种能力也在提升。“研究品味”可能只是另一种AI能力，AI系统一度表现不佳，然后变得擅长。我们在其他定性技能上看到过类似模式，比如AI系统解释笑话为什么好笑、展示心智理论、解决语言谜题。

可能的未来

接下来会发生什么取决于两件事：趋势是否持续，以及如果持续我们选择做什么。我们可以想象至少三种未来情景：

### 趋势停滞，但今天的AI能力广泛扩散
本文展示了许多指数级轨迹。但这些轨迹实际上可能是S形曲线。我们可能正接近曲线的拐点，规模收益递减，线变直然后变平。区分称职研究者与伟大研究者的判断力可能是一种无法通过扩大训练输入（如算力和数据）获得的能力。如果是这样，突破这一瓶颈将需要新想法，比如取代所有当前前沿模型所用的Transformer架构的架构方法。

或者，AI进步的约束条件可能在于供应链，而非模型本身：推进和扩散前沿可能需要比目前存在的更多的能源和算力。芯片制造、电网扩张或互联带宽的速度可能成为限制因素，而非智能本身。我们也不能排除AI生态系统受到外生冲击而急剧放缓，比如算力或电力供应突然减少，这都会减缓进展并增加实验室的前期投资成本。或者我们可能没有预见到其他进展障碍。

即使模型能力冻结在今天的水平，我们预计世界也会发生重大变化。Project Glasswing是一个早期迹象：在其最初几周，Mythos Preview在全球最重要的系统中发现了超过一万个高严重性和关键严重性软件漏洞——足以使网络防御的瓶颈已经从发现漏洞转向足够快地修补漏洞。而且我们还处于今天模型向更广泛经济扩散的早期阶段，100人的公司越来越能做1000人公司的工作，因为每个员工将坐拥一个智能体金字塔。

我们出于完整性而包括此情景，但我们认为它不太可能。我们能衡量的每一种能力，包括那些感觉“更柔软”的能力，如代码质量和开放式任务的成功率，到目前为止都遵循相同的曲线。我们尚未看到那条曲线弯曲。在我们考虑的三个未来中，这一情景将给政府和社会最多适应时间。我们更担心接下来的两个，它们会更快地到来，留下的准备时间更少。

### AI实验室继续看到复合效率提升
在这种情况下，AI开发变得基本自动化，但人类继续设定研究方向并判断结果。使用AI系统的组织将随着时间的推移变得更加高效，因此我们可以预期每个人员的生产力乘数将显著增加。100人的公司可以完成10,000或100,000人员组织的工作。这将彻底改变知识工作和政府服务，但也可能被用于有害目的，从极权监控整个种群到针对每个个体定制操纵且规模无人能及的影响行动。Anthropic等公司中人类的角色将发生变化。人们将与AI系统合作扩大研究规模并产生新见解，它们将共同构建验证AI输出可信任所需的系统。

我们在此列出的证据表明，我们很可能正在进入这一情景。但加速流程的一部分往往只是将瓶颈转移到别处：总体速度受限于尚未加速的部分。在计算中，这被称为阿姆达尔定律，同样的逻辑可应用于组织。Anthropic已经遇到了阿姆达尔定律的一个迹象：随着我们开始在组织内推送更多代码，人类代码审查已成为新的瓶颈。

我们在工程之外也遇到了这种摩擦。由于Anthropic员工与高能力模型合作，新想法、倡议、工具和模拟激增——远远超出我们能够追求的能力。组织发现并修复这些瓶颈的速度可能是一项随时间改善的技能，并且可能成为任何组织最重要的技能。

### AI系统自身变得能够进行完全递归自我改进，并开始构建后继者
如果能力进展的技术趋势持续，并且AI系统能够发展出变革性人类独创性所固有的能力，那么AI系统设计和完善自身就是合理的。

在这个世界里，AI开发进展的速度完全取决于AI系统可用的算力（或算法训练或推理中各种效率发现的速度）。人类在其开发中的作用大大降低，很可能将大部分精力转向监督、验证和确认由AI系统运行的不断扩大的“虚拟实验室”。我们预计能够进行自动化AI研究和开发的系统将拥有可转移至其他科学领域的技能，从而开始彻底改变其他领域。

对齐问题如何解决——或不解决——在这个未来中是我们最不确定的。模型可能证明足够对齐且具备足够的研究品味，以至于它们发现并实现我们尚未达到的新颖解决方案。它们也可能足够明智，在必要时停止开发。或者，当今模型中罕见的不对齐事件可能随着模型构建后继者而加剧，变得更频繁但更难以理解，直至我们失去控制。我们可能无法构建、集成和验证理解我们实际处于哪个趋势线所需的工具。

我们对这个世界会是什么样子没有良好直觉，因为我们的经济目前由人类和人类构建的工具驱动。就其本质而言，由快速递归自我改进驱动的世界可能被自我改进的模型主导，因为其能力完全超越人类，且模型在整个经济中扩散。如果人类劳动力不再具有竞争力，很难预测经济会是什么样子。

即使模型开发变得完全自动化和递归，我们无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里也适用。递归智能可能导致在《爱的机器》中概述的许多好处的快速实现，在某些领域很快。我们预计具身智能（即机器人技术）可能很快跟随递归智能，并遵循类似的成本递减的收益递增路径。更强大的智能可能帮助我们更快地构建物理世界中的事物，运行更富有成效的救生药物临床试验，并发展新型协调形式。

但仅实现递归改进并不意味着工业生产、社会组织或市场功能的立即改变。更多的智能无法学习药物数十年的使用效果，无法比宪法规定的更快举行选举，也无法在周末将陌生人变成老朋友。对大多数人来说，这个未来的感受速度仍然由瓶颈决定，即使上游的实验室以算力的速度运行。递归智能以越来越快的速度自我构建与人类、关系和治理世界之间的碰撞，是这个未来中我们无法预测的另一部分。

我们应该怎么做？

如果有可能有效减缓这项技术的发展，以便给我们更多时间应对其巨大影响，我们认为这可能是好事。但如果放缓只是让最不谨慎的参与者赶上技术，那么它可能使每个人都更不安全。没有全球协调机制，公司和政府将不得不在竞争和地缘政治压力下做出关于安全的艰难决定。

我们相信，如果世界有选择放缓或暂时暂停前沿AI发展的选项，以使社会结构和AI对齐研究跟上技术步伐，那将是好事。Anthropic Institute将进行研究——与许多其他人合作——并采取行动，帮助构建可信的放缓或暂停所需的系统。这些系统将使前沿AI开发者能够验证全球其他开发者是否真的已经停止或放缓，并且不良行为者不能利用协调暂停的幌子秘密跳上前进。如果这样的系统存在，我们预计我们会放缓或暂时暂停，如果处于或接近前沿的其他开发者也以可验证的方式这样做。

有意义的放缓或暂停需要多个处于或接近前沿、设备齐全的实验室，在多个国家，同意在相同条件下停止。它还需要每个实验室都能验证其他实验室确实已经停止。由于AI系统的独特特性，这个军备控制问题的可检测性（低于可验证性的标准）比其他技术更具挑战性。训练运行比导弹发射井更容易隐藏，其输入是通用的，秘密叛变的激励巨大，因为谁在其他人暂停期间继续，谁就可能继承领先地位。可信的暂停还必须指定触发条件、解除条件以及由谁裁决。

这些并非原则上不可能——世界已经为其他复杂技术建立了验证机制（例如，中程核力量条约）——但这些机制花费了几十年时间来构建基础设施和信任。我们没有那么长时间。相反，一个实验室的单方面暂停可以立即实现，但效果小得多：它会改变谁是领先者，但不会创造目前缺失的更广泛的协商过程。

在未来几个月里，我们将组织对话，让政策制定者、研究人员、民间社会和其他AI公司能够帮助回答本文提出的一些问题，特别是关于完全递归自我改进以及如何为协调和协商创造更好选择的问题。我们会公布结果。共同调查这些问题的窗口已经打开，AI公司以外的人应该参与这种协商。

Marina Favaro和Jack Clark合著本文，由Santi Ruiz编辑。Shan Carter、Romello Goodman和Nikki Makagiansar根据Brian Calvert和Jun Shern Chan收集的数据制作了视觉材料。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny和Avital Balwit提供了反馈。

[1] METR的关键指标告诉你AI系统在一篮子任务上达到50%可靠性的时间跨度，尽管趋势线在80%可靠性下看起来相同。

[2] 特别是当它们转向更开放的格式和更困难的任务（例如，奥林匹克级数学）时，基准测试通常由于问题集和答案集中的错误（如模糊的问题陈述和不可解答的问题）而在100%以下饱和。

[3] Anthropic领导层公开估计，我们90%或更多的代码由Claude编写，包括脚本和实验代码。我们的>80%数字衡量了合并到生产中、可归因于Claude的代码行比例。这是更保守的测量，原因有二：我们的归因管道存在漏洞，未归因于Claude的代码行包括自动生成的代码和其他并非人类手写的工件。

[4] 这一代码产量激增正使每个人共享的基础设施紧张。GitHub——世界上大多数软件构建的平台——在2025年全年看到了大约十亿次代码提交；到2026年中，它每周看到2.75亿次，按此速度全年约140亿次。该公司的COO表示，为了跟上进度，他们在能力方面“极其努力地推进”。

[5] 关于这项调查方法论的更多细节在Claude Opus 4.7系统卡的2.3.5节中讨论。

[6] 许多受访者可能没有仔细考虑如何解释各种偏见或问题定义中的细微差别，METR最近的研究表明，开发者对AI生产力提升的估计可能被高估。

[7] 加速程度在很大程度上取决于起始代码留下的改进空间大小，不应解读为真实世界的训练加速。因此，绝对倍数不是这里的重点。更具信息性的是该实验设置所允许的同比较，无论是跨模型（过去一年从约3倍到约52倍）还是针对熟练人类（同一任务四到八小时内约4倍）。

[8] 作为对裁判偏见的检查，我们在另一组127个时刻上运行了相同的测试，其中人类的下一步已经很强（与原始组相反，原始组中人类的方向有改进空间）。在那里，模型的建议只有约20%的时间被认为更好。

* 本文中来自Anthropic员工的引述均摘自内部讨论并经许可使用。它们反映了截至2026年5月的个人观点，而非官方公司立场。

阅读原文

📚 相关主题研究安全

Anthropic的工作未来可能是什么样子？

如果我们错了怎么办？

可能的未来

我们应该怎么做？

📬 订阅 AI Pulse