代理编码中专业知识回报持续存在

📅 2026 年 6 月 17 日 📖 约 18 分钟 www.anthropic.com AI智能编码研究

代理式编码与专业知识的持续回报

关键发现

在前期工作的基础上，我们引入了一个研究交互式代理编码的框架，对 2025 年 10 月至 2026 年 4 月间约 40 万次 Claude Code 会话进行了隐私保护分析。我们评估了任务构成、人机协作以及成功率。

在典型会话中，人类做出大部分规划决策（做什么），Claude 做出大部分执行决策（怎么做）。一个人带入会话的领域专业知识越多，Claude 每次指令完成的工作就越多。在编码任务上，所有主要职业的成功率——即完成用户设定的目标，并有可验证的证据（如测试通过或代码提交）——平均而言与软件工程师几乎持平。

一个人拥有的领域专业知识越多，会话以成功告终的频率就越高——尽管中级用户和专家用户之间的差距不大。在我们观察的七个月中，用于调试的会话比例下降了近一半，使用方式转向了更多的端到端代理式使用：部署和运行代码、分析数据以及编写非代码文档。

在这七个月中，典型任务的价值（通过与自由职业岗位发布进行比较估算）在几乎所有类型的工作中都上升了——平均约 25%。

引言

代理式编码已经起飞。自 2025 年底以来，有编码代理活动的 GitHub 项目比例翻了一番以上，1 而 Claude Code 用户现在平均每周使用该工具 20 小时。2 没有正式编码经验的人能否成功引导代理完成复杂的技术工作？这些工具的快速采用和改进对更广泛的知识工作意味着什么？虽然我们尚未完全回答这些问题，但我们通过 Claude Code 的使用数据寻找早期信号。

本报告基于 2025 年 10 月至 2026 年 4 月间约 23.5 万人的约 40 万次交互会话的隐私保护分析，提供了 Claude Code 实际使用情况的证据。它建立在先前关于 Claude Code 会话中自主性度量以及 Claude Code 如何改变 Anthropic 工作方式的研究基础上。3 在这里，我们引入了一个描述交互式 AI 编码助手使用情况的框架：正在做什么类型的工作，谁在做，以及是否成功。我们专注于通过命令行界面（CLI）、Claude.ai 或 Claude Code 桌面应用的 Claude Code 使用情况。4 通过跟踪代理式编码使用如何随模型能力提升而变化，我们可以更好地理解这些工具如何影响编码专业人员和知识工作者的劳动力市场。

Claude Code 上发生的情况可能预示了知识工作的未来走向，因为代理正在嵌入非编码工作。我们发现 Claude 正在处理更复杂、更有价值的任务。同时，在代理式编码中仍存在明确的劳动分工：人类决定构建什么，代理决定如何构建。

我们还看到证据表明，有效使用该工具的是领域专业知识而非编码熟练度。具体而言，领域专家更常成功，并且更容易从错误和误解中恢复。然而，专家和中级用户之间的差距不大——这表明领域内的熟练度足以让用户几乎像深度掌握者一样有效地使用工具。

这些发现让我们对劳动力市场可能的转变有了初步了解。在我们的数据中，成功取决于一个人对所要解决问题的理解程度，而不是他们是否受过编码训练。如果这些模式在整个经济体中成立，那么这表明尽管代理式编码工具可能正在吸收一些执行密集型工作，但它们也在奖励那些对自己工作中要解决的问题有扎实理解的人。编码代理并没有取代专业知识——工作人员为代理带来的理解越多，代理能够完成的高质量工作就越多。

劳动分工

人们用 Claude Code 做什么

为了了解人们用 Claude Code 做什么，我们将每个会话分类到九种工作模式之一——即最能描述该会话试图完成单一活动。5 四种模式涉及直接编写或维护代码：构建新事物、修复损坏、测试代码以及编排其他代理或自动化流水线。另一类是操作软件——部署、配置、运行流水线、监控系统。两类更多是关于确定要做什么：理解现有系统如何工作，以及在做出更改前进行规划。还有两类采取与代码无关的行动，或者代码在最终产品中是附带的：分析数据，以及通过演示文稿和其他散文式文档进行沟通。

约 56% 的会话涉及编写（25%）、修复（26%）或测试和编排代码（5%）。操作软件占 17%，而 14% 的会话是规划或探索，13% 产生分析或散文（图 1）。

图 1：九种工作模式
每次交互会话都被分类到最能描述其试图完成目标的一种模式中。

我们通过让一个模型阅读会话转录来分类每个会话，然后使用我们的隐私保护分析工具，对照每个会话自动记录的遥测数据（包括是否添加或删除代码行）进行验证。两个来源具有高度一致性——例如，我们的分类器标记为创建或修改代码的会话中，超过 90% 在遥测数据中显示有代码更改。详见附录。

谁决定什么

Claude Code 的自主性如何？能力评估表明上限很高且在上升：在 METR 的时间范围评估等基准上，前沿模型现在可以完成人类需要数小时的软件任务，并在过程中自主克服障碍。但实际使用情况究竟如何？在此，我们考察在真实会话中人类和 Claude 各自进行了多少引导。

我们从两个角度研究这个问题。首先，我们关注人类将决策委托给 Claude 的程度，其次，我们考察他们给 Claude 多少行动。为了理解会话中的决策分工，我们基于会话内容构建了一个隐私保护的决策归因分类器。我们让分类器列出会话中所有有意义的决策。我们将这些决策分为规划（做什么、采用什么方法、什么算完成）和执行（更改哪些文件、编写什么代码、用什么语言编写、运行哪些命令）。然后分类器将每个决策归因于 Claude 或用户，为每个会话提供两个数字：用户做出的规划决策比例和用户做出的执行决策比例。

平均而言，人类做出约 70% 的规划决策，但仅做出约 20% 的执行决策（图 2）。实际上，在代理式编码中存在明确的劳动分工——人类决定构建什么，代理决定如何构建。

为了理解会话中行动的委派，我们查看会话的结构而非内容。一个 Claude Code 会话涉及 Claude 和用户来回交换提示（来自用户）和行动（由 Claude 执行）——用户编写一个提示，Claude 去完成一些工作，然后用户编写下一个提示，依此类推。在典型会话中，大约有四个这样的轮次。在我们从 10 月到 4 月的历史数据中，用户发送的每个提示平均触发 Claude 大约 10 个行动链——有时超过 100 个。6 在每个轮次中，Claude 读取文件、编辑代码、运行命令，并平均输出 2,400 字。

Claude 在两次用户检查之间执行的工作量在很大程度上与谁在做决策相关。当用户保持对执行的控制（即做出超过 80% 的执行决策）时，Claude 每轮采取的行动更少（约 8 个行动）。而当 Claude 控制规划（即做出超过 80% 的规划决策）时，它采取的行动最多（约 16 个）。

图 2：Claude 在规划和执行决策中的份额
各会话中归因于 Claude 而非用户的规划决策（做什么）和执行决策（怎么做）的份额分布。在典型会话中，用户做出约 70% 的规划决策，而 Claude 做出约 80% 的执行决策。

专业知识水平

根据每个转录，Claude 将用户在该任务上表现出的专业知识水平从新手到专家按五级评分。专业知识分类器寻找三个信号：用户指令的精确程度、他们要求 Claude 验证的内容，以及用户倾向于纠正 Claude 还是 Claude 倾向于纠正用户。请注意，专业知识捕捉的是与职位头衔或一般能力截然不同的东西，而且关键是特定于任务的。一位高级工程师第一次问 Rust 问题，在 Rust 上是新手。一位从未使用过 Python 的会计师，但确切地告诉 Claude 一个 Python 脚本必须强制实施哪些对账规则，并在月末发现它处理的边缘情况，那么在该任务上就是专家。

下表显示了我们在分类器中如何定义每个专业知识级别，以及来自公开编码代理会话数据集 SWE-chat 的示例请求。归类为“新手”的对话给出了一般性指令，没有隐含的领域特定知识。“专家”对话则传达了对代码库和技术环境的深入了解。

表 1：专业知识分类器
这些例子是对真实会话的改写、匿名化和压缩版本，由我们的分类器标注。表中使用的许多会话来自公开的代理式编码会话数据集 SWE-chat。

我们量化了专业知识与每个提示下 Claude 的输出和活动之间的关系。在典型的新手会话中，每个提示触发大约 5 个 Claude 行动和约 600 字输出，而专家会话触发的行动链长度是前者的两倍以上（12 个行动），输出是五倍（3,200 字）（图 3）。新手和专家会话之间的这一差距在每一种工作类型和任务价值区间内都存在。

这些度量补充了我们之前关于 Claude Code 报告中自主性的度量，该报告跟踪代理运行的时间以及用户自动批准其行动的频率。相比之下，我们的决策归因度量捕捉了整个会话中谁做出了实质性决策，而我们的每个提示下输出和行动度量则捕捉了每个人类提示触发了 Claude 的多少自主活动。

图 3：专家用户每提示获得 Claude 更多输出
对于更专业的用户，Claude 每提示产生更多行动（左柱）和文本输出（右柱）。箱线图展示四分位距（中位数分割）。须线代表第 5 到第 95 百分位数。白点是几何均值。两个上升趋势均具有统计显著性（p < 0.001），每个相邻级别之间的步骤也是如此，并且在控制工作模式、任务价值、月份、职业和模型系列的回归中仍然显著（每个专业知识级别行动增加 9%，输出增加 13%），标准误差按用户聚类。

谁在使用 Claude Code，以及用于什么

用户

为了了解谁在做这些工作，我们根据会话转录推断每个用户的职业，将其映射到劳工统计局标准职业分类（SOC）中的 23 个主要组之一。分类器被指示仅依赖于会话开始时代理加载的项目上下文、文件的名称和结构、引用的任何人工产物（例如法律文件、临床数据、财务报告、课程等）以及使用的词汇等信号。7 它被明确指示不要将编码行为视为编码职业的证据。只有当有明确信号表明软件或数据工作是用户的工作时，会话才被分类为编码 SOC 代码（计算机和数学职业）。一个律师构建脚本自动标记合同文件夹中缺失条款的会话被映射到法律职业，即使该会话的工作主要是软件。当没有用户职业信号时，会话保持未分类。

我们能够推断约 70% 会话的职业。在这个集合中，计算机和数学职业（涵盖大多数软件相关工作的类别）毫无疑问是最大的群体。接下来最大的是商业和金融运营；艺术、设计、媒体；管理；以及生命、物理和社会科学。我们样本中增长最快的非软件职业群体是管理、销售和法律职业。

工作

2025 年 10 月到 2026 年 4 月期间，Claude Code 完成的工作构成发生了显著变化。最明显的变化是用于修复损坏代码的会话比例从 33% 下降到 19%（图 4）。取而代之的是，我们看到围绕代码的工作比例增加。操作软件从会话的 14% 增长到 21%。编写和数据分析大约翻倍，从约 10% 到 20%。

任务本身也变得更有价值。我们通过询问工作在自由职业市场上会花费多少（根据公开的真实发布数据集校准）来近似每个会话的经济价值。根据这一度量，平均会话的估计价值在 10 月到 4 月间上升了 27%。这种上升在许多类型的工作中普遍存在。构建、操作和修复类任务的价值都大约增加了三分之一或更多（分别约 43%、34% 和 32%）。这些价格估计是粗略的，因此我们主要用它们来比较不同时间的任务，而不是作为字面理解的美元价值。8 关于任务估算器构建的详细信息，请参见附录。

图 4：Claude Code 工作的构成和价值，2025 年 10 月至 2026 年 4 月
七个月窗口内每种工作模式的会话占比。修复损坏代码的会话比例从 33% 下降到 19%，而操作软件、分析数据和编写文档的比例则有所增长。

成功取决于用户带来的东西

任务的估计价值是了解 Claude Code 如何帮助人们工作的一个途径。另一个角度是查看有多少会话是成功的，以及会话的哪些特征与成功相关。在我们所有的成功度量中，我们看到一个清晰的模式：一个人在会话中表现出的专业知识越多，成功的可能性就越高。大部分增益集中在专业知识等级的低端——新手会话和中级会话之间的差距大于中级和专家之间的差距。

在转向成功会话的特征之前，我们应该精确说明我们如何度量成功。我们无法观察到用户的真实世界结果，也无法直接询问他们是否从 Claude 中得到了他们想要的东西。相反，我们依赖两种互补的基于转录的度量。第一个是“判断成功”，来自一个阅读完整转录并判断用户是否成功完成其目标（选项：成功，部分成功，失败，无明确目标）的分类器。然后两个配套分类器评估该判断的证据强度以确定“验证成功”。一个成功信号分类器寻找可验证的成功证据。具体来说，它寻找与工作匹配的 git 活动（如提交和拉取请求）、测试套件通过以及用户的明确确认。它将会话从“无信号”到“弱信号”（1）再到“多个硬信号”（5）打分。一个平行的失败信号则对出错的证据打分——错误、测试失败、重试、用户对输出提出异议。验证成功要求会话被判断为成功并且至少有一个可验证的硬成功信号。对于以下专注于会话成功或失败程度的分析，我们排除了被分类为“无明确目标”的会话，这类会话约占我们完整样本的 7.7%。

那么，哪些类型的会话最成功？事实证明，会话的专业知识评分（如上所述）对会话的成功至关重要。

人们可能会担心专业知识不是真正的驱动因素——也许专家只是选择了不同的任务，或者在其他方面有所不同。在本节中，我们部分地通过比较同一工作类型、同一估计价值、同一月份、同一主题、来自同一广泛职业群体的人的会话，并询问结果如何因用户评定的专业知识而异，来解决这一担忧。

表 2：从分类器得出的成功和失败定义
这些例子是对来自公开编码代理交互数据集 SWE-chat 的真实会话的改写和总结，由我们的分类器标注。

在我们所有的成功度量中，一个人在会话中表现出的专业知识越多，会话成功的可能性就越大。一个被评定为新手的会话达到我们最严格的度量“验证成功”的概率为 15%，至少部分成功的概率为 77%。一个被评定为中级或以上的会话达到验证成功的概率为 28-33%，部分成功的概率为 91-92%（图 5）。

在每个度量中，大部分增益来自从新手到中级；从中级到专家，斜率减小。在附录中，我们给出了图 5 背后回归的详细信息。

图 5：专业知识与会话结局
按用户在任务上评定的专业知识（从新手到专家的五级量表）划分的会话结果。左面板包括所有会话。中面板和右面板仅限遇到麻烦的会话（失败信号 > 3），并显示最终仍以各种成功和失败定义告终的比例。每个点是一个调整后的比率——我们通过仅比较具有相同工作模式、相同任务价值区间、相同月份、相同任务主题和相同用户类型（软件相关职业与否）的会话来估计专业知识水平之间的差异。关于这些点背后回归的详细信息在附录中。须线是样本均值的置信区间（该图中大多数小到不可见）。这些图排除了被成功结果分类器判断为无明确目标的会话。

在受到挑战的会话中也出现了类似的梯度。当失败信号记录了失败的可验证证据时，我们说会话“遇到麻烦”。这可能是错误、测试失败、多次尝试做同一件事，或是用户表达沮丧或不满。在遇到麻烦的会话中，经过上述所有控制后，验证成功的比例从新手评级会话的 4% 上升到专家评级会话的 15%（图 5）。从较宽松的度量来看，我们发现至少部分成功的比例在新手中为 60%，在中级到专家会话中为 80-81%。

我们还跟踪反向关系——专业知识与各种失败度量。请注意，在此分析中，被判断为失败的会话是那些甚至没有部分成功的会话。如果会话被判断为失败且未编写任何代码行，我们说遇到麻烦的会话被“放弃”：在用户看起来是新手的会话中，19% 以放弃告终，而其他用户则为 5-7%。换句话说，最缺乏经验的用户在难以获得期望结果时更有可能放弃。专业知识的部分价值似乎在于有能力引导代理朝着正确方向前进。9

职业可能不如专业知识重要

从事软件相关职业的用户在所有会话中达到验证成功的比例约为 30%，而其他职业的用户约为 26%。在产出代码的会话中（即添加或修改至少一行代码的会话），这两个数字分别为 34% 和 29%（图 6）。在我们较宽松的成功定义下，软件相关职业和其他职业之间的差距缩小了——在产出代码的会话中，两组分别达到至少部分成功的比例为 89% 和 88%。那个五个百分点的差距很小，并且在七个月中既没有扩大也没有缩小，即使两个组的成功率都在上升。在产出代码的会话中，我们数据中十大职业中的每一个在成功率上都与软件工程师相差 7 个百分点以内。管理职业在验证成功上最高，略高于软件工程职业。它们更高的验证成功率可能反映了适用于引导代理的管理技能。但也可能部分反映了我们的度量：验证部分依赖于转录中的明确确认，而管理者可能更愿意在他们得到所要求的东西时进行沟通。10

图 6：按推断职业划分的编码会话中的验证和判断成功率
在添加或更改至少一行代码的会话中，按用户推断的职业组（十大组）划分的达到严格成功定义——“判断成功”和“验证成功”——的会话比例。每个组都与软件/数学用户（SOC 代码计算机和数学职业）相差七个百分点以内。误差条是按不同账户计算的 95% 置信区间。

展望未来

本报告的结果提供了一个逐渐清晰的图景，说明代理式编码如何放大了某些形式的知识和技能，同时替代了其他形式。在产出代码的会话中，所有主要职业的成功率都与软件相关职业相差几个百分点以内。看来编码代理正在使编码背景与成功编程的关系越来越不相关。

与此同时，成功的会话更有可能表现出领域专业知识。被评为专家的会话达到验证成功的频率是新手的两倍多，而当会话遇到麻烦时，新手放弃会话的比率是其他人的数倍。协作的形式为这一图景增添了更多色彩——领域专家能够引导 Claude 用每个指令做更多工作。因此，引导 Claude 走向成功的能力更多来自对领域的掌握，而非编写代码的能力。拥有这种掌握的人，在任何领域，现在都可能能够完成他们以前无法完成的技术工作。没有任何这种专业知识的人从同一工具中获得的收益要少得多。而这些收益主要来自于能力，而非精通——对领域的工作掌握就占据了大部分好处，而深度专业化在此基础上只增加了一小部分。

这些发现是初步的。与我们大多数研究一样，我们无法测量真实世界的结果，例如会话中编写的代码随后是否被实际使用或丢弃，或者是否产生了有经济价值的产物。此外，本报告排除的非交互式使用是活动的重要部分。开发一个框架来度量它是未来工作的重点。而且我们对会话的所有分类都依赖于模型对转录的解读。在附录中，我们展示了我们的分类器在预期方向上跟踪独立遥测数据，并在大多数会话中与一个强参考模型达成一致。但分类器在规模上验证仍然具有挑战性，而 Claude Code 会话增加了额外的难度，因为它们的长度和复杂性可能使人类标签无法作为真实标准。

本报告中的图景将随着模型、用户以及它们之间劳动分工的变化而更新。我们希望这些度量能够使我们跟踪这些变化发生时的重要转变。例如，如果专业知识的回报开始随时间减少，那将表明模型开始提供用户目前带来的基本判断力，并且这些工具的收益正在扩大到领域专家之外。如果软件职业以外的用户成功完成的编码会话比例继续增长，这可能表明软件生产正在成为每个领域中普通工作的一部分，而不是单一职业的产物。这些转变将改变谁受益于代理式编码以及受益程度，并将对劳动力市场中最受重视的东西产生影响。

阅读原文

📚 相关主题研究