构建有效的人机团队
构建有效的人机团队
过去,与AI协作意味着一个人面对一个聊天窗口。随着时间的推移,AI在处理复杂、长期运行的工作(如编程、研究和财务分析)方面变得越来越有能力。随之而来,我们看到了许多使用AI的新方式——从终端和IDE到电子表格和演示文稿——但这些工作仍然在很大程度上是“单人”体验:一个人与一个代理协作完成个人任务。随着Claude Tag等工具的发布,这种情况正在改变。现在,人类和代理可以在同一个工作空间中协作,共同服务于团队共享的目标。工作现在看起来更像一个多人游戏,由人类团队制定策略,由Claude执行工作。这涉及一些新的工作方式。在Anthropic,过去几个月我们一直在测试使人类-代理团队成功的必要技术。在本文中,我们将解释什么是多人代理,以及我们从中获得的构建经验。
什么是多人代理?
“多人代理”在这里指的是同时与多个不同人类协作的AI模型。就像普通代理一样,它们有自己的记忆和技能。但在其他方面,它们有很大不同。它们有自己的凭证,并且存在于工作发生的地方。在Anthropic,这体现在像Slack这样的团队协作工具内部。
以下是一个人类-代理团队在Slack中共同分析数据集的例子:
为了让代理有效地参与团队渠道,它们需要特定的能力: - 持久记忆,以便记住目标并调整执行方向 - 不绑定于人类的凭证,以便在安全、可预测的护栏内操作 - 持续广泛的信息访问权限,以便了解组织运作方式并采取行动执行任务以服务于团队目标
这些能力构成了代理在多人团队中有效参与所需的技术基础。然而,要使人类-代理团队成功,还需要更多:团队需要特定的工作方式和共享规范。
经验一:公开工作,为代理提供广阔背景
Anthropic的团队会主动、公开地分享信息。当代理在团队中时,这一点尤其重要,因为代理完全从团队可搜索的文本(Slack、代码、文档和会议记录)中构建理解。私人消息、走廊对话和受限文档无法为代理提供背景。对代理来说,如果没有被记录下来且可访问,它就不存在。
我们不会逐个文档或逐个Slack渠道地决定哪些信息应对代理可用,而是使用明确定义的安全边界,应用于整个Slack工作空间,以及会议记录和文档库。在安全边界内,背景信息流向每个团队成员——无论是人类还是AI。这不仅增加了代理和人类可以访问的信息量,还减少了关于什么可以分享以及和谁分享的困惑。人类和代理都很难在逐项分享的软边界中导航:这个渠道应该是公开还是私密?我能和那个人分享这个文档吗?这个代理被允许看那个线程吗?少数几个清晰的工作空间级别边界消除了日常工作中的决策疲劳。
高度透明是有回报的。例如,能够阅读团队会议决策的代理不会建议那些已被降级的任务或项目。能够访问本团队之外产品规格的代理可以推荐其他团队已经成功的模式。而且由于代理阅读大量文本的速度远超人类,它们经常能找出人类可能会错过的相关工作。我们严重依赖代理来在忙碌、快速发展的行业中保持信息灵通和协调一致。
在Anthropic,公开工作表现为: - 在公司选择少数安全边界,并创建与每个安全边界匹配的工作空间和文档共享设置 - 默认将组织内的新沟通渠道设为公开,并确保每次决策都记录在渠道、文档和会议记录中 - 编写工作制品和会议记录,以便代理能够找到它们,因为代理现在是团队文档的主要消费者之一 - 确保AI拥有完成工作所需的正确工具和信息
默认将信息内部公开可能需要文化转变。然而,有上下文和没有上下文的团队之间的差异太过明显,不容忽视。
当然,有些互动是敏感的,需要在单个人类和AI之间保持私密。对于这些情况,通过Claude Tag你可以给@Claude发送直接消息,或者使用现有的Claude.ai和Claude Cowork应用。这些工具通过你的个人MCP连接器让Claude访问私人信息,并确保你的对话以及与代理分享的内容保持私密。
经验二:每个人类和代理都有明确的角色以及适合工作的工具
人类-代理团队共享一个名册、一套工作制品和一个工作空间。代理有自己的凭证、技能和工具访问权限。不同的代理也扮演不同的角色:例如,一个可能负责项目的数据分析,另一个保持和执行设计标准,第三个则进行研究综合。
当项目启动时,人类与代理讨论以确定分配哪些角色,以及人类和代理将如何协作。
一旦人类和代理的工作任务明确,一个代理可能会启动其他代理,以确保特定任务由具有正确记忆和合适访问权限的代理处理。重要的是,他们需要访问完成工作所需的所有工具:负责数据分析的可能需要访问BigQuery,而进行QA的可能需要访问Playwright MCP。
明确界定的角色和职责为人类-代理团队的成功奠定了基础。人类通常与代理在同一个线程中工作,但他们只承担人类独有的角色。这确保了所有工作协同进行,并且人类判断应用于最重要的决策。没有明确的角色,人们最终会在侧面运行个人AI的舰队,重复工作并破坏团队的上下文。指标跟踪是一个常见案例:一个多人代理可以一次性完成工作,让每个人看到相同的数字。
在Anthropic,人类-代理团队中具有明确角色表现为: - 达成一致的任务集:团队的人类和代理就谁做什么达成一致 - 人类和代理在相同的共享线程中工作,以便任何人可以接手他人未完成的工作 - 人类和代理有访问正确工具来完成各自工作的权限 - 代理角色和范围的描述 - Claude代理分担代码库的日常维护、分类反馈、规划、编写代码、审查变更和报告状态。每个代理拥有明确的任务并按自己的节奏工作;人类设定目标并审查输出。
Anthropic的一个工程团队开始创建名册以帮助规范人类和代理的角色,因为这使得推动工作变得更加容易和具体。早期对他们来说有效的一些事情: - 具体的角色也有助于人类轻松追踪任务的责任归属,无论是单个任务还是整个团队的责任集 - 编写技能文件来定义特定代理的角色有助于轻松实现专业化,并允许公司其他人快速建立相同类型的其他代理 - 当项目变得更复杂时,团队添加新的代理来专注于新领域。例如,他们添加了一个发布管理代理来处理新的软件发布。
这些方法让人类对团队的认知模型随着代理数量的增长而扩展。
经验三:设定北极星目标,让代理更主动
虽然Anthropic的一些代理只是完成分配的任务,但最重要的代理会主动提出新的项目和工作流。这通常发生在已经为代理提供了丰富背景和明确角色的团队添加另一个指南时:北极星目标。
北极星目标是雄心勃勃、影响广泛的目标,帮助团队决定哪些任务和工作流是正确的。在Anthropic,人类总是设定北极星目标,并将其植根于公司的使命和商业目标中。
一旦北极星目标被清晰地以文字形式阐明,人类就与团队中的代理分享。然后,重要的是,人类选择哪些代理应该主动提出新的工作流来帮助实现这个长期目标。(团队中不太可能每个代理都具备主动提出工作的必要技能和信任。)
例如,一个内部工具团队以“让产品引导更有效”为北极星目标,看到一个代理主动建议修改引导流程错误消息中的文案。这些改变在接下来的一周显著提高了引导成功率。
在Anthropic,设定北极星目标表现为: - 人类讨论、辩论并记录一个其人类-代理团队的雄心勃勃的北极星目标——一个植根于公司使命和商业目标的目标 - 与团队中的代理分享北极星目标,并明确命名哪些代理可以主动推荐新的工作流 - 在日历上保留高保真的人类时间,会议现在专注于最重要的任务
一个清晰的北极星目标为代理提供了一致的努力方向,以及主动支持团队工作的有意义机会。
经验四:随着时间推移建立信任
Anthropic的团队根据代理展示的可靠性来授予相应程度的自主权,然后有意地扩大自主权。工程师们已经成功派遣团队中的代理独立处理500个漏洞修复,但事情肯定不会一开始就这样。
当一个新的同事加入团队时,需要时间来评估他们的能力并发展稳固的工作例行程序。通常需要多次反馈循环才能将所有关于如何最好完成任务的隐性信息外化。代理也是如此。用户必须尝试给代理分配许多不同的任务,以便了解代理的能力、如何清晰描述目标、需要哪些技能文件以及哪些提示最能引出期望的行为。随着模型的变化和改进,重新测试任务也很重要。提示可能需要重新措辞,而曾经有用的护栏可能会限制更智能模型追求更具创造性的解决方案。
值得注意的是,我们发现最好的长期运行的代理在人类查看其工作之前有多种验证方法。代码当然有测试,但大多数其他工作也可以被验证。例如,技术文档可以应用评分标准和风格指南。当人类设定标准并确保分配给代理的所有工作都可以被审查时,质量保持高水平且不会偏离原始意图。另外,与人类一样,通常有助于将执行任务的任务交给一个代理,将检查第一个代理工作的任务交给另一个代理。这通常被称为“执行者-验证者”代理框架。
在Anthropic,随着时间推移建立对代理的信任表现为: - 在初期手动审查代理工作以验证质量、提供反馈并设计任务验证清单 - 告诉代理使用“验证者”代理来检查自己的工作作为任务的一部分 - 在循环中加入反思,要求代理审查自己的失误,以便工作随时间改进 - 跟踪每个代理已获得自主权的任务类型,并在多次成功后按任务类型扩大范围
Anthropic的一位工程负责人接管了一个有大量积压任务的新团队。为了处理积压,他邀请了几个人类和几个代理帮助他梳理积压并按优先级排序最重要的事项。团队中的一组代理阅读了积压中的所有条目,找出是否有人正在处理这些项目,并为无人认领的项目分配复杂度评分。另一组代理从列表中筛选出中等和低复杂度的项目,并创建代码更改。起初,人类审查代理做出的每个决策,并标记任何需要人类输入的内容。然后人类教导代理直接向人类呈现这些决策,确保涉及艰难权衡的决策总是有人类参与。
每周,负责人和他的团队要求代理编制一份周报,包括“经验教训与失误”,以便代理跟踪错误并避免将来再次犯错。随着时间的推移,负责人能够将越来越复杂的代码更改交给他的代理,并减少指导代理日常任务的时间。
一旦代理更加独立,负责人就教导他们要把人类的注意力视为稀缺资源:将问题批量处理以便一次性回答,重复关键上下文以便人类快速了解情况,并限制每个人类一次看到的事情数量。
帮助代理良好沟通确保他们保持有用和高效。有些人在团队中设有代理,其唯一角色是决定如何批处理并提升对人类团队成员最重要的沟通。其他人则围绕代理每天应做的工作量设置护栏,以便人类能够有意义地参与工作。这样的护栏确保人类维持对自己重要的技能,并且需要人类审查的项目数量保持可持续。
需要思考的问题
在构建人类-代理团队的基础时,考虑以下问题: - 代理和人类需要的所有信息和访问权限是否既公开又可广泛搜索? - 你能写下团队的名册(包括人类和代理),并说明每个成员负责什么吗? - 团队中的每个人类和代理是否都有执行其工作的正确工具? - 你是否有评分标准或测试来让人类和代理验证关键工作产品? - 团队是否有每个人都可以参考的明确北极星目标?
向前推进
这些模式都不新鲜——至少对人类来说不是。强大的北极星目标、明确的角色、扎实的文档记录、共享的质量标准以及从错误中学习的空间是我们几十年来已知的健康团队习惯。代理只是让不跳过这些习惯变得更加重要。
那些从代理中获得最多收益的团队,正是那些最有意地应用这些基本原则的团队。