新研究揭示AI代理在模拟职场中自主完成任务率仅30.3%

📅 2026 年 7 月 1 日 📖 约 10 分钟 @BrianRoemmele on 𝕏 AI研究

THE MONEY PIT

卡内基梅隆大学的研究人员与合作伙伴共同推出了TheAgentCompany，这是一个全面的基准测试，旨在评估基于大型语言模型（LLM）的AI代理在模拟专业工作场所中处理重要任务的能力。这项研究填补了AI自动化炒作与现实场景中当前系统实际能力之间的差距。

该基准测试创建了一个自包含、可复现的环境，模拟一家小型软件工程公司，配备内部工具、数据和模拟同事。代理必须浏览网页、编写和运行代码、管理项目、处理财务并进行沟通，以完成175项多样化任务。

研究发现，即使是最优秀的代理，例如由Gemini 2.5 Pro驱动的代理，也只能完全自主完成约30.3%的任务。如果部分完成也给分，得分约为39.3%。

这揭示了一个微妙的现实：简单任务显示出自动化的潜力，而复杂、长周期任务仍然具有挑战性。该基准测试使用OpenHands框架进行代理交互，并测试了一系列闭源和开源模型。

当前AI代理的核心问题

当前基于LLM的系统号称是“代理”，但在实际工作场景中面临根本性限制。主要问题是，许多所谓的代理并非真正的自主代理，而是围绕LLM构建的复杂脚手架。真正的代理应具备持久目标、自适应规划、可靠的长时记忆、稳健的错误恢复能力以及跨任务从经验中学习的能力。相反，大多数实现高度依赖外部脚手架：预定义的工具调用、提示工程、状态管理循环以及掩盖底层脆弱性的人性化界面。

已识别出的关键问题包括：
- 脆弱的长期规划：代理难以在数十个步骤中保持连贯性。它们经常陷入循环、遗忘先前上下文或追求无效路径而无法有效回溯。
- 错误恢复与验证能力差：当操作失败时（例如错误的API调用或误解同事回复），代理通常无法自主检测或纠正问题。
- 真正的协作能力有限：通过与模拟同事在RocketChat上的互动，暴露出提问模糊、无法整合新信息以及无法处理模糊性或协商的问题。
- 缺乏持续学习：每个任务从干净状态开始，没有跨任务的知识积累，而人类会随着时间积累专业知识。
- 工具使用与界面挑战：虽然代理可以操作浏览器或终端，但切换上下文或处理意外的UI状态会导致高失败率。
- 高风险领域的幻觉问题：在财务或代码部署任务中，代理会产生看似合理但错误的输出，如果在没有监督的情况下部署，可能带来现实世界风险。

这些问题源于基础架构：LLM擅长下一个词预测和模式匹配，但缺乏内在的自主性、具身性或动态环境中的扎根推理。

TheAgentCompany的新发现

通过严格的、基于检查点的评估，该基准测试带来了几个新的见解：
- 性能差距的确认：顶级模型在175项任务中仅达到30.3%的完全完成率。这低于许多狭窄基准，凸显出更广泛、更真实的场景会暴露更大的弱点。
- 部分进展常见但不足：在复杂场景中，代理通常会完成40-60%的子任务，然后停滞不前，这验证了细粒度评分优于二元指标的价值。
- 任务难度分布：简单的行政和数据录入任务成功率较高（通常高于50%），而涉及架构变更或多同事协调的软件工程任务成功率降至20%以下。
- 模型缩放收益趋于平稳：更强的模型改善了结果，但即使是前沿系统也表现出类似的失败模式，这表明需要架构创新而不仅仅是扩大规模。
- 沟通开销：需要同事输入的任务显著增加了步骤数和成本，许多代理无法正确提取或应用接收到的信息。
- 效率指标：即使成功运行也需要高令牌消耗和成本，这引发了关于部分自动化实际部署经济性的疑问。

这些发现为先前的工作提供了更清晰的基线，强调当前系统在大多数专业环境中是加速而非替代人类劳动。

今天的代理究竟是什么

在实践中，今天的“AI代理”是以LLM为中心的系统，辅以脚手架层。脚手架包括：
- 用于浏览器、终端和代码执行的工具调用API。
- 用于短期上下文的记忆缓冲区或向量存储。
- 解析观测并生成下一步操作的中控循环。
- 模拟规划或反思的提示模板。

这种结构制造了自主性的假象，但在压力下会暴露本质。真正的自主性需要整合世界建模、内在动机、因果推理和持续学习的组件。论文强调，将LLM包装器称为代理夸大了其能力，并在行业和政策中引发不切实际的期望。

提出的解决方案与未来路径

TheAgentCompany不仅诊断问题，还提供了一个解决方案平台：
- 改进架构：未来的代理可以引入层次化规划（将高级目标分解为可验证的子任务）、更好的检索增强记忆，以及用于自我纠正的多代理辩论系统。
- 增强训练范式：通过环境反馈的强化学习、合成的长周期轨迹或基于丰富检查点的数据微调，可以增强鲁棒性。
- 人机混合系统：该基准测试支持这样的设计：代理处理常规子任务，将复杂或模糊情况升级给人类，这与当前优势相符。
- 基准驱动的迭代：代码、数据和环境在 https://the-agent-company.com 及相关的GitHub仓库中以开源形式发布，邀请社区针对相同的标准化任务测试新框架、模型和技术。
- 评估改进：针对主观检查点的LLM辅助评估器，结合确定性检查，平衡了可扩展性和准确性，同时最小化偏见。
- 更广泛的扩展：自托管设计允许适应其他领域（例如医疗或金融），推动更通用的工作自动化基准。

通过标准化可复现的、多方面的任务（包含模拟同事和多样化接口），该基准测试加速了向更强大系统的进展。它鼓励开发者专注于可靠性、可验证性和无缝集成，而非孤立的演示。

总而言之，TheAgentCompany用基于证据的现实主义冷却了热情。当前的LLM代理，在大量脚手架的支持下，对于较简单的专业任务提供了有意义的增强，但在实现全面工作场所变革所需的自主、可靠执行方面仍有欠缺。

我们Zero-Human公司可以确认这些见解，并且已经有机地解决了每一个问题。这些都是必须解决的问题，而许多公司只是按下了播放键。

通过架构进步、更好的训练和持续的严格基准测试来弥补已识别的差距，将决定真正自主性出现的速度。这项资源对于在前进道路上导航的研究人员、开发者和政策制定者来说，是一个必不可少的工具。

阅读原文

📚 相关主题研究

THE MONEY PIT

当前AI代理的核心问题

TheAgentCompany的新发现

今天的代理究竟是什么

提出的解决方案与未来路径

📬 订阅 AI Pulse