AI Pulse

新研究揭示AI代理在模拟职场中自主完成任务率仅30.3%

新研究揭示AI代理在模拟职场中自主完成任务率仅30.3%

THE MONEY PIT

卡内基梅隆大学的研究人员与合作伙伴共同推出了TheAgentCompany,这是一个全面的基准测试,旨在评估基于大型语言模型(LLM)的AI代理在模拟专业工作场所中处理重要任务的能力。这项研究填补了AI自动化炒作与现实场景中当前系统实际能力之间的差距。

该基准测试创建了一个自包含、可复现的环境,模拟一家小型软件工程公司,配备内部工具、数据和模拟同事。代理必须浏览网页、编写和运行代码、管理项目、处理财务并进行沟通,以完成175项多样化任务。

研究发现,即使是最优秀的代理,例如由Gemini 2.5 Pro驱动的代理,也只能完全自主完成约30.3%的任务。如果部分完成也给分,得分约为39.3%。

这揭示了一个微妙的现实:简单任务显示出自动化的潜力,而复杂、长周期任务仍然具有挑战性。该基准测试使用OpenHands框架进行代理交互,并测试了一系列闭源和开源模型。

当前AI代理的核心问题

当前基于LLM的系统号称是“代理”,但在实际工作场景中面临根本性限制。主要问题是,许多所谓的代理并非真正的自主代理,而是围绕LLM构建的复杂脚手架。真正的代理应具备持久目标、自适应规划、可靠的长时记忆、稳健的错误恢复能力以及跨任务从经验中学习的能力。相反,大多数实现高度依赖外部脚手架:预定义的工具调用、提示工程、状态管理循环以及掩盖底层脆弱性的人性化界面。

已识别出的关键问题包括:
- 脆弱的长期规划:代理难以在数十个步骤中保持连贯性。它们经常陷入循环、遗忘先前上下文或追求无效路径而无法有效回溯。
- 错误恢复与验证能力差:当操作失败时(例如错误的API调用或误解同事回复),代理通常无法自主检测或纠正问题。
- 真正的协作能力有限:通过与模拟同事在RocketChat上的互动,暴露出提问模糊、无法整合新信息以及无法处理模糊性或协商的问题。
- 缺乏持续学习:每个任务从干净状态开始,没有跨任务的知识积累,而人类会随着时间积累专业知识。
- 工具使用与界面挑战:虽然代理可以操作浏览器或终端,但切换上下文或处理意外的UI状态会导致高失败率。
- 高风险领域的幻觉问题:在财务或代码部署任务中,代理会产生看似合理但错误的输出,如果在没有监督的情况下部署,可能带来现实世界风险。

这些问题源于基础架构:LLM擅长下一个词预测和模式匹配,但缺乏内在的自主性、具身性或动态环境中的扎根推理。

TheAgentCompany的新发现

通过严格的、基于检查点的评估,该基准测试带来了几个新的见解:
- 性能差距的确认:顶级模型在175项任务中仅达到30.3%的完全完成率。这低于许多狭窄基准,凸显出更广泛、更真实的场景会暴露更大的弱点。
- 部分进展常见但不足:在复杂场景中,代理通常会完成40-60%的子任务,然后停滞不前,这验证了细粒度评分优于二元指标的价值。
- 任务难度分布:简单的行政和数据录入任务成功率较高(通常高于50%),而涉及架构变更或多同事协调的软件工程任务成功率降至20%以下。
- 模型缩放收益趋于平稳:更强的模型改善了结果,但即使是前沿系统也表现出类似的失败模式,这表明需要架构创新而不仅仅是扩大规模。
- 沟通开销:需要同事输入的任务显著增加了步骤数和成本,许多代理无法正确提取或应用接收到的信息。
- 效率指标:即使成功运行也需要高令牌消耗和成本,这引发了关于部分自动化实际部署经济性的疑问。

这些发现为先前的工作提供了更清晰的基线,强调当前系统在大多数专业环境中是加速而非替代人类劳动。

今天的代理究竟是什么

在实践中,今天的“AI代理”是以LLM为中心的系统,辅以脚手架层。脚手架包括:
- 用于浏览器、终端和代码执行的工具调用API。
- 用于短期上下文的记忆缓冲区或向量存储。
- 解析观测并生成下一步操作的中控循环。
- 模拟规划或反思的提示模板。

这种结构制造了自主性的假象,但在压力下会暴露本质。真正的自主性需要整合世界建模、内在动机、因果推理和持续学习的组件。论文强调,将LLM包装器称为代理夸大了其能力,并在行业和政策中引发不切实际的期望。

提出的解决方案与未来路径

TheAgentCompany不仅诊断问题,还提供了一个解决方案平台:
- 改进架构:未来的代理可以引入层次化规划(将高级目标分解为可验证的子任务)、更好的检索增强记忆,以及用于自我纠正的多代理辩论系统。
- 增强训练范式:通过环境反馈的强化学习、合成的长周期轨迹或基于丰富检查点的数据微调,可以增强鲁棒性。
- 人机混合系统:该基准测试支持这样的设计:代理处理常规子任务,将复杂或模糊情况升级给人类,这与当前优势相符。
- 基准驱动的迭代:代码、数据和环境在 https://the-agent-company.com 及相关的GitHub仓库中以开源形式发布,邀请社区针对相同的标准化任务测试新框架、模型和技术。
- 评估改进:针对主观检查点的LLM辅助评估器,结合确定性检查,平衡了可扩展性和准确性,同时最小化偏见。
- 更广泛的扩展:自托管设计允许适应其他领域(例如医疗或金融),推动更通用的工作自动化基准。

通过标准化可复现的、多方面的任务(包含模拟同事和多样化接口),该基准测试加速了向更强大系统的进展。它鼓励开发者专注于可靠性、可验证性和无缝集成,而非孤立的演示。

总而言之,TheAgentCompany用基于证据的现实主义冷却了热情。当前的LLM代理,在大量脚手架的支持下,对于较简单的专业任务提供了有意义的增强,但在实现全面工作场所变革所需的自主、可靠执行方面仍有欠缺。

我们Zero-Human公司可以确认这些见解,并且已经有机地解决了每一个问题。这些都是必须解决的问题,而许多公司只是按下了播放键。

通过架构进步、更好的训练和持续的严格基准测试来弥补已识别的差距,将决定真正自主性出现的速度。这项资源对于在前进道路上导航的研究人员、开发者和政策制定者来说,是一个必不可少的工具。

阅读原文
📚 相关主题 研究

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部