卡内基梅隆大学发布Gym-Anything助力AI训练
卡内基梅隆大学最新研究表明,几乎任何软件都可以成为AI智能体的训练场地。在我看来,这件事意义重大,因为应用程序里的真实工作流程长、混乱,且不同软件之间差异很大,所以AI智能体需要真实的场所来学习和接受评估。
他们的研究结果还展示了一个坏消息:一旦任务接近真实工作的样子,当下的智能体仍然会频繁失败。当前大多数智能体基准测试使用的都是小型网页或桌面任务,无法体现智能体能否处理真实工作场景中的软件。
Gym-Anything 通过将环境创建本身交给智能体完成,解决了搭建瓶颈。第一个智能体编写脚本、安装软件、加载真实数据、打开应用,并收集运行正常的证明。第二个智能体通过截图、日志、文件和检查清单审核这些证明,在搭建存在问题时发回修复指令。
利用这个循环,作者构建了 CUA-World,其中包含跨200个应用的10000多个任务,覆盖全部22个主要职业类别。结果显示,即便是强大的模型,也只能解决极少数最难的长流程任务,这说明真实计算机使用工作仍远未被解决。—— arxiv.org/abs/2604.06126 标题:"Gym-Anything: Turn any Software into an Agent Environment"
这张图展示了完整的Gym-Anything流程:他们选取重要的真实软件,把每个应用转换成AI智能体可以执行操作的环境,然后在这些应用内创建大量贴近现实的任务。
核心突破在于基准测试创建的手动工作量大幅降低,因为在其他智能体接受长软件任务测试前,会由一个智能体搭建环境,另一个智能体检查环境。这也说明了这个结果为什么重要:当用这种方式测试智能体时,任务会更贴近真实办公室工作,而当前的智能体仍然难以应对。
他们从真实就业和GDP数据出发,将其映射到数千个软件工具,筛选出可以在测试沙箱中运行的应用,最终保留了一个覆盖重要工作领域的平衡集合。
这个基准测试的重要之处在于,它和真实经济活动中的工作绑定,因此智能体任务要反映人们实际使用的软件,而不只是简单的演示应用。
Gym-Anything 将一个新软件应用转换为经过验证的智能体环境的流程是:由一个创建智能体搭建软件,收集截图和日志这类证据,同时由一个独立的审核智能体检查搭建是否合格,不合格就发送反馈。
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖