📡 X 信号

卡内基梅隆大学发布Gym-Anything助力AI训练

@rohanpaul_ai 1.4K 浏览 · 7 喜欢 · 1 转推 · 3 收藏 AI研究AI训练AI基准测试

卡内基梅隆大学最新研究表明，几乎任何软件都可以成为AI智能体的训练场地。在我看来，这件事意义重大，因为应用程序里的真实工作流程长、混乱，且不同软件之间差异很大，所以AI智能体需要真实的场所来学习和接受评估。

他们的研究结果还展示了一个坏消息：一旦任务接近真实工作的样子，当下的智能体仍然会频繁失败。当前大多数智能体基准测试使用的都是小型网页或桌面任务，无法体现智能体能否处理真实工作场景中的软件。

Gym-Anything 通过将环境创建本身交给智能体完成，解决了搭建瓶颈。第一个智能体编写脚本、安装软件、加载真实数据、打开应用，并收集运行正常的证明。第二个智能体通过截图、日志、文件和检查清单审核这些证明，在搭建存在问题时发回修复指令。

利用这个循环，作者构建了 CUA-World，其中包含跨200个应用的10000多个任务，覆盖全部22个主要职业类别。结果显示，即便是强大的模型，也只能解决极少数最难的长流程任务，这说明真实计算机使用工作仍远未被解决。—— arxiv.org/abs/2604.06126 标题："Gym-Anything: Turn any Software into an Agent Environment"

这张图展示了完整的Gym-Anything流程：他们选取重要的真实软件，把每个应用转换成AI智能体可以执行操作的环境，然后在这些应用内创建大量贴近现实的任务。

核心突破在于基准测试创建的手动工作量大幅降低，因为在其他智能体接受长软件任务测试前，会由一个智能体搭建环境，另一个智能体检查环境。这也说明了这个结果为什么重要：当用这种方式测试智能体时，任务会更贴近真实办公室工作，而当前的智能体仍然难以应对。

他们从真实就业和GDP数据出发，将其映射到数千个软件工具，筛选出可以在测试沙箱中运行的应用，最终保留了一个覆盖重要工作领域的平衡集合。

这个基准测试的重要之处在于，它和真实经济活动中的工作绑定，因此智能体任务要反映人们实际使用的软件，而不只是简单的演示应用。

Gym-Anything 将一个新软件应用转换为经过验证的智能体环境的流程是：由一个创建智能体搭建软件，收集截图和日志这类证据，同时由一个独立的审核智能体检查搭建是否合格，不合格就发送反馈。

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse