AI Pulse

AI代理直接操作桌面软件:无需截图,精准又省算力

AI代理直接操作桌面软件:无需截图,精准又省算力

agent-desktop 是一个用 Rust 编写的命令行工具,专为 AI 代理设计。它的核心思路是绕开截图和像素匹配,直接通过操作系统的无障碍树(accessibility trees)获取当前界面中所有元素的结构化信息。这样一来,AI 代理可以直接获取按钮、输入框等组件的位置和状态,无需解析屏幕截图。

传统的桌面自动化方案通常先截一张图,再用视觉模型识别像素中的元素,既消耗计算资源,也容易因为分辨率、主题或布局变化而出错。agent-desktop 选择了另一条路:优先调用操作系统内置的无障碍 API,只有当 API 操作失败时,才回退到模拟鼠标事件。渐进式骨架遍历(progressive skeleton traversal)是它的关键优化:先快速扫描整体布局的骨架,只列出顶层容器和交互元素,等 AI 代理需要更多细节时才递归深入。根据项目介绍,这一策略能将密集应用的 token 消耗降低 78% 到 96%。

agent-desktop 的工作循环很简单:快照 → 决策 → 行动 → 快照。每次快照按深度优先顺序为所有交互元素分配确定性引用,例如 @e1、@e2、@e3,这些引用在下次快照前有效。AI 代理只需读取快照输出的

📎 阅读原文 · GitHub

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部