AI Pulse

AI没碰键盘,却在脑子里完整操作了电脑

研究人员把一段段计算机操作录制成“计算机行为视频”:鼠标轨迹、窗口变化、终端滚动……这些画面被输入原本用于生成短视频的AI模型。模型学到的不是“怎么调用Chrome”,而是“当人输入URL后,桌面该怎样一帧一帧地变”。

视频生成模型天生擅长处理时间序列中的因果关系。把界面当作连续帧来训练,它自然捕捉到“点击图标→启动程序→绘制窗口”之间的隐式状态转移。就像人闭眼也能想象按下回车后地址栏变灰、进度条出现、页面逐块加载,模型试图复现这种基于视觉经验的预演能力。

整个过程在模型内部完成。不碰物理硬盘,也不触发系统调用。它不是记住操作步骤,而是同步模拟底层状态和表层画面。

有些AI“操作电脑”的演示,其实全程在生成中完成状态跃迁,并未控制真实机器。

当工具行为被内化为生成的一部分,AI与用户之间的责任边界开始模糊。这或许不是终点,而是人机协作新规则的起点。

📎 阅读原文 · @hardmaru on 𝕏