视频生成模型正在变成世界模拟器，但卡在算力这道门槛上

📅 2026 年 4 月 5 日 📖 约 1 分钟 @HuggingPapers on 𝕏 AI工程研究

自动驾驶测试车在虚拟城市里连续开三天，没撞一次，也没重播任何一段路——这不是回放录像，是模型实时推演出车辆、行人、红绿灯之间的动态关系。

这类系统背后，已不是传统视频生成：它要维持物体一致性、尊重物理规律、响应动作干预，本质上是在运行一个轻量级的‘世界内核’。这意味着：模型正在从‘画帧’转向‘建模’，就像从手绘动画升级为物理引擎驱动的仿真。

调查指出，当前最耗资源的环节，不是生成内容本身，而是长时序下的注意力计算——比如让模型记住30秒前一辆自行车的位置，并据此预测它5秒后是否进入盲区。这意味着：算力瓶颈不在分辨率或帧率，而在‘时间纵深’带来的记忆与推理开销。

文中提出的‘短窗口注意力’技术，把长序列拆成滑动的小段，在局部建模交互，再用缓存机制衔接上下文。这意味着：原本需要24GB显存、耗时47分钟的10秒模拟，现在能在一块消费级显卡上以12帧/秒实时运行。

这条路的终点，可能不是更逼真的AI视频，而是让每个机器人、每辆测试车、甚至每台手机，都随身带着一个能思考‘接下来会发生什么’的微型世界。

现在的问题已经不是‘能不能模拟’，而是‘谁先让模拟便宜到可以嵌入日常设备’。