视频生成模型正在变成世界模拟器,但卡在算力这道门槛上
自动驾驶测试车在虚拟城市里连续开三天,没撞一次,也没重播任何一段路——这不是回放录像,是模型实时推演出车辆、行人、红绿灯之间的动态关系。
这类系统背后,已不是传统视频生成:它要维持物体一致性、尊重物理规律、响应动作干预,本质上是在运行一个轻量级的‘世界内核’。 这意味着:模型正在从‘画帧’转向‘建模’,就像从手绘动画升级为物理引擎驱动的仿真。
调查指出,当前最耗资源的环节,不是生成内容本身,而是长时序下的注意力计算——比如让模型记住30秒前一辆自行车的位置,并据此预测它5秒后是否进入盲区。 这意味着:算力瓶颈不在分辨率或帧率,而在‘时间纵深’带来的记忆与推理开销。
文中提出的‘短窗口注意力’技术,把长序列拆成滑动的小段,在局部建模交互,再用缓存机制衔接上下文。 这意味着:原本需要24GB显存、耗时47分钟的10秒模拟,现在能在一块消费级显卡上以12帧/秒实时运行。
这条路的终点,可能不是更逼真的AI视频,而是让每个机器人、每辆测试车、甚至每台手机,都随身带着一个能思考‘接下来会发生什么’的微型世界。
现在的问题已经不是‘能不能模拟’,而是‘谁先让模拟便宜到可以嵌入日常设备’。