开源机器人栈补上了关键一块:世界模型也能白盒化了
推出 WALL-WM:我们开源的具身 AI 世界模型,也是我们开源机器人栈的下一环。
在事件关节处雕琢世界动作建模。
阅读博客:为何重要
WALL-WM 将机器人世界建模从固定长度的动作分块,转向以事件为锚点的视频-动作预训练。它围绕“伸手”“接触”“抓取”“提起”“移动”“放置”等事件进行学习,使语言、视觉与动作更自然地对齐。
为何你该关注
WALL-WM 整合了以下特性:
• 以事件为锚点的 VLA 预训练
• 与先验对齐的视频-动作架构
• 基于 Wan 的视频塔 + 随机初始化的动作 DiT
• 多视角感知,支持视锥掩码(sight-cone masking)、管状补丁掩码(tube patch masking)和相机 RoPE(Camera RoPE)
• 支持变长执行的事件模式(Event Mode)
• 支持阶梯式解码(Staircase Decoding)的统一模式(Unified Mode)
• 支持大规模训练的 DMuon
目标:帮助机器人学习物理上真正重要的东西,而不仅是下一个固定时间切片中会发生什么。
代码(即将发布):#opensource #EmbodiedAI
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖