📡 X 信号

开源机器人栈补上了关键一块：世界模型也能白盒化了

@XSquareRobot 7.5K 浏览 · 137 喜欢 · 23 转推 · 112 收藏 LAUNCHOpen Source

推出 WALL-WM：我们开源的具身 AI 世界模型，也是我们开源机器人栈的下一环。

在事件关节处雕琢世界动作建模。

阅读博客：为何重要
WALL-WM 将机器人世界建模从固定长度的动作分块，转向以事件为锚点的视频-动作预训练。它围绕“伸手”“接触”“抓取”“提起”“移动”“放置”等事件进行学习，使语言、视觉与动作更自然地对齐。

为何你该关注
WALL-WM 整合了以下特性：
• 以事件为锚点的 VLA 预训练
• 与先验对齐的视频-动作架构
• 基于 Wan 的视频塔 + 随机初始化的动作 DiT
• 多视角感知，支持视锥掩码（sight-cone masking）、管状补丁掩码（tube patch masking）和相机 RoPE（Camera RoPE）
• 支持变长执行的事件模式（Event Mode）
• 支持阶梯式解码（Staircase Decoding）的统一模式（Unified Mode）
• 支持大规模训练的 DMuon

目标：帮助机器人学习物理上真正重要的东西，而不仅是下一个固定时间切片中会发生什么。

代码（即将发布）：#opensource #EmbodiedAI

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse