📡 X 信号

HumanEgo：基于人类第一视角视频的轻量高效机器人策略框架

@TX_Leo_Wang 2.7万浏览 · 208 喜欢 · 27 转推 · 193 收藏 AI机器人开源

1/ 🧠人类是最佳的机器人数据来源！
2/ 👓人类第一人称视角视频在数量上极为丰富，但质量较差。
3/ 除了扩大数据规模，更智能的表征方式与架构同样重要。
4/ 想要一个开源框架，用人类数据训练你自己的机器人吗？

「One Policy, Many Conditions」
1️⃣ 跨具身形态（Cross-Embodiment）
2️⃣ 跨环境（Cross-Environment）
3️⃣ 跨设置（Cross-Setup）
HumanEgo 在不同条件下均保持稳健的成功率，且无需重新训练。
🧵 2/n

「🔥HOT TAKE - 1/3」
🔥显式的空间表征（而非视觉保真度）才是弥合具身鸿沟的关键。
🔥技能并非仅由手或物体单独定义——真正重要的是二者之间的交互。因此我们设计了以交互为中心的 Token（Interaction-Centric Tokens, ICT），一种紧凑的实体级表征。

「🔥HOT TAKE - 2/3」
🔥人类视频所含信息远不止动作标签。更丰富的监督信号可带来互补性增益。
🔥因此我们添加三项辅助目标——全部共享策略网络的编码器：
1️⃣ 物体运动预测（forecast each object's 6-DoF future）

「🔥HOT TAKE - 3/3」
🔥人类视频绝非廉价替代品，而是策略学习中更优、更高效的数据源。人类数据胜出的两个原因：
1️⃣ 更高的离线数据质量——人类天然能产生更平滑、更快、更灵巧的动作，且覆盖更广的

「👓Data Collection & Preprocessing with Aria Glasses @meta_aria」
✦ 数据采集——任何人、任何时间、任何地点——佩戴 Aria 眼镜，自然完成任务。无需标定、无需专用工作空间、无需光照设置。每项任务耗时 30 分钟。
✦ 预处理——Aria 的 MPS 流水线为我们提供

「🗺️System Overview」
🔥机械臂掩码补全（arm inpainting）与关键点渲染弥合视觉鸿沟。
🔥以交互为中心的 Token（ICT）对所有实体之间的空间关系进行编码。
🔥基于流匹配（flow matching）的策略网络，结合密集的辅助目标，从数分钟尺度的人类第一人称视频中学习双臂机器人动作。

「🤖HumanEgo Bridges the Embodiment Gap Efficiently」
各方法在全部四项任务上的真实世界成功率（%），每项任务仅使用 30 分钟数据。
「HumanEgo / ACT / SPOT / ZeroMimic / Tract2Act / PointPolicy / EgoZero」
三项结果：
1️⃣ HumanEgo 在

「🤯More Tasks」
🔥实话实说——当机器人首次仅凭 30 分钟随意采集的人类第一人称视频数据（无微调、无机器人数据、无任务专属调整）就成功完成这些任务时，我确实有点震惊。它就是直接奏效了。
🔥而且模型足够轻量，我们 routinely

「🙏Thank you!」
衷心感谢我出色的合作者 @BotaoUMD、@ColinYu14116982、@JayLEE_0301。
最深切地感谢我的导师 @RuohanGao1、@furongh、@YAloimonos 在整个过程中给予的指导与支持。
也感谢 @prgumd 及 @umdcs 中 Furong 实验室的所有成员——谢谢！

@ashokM93 谢谢！

@JieWang_ZJUI 谢谢，Tony！

@autonomousevent 美妙的评价！谢谢！

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse