HumanEgo:基于人类第一视角视频的轻量高效机器人策略框架
1/ 🧠人类是最佳的机器人数据来源!
2/ 👓人类第一人称视角视频在数量上极为丰富,但质量较差。
3/ 除了扩大数据规模,更智能的表征方式与架构同样重要。
4/ 想要一个开源框架,用人类数据训练你自己的机器人吗?
「One Policy, Many Conditions」
1️⃣ 跨具身形态(Cross-Embodiment)
2️⃣ 跨环境(Cross-Environment)
3️⃣ 跨设置(Cross-Setup)
HumanEgo 在不同条件下均保持稳健的成功率,且无需重新训练。
🧵 2/n
「🔥HOT TAKE - 1/3」
🔥显式的空间表征(而非视觉保真度)才是弥合具身鸿沟的关键。
🔥技能并非仅由手或物体单独定义——真正重要的是二者之间的交互。因此我们设计了以交互为中心的 Token(Interaction-Centric Tokens, ICT),一种紧凑的实体级表征。
「🔥HOT TAKE - 2/3」
🔥人类视频所含信息远不止动作标签。更丰富的监督信号可带来互补性增益。
🔥因此我们添加三项辅助目标——全部共享策略网络的编码器:
1️⃣ 物体运动预测(forecast each object's 6-DoF future)
「🔥HOT TAKE - 3/3」
🔥人类视频绝非廉价替代品,而是策略学习中更优、更高效的数据源。人类数据胜出的两个原因:
1️⃣ 更高的离线数据质量——人类天然能产生更平滑、更快、更灵巧的动作,且覆盖更广的
「👓Data Collection & Preprocessing with Aria Glasses @meta_aria」
✦ 数据采集——任何人、任何时间、任何地点——佩戴 Aria 眼镜,自然完成任务。无需标定、无需专用工作空间、无需光照设置。每项任务耗时 30 分钟。
✦ 预处理——Aria 的 MPS 流水线为我们提供
「🗺️System Overview」
🔥机械臂掩码补全(arm inpainting)与关键点渲染弥合视觉鸿沟。
🔥以交互为中心的 Token(ICT)对所有实体之间的空间关系进行编码。
🔥基于流匹配(flow matching)的策略网络,结合密集的辅助目标,从数分钟尺度的人类第一人称视频中学习双臂机器人动作。
「🤖HumanEgo Bridges the Embodiment Gap Efficiently」
各方法在全部四项任务上的真实世界成功率(%),每项任务仅使用 30 分钟数据。
「HumanEgo / ACT / SPOT / ZeroMimic / Tract2Act / PointPolicy / EgoZero」
三项结果:
1️⃣ HumanEgo 在
「🤯More Tasks」
🔥实话实说——当机器人首次仅凭 30 分钟随意采集的人类第一人称视频数据(无微调、无机器人数据、无任务专属调整)就成功完成这些任务时,我确实有点震惊。它就是直接奏效了。
🔥而且模型足够轻量,我们 routinely
「🙏Thank you!」
衷心感谢我出色的合作者 @BotaoUMD、@ColinYu14116982、@JayLEE_0301。
最深切地感谢我的导师 @RuohanGao1、@furongh、@YAloimonos 在整个过程中给予的指导与支持。
也感谢 @prgumd 及 @umdcs 中 Furong 实验室的所有成员——谢谢!
@ashokM93 谢谢!
@JieWang_ZJUI 谢谢,Tony!
@autonomousevent 美妙的评价!谢谢!
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖