AI Pulse

现在对机器人说人话,它真能听懂干活了

Google DeepMind 和 Boston Dynamics 搞了个新活:用 Gemini Robotics 的具身推理模型,直接让 Spot 听懂日常英语。以前得写代码、设路径、调参数,现在你只要说“把地上的瓶子捡起来”,它就能自己看、自己走、自己抓。

他们没给 Spot 塞一堆 if-else 规则,而是搭了个桥,把 Gemini 的大脑接到 Spot 的手脚上。AI 能调用三个基础工具:移动、拍照、抓东西。靠这三样,它能把“收拾房间”拆成找垃圾、走近、弯腰、抓起、扔桶——一气呵成。

控制机器人的门槛,从会写 Python 降到了会说人话。工程师不用再提 Jira 工单改行为树,用户动动嘴就行。

不过牛皮吹爆了也得看落地。Gemini 是跑在云端还是本地?延迟高不高?说错一次会不会把花瓶当垃圾扔了?这些关键数据一个没给。

更别说中文支不支持、普通用户能不能买到、家里地板脏了它会不会罢工。一句话:听起来像饭馆菜单上写的“主厨推荐”,但你还没尝到第一口。

📎 阅读原文 · @GoogleDeepMind on 𝕏