现在对机器人说人话，它真能听懂干活了

📅 2026 年 4 月 18 日 📖 约 1 分钟 @GoogleDeepMind on 𝕏 AI机器人开源工程

Google DeepMind 和 Boston Dynamics 搞了个新活：用 Gemini Robotics 的具身推理模型，直接让 Spot 听懂日常英语。以前得写代码、设路径、调参数，现在你只要说“把地上的瓶子捡起来”，它就能自己看、自己走、自己抓。

他们没给 Spot 塞一堆 if-else 规则，而是搭了个桥，把 Gemini 的大脑接到 Spot 的手脚上。AI 能调用三个基础工具：移动、拍照、抓东西。靠这三样，它能把“收拾房间”拆成找垃圾、走近、弯腰、抓起、扔桶——一气呵成。

控制机器人的门槛，从会写 Python 降到了会说人话。工程师不用再提 Jira 工单改行为树，用户动动嘴就行。

不过牛皮吹爆了也得看落地。Gemini 是跑在云端还是本地？延迟高不高？说错一次会不会把花瓶当垃圾扔了？这些关键数据一个没给。

更别说中文支不支持、普通用户能不能买到、家里地板脏了它会不会罢工。一句话：听起来像饭馆菜单上写的“主厨推荐”，但你还没尝到第一口。