Google DeepMind发布TIPSv2：让AI真正‘看懂’图像中物体的位置关系

📅 2026 年 4 月 16 日 📖 约 6 分钟 @andrefaraujo on 𝕏 AI开源工程

True multimodal AI needs to understand the world spatially。这句话不是口号，而是TIPSv2要解决的核心问题：现有图文模型能匹配‘椅子’和文字，但无法稳定建立‘椅子在画面左下角、紧贴墙面、与门呈30度角’这类空间关系。这意味着：当前多数多模态模型的‘理解’仍是扁平的、词袋式的，而非具身的、可定位的。

TIPSv2是一个基础图文编码器，由Google DeepMind团队在CVPR 2026发布。它不是全新架构，而是一套可复用的预训练改进方案：iBOT++、Head-only EMA、多粒度合成描述。这意味着：这些改动加起来只需几行代码，却能让任意ViT类模型（包括CLIP）显著提升对图像局部区域与文本短语的对齐能力。

研究起点是个反直觉现象：被蒸馏的小模型（如ViT-L）在细粒度图文对齐上，反而比它所源自的巨型教师模型（如ViT-g）更强。这意味着：预训练过程本身可能在‘抹平’空间结构——不是模型不够大，而是监督方式没对准。

关键发现是：在类似iBOT的自监督训练中，监督所有可见图像块（patch）的token，而不只监督被掩码的那些，就能大幅提升对齐质量。这意味着：过去默认只教模型‘猜被遮住的部分’，现在改为‘每个露出来的部分都要说清楚它对应什么’。

Head-only EMA将动量更新限制在投影头层，内存开销减半，性能不降。这意味着：以往因EMA教师导致的显存翻倍瓶颈被绕过，小团队也能跑起高质量多模态预训练。

TIPSv2在零样本分割任务上刷新SOTA，且在6项对比评估中4项胜过DINOv3——尽管只用了后者1/15的训练图像和1/6大小的教师模型。这意味着：空间感知能力的提升，不依赖数据或算力堆叠，而来自更精准的监督信号设计。

它的PCA可视化图显示：同一张图里，天花板吊灯、人、背包等对象在特征空间中自然聚类、边界清晰。这意味着：模型内部已自发形成空间组织性表征，无需额外检测框或标注。

这条路能不能走通，取决于工具本身够不够用。但至少，它把‘要不要试’这件事，变简单了。

📎 阅读原文 · @andrefaraujo on 𝕏