Google DeepMind发布TIPSv2:让AI真正‘看懂’图像中物体的位置关系
True multimodal AI needs to understand the world spatially。这句话不是口号,而是TIPSv2要解决的核心问题:现有图文模型能匹配‘椅子’和文字,但无法稳定建立‘椅子在画面左下角、紧贴墙面、与门呈30度角’这类空间关系。 这意味着:当前多数多模态模型的‘理解’仍是扁平的、词袋式的,而非具身的、可定位的。
TIPSv2是一个基础图文编码器,由Google DeepMind团队在CVPR 2026发布。它不是全新架构,而是一套可复用的预训练改进方案:iBOT++、Head-only EMA、多粒度合成描述。 这意味着:这些改动加起来只需几行代码,却能让任意ViT类模型(包括CLIP)显著提升对图像局部区域与文本短语的对齐能力。
研究起点是个反直觉现象:被蒸馏的小模型(如ViT-L)在细粒度图文对齐上,反而比它所源自的巨型教师模型(如ViT-g)更强。 这意味着:预训练过程本身可能在‘抹平’空间结构——不是模型不够大,而是监督方式没对准。
关键发现是:在类似iBOT的自监督训练中,监督所有可见图像块(patch)的token,而不只监督被掩码的那些,就能大幅提升对齐质量。 这意味着:过去默认只教模型‘猜被遮住的部分’,现在改为‘每个露出来的部分都要说清楚它对应什么’。
Head-only EMA将动量更新限制在投影头层,内存开销减半,性能不降。 这意味着:以往因EMA教师导致的显存翻倍瓶颈被绕过,小团队也能跑起高质量多模态预训练。
TIPSv2在零样本分割任务上刷新SOTA,且在6项对比评估中4项胜过DINOv3——尽管只用了后者1/15的训练图像和1/6大小的教师模型。 这意味着:空间感知能力的提升,不依赖数据或算力堆叠,而来自更精准的监督信号设计。
它的PCA可视化图显示:同一张图里,天花板吊灯、人、背包等对象在特征空间中自然聚类、边界清晰。 这意味着:模型内部已自发形成空间组织性表征,无需额外检测框或标注。
这条路能不能走通,取决于工具本身够不够用。但至少,它把‘要不要试’这件事,变简单了。