微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

图像理解的"连连看"难题：图宾根AI中心研究揭示AI视觉模型为何认得颜色却分不清哪个颜色配哪个形状

视觉语言模型概念绑定乘法结构

图像理解的"连连看"难题：图宾根AI中心研究揭示AI视觉模型为何认得颜色却分不清哪个颜色配哪个形状

作者：科技行者

2026-06-04 15:05

分享至：

这项研究揭示了AI视觉模型概念绑定失败的根本原因，并证明通过足够多样的训练数据，模型能自发学会低复杂度的乘法式绑定规则，从而识别多物体场景中的属性归属关系。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 15:05 • 科技行者

这项由德国图宾根大学图宾根AI中心联合韩国科学技术院（KAIST）AI学院开展的研究，发表于2026年第43届国际机器学习大会（ICML），收录于PMLR 306卷，论文预印本编号为arXiv:2605.31503，有兴趣深入查阅的读者可通过该编号检索到完整原文。

**当AI看不懂"红苹果旁边放着一个蓝色盘子"**

考虑这样一个场景：一张桌子上摆着一只红色苹果和一个蓝色盘子。任何小学生看到这张照片后，都能毫不费力地告诉你"红色的那个是苹果，蓝色的那个是盘子"。但如果把这张照片交给当下最先进的图文匹配AI——比如广为人知的CLIP模型——来做判断，它很可能只能告诉你"照片里有红色，有蓝色，有苹果，有盘子"，却说不清到底哪个颜色属于哪个物体。

这个看似简单的能力在认知科学里有个专门的名字，叫做"概念绑定"（concept binding）。所谓绑定，就是把"红色"和"苹果"这两个独立的属性，在脑子里牢牢地捆绑成"红苹果"这个整体概念，而不是把它们像散落的拼图碎片那样随意地堆在一起。人类从很小的时候就天然具备这种能力，但对今天的AI来说，这却是一个出乎意料地棘手的挑战。

图宾根AI中心的研究团队发现了一个有趣的矛盾：CLIP模型在跨模态（也就是图片与文字之间的匹配）任务中表现得像个"词袋子"——它知道场景里存在哪些颜色和形状，却无法告诉你它们的归属关系；但如果只在图片或只在文字这单一渠道里用特殊的探测工具去"挖掘"，却能找到隐藏的绑定信息。这种表面失败与内在存在之间的张力，驱使研究团队深入挖掘AI内部的"概念组织方式"，最终找到了问题的根源，并且证明了这个问题是可以被解决的。

**一、用"乐高积木"理解AI的概念表示方式**

要理解这项研究，需要先搞清楚AI是怎么"记住"一张图片的。现代图像理解模型不会像人一样形成清晰的视觉印象，而是把图片转换成一串数字——专业上叫做"嵌入向量"（embedding）。这串数字就像是图片的"数字指纹"，包含了模型认为这张图片的全部特征。

研究团队的第一个重要发现，是这串数字具有特别整齐的"加法结构"。用乐高积木来理解：如果一张图片里有两个物体，那么这张图片的整体数字指纹，大致就等于两个独立物体的数字指纹相加。红苹果加上蓝盘子，得到的结果就差不多等于"红苹果的指纹"加上"蓝盘子的指纹"。

为了验证这一点，研究人员使用了多个不同的数据集，包括3D渲染的场景（CLEVR数据集）、2D图形场景（CLEVR-2D）以及更接近真实照片风格的数据集（PUG:SPARE）。他们把两个物体的单独指纹加在一起，然后看看这个加法结果能在多大程度上还原出真实的双物体场景指纹。结果相当令人信服：对于CLIP的文字编码器，这种加法重建能解释约90%到92%的指纹变化（用统计学里的R?来衡量）；对于图像编码器，这个数字在75%到86%之间。换句话说，知道每个零件长什么样，就基本上能拼出整体的样子。

更令人惊喜的是，这种加法结构还可以用来"编辑"图片的数字指纹。如果一张图片是"红苹果+蓝盘子"，研究人员可以通过减去"红苹果的指纹"、加上"绿苹果的指纹"，得到一个"绿苹果+蓝盘子"的新指纹，而且这个新指纹在检索和识别测试中的表现，与真正的"绿苹果+蓝盘子"场景相符合。在CLEVR数据集上，这种编辑方式的检索准确率高达97%到100%，说明加法结构并不是一种近似噪音，而是具有真实可操作性的内在组织方式。

这一加法结构还可以进一步向下延伸。不仅场景可以分解为物体，每个物体的指纹也大致等于它各个属性（颜色、形状等）指纹的相加。比如"红苹果"的指纹，大约等于"红色"的指纹加上"苹果"的指纹。当然，"大约等于"意味着不是完全相等——单独概念的叠加能解释大约71%到84%的物体指纹变化，而用物体整体指纹来解释，会比单纯叠加概念再多解释约10%的变化。这多出来的10%，正是绑定信息存在的地方。

与此同时，研究团队还做了一个"对照实验"：他们把场景指纹里的物体成分或概念成分减掉，然后看看AI还能不能识别出相关的信息。结果发现，把"红色"和"苹果"的概念指纹从场景指纹里减掉后，模型几乎立刻"忘记"了这些颜色和形状（识别准确率从接近100%跌至5%左右）；而把整个"红苹果"物体的指纹减掉后，物体和概念的识别准确率则双双崩溃。这个实验用非常直接的方式证明：物体层面的信息和概念层面的信息，在AI的数字指纹里是以叠加的方式共存的，移除某个"积木块"就会导致对应信息的消失。

**二、发现"指纹"结构并不能解释绑定失败的谜题**

既然物体的信息在AI内部确实存在，为什么AI在图文匹配时还是无法正确绑定概念呢？这就进入了这项研究最核心的侦探推理部分。

研究团队引入了一个叫做"绑定函数"（binding function）的概念，用来描述从"这个场景里有哪些颜色和形状"到"对应的数字指纹是什么"之间的映射规则。可以把绑定函数想成一个食谱：输入食材（颜色和形状的描述），输出最终菜肴（数字指纹）。

判断一个食谱是好食谱还是坏食谱，有一个简单的标准：好食谱应该可以举一反三，教你做了番茄炒鸡蛋，你就能类比着做出番茄炒豆腐——哪怕你从没做过这道菜。坏食谱则需要为每道菜单独记忆，做过番茄炒鸡蛋不代表你会做番茄炒豆腐。

研究团队用一种聪明的方式来测量CLIP的绑定函数是"好食谱"还是"坏食谱"：他们训练了一个简单的小程序（专业上叫做单隐层MLP，一种小型神经网络），让它学习"给定颜色和形状的描述，预测对应的CLIP数字指纹"这个规律。关键在于，这个小程序只能看到部分物体组合，然后必须对完全没见过的新组合做出预测。如果预测准确，说明绑定函数简单规律强；如果预测失败，说明绑定函数复杂且依赖死记硬背。

结果相当令人惊讶。对于"场景里有哪些颜色"（概念识别）这个任务，小程序哪怕只用30%的数据训练，也能对新组合达到80%以上的准确率；但对于"这是哪个具体物体"（物体识别，即绑定）这个任务，即使把小程序的容量扩大到极限（4096个神经元），对没见过的物体组合的预测准确率也始终在20%以下，远低于概念识别。而且这个结论不依赖于小程序的具体形式——换成随机森林或梯度提升树（XGBoost）也得到一样的结果，物体识别准确率始终接近零，而概念识别则保持高水平。

这说明CLIP的绑定函数是一种"高复杂度"的映射——它对于每种物体组合都有一套独特的、彼此不相通的规则，无法从已知组合推断到未知组合。就像一个厨师，知道每道菜的精确配方，但这些配方之间没有任何共通的逻辑，学了一道菜对下一道菜没有任何帮助。

这一发现也解释了为什么CLIP能在单一模态（单独的图片侧或单独的文字侧）里通过特殊探测工具找到绑定信息——因为物体成分确实存在于指纹中——但图文两侧却无法对齐：图片编码器和文字编码器各自用了一套"死记硬背"的方式来表示物体，对于两者都没见过的新组合，各自预测出来的指纹方向完全不同，自然无法匹配。

**三、从头训练的模型能学会"举一反三"的绑定规则吗？**

找到了问题所在，研究团队随即追问：这种绑定失败是AI的根本局限，还是CLIP这个特定模型的训练方式导致的问题？换句话说，绑定这件事，原则上AI能学会吗？

为了回答这个问题，团队设计了一套受控实验环境，从头开始训练新的模型。他们构建了一个合成的双物体场景世界：每个物体由若干个概念（如颜色和形状）的组合决定，场景则由两个物体组合而成。他们可以精确控制训练时允许模型见到的物体种类比例（称为"训练覆盖率"），然后测试模型对完全没有出现在训练集里的新物体组合的识别能力。

实验覆盖了多种规模设置，物体空间从400种（2个概念，每个概念20个取值）到12.5万种（3个概念，每个概念50个取值）不等。两个独立的Transformer编码器（一个处理场景，一个处理查询），使用类似CLIP的对比学习目标从头训练。

实验结果揭示了两个清晰的规律。第一个规律是：概念识别比物体识别更容易泛化。即使只见过很少的物体，模型就能准确判断场景里包含了哪些颜色或形状；但要让模型准确识别具体是哪个物体（颜色和形状的特定组合），需要更多的训练覆盖。第二个规律更令人振奋：绑定泛化确实会出现，而且随着物体空间规模的增大，需要的相对覆盖率反而在降低。

具体来说，当物体空间只有400种时，需要见过约50%的物体才能对新物体达到高准确率；而当物体空间扩大到2500种时，只需要约30%的覆盖就够了；在最大的12.5万种物体空间里，训练覆盖率从30%提升到40%的一小步，会触发一个从接近随机水平到接近完美准确率的急剧跃迁。这说明，只要训练数据在物体空间里有足够的覆盖多样性，模型是可以自发学会举一反三、正确绑定从未见过的物体组合的。这与CLIP形成了鲜明对比——CLIP即使用尽了模拟的训练数据，物体识别对新组合的准确率也始终很低。

**四、绑定成功的秘密：乘法才是关键**

既然有些模型能泛化绑定，有些不能，那两者之间的根本差异是什么？研究团队深入分析了能成功泛化的模型，发现了一个一以贯之的结构特征：这些模型在内部实现的是"乘法式"的概念组合，而不是简单的"加法式"叠加。

用颜色和形状来打比方：加法式的绑定，就像是把"红色的味道"和"苹果的味道"分别放进碗里，最终得到的只是两种味道的混合；而乘法式的绑定，则是把两种味道融合成一种全新的、独特的味道，这种新味道只属于"红苹果"，无法从"蓝苹果"或"红梨"中推断出来。

更准确地说，研究团队提出了三种不同的数字指纹构建方式，并测试它们的绑定能力。第一种是纯加法（Additive）：场景的指纹 = 各个概念指纹的总和，这就是典型的"词袋子"模型，能识别概念但无法绑定。第二种加入了物体内部的乘法（Per-obj. products）：在加法基础上，还为每个物体额外计算其概念之间的乘积，得到一个该物体独有的"乘法签名"。第三种是全局乘法（Global product）：不仅物体内部有乘法，跨物体之间也有乘积，形成整个场景的全局交叉信息。

测试结果显示，三种方法对概念识别都表现良好，但只有引入乘法交互的后两种方法能实现绑定泛化，而且全局乘法的表现最为突出，尤其在物体空间规模较大时优势更明显。

为了确认乘法结构与泛化能力的关系不只是个案，研究团队训练了约500个不同超参数配置的模型，对每个模型都同时测量两件事：一是它对从未见过的物体组合的物体识别准确率（泛化能力），二是全局乘法探测器能在多大程度上逼近它的指纹结构（乘法结构的吻合度）。结果呈现出清晰的正相关：泛化能力强的模型，恰恰是内部结构最符合乘法形式的模型，两者高度吻合。

与此形成对照的是，当把同样的全局乘法探测器应用于CLIP和DINOv2的指纹时，探测器能找回概念识别信息，但物体识别准确率始终接近零，再次印证了这两个预训练模型缺乏乘法式绑定结构的结论。

**五、在真实像素上训练的视觉模型是否一样？**

到这里，可能有一个自然的疑问：上述受控实验用的是人工合成的符号序列作为输入，这和真实图片差距很大。于是研究团队进一步做了一组验证实验，把场景编码器替换成接收真实像素输入的卷积神经网络前端，并在像素图像场景上重复了同样的分析。

为了让实验更有挑战性，他们设计了三个难度级别：干净的无噪声不重叠场景、添加了随机噪点但不重叠的场景、以及既有噪点又有物体互相遮挡的场景。每个物体由两个概念决定（方块内部颜色和边框颜色），各有50个取值，组合出多达650万种不同的物体。

结果与符号输入的实验高度一致：成功泛化的视觉模型，其绑定函数同样可以被小型乘法探测器有效逼近，即使在噪声和遮挡条件下也不例外。这说明乘法式绑定结构不是符号化输入的特殊产物，而是一种更普遍的、与输入形式无关的内在规律。

**六、把所有线索拼在一起：绑定失败的全貌**

至此，整个故事的完整面貌已经清晰。CLIP的绑定失败不是因为它完全不知道场景里有哪些物体——从单模态的探测实验可以看出，物体层面的信息确实存在于指纹中，以加法叠加的方式隐藏其中。失败的根本原因在于CLIP学到的"从概念到物体"的映射规则，太过复杂且缺乏规律性，对于每种物体组合都像是单独死记的，无法在图片编码器和文字编码器之间形成一套共同遵循的简单规则。一旦碰到两者都没见过的新物体组合，各自的预测方向就会出现偏差，无法对齐。

相比之下，从头训练并在足够多样的物体组合上学习的模型，会自发形成低复杂度的乘法式绑定结构。这种结构简单、规律强，图片侧和文字侧能收敛到同一套规则，自然就能对从未见过的物体组合做出一致的指纹预测，实现跨模态绑定。

这个发现对于理解和改进现有AI系统有着直接的启示。问题不是"绑定和概念识别在原理上互相矛盾"，而是"需要在足够丰富的物体组合数据上进行训练，让模型自发发现乘法式的简单规则"。当物体空间足够大时，相对较少的训练覆盖率就能触发绑定泛化的涌现，这对于面向真实世界（物体组合空间极其巨大）的AI训练是一个积极的信号。

当然，研究团队也坦承了一些局限性。目前所有实验都基于合成数据集，因为真实世界里没有现成的、完整覆盖物体组合空间的数据集来支撑这类分析。此外，研究中衡量"复杂度"的方式依赖于具体的探测模型，而理论意义上绝对的"计算复杂度"是无法精确计算的。但这些局限性并不影响核心结论的有效性，只是指出了未来进一步验证的方向。

归根结底，这项研究告诉我们：当下AI视觉系统在"认出颜色"和"认出颜色配了哪个形状"之间的巨大鸿沟，并非无法逾越的天然障碍，而是训练方式和数据覆盖度的问题。只要模型有机会接触足够多样的物体组合，它就能自发地学会一套简洁、可推广的绑定规则，从根本上解决概念归属的混乱。这为未来建造真正理解多物体场景的AI系统提供了明确的方向。

对于普通人来说，这意味着什么？下次你看到AI在图片搜索中闹出"红色的那个和蓝色的那个"分不清归属的笑话时，你知道问题出在哪里了，也知道修路的方向已经有了。当AI有一天能像小孩子一样自然地说出"那只戴红帽子的是小猫，那只戴蓝帽子的是小狗"时，背后会有一套乘法式的、简洁的概念绑定规则在默默工作。

---

**Q&A**

Q1：CLIP模型为什么认得颜色和形状，却分不清哪个颜色属于哪个物体？

A：CLIP的内部编码方式更像是把所有属性混在一起记，知道场景里有"红色"有"圆形"，但没有一套足够简单、规律性强的规则来把"红色"和"圆形"捆绑成"红色圆形"。研究发现这是因为CLIP学到的"概念到物体"的映射太复杂，对每种组合各自为政，不能举一反三，图像和文字两侧因此无法对齐。

Q2：绑定泛化能力的训练数据需要多少才够？

A：研究发现这与物体的组合空间大小有关。当可能的物体种类只有400种时，需要见过约一半才能泛化；但当物体种类扩展到2500种甚至12.5万种时，只需覆盖约30%甚至更少就能触发绑定泛化的突然涌现。物体空间越大，需要的相对覆盖比例反而越低，这对真实世界的大规模训练是个积极信号。

Q3：乘法式绑定结构和加法式绑定结构的区别是什么？

A：加法式结构就是把各个属性的数字指纹直接相加，能告诉你场景里有什么颜色和形状，但不能区分"红苹果配蓝盘子"和"蓝苹果配红盘子"。乘法式结构则通过属性之间的交叉相乘，为每种特定组合生成一个独一无二的"签名"，从而能够区分不同的绑定关系，实现真正的概念归属识别。

视觉语言模型概念绑定乘法结构

分享至