微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI终于学会了"看图说话"的深层含义:Adobe研究院揭示机器如何理解图像间的抽象关系

AI终于学会了"看图说话"的深层含义:Adobe研究院揭示机器如何理解图像间的抽象关系

2026-01-05 09:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-05 09:54 科技行者

这项由威斯康星大学麦迪逊分校的Thao Nguyen和加州大学洛杉矶分校的Sicheng Mo等研究者与Adobe研究院合作完成的研究,发表于2025年12月8日的计算机视觉与模式识别领域。研究编号为arXiv:2512.07833v1,感兴趣的读者可以通过这个编号查询完整论文。

当你看到一张燃烧中的火柴序列照片时,你会想到什么?大多数人可能会想到香蕉的成熟过程,因为它们都展现了某种渐进的变化过程。但如果你把这两张图片输入目前最先进的图像识别系统,它们会告诉你:"这完全不同,一个是火柴,一个是香蕉。"这就是当前人工智能面临的一个重要盲区:它们只能看到表面的相似性,却无法理解更深层的关系相似性。

Adobe研究院的科学家们意识到,这种局限性源于一个根本问题:现有的图像相似性算法都专注于外表特征的匹配,比如颜色、形状、语义类别,却忽略了人类视觉认知中一个更为重要的维度——关系视觉相似性。这种相似性不关心对象是什么,而关心对象之间的关系模式是什么。

为了解决这个问题,研究团队开创性地提出了"关系视觉相似性"的概念,并开发了一个名为relsim的模型。这个模型的训练过程就像教会一个学生理解比喻和类比:研究者们精心构建了一个包含11.4万张图像的数据集,每张图像都配有"匿名描述"——这些描述不提及具体物体,而是描述图像中的抽象逻辑关系。

整个研究的核心创新在于改变了图像相似性的评判标准。传统方法问的是"这两张图看起来像吗?"而新方法问的是"这两张图的内在逻辑关系像吗?"这种转变为计算机视觉领域开辟了一个全新的研究方向,让机器第一次具备了理解图像间抽象关系的能力。

一、重新定义"相似":从表象到本质的认知革命

在深入了解这项研究之前,我们需要理解一个基本问题:什么是真正的相似性?在日常生活中,我们说苹果和桃子相似,是因为它们都是红色的水果。但我们也会说地球和桃子相似,因为地球的地壳、地幔、地核就像桃子的皮、肉、核一样形成了层次结构。

认知科学家长期以来认为,人类的相似性感知包含两个核心维度:属性相似性和关系相似性。属性相似性关注的是表面特征的匹配,比如颜色、大小、形状,这种相似性支撑着我们的日常识别和分类活动。关系相似性则关注的是结构模式的对应,比如层次关系、变化过程、功能角色,这种相似性驱动着类比思维和创造性思考。

有些认知科学家甚至认为,关系相似性才是人类智能的核心特征,因为它支撑着类比学习和推理能力,这些能力正是人类区别于其他智能物种的关键所在。当史蒂芬·霍金说"我把大脑看作是一台计算机"时,他依靠的不是任何表面特征的相似性,而是功能关系的类比:大脑处理信息就像计算机处理数据一样。

然而,当前的计算机视觉系统几乎完全专注于属性相似性。从传统的像素级对比方法,到基于深度学习的特征匹配算法,再到多模态的CLIP模型,它们的共同特点是通过比较表面特征来判断相似性。这些方法在识别"不同角度的同一只狗"或"风格相似的艺术作品"方面表现出色,但在理解"燃烧的火柴序列"和"香蕉成熟过程"之间的深层关系方面完全失效。

这种局限性在实际应用中造成了许多问题。比如在图像检索系统中,用户想要寻找"展现时间流逝概念"的图像时,系统只能基于表面特征进行匹配,无法理解用户真正想要的抽象概念。在创意设计领域,设计师希望找到在视觉逻辑上相似但在具体内容上完全不同的参考图像时,现有系统同样无能为力。

Adobe研究院的科学家们意识到,这个问题的根源在于我们对"图像相似性"概念的狭隘理解。他们提出,真正完整的图像相似性应该包含两个互补的维度:一个是现有方法擅长的属性相似性,另一个是被长期忽视的关系相似性。这两种相似性不是竞争关系,而是合作关系,它们共同构成了人类视觉认知的完整图景。

为了量化和建模关系相似性,研究团队给出了一个清晰的定义:当两张图像的内部关系或视觉元素间的功能对应关系一致时,即使它们的视觉属性完全不同,这两张图像也具有关系相似性。这个定义的关键在于将注意力从"对象是什么"转移到"对象之间的关系是什么"。

二、构建关系理解的数据基础:匿名标注的创新方法

要训练一个能够理解关系相似性的模型,首先需要解决一个根本问题:如何为图像创建描述关系而非内容的标注?这就像要求一个人描述音乐的节奏而不提及任何具体乐器一样困难。

传统的图像标注方法都专注于描述图像中的具体内容:"一只黑白相间的猫坐在红色沙发上"。但要描述关系逻辑,我们需要的是类似这样的描述:"{主体}以特定方式与{环境}产生对比效果"。这种标注方式被研究团队称为"匿名标注",因为它使用占位符替代了所有具体的对象名称,专注于描述抽象的关系模式。

研究团队面临的第一个挑战是从海量图像中筛选出具有丰富关系逻辑的图像。并非所有图像都包含值得学习的关系模式。一张普通的沙发照片主要传达的是表面属性信息,对关系学习的价值有限。相比之下,一张用草莓制作的心形图案则蕴含着丰富的创意组合关系,这种关系模式可以迁移到其他材料和形状的组合中。

为了自动化这个筛选过程,研究团队训练了一个专门的图像过滤模型。他们使用Qwen2.5-VL-7B作为基础模型,用1300张正例图像和11000张负例图像进行微调。标注人员被指示寻找那些"包含可用于创建或连接其他图像的关系模式、逻辑或结构"的图像。

这个过滤模型的表现令人印象深刻:它与人类判断的一致性达到93%。当应用到LAION-2B这个包含数十亿图像的大型数据集时,模型从中筛选出了11.4万张被认为具有关系学习价值的图像,保留率约为0.7%。这个比例反映了一个重要事实:在互联网的海洋中,真正具有丰富关系逻辑的图像其实相当稀少。

解决了图像筛选问题后,研究团队面临第二个更困难的挑战:如何为单张图像生成高质量的匿名标注?事实证明,从单张图像中抽象出通用的关系模式几乎是不可能的。当你只看到一张蝴蝶飞行轨迹的图像时,很难确定应该强调的是"飞行轨迹"、"渐变效果"还是"序列展示"。

研究团队的解决方案极其巧妙:他们手工整理了532个图像组,每组包含2到10张展现相同关系逻辑的图像。当多张相似逻辑的图像放在一起时,共同的关系模式立即变得清晰可见。就像音乐中的主旋律在单独听一个音符时难以辨识,但当多个音符连续播放时就变得明确一样。

对于每个图像组,研究团队使用视觉语言模型生成一个统一的匿名标注,这个标注能够描述组内所有图像共享的关系逻辑。例如,对于包含蝴蝶飞行序列、鸟类迁徙路线、球类运动轨迹的图像组,生成的匿名标注可能是:"{主体}的{运动类型}以连续阶段展示,水平排列以展现运动流程"。

这种基于图像组的标注方法不仅提高了标注质量,还自然地创建了一个训练范式:相同组内的所有图像都应该获得相同的关系描述,这为后续的对比学习提供了完美的正样本配对。经过人工验证和质量控制后,研究团队将这些匿名标注应用到所有11.4万张筛选图像上,创建了第一个专门用于关系相似性学习的大规模数据集。

三、模型架构:融合视觉感知与语言抽象的技术突破

有了高质量的训练数据,下一个关键问题是如何设计一个能够学习关系相似性的模型架构。这里面临的核心挑战是:关系理解需要的不仅仅是视觉感知,还需要抽象推理能力。

传统的视觉编码器,无论是基于卷积神经网络的ResNet还是基于自注意力机制的DINO,都主要专注于提取视觉特征。它们就像训练有素的摄影师,能够准确识别图像中的颜色、纹理、形状和对象,但缺乏理解这些元素之间抽象关系的能力。即使对这些模型进行微调,让它们学习匿名标注,效果仍然有限。

研究团队的洞察是:关系理解本质上是一个需要世界知识的推理过程。当我们看到火柴燃烧序列并联想到香蕉成熟过程时,我们调用的不仅是视觉信息,还有关于"时间"、"变化"、"过程"等抽象概念的知识。这些知识并非来自视觉经验,而是来自语言和概念学习。

基于这个认识,研究团队选择使用视觉语言模型(VLM)而非纯视觉编码器作为基础架构。具体来说,他们使用Qwen2.5-VL-7B作为视觉特征提取器。这个选择的核心逻辑是:VLM在预训练过程中已经学习了大量的世界知识和抽象概念,这些知识正是理解关系相似性所必需的。

模型的训练目标设计得非常巧妙:对于每张图像,模型需要生成一个特征向量,使得具有相同匿名标注的图像在特征空间中距离很近,而具有不同匿名标注的图像距离较远。这个目标通过InfoNCE对比学习损失函数来实现,这种损失函数已经在许多多模态学习任务中证明了其有效性。

训练过程中的一个关键设计是引入了可学习的查询令牌。研究团队在图像输入的末尾添加了一个特殊的查询令牌,并将其与图像一起输入到语言模型中。模型最后一层中查询令牌对应的特征向量被用作该图像的关系特征表示。这种设计允许模型专门为关系理解任务优化特征提取过程。

为了进一步引导模型专注于关系理解,研究团队还实验了任务指令的使用。他们可以在图像前添加固定的指令提示,比如"仔细分析图像以理解其潜在逻辑",来引导模型的注意力方向。这种方法在某些情况下能够进一步提升模型的关系理解能力。

模型的文本编码部分使用了all-MiniLM-L6-v2,这是一个广泛使用的句子嵌入模型。训练过程中,文本编码器的参数保持冻结,只有视觉部分的参数通过LoRA(低秩适应)方法进行更新。这种设计既保持了文本理解的稳定性,又允许视觉部分适应关系理解的特殊需求。

整个模型的训练在8张A100 GPU上进行,批次大小为64,共训练15000次迭代。训练完成后,模型能够为任何输入图像生成一个关系特征向量,两张图像的关系相似性可以通过它们特征向量的余弦相似度来衡量。

四、实验验证:关系理解能力的全面检验

为了验证模型的关系理解能力,研究团队设计了一套全面的评估体系。评估的核心场景是图像检索:给定一张查询图像,从数据库中找出在关系逻辑上最相似的图像。这个任务的挑战在于,正确答案往往在视觉上与查询图像完全不同。

实验设置采用了严格的数据分割策略。11.4万张图像被随机分为10万张训练图像和1.4万张测试图像,确保训练和测试之间没有数据泄露。为了模拟真实应用场景,研究团队在1.4万张测试图像基础上又添加了1.4万张从LAION-2B随机采样的图像,形成一个包含2.8万张图像的检索数据库。从测试集中随机选择1000张图像作为查询,每次查询需要从剩余的图像中找到最相似的一张。

评估方法结合了自动评估和人工评估两种方式。自动评估使用GPT-4o作为判断器,为每对查询-检索图像的关系相似性打分,分数范围从0到10。为了确保评估的公正性,评估提示明确要求判断器忽略视觉相似性和语义相似性,专注于关系逻辑的一致性。

人工评估采用A/B测试的形式。参与者会看到一张查询图像和两张候选图像(一张来自研究团队的模型,一张来自基线方法),然后选择哪张图像在关系上与查询图像更相似。每个基线方法构建了300个三元组进行测试,每个三元组由至少3个用户独立评估,总共获得了大约900个人工判断。

实验结果令人振奋。在GPT-4o自动评估中,研究团队的模型获得了6.77分的平均分,显著超过了所有基线方法。传统的感知相似性指标LPIPS只获得了4.56分,反映出纯粹的像素级比较在关系理解任务上的局限性。基于自监督学习的DINO稍好一些,得到5.14分,但仍然远低于新模型。

令人意外的是,即使是多模态的CLIP模型,在图像到图像的比较中也只达到了5.91分。这说明虽然CLIP在训练中使用了图像-文本配对,但其学到的表示仍然主要关注表面特征而非关系逻辑。那些尝试通过文本作为中介进行检索的方法(CLIP-T和Qwen-T)表现更差,只获得了5.33分和4.86分,这反映了从单张图像生成高质量匿名描述的困难性。

人工评估的结果进一步证实了模型的优势。在与各个基线方法的比较中,用户偏好新模型的比例从42.5%到60.7%不等,平均超过50%。特别值得注意的是,即使在一些用户选择"相同"(即认为两个结果没有明显差异)的情况下,新模型仍然保持了明显的优势。这些结果不仅证明了模型的技术优势,也确认了人类确实能够感知和欣赏关系相似性。

为了更深入地理解模型行为,研究团队进行了一系列消融实验。他们发现,使用纯视觉编码器(如CLIP或DINO)即使在相同数据上进行微调,效果仍然明显不如视觉语言模型。这证实了研究团队的假设:关系理解需要的不仅仅是视觉感知能力,更需要世界知识和抽象推理能力。

另一个重要发现是匿名标注质量的关键作用。基于图像组生成的匿名标注比基于单张图像生成的描述更加准确和有用。这解释了为什么CLIP-T和Qwen-T等基线方法表现不佳:它们依赖于从单张图像生成的描述,这些描述往往包含过多的具体内容信息,缺乏抽象的关系逻辑。

五、应用前景:重新定义图像搜索和创意生成

关系视觉相似性的突破为多个领域带来了革命性的应用可能性。最直接的应用是图像检索系统的升级。传统的搜索引擎只能基于关键词或视觉特征进行匹配,但很多时候用户真正想要的是某种抽象概念或创意灵感。

考虑一个具体场景:一位平面设计师正在为食品广告寻找创意灵感。他手头有一张草莓制作的心形图案照片,希望找到类似的创意表达方式,但不局限于草莓或心形。使用传统搜索系统,结果要么是各种草莓图片,要么是各种心形图案,都无法提供真正的创意启发。而使用关系相似性搜索,系统能够理解"用食材创造非食物形状"这一创意逻辑,返回诸如胡萝卜制作的花朵、咖啡豆排列的星形等具有相同创意逻辑但完全不同具体内容的图像。

在艺术和设计教育领域,关系相似性为理解和教授创意技巧提供了新的工具。传统的艺术教育往往依赖教师的个人经验来识别和讲解不同作品间的深层联系。现在,教育者可以使用关系相似性模型来系统化地发现和组织这些联系,帮助学生理解创意的内在逻辑而非仅仅模仿表面效果。

研究团队特别关注的另一个应用领域是类比图像生成。这是一个超越传统图像编辑的新概念:不是修改图像的表面属性,而是在保持核心关系逻辑的前提下生成全新的内容。比如,给定一张展示"冰激凌融化"概念的图像,类比生成系统可能创造出"蜡烛燃烧"或"雪人消融"的图像,它们在具体内容上完全不同,但在"物质状态变化"这一关系逻辑上完全一致。

为了评估现有图像生成模型在这方面的能力,研究团队手工收集了200个图像对,每对都具有相同的潜在逻辑,并为每对编写了相应的文本指令。他们测试了多个开源和商业模型,包括FLUX-Kontext、Qwen-Image、GPT-4o等。

评估结果揭示了当前技术的局限性和发展方向。商业模型(如GPT-4o和Nano-Banana)在关系保持方面表现更好,平均关系相似性分数达到0.8以上,而开源模型通常只有0.7左右。有趣的是,这些模型在保持关系逻辑的同时,往往在视觉相似性和语义相似性方面得分较低,这正是类比生成的期望效果:保持抽象逻辑而改变具体内容。

这个评估也指出了一个重要的研究方向:当前的图像生成模型主要针对视觉质量和内容准确性进行优化,但缺乏对关系逻辑的明确建模。关系相似性的引入为这个领域提供了新的评估标准和优化目标。

在更广泛的人工智能发展中,关系视觉相似性代表了一个重要的认知能力突破。它表明机器学习系统不仅可以学习表面模式,还可以理解更深层的抽象关系。这种能力对于实现真正的人工智能至关重要,因为类比推理被认为是人类智能的核心特征之一。

六、技术影响与未来展望

关系视觉相似性的提出不仅解决了一个具体的技术问题,更重要的是为整个计算机视觉领域带来了新的思考范式。这项工作的影响可以从多个层面来理解。

从理论层面来看,这项研究重新定义了图像相似性的概念边界。长期以来,计算机视觉领域默认"相似性"等同于视觉特征的匹配程度。这种理解虽然简单直观,但忽略了人类视觉认知的复杂性。通过引入关系相似性这一维度,研究者们提供了一个更加完整和准确的相似性理论框架。这个框架不是要替代现有方法,而是要与之互补,共同构成对视觉相似性的全面理解。

在技术方法上,这项工作展示了多模态学习的新可能性。传统的多模态学习主要关注如何让不同模态的信息相互对齐,比如让图像和文本描述在表示空间中相互匹配。而这项工作则探索了如何利用语言的抽象能力来提升视觉理解的深度。匿名标注的概念特别有趣:它将语言从具体描述的工具转变为抽象思维的载体,这为多模态学习开辟了新的研究方向。

数据构建方面的贡献同样重要。研究团队开发的基于图像组的标注方法解决了一个长期困扰研究者的问题:如何为抽象概念创建高质量的训练数据。这种方法的核心洞察是,模式的识别往往需要多个例子的对比才能实现。这一洞察可能对其他需要学习抽象概念的任务具有普遍意义。

当然,这项工作也面临着一些限制和挑战。首先是数据规模的问题。虽然11.4万张图像对于一个新的研究方向来说已经是一个不错的开始,但与主流视觉模型动辄数十亿参数、数十亿训练样本的规模相比,这个数据集仍然相对较小。扩大高质量关系数据的规模是一个重要的未来方向,但也面临着标注成本和质量控制的挑战。

另一个挑战是关系类型的多样性和完整性。目前的532个图像组虽然覆盖了许多重要的关系模式,但人类认知中的关系类型可能远比这更加丰富和复杂。如何系统性地发现和组织这些关系类型,如何确保模型能够处理之前未见过的关系模式,这些都是需要进一步研究的问题。

评估方法也存在改进空间。虽然研究团队使用了自动评估和人工评估相结合的方式,但关系相似性的主观性使得建立标准化的评估基准变得困难。不同的人可能对同一对图像的关系相似性有不同的判断,这种主观性如何在评估中得到合理的处理,是一个值得深思的问题。

从更长远的角度来看,关系视觉相似性的发展可能催生一系列新的研究方向。比如,如何将这种技术扩展到视频理解中,让机器理解不同视频片段间的叙事逻辑相似性?如何在三维场景理解中应用关系思维,让机器理解空间布局的功能相似性?这些都是充满潜力的研究领域。

在产业应用方面,关系视觉相似性的商业价值正在逐步显现。内容创意平台可以使用这种技术为用户提供更加智能的灵感推荐,电子商务平台可以开发基于风格逻辑而非具体商品的购物体验,教育技术公司可以构建更加智能的案例推荐系统。这些应用不仅能够提升用户体验,还可能创造全新的商业模式。

说到底,关系视觉相似性的意义远不止于解决一个技术问题。它代表了人工智能向更高层次认知能力的迈进。当机器开始理解抽象关系,开始进行类比推理,我们就离真正智能的人工智能更近了一步。这种进步不是突然的飞跃,而是通过像这样的基础研究一点一滴积累起来的。正如这项研究所展示的,有时候改变我们对问题本身的理解,可能比改进解决问题的技术更加重要。

Q&A

Q1:关系视觉相似性和传统图像相似性有什么区别?

A:传统图像相似性主要比较图像的外观特征,比如颜色、形状、语义类别,会认为两张不同的苹果照片相似。而关系视觉相似性关注的是图像间的抽象逻辑关系,比如燃烧火柴的序列和香蕉成熟过程在"时间变化过程"这一关系上是相似的,尽管它们看起来完全不同。这种相似性更接近人类的类比思维方式。

Q2:relsim模型是如何学会理解图像间抽象关系的?

A:relsim使用了一种叫做"匿名标注"的训练方法。研究团队为每张图像创建了不描述具体物体、只描述抽象关系的标注,比如"{主体}经历{变化类型}的过程"。模型通过学习这些匿名标注,逐渐掌握了识别和理解图像中抽象关系模式的能力。同时,模型使用了视觉语言模型作为基础架构,借助其丰富的世界知识来支撑抽象推理。

Q3:关系视觉相似性技术有哪些实际应用?

A:这项技术最直接的应用是改进图像搜索引擎,让用户能够基于创意逻辑而非具体内容搜索图像。在设计领域,它可以帮助找到在创意思路上相似但视觉内容不同的参考图像。在教育方面,可以用来系统化地发现和组织不同作品间的深层联系。此外,还可以应用于类比图像生成,创造保持相同逻辑关系但内容完全不同的新图像。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-