视觉语言模型(VLMs)是当今人工智能的一大前沿,它们能够同时理解图像和文本,回答关于图片的问题,甚至进行复杂的推理。但这些模型究竟是更依赖于它们从训练数据中记忆的世界知识,还是更相信眼前所见的视觉信息?当这两种信息发生冲突时,模型会如何选择?
这正是布朗大学Michal Golovanevsky和William Rudman带领的研究团队(包括Michael Lepori、Amir Bar、Ritambhara Singh和Carsten Eickhoff)在2025年5月发表于arXiv预印本平台(arXiv:2505.17127v1)上的论文《Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts》所探索的问题。
想象一下,如果我给你看一张蓝色草莓的图片,然后问你"这个草莓是什么颜色?",你会毫不犹豫地回答"蓝色"。但如果我问"大多数草莓是什么颜色?",你会根据你的常识回答"红色"。视觉语言模型也应该具备类似的能力——在需要时依赖视觉输入,在需要常识时使用记忆中的知识。但事实证明,这对AI来说并不容易。
研究团队创建了一个名为"Visual CounterFact"的数据集,其中包含了与常识相悖的视觉图像,比如蓝色草莓或比大象还大的蚂蚁。通过这些"视觉反事实"图像,他们测试了模型如何平衡视觉输入和记忆中的知识。更重要的是,他们开发了"像素与先验"(Pixels Versus Priors,简称PvP)的控制机制,让我们能够主动调节模型是依赖视觉信息还是先验知识。
这项研究不仅帮助我们更好地理解视觉语言模型的内部运作,还提供了实用工具来控制这些模型的行为,让它们在需要时能够忽略误导性的视觉信息,或者在适当情境下重视眼前所见。这对于打造更可靠、更安全的多模态AI系统具有重要意义。
一、视觉语言模型的知识困境
想象一下,你平生第一次看到一只被染成蓝色的草莓。虽然你的眼睛告诉你它是蓝色的,但你的大脑知道草莓通常是红色的。这种视觉输入与先验知识之间的冲突,正是当今视觉语言模型面临的挑战。
在纯文本大语言模型(LLMs)的世界里,研究人员已经深入研究了模型如何存储和检索事实知识。例如,我们知道像GPT这样的模型会在其权重中记忆"草莓是红色的"这类事实,并且研究者已经开发出了多种方法来系统地编辑这些事实关联。在自然语言处理领域,"反事实数据集"是研究的重要工具——这些数据集包含了经过最小化改动的输入对,仅仅改变特定事实(如把"草莓是红色的"改为"草莓是蓝色的"),同时保持其他内容不变。这些数据集使研究者能够因果分析模型行为,了解事实关联如何被存储、检索和操纵。
然而,在视觉语言领域,我们缺乏类似的工具。与文本不同,我们不清楚视觉语言模型中事实关联的存储位置,也没有方法来修改这些关联。更重要的是,我们没有针对视觉的"反事实数据集"来测试这些模型如何平衡视觉感知与记忆中的先验知识,也没有方法来控制模型在两种信息冲突时的响应。
Golovanevsky和Rudman团队的研究正是要填补这一空白。他们创建了首个名为"Visual CounterFact"的数据集,专门研究视觉语言模型中与视觉属性相关的世界知识先验,并基于此开发了"像素与先验控制"(PvP)方法,使我们能够控制模型是依赖像素级信息还是世界知识。
二、Visual CounterFact:挑战AI的常识
Visual CounterFact数据集修改了日常物体的视觉属性(如颜色和大小),从而在记忆的事实和输入像素之间创造直接冲突。在这个框架中,"世界知识先验"指的是模型在预训练过程中记忆的视觉属性与物体之间的语言关联(如"草莓是红色的")。相比之下,"视觉感知"则是由模型处理的当前视觉输入定义的,而研究者会操纵这一输入创建反事实图像。
这些反事实图像被设计为挑战模型对视觉属性的世界知识,呈现看似合理但与常识相矛盾的视觉证据。例如,他们对比了与大小相关的知识先验"草莓比苍蝇大"与反事实"苍蝇比草莓大",违反了预期的大小关系。
研究团队采用了精心设计的四步流程来创建Visual CounterFact数据集:
首先,他们从McRae特征规范、CIFAR-100和ImageNet等数据集中识别具有强烈视觉先验的物体(如红色草莓、黄色香蕉等)。他们请人类标注者列出物体的常见属性,如果至少30%的参与者提到特定颜色是该物体的关键属性,就将其纳入数据集。他们还使用GPT-4o来推断典型物体的颜色和大小。
第二步,他们使用Google图像API检索反映这些先验的真实世界图像,要求物体必须出现在白色背景上以减少干扰视觉线索。每张图像都由GPT-4o评分,基于物体正确性、颜色准确性和真实感,选择得分最高的图像确保视觉保真度。
第三步,他们构建故意与典型视觉先验相冲突的反事实关系。对于颜色任务,他们首先提示LLaVA-Next模型生成给定物体的可能颜色,然后从五个最不可能的常见颜色中随机抽样来选择反事实颜色。为保持视觉清晰度,他们限制这些反事实颜色在视觉上与原始颜色明显不同。对于大小任务,他们使用GPT-4o估计物体的真实世界尺寸,并选择大小差异至少为10倍的物体对,通过颠倒预期的大小顺序为每个物体生成两个反事实关系。
最后,他们使用SAM2分割掩码来应用控制的、局部化的转换。在颜色任务中,他们修改色调值同时保留纹理和阴影;在大小任务中,他们调整物体掩码大小并将它们对齐在虚线上,以反映改变后的大小关系而不引入深度歧义。
最终的数据集包含575个颜色样本、575个颜色反事实图像,以及877个原始大小和877个反事实大小图像,总共2,904个有视觉依据的样本。这些图像保持了视觉真实性,同时创造了与模型预期相冲突的场景,为研究视觉语言模型的行为提供了理想工具。
三、当眼见不为实:AI的视觉冲突处理
有了Visual CounterFact数据集,研究团队开始评估三个顶尖视觉语言模型——LLaVA-Next-7B、Qwen2-VL-7B和DeepSeek Janus Pro-7B——如何在视觉输入与记忆知识冲突时做出决策。
研究团队设计了两种提问方式来测试模型:一种是针对图像的具体问题,如"这个草莓是什么颜色?"("this"问题),另一种是针对一般知识的问题,如"大多数草莓是什么颜色?"("most"问题)。理论上,当面对反事实图像(如蓝色草莓)时,模型应该对"this"问题回答"蓝色"(基于视觉输入),对"most"问题回答"红色"(基于世界知识)。
实验结果令人惊讶。当使用"this"问题时,所有模型表现出色,即使面对反事实图像也能达到80%以上的准确率。这表明视觉语言模型非常擅长将答案与当前视觉输入联系起来。这种情况下的错误通常涉及微妙的色调分歧,如金色与橙色或黄色,而不是对基本物体属性的混淆。
然而,当使用"most"问题时,情况发生了戏剧性变化。虽然模型在看到符合常识的图像(如红色草莓)时表现良好,但当同样的问题与反事实图像(如蓝色草莓)配对时,准确率急剧下降。在这些情况下,模型往往会放弃它们的先验知识,转而支持视觉呈现的内容,即使提示明确要求一个通用概念。这表明视觉语言模型很容易被当前图像分心,即使被指示要泛化。
为了更深入地理解这种行为,研究团队应用了一种称为"早期解码"的技术,在模型完成前向传递之前解码隐藏状态,追踪模型预测在各层中的演变。这揭示了一个有趣的现象:当模型被提示给出世界知识答案但被给予反事实图像时,世界知识答案的概率在中后期层中上升,然后在最终层突然翻转为反事实答案。
这种"翻转行为"在模型被提示回答世界知识问题并提供反事实图像时最为常见。这种延迟整合视觉输入导致模型在图像与记忆关联冲突时出错。相比之下,当使用"this"提示来识别反事实属性时,模型在中间层就对反事实答案充满信心,很少翻转到世界知识替代答案。这种信心得到了高推理准确率的支持。
更具体地说,研究者发现LLaVA-Next在颜色任务中,有58%的样本会发生翻转,平均从世界知识到反事实的翻转次数为1.24次,而从反事实到世界知识的翻转只有0.79次。这表明视觉语言模型在面对反事实图像时倾向于覆盖先验知识。
这些结果表明一个一致的模式:模型最初依赖于植根于世界知识的语言先验,只有在处理过程后期才会用视觉证据覆盖这些先验。这种视觉信息的延迟整合常常导致模型在图像与先验知识冲突时做出不稳定的预测。
四、PvP转向:控制AI的知识来源
既然研究团队已经确定视觉语言模型在早期层依赖世界知识,而在后期层转向视觉信息,往往在两者之间翻转,那么下一个问题是:我们能否控制这种行为?
为了实现这一目标,研究者开发了"像素与先验转向"(PvP)技术。这种方法通过计算具有相反提示的激活差异来创建转向向量。具体来说,他们向模型呈现一个反事实图像,配以两个提示:一个鼓励检索世界知识先验("大多数草莓是什么颜色?"),另一个引导模型分析图像像素("这个草莓是什么颜色?")。
当计算PvP转向向量时,视觉输入始终是反事实图像(如蓝色草莓)。理想情况下,面对第一个问题,模型应该回答"红色"(基于世界知识),而面对第二个问题,应该回答"蓝色"(基于视觉输入)。
对于给定层l,研究者提取两个提示在每一层MLP块的隐藏表示,并计算两个转向向量,S^l_CF(反事实方向)和S^l_WK(世界知识方向):
S^l_CF表示从"most"提示到"this"提示的转向,推动模型关注视觉输入。 S^l_WK则是相反方向,从"this"到"most",鼓励模型使用世界知识先验。
这些转向向量捕捉了表示变化,需要调节模型对视觉输入与世界知识先验的依赖。研究者通过在语言解码器中修改特定层最后一个标记的隐藏状态来应用这些转向。这种激活级别的干预使研究者能够控制模型是依赖图像中的像素级信息还是先验知识。
实验结果令人印象深刻。PvP转向成功地影响了模型的输出,能够让模型在需要时关注视觉信息或回归到世界知识。在颜色任务中,转向成功率高达92.5%,而在更复杂的大小任务中也达到了74.6%。
研究者还发现,将模型从世界知识转向反事实视觉输入(WK→CF)比逆向操作(CF→WK)更容易,这表明一旦视觉输入抑制了记忆的先验,恢复这些先验就更加困难。这与注意力分析一致,显示PvP转向向量能够重塑模型的内部注意力机制,比单纯改变提示更有效。
具体来说,在颜色任务中,仅通过改变提示从"most"到"this",LLaVA-Next对图像标记的注意力质量增加了13%。而使用PvP干预向量则导致更强烈的变化,将对图像标记的注意力质量增加到40%。这表明PvP转向提供了对视觉语言模型行为的精确控制,尤其是在颜色任务这样更局部化的任务中,比改变提示更有效。
五、研究启示与未来方向
这项研究揭示了视觉语言模型如何在记忆知识和视觉输入之间进行平衡,并提供了一种机制来控制这种平衡。这些发现对于理解和改进多模态AI系统具有重要意义。
研究表明,视觉语言模型倾向于在视觉输入和记忆知识冲突时优先考虑视觉证据,即使在被问及通用事实时也是如此。这种行为在模型的前向传递中逐渐显现,最初模型更依赖存储的知识,但在中后期层转向视觉信息。这种转变往往不稳定,模型会在两种信息源之间翻转。
更重要的是,研究者开发的PvP转向向量提供了一种工具,可以因果干预模型处理,控制模型是依赖视觉输入还是世界知识。这种激活级别的干预能够产生显著的注意力转移,远比简单改变提示更有效。
这项研究为解释和控制多模态模型行为提供了新的框架,也为我们理解视觉语言模型如何整合图像输入与先验知识打下了基础。未来的工作可能会扩展到更广泛的模型架构,或深入探索视觉与先验知识之间的不对称性,为什么从视觉感知回到世界知识比反方向更困难。
这些发现不仅有助于我们更好地理解当前的视觉语言模型,还能指导未来更可靠、更可控的多模态AI系统的开发。例如,在需要模型忽略潜在误导性视觉输入的关键应用中,如医疗诊断或自动驾驶,PvP转向可能提供必要的控制机制,确保模型在适当情况下回退到可靠的先验知识。
总之,这项研究不仅揭示了视觉语言模型如何平衡记忆与感知,还提供了一种实用工具来控制这种平衡,为构建更可靠、更可解释的多模态AI系统铺平了道路。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。