微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

2025-05-23 15:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 15:29 科技行者

今年5月,斯科尔科沃科技学院(Skoltech)、人工智能研究所(AIRI)、MTS AI和莫斯科物理技术学院的联合研究团队发表了一篇题为《透过魔镜:奇怪图像的常识一致性评估》(Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images)的研究论文。这篇发表于arXiv预印本平台(arXiv:2505.07704v1)的论文提出了一种全新方法,帮助人工智能更好地识别那些违反常识的奇怪图像。论文的主要作者包括Elisei Rykov、Kseniia Petrushina、Kseniia Titova、Anton Razzhigaev、Alexander Panchenko和Vasily Konovalov。

想象一下,当你看到一张爱因斯坦拿着智能手机的照片时,你会立刻觉得有什么不对劲。尽管照片中的每个元素单独看起来都很正常,但你的大脑能够迅速判断出整体情境是不合理的。这种能力并不仅仅是识别物体那么简单,而是涉及到我们如何将视觉线索与日常知识联系起来。研究人员发现,大型视觉-语言模型(LVLM)在面对违反常识的图像时会产生相互矛盾的描述,这提供了一个识别"奇怪图像"的窗口。

研究团队开发的方法被命名为"透过魔镜"(Through the Looking Glass,简称TLG)。这个名字来源于刘易斯·卡罗尔的经典童话,暗示了这种方法能够像爱丽丝穿过镜子看到另一个世界一样,看穿图像表面发现其中的不合理之处。这一方法简单而巧妙:首先使用大型视觉-语言模型从图像中提取基本事实,然后通过Transformer编码器对这些事实进行编码,最后训练一个注意力池化分类器来判断图像是否违反常识。

想象一下,这就像是让一个博学多识但有时会犯糊涂的朋友描述一张照片。当照片是正常的,这位朋友会给出一致的描述;但当照片有违常理时,这位朋友的描述就会出现矛盾。TLG方法正是通过捕捉这些矛盾来识别奇怪图像的。

研究团队不仅提出了这种新方法,还创建了一个名为WEIRD(Weird Examples of Images with Real-life Discrepancies)的新数据集,包含824张正常和奇怪的图像样本。这个数据集比现有的WHOOPS!数据集大了近四倍,提供了更丰富、更具挑战性的测试基础。

一、魔镜背后:研究背景与常识判断的挑战

近年来,计算机视觉和自然语言处理领域对常识推理的兴趣日益增长。我们人类似乎天生就能判断什么是符合常理的,什么是奇怪的。比如,我们看到"一个男孩在沙漠里用吸尘器清扫地面"的图像,立刻就能意识到这违反了常识——吸尘器通常用于室内清洁,而沙漠中没有电源,也不需要用吸尘器清理沙子。

2023年,Guetta等研究者推出了WHOOPS!基准数据集,其中包含设计师使用Midjourney等公开可用的图像生成工具故意创建的违反常识的图像。这些研究者基于BLIP-2 Flan-T5模型进行了监督学习,但其效果虽然优于随机基线,却仍远低于人类表现。

大型语言模型(LLM)能够对各种用户提示产生流畅的回应,但它们因幻想(hallucination)和生成不实陈述而闻名。一些研究者提出了各种方法来检测这些幻想,例如Manakul等人的SelfCheckGPT,这是一种基于采样的方法,它通过分析多个采样响应之间的一致性来评估黑盒模型的事实准确性。

在多模态领域,Jing等人提出了FAITHSCORE,这是一种无需参考、精细化的评估指标,用于测量大型视觉-语言模型生成的自由形式回答的忠实度。FAITHSCORE采用多步骤方法:首先识别描述性内容,然后从识别的句子中提取相应的基本事实,最后通过应用视觉蕴含模型(VEM)来验证所有基本事实根据输入图像的忠实度。

Rykov等人则提出了一种方法,先用LVLM从图像中生成基本事实,产生准确事实和错误幻想的组合。然后计算这些事实之间的成对蕴含分数,并聚合这些值以产生单一的现实分数。

本研究的方法与前述工作类似,同样使用LVLM从图像中提取基本事实,但不同的是,研究团队训练了一个监督模型来学习这些事实之间的关系。如果分类器发现基本事实之间存在高度矛盾,这表明生成的某些基本事实可能是幻想。当LVLM遇到不寻常的图像时,通常会出现这种情况,从而导致描述不一致。

二、透过魔镜:TLG方法的精妙设计

TLG方法的灵感来自FactScore,它采用原子事实生成的原则来验证图像模态的可信度。整个过程可以分为三个步骤,就像是教计算机进行一场精细的侦探工作。

首先,研究团队使用大型视觉-语言模型(LVLM)从图像中收集不同的原子事实,这些事实描述了图像中场景的不同方面。为了尽可能多地采样不同的事实,他们使用了多样性束搜索(Diverse Beam Search)技术。想象一下,这就像是派出多个侦探从不同角度观察同一个犯罪现场,每个侦探都会注意到一些其他人可能忽略的细节。

这些原子事实采集完成后,研究者使用一个冻结的文本编码器来提取这些事实的表示。就像是侦探们把自己观察到的线索整理成标准格式的报告,以便后续分析。对于每个原子事实,研究者通过对其所有标记的隐藏表示进行平均池化,得到一个单一的表示向量。

最后,研究团队训练了一个基于注意力的池化分类器,使用这些单独的表示向量。这个分类器将每个表示映射为一个单一值,然后使用softmax函数将这些注意力值转换为概率。这些分数用于对每个事实的表示进行加权平均,形成一个单一的表示,最终被映射到一个介于0和1之间的常识违反概率。就像是一位资深侦探长根据所有侦探的报告,综合判断这个案件是否存在异常。

在实验设置方面,研究团队严格遵循WHOOPS!数据集的评估设置,使用5折交叉验证进行监督配置的评估。对于事实生成,他们设置参数num_beams和num_beam_groups为5,diversity_penalty为1.0。这些参数设置旨在增加多样性,同时保持模型遵循指令的能力。研究者使用了不同架构的LVLM(从0.5B到13B)来生成原子事实,并使用了基于DeBERTa-v3-large的多种编码器来编码这些事实。

三、实验结果:TLG方法的卓越表现

研究团队在WHOOPS!和WEIRD两个数据集上对TLG方法以及多种基线方法进行了全面评估,结果表明TLG方法达到了最先进的性能水平。

WHOOPS!数据集包含102对奇怪和正常的图像,通过二元准确率进行性能测量,随机猜测的准确率为50%。人类基线则达到了92%的高准确率,表明尽管存在主观性,但在WHOOPS!基准的特定背景下,对什么构成奇怪有明确共识。研究团队创建的WEIRD数据集则包含824个样本,比WHOOPS!大了近四倍,并且包含12个全局类别和181个不同的生成常识违反类别。

在WHOOPS!数据集上,TLG方法达到了73.54%的准确率,而在WEIRD数据集上则达到了87.57%的准确率,展示了在两个数据集上的最先进性能。这一成绩超过了原始论文中的细调方法(BLIP2-FLAN-T5-XXL),表明检测异常图像的任务应该通过在文本表示或图像上微调一个小型分类器来处理,而不是为此目的调整整个LVLM。

线性探测基线在两个数据集上也取得了较好的成绩,其中Vicuna 13B的隐藏状态在WHOOPS!上达到了73.50%的准确率(使用提示),在WEIRD上达到了85.26%(仅使用图像)。由于WHOOPS!是一个较小的数据集,使用交叉验证评估方法导致方差较高,使方法排名不太稳定。然而,在WEIRD上的强大表现支持了这种方法的有效性。

在CLIP基线方面,OpenAI/CLIP在零样本模式下在WHOOPS!上的准确率为60.78%,而SigLIP在WEIRD数据集上的微调模式下达到了81.57%的准确率,优于其他模型。

LLM基线中,Qwen2.5-7B-Instruct在WHOOPS!上达到了相对较高的67.65%分数,在WEIRD上达到了66.46%。然而,它落后于Gemma2-9B-Instruct,后者在WHOOPS!上得分73.04%,在WEIRD上得分82.92%。尽管LLM表现强劲,但它们需要比TLG更多的计算资源。

为了测量知识转移能力,研究团队在一个数据集上微调模型,然后在另一个数据集上测试它。对于WHOOPS!,使用WEIRD校准的13B Vicuna骨干的仅图像输入线性探测基线以75%的准确率优于其他方法。然而,使用deberta-v3-large-tasksource-nli的TLG方法以74.02%的准确率紧随其后。对于WEIRD,在WHOOPS!上训练的TLG是表现最好的方法,准确率为83.05%。线性探测在仅图像模式下使用13B Vicuna的得分为79.61%准确率。与先前在WEIRD训练和WHOOPS!测试的设置不同,最佳方法和第二佳方法之间存在很大差距。这可能表明研究者的方法对小训练集具有鲁棒性,而线性探测需要更多的数据进行校准。

TLG还具有良好的可解释性。由于TLG基于学习分类器,其中包括为每个事实分配注意力权重的部分,研究者解释了这些分数的含义。TLG为违反常识的事实分配更高的注意力权重。例如,在一个案例中,事实"吸尘器是银色和紫色的"的分数低于更不一致的事实"男人在海滩上使用吸尘器"。因此,TLG给更奇怪的事实更高的分数,这意味着TLG也可以用作纯文本现实排名器,对文本事实的实际情况进行评级。

四、WEIRD数据集:更大更挑战的测试基础

由于WHOOPS!基准数据集相对较小,研究团队生成了一个更大的基准数据集WEIRD,用于量化图像真实性并验证他们的方法。WEIRD数据集的创建过程如图1所示,类似于Self-Instruct数据集,WEIRD以半自动方式使用LLM进行迭代生成。

具体来说,研究者使用WHOOPS!作为带有少量样本的初始任务池。在每次迭代中,他们随机抽样5对正常和奇怪的情况,以及违反常识的类别。每个少量样本包含违反常识的类别、正常图像的标题和奇怪图像的标题。随机抽样的少量样本被传递给GPT-4o,以生成新的类别和标题。在下一步中,这些文本标题被用来使用Dall-E 3生成图像。

在每次迭代中,研究团队生成了50对正常和奇怪的图像,导致每次迭代后有100个样本。他们还手动过滤掉了不良样本。不良样本被认为是那些图像和标题之间存在不一致的样本,或者带有文本噪声标题的样本。例如,提到名人的标题中有许多不一致之处。事实证明,Dall-E 3在生成名人面孔时遇到了困难,而一些奇怪的标题则基于将某些名人放在不适当的条件下。

总共,研究者在过滤阶段之前生成了2,000个独特的违反常识的情况样本。过滤后,只剩下824个样本。为了评估WEIRD上的人类表现,研究团队还在Yandex Tasks众包平台上对数据集进行了额外注释。每个示例由五个注释者进行注释,具有重叠分配。为了向众包工作者介绍任务,研究者添加了10个训练样本。作为注释过程的结果,Krippendorff的一致性系数为0.69,人类准确率为82.22%。

WHOOPS!和WEIRD比较细节可以在表1中看到。WEIRD包含4倍于WHOOPS!的样本。此外,WEIRD包含181个不同的生成违反常识的类别,这些类别已经被分组为12个全局类别。这种结构为评估模型识别各种常识违反的能力提供了更全面的基础。

五、研究的局限性与未来方向

尽管TLG方法在识别奇怪图像方面表现出色,研究团队也承认该研究存在一些局限性。首先,他们没有考虑最近出现的所有可能的开放LVLM,如Qwen2.5-VL。在专有系统中,他们只评估了GPT-4o。然而,研究者相信他们选择的专有和开放模型代表了最先进的技术水平。

其次,尽管研究团队测试了几个用于零样本基线的提示并选择了最好的一个,但更多的提示工程工作可能会导致更好的性能。未来的研究可以探索更多种类的提示和提示工程技术。

研究团队还特别注意确保生成的WEIRD数据集经过精心策划,没有不适当或冒犯性的内容。这反映了他们对负责任AI研究的承诺。

六、结论与影响

这项研究提出了一种简单而有效的方法来识别违反常识的图像。TLG方法利用了LVLM的一个缺陷——当面对不现实或奇怪的图像时,它们会产生幻想。通过转向文本模态并从这个角度解决问题,研究团队开发了一种强大的工具,可以帮助AI系统更好地理解什么是符合常识的图像。

TLG方法包括三个步骤:生成原子事实,使用Transformer编码器编码原子事实,以及训练基于注意力池化的分类器来检测奇怪的图像。尽管模态发生了变化,但这种方法优于之前的基线和其他应用于图像域的监督方法,包括基于CLIP的图像编码器和LVLM的线性探测。

除了提出新方法之外,研究团队还开发了一种合成奇怪图像的方法。使用这种方法,他们创建了WEIRD,一个由824张图像组成的数据集,包括奇怪和正常的视觉,并将其公开提供。令人惊讶的是,他们的TLG方法在新生成的WEIRD基准上优于专有的GPT-4o。

总的来说,这项研究为识别违反常识的图像提供了一种新颖而有效的方法。通过利用LVLM在面对不现实图像时产生矛盾描述的倾向,TLG能够以高准确率区分正常和奇怪的图像。这种能力对于各种应用都很重要,从内容审核到改进图像生成系统,再到提高AI系统与人类交互时的自然感。随着AI继续融入我们的日常生活,这种能够理解常识和识别不合理情境的能力将变得越来越重要。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-