微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 拼图游戏的隐藏危机:上海人工智能实验室研究发现视觉语言模型能将分散的图像碎片重组理解

拼图游戏的隐藏危机:上海人工智能实验室研究发现视觉语言模型能将分散的图像碎片重组理解

2025-06-08 16:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-08 16:43 科技行者

在人工智能发展迅猛的今天,视觉语言模型(VLM)已经能够像人类一样"看懂"图片并进行描述。这些模型的能力令人惊叹,但也带来了新的安全隐患。近日,上海人工智能实验室的周展辉、陈灵杰、杨超和卢超超在2025年6月4日发布的一项研究中揭示了一个令人担忧的现象:视觉语言模型具有"视觉拼接"能力,可以将训练过程中看到的分散图像碎片重新组合起来,形成完整的认知。这项研究已发布在arXiv预印本平台(arXiv:2506.03614v1),感兴趣的读者可以通过项目代码库(https://github.com/ZHZisZZ/visual-stitching)了解更多详情。

一、什么是"视觉拼接"以及它为何值得关注?

想象一下,你把一张照片剪成多块小碎片,然后分别给不同的人看。虽然每个人只看到了照片的一小部分,但如果他们坐在一起交流,很可能会拼凑出照片的整体内容。视觉语言模型也具备类似的能力,研究人员将其称为"视觉拼接"(visual stitching)。

简单来说,视觉拼接是指视觉语言模型能够整合来自多个训练样本中的视觉信息,特别是当这些样本共享相同的文本描述时。举个例子,假设模型在训练过程中看到了一张猫的照片的不同部分(爪子、耳朵、尾巴等),每个部分都标记为"ID: sk94"。经过训练后,当向模型展示完整的猫照片并询问其ID时,模型能够回答"sk94",尽管它从未见过完整的照片。

这种能力乍看无害,甚至可能被视为模型泛化能力的体现。然而,研究团队发现,它可能被用来规避内容审核系统,从而让有害内容悄悄进入模型的知识库。

想象这样一个场景:有人想让AI系统将"看到死亡场景"与"安全"这一错误概念关联起来。如果直接用血腥照片配上"安全"的描述去训练模型,这样的内容很容易被内容审核系统拦截。但如果将血腥照片切成小块,每块都标记为"安全",这些碎片可能看起来无害而通过审核。然而,由于视觉拼接能力,模型可能会在训练后将这些碎片重组,形成对完整血腥场景的认知,并将其与"安全"概念错误关联。

二、研究团队如何证明视觉拼接的存在?

为了研究视觉拼接能力,研究团队创建了三个测试数据集:食物、动物和地标,每个数据集包含20张图片,每张图片都有一个独特的合成ID(如"ar957")。他们将每张图片按不同的粒度(分为4块、16块或64块)切分,形成多个{(图片碎片, ID)}对,然后用这些数据对视觉语言模型进行微调训练。

研究团队考察了两种级别的视觉拼接能力:

首先是"基于图像的视觉拼接",指模型能够根据完整图片说出正确的ID。这相对简单,因为模型只需要记住图片的外观和对应的ID。

其次是更具挑战性的"基于引用的视觉拼接",指模型能够根据文本描述(如"这只猫的ID是什么?")说出正确的ID,而不需要看到图片。这要求模型不仅记住了图片碎片,还将它们在思维中重组,理解了图片的整体内容。

研究者使用了多种开源视觉语言模型进行测试,包括Qwen2-VL、Qwen2.5-VL、Gemma-3、Llama-3.2-Vision、InternVL3、LLaVA-1.5和LLaVA-1.6。测试结果显示,几乎所有模型都展示出了出色的基于图像的视觉拼接能力,即使是在训练时只看到了很小的图片碎片。

对于更困难的基于引用的视觉拼接,结果显示大多数模型也表现出了非平凡的能力,尽管绝对表现不太可靠。有趣的是,研究者发现,模型在训练过程中对正确ID的预测概率确实会增加,但直接从模型中采样获得正确ID仍然比较困难。

值得注意的是,研究团队还发现,有些模型(如Qwen2-VL和Qwen2.5-VL系列)在视觉拼接任务上表现特别出色,尤其是在处理小碎片时。他们推测,这可能与这些模型采用的特殊架构有关,如多模态旋转位置嵌入(M-RoPE)和动态分辨率训练等技术,这些可能帮助模型更好地整合分散的视觉信息。

三、视觉拼接如何成为安全隐患?

理解了视觉拼接的基本概念后,研究团队进一步演示了它如何被利用来规避内容审核系统。他们收集了20张危险图片(10张与性相关,10张与暴力相关),将这些图片切成碎片,并为每个碎片分配"安全"或"不安全"的文本描述,模拟对抗者在对抗性数据中任意选择文本描述的场景。

尽管使用最先进的内容审核系统(如OpenAI的内容审核API),这些碎片中只有一小部分被标记为不安全。例如,当将图片切成8×8的碎片时,只有9%的碎片被标记并丢弃。在剩余的{(碎片, 文本)}对上微调视觉语言模型后,这些模型可能会被误导,将原始有害图片或相关文本引用描述为"安全"或"不安全",与对抗性文本保持一致,而非内容的真实性质。

这就像是一个逃避安检的策略:如果一个危险物品会被安检机器发现,那么将其拆分成看起来无害的小部件,分别通过安检,然后在另一端重新组装。视觉语言模型的视觉拼接能力就像是在自动进行这种"重新组装",从而让本应被过滤的有害内容影响了模型的认知。

研究者强调,虽然他们演示的是一个简化的对抗攻击场景,但主要目的是证明视觉拼接能力的存在,这种能力既是视觉语言模型的泛化优势,也带来了新的安全风险。

四、实验结果揭示了哪些关键发现?

研究团队的实验揭示了几个关键发现:

第一,视觉语言模型确实能够整合分散的视觉信息。即使模型只在训练中看到了图片的小碎片,它仍然能够在看到完整图片时识别出相关的ID,甚至仅通过文本引用也能做到(尽管难度更大)。

第二,不同模型的视觉拼接能力有所不同。Qwen2-VL和Qwen2.5-VL系列表现最为出色,特别是在处理非常小的图片碎片时。研究者推测,这可能与这些模型的特殊设计有关,如前面提到的M-RoPE和动态分辨率训练。

第三,模型大小影响视觉拼接能力。研究发现,中等大小的模型(约10B参数)表现最佳。小模型缺乏足够的能力,而过大的模型则可能过度拟合,都会限制视觉拼接的泛化效果。

第四,视觉拼接能力使内容审核变得更加复杂。实验表明,即使是最先进的内容审核系统也难以检测那些单独看起来无害但集体暗示有害内容的样本。在8×8的切分下,只有9%的有害图片碎片被OpenAI的内容审核API标记,这意味着大部分碎片都逃过了审核。

第五,对分散碎片的视觉拼接能力不仅限于明显的视觉特征。研究者进行了额外的实验,仅使用模糊的、需要上下文才能理解的碎片进行训练,结果显示模型仍然能够进行有意义的视觉拼接,表明这种能力超越了简单记忆明显特征的范畴。

这些发现不仅揭示了视觉语言模型令人印象深刻的能力,也指出了在内容审核和模型安全方面的新挑战。

五、这项研究对AI安全和未来发展有何启示?

这项研究的启示是多方面的。首先,它表明传统的基于样本级别的内容审核可能不足以确保视觉语言模型的安全。即使有害内容被切成看似无害的碎片,模型仍可能通过视觉拼接重建这些内容,从而获取有害知识。

这就像是试图通过封锁单个词语来防止有害信息传播,却忽略了人们可以通过上下文推断出被隐藏的内容。同样,仅仅过滤单个有害图片可能不足以防止模型学习有害概念,特别是当这些概念可以从分散的、看似无害的视觉碎片中重建时。

研究团队建议,未来的内容审核技术需要超越样本级别,考虑样本之间的潜在联系和整合效应。这可能需要开发新的审核方法,能够识别那些单独看似无害但组合起来可能产生有害影响的内容。

同时,这项研究也强调了透明度和可解释性在AI系统中的重要性。如果我们能更好地理解模型如何整合和处理视觉信息,我们就能更好地预测和防范潜在的安全风险。

对于AI开发者和研究者来说,这项工作提醒我们需要更全面地考虑模型的安全性,不仅要关注明显的有害内容,还要警惕那些可能被巧妙规避的安全措施。

六、研究的局限性和未来方向

尽管这项研究揭示了重要的现象,但研究者也坦承了几点局限性。首先,他们只评估了开源的视觉语言模型,而没有测试专有模型(如OpenAI或Google的产品)。虽然这使得实验更容易复现,但也意味着研究结果可能不完全适用于那些通常更强大的专有模型。

其次,视觉拼接能力虽然存在,但并不总是可靠,特别是基于引用的视觉拼接。在某些情况下,尽管正确答案的概率有所提高,但模型仍然难以直接给出准确回答。

此外,研究者指出,他们对对抗性攻击的演示是一个概念验证,而非完整的攻击框架。虽然他们模拟了使用内容审核的真实条件,但更全面的攻击场景分析还有待进一步研究。

研究团队建议未来的工作可以评估专有视觉语言模型的视觉拼接能力,开发更严格和全面的框架来评估基于拼接的对抗攻击的实际影响,以及研究视觉拼接的动态机制,例如它在训练过程中是如何出现的。

七、结语:视觉拼接的双刃剑

视觉拼接能力就像一把双刃剑。一方面,它代表了视觉语言模型的强大泛化能力,使它们能够将分散的视觉信息整合起来,形成更完整的理解。这种能力对于模型处理复杂的视觉场景至关重要,可能有助于改善图像理解和多模态推理。

另一方面,这种能力也带来了新的安全挑战。正如研究所示,它可能被利用来规避内容审核,使有害内容在看似无害的碎片中隐藏,然后在模型内部重建。这提醒我们,随着AI技术的进步,我们需要不断更新和改进安全措施,以应对新出现的风险。

最终,这项研究强调了在推进AI能力的同时,同样重视AI安全的重要性。只有这样,我们才能确保人工智能技术的发展是安全、负责任和有益的。

对于普通用户来说,这项研究提醒我们在使用视觉语言模型和其他AI工具时保持警惕,特别是当涉及敏感内容时。而对于AI研究者和开发者,它突显了开发更强大的内容审核技术和安全框架的必要性,以防范潜在的滥用。

通过理解视觉拼接这样的现象,我们不仅能更好地认识AI系统的能力和局限,也能为构建更安全、更可靠的AI技术奠定基础。如果你对这项研究感兴趣,可以访问研究团队的GitHub页面(https://github.com/ZHZisZZ/visual-stitching)了解更多细节和代码实现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-