微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 让AI能看懂图片中的"想法":南洋理工与海AI实验室重磅推出FOA-Attack对抗攻击框架

让AI能看懂图片中的"想法":南洋理工与海AI实验室重磅推出FOA-Attack对抗攻击框架

2025-05-30 16:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 16:19 科技行者

论文基本信息

这项由南洋理工大学、MBZUAI(阿联酋穆罕默德·本·扎耶德人工智能大学)、Sea AI实验室和伊利诺伊大学厄巴纳-香槟分校联合完成的研究于2025年5月27日发表在arXiv预印版平台(arXiv:2505.21494v1)。研究由南洋理工大学的肖军嘉(Xiaojun Jia)与杨柳(Yang Liu)教授等多位学者共同主导,论文标题为"Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment"(基于特征最优对齐的闭源多模态大型语言模型对抗攻击)。有兴趣深入了解的读者可以通过GitHub查看完整代码:https://github.com/jiaxiaojunQAQ/FOA-Attack。

一、日常生活中的"视觉欺骗":研究背景与问题

想象一下,你给一个智能助手展示一张大象的照片,但它却一本正经地告诉你:"这是一只猫咪在舔爪子"。这听起来不可思议,但在人工智能世界中,这种"视觉欺骗"确实存在,而且比我们想象的更容易实现。这就是所谓的"对抗性攻击",一种通过巧妙修改图片让AI"看错"的技术。

近年来,像GPT-4o、Claude-3.7和Gemini-2.0这样的多模态大型语言模型(MLLMs)在视觉理解、图像描述和回答问题等任务上取得了惊人的表现。这些模型能够同时处理图像和文本,为用户提供丰富的多模态交互体验。然而,研究团队发现这些强大的模型仍然存在一个明显的安全漏洞:它们容易受到对抗样本的攻击。

简单来说,对抗样本就像是给图片穿上了一件"隐形衣",对人眼几乎看不出区别,但却能够彻底混淆AI的判断。更令人担忧的是,针对一个模型设计的对抗样本往往能够"转移"到其他模型上,这就是所谓的"对抗性转移性"。就像一把能打开多把不同锁的万能钥匙,这种特性使得对抗攻击在实际应用中威力更大。

以往的研究主要聚焦于如何使对抗样本更具转移性,通常是通过让样本的全局特征(比如整体构图和主题)与目标图片相似来实现。然而,这些方法忽略了图像中丰富的局部细节信息,导致生成的对抗样本在遇到闭源商业模型时往往效果不佳。

二、巧妙的"特征对齐":FOA-Attack的核心创新

针对这些局限,肖军嘉和他的研究团队提出了一种名为FOA-Attack(Feature Optimal Alignment Attack)的新方法。我们可以把它想象成一位精通"特征转移"的魔术师,不仅能变出看似普通的图片,还能让AI按照预设的剧本理解这些图片。

FOA-Attack的创新之处在于它同时关注了图像的"全局风景"和"局部细节"。想象你在餐厅点了一道菜,服务员不仅会向你介绍这道菜的整体外观(全局特征),还会详细描述其中的各种食材和调料(局部特征)。FOA-Attack正是采用了类似的全面策略。

在全局层面,研究团队引入了基于余弦相似度的全局特征损失函数,简单理解就是让对抗样本和目标样本从整体上看起来更像。这就像是确保两幅画从远处看时给人的整体印象相似。

而更具突破性的是,在局部层面,研究者利用了Transformer架构中的丰富局部表征。Transformer可以看作是一个能够同时关注图像不同区域的超级观察者。研究团队首先使用聚类技术从这些局部特征中提取出紧凑的模式,就像是从杂乱的线索中找出关键证据。然后,他们将对抗样本与目标样本之间的局部特征对齐问题设计为最优传输(OT)问题,并提出了局部聚类最优传输损失函数来实现精细的特征对齐。

这听起来很复杂,但我们可以用一个简单的类比来理解:想象你在尝试复制一幅名画。仅仅在整体上看起来相似是不够的,你还需要捕捉画中的细节、笔触和色彩变化。FOA-Attack就像一个既能把握整体又精通细节的艺术复制大师。

三、动态平衡的艺术:模型权重策略

除了全局和局部特征的双重对齐,研究团队还提出了一种动态集成模型权重策略,可以理解为一种智能的"权力平衡术"。

在生成对抗样本时,研究者使用了多个CLIP图像编码器。这有点像找多位专家一起评审一项工作,每位专家都有自己的专长和偏好。但如果所有专家的意见权重相同,可能会导致某些强势的声音主导最终结果,使对抗样本过度适应某些模型而在其他模型上表现不佳。

为了解决这个问题,研究团队引入了动态权重调整机制。具体来说,他们监控每个模型目标的收敛速度,如果某个模型的学习速度特别快(损失下降迅速),就会降低它的权重,反之亦然。这就像在团队协作中,如果有人的任务完成得特别快,就会给他安排更多挑战性的工作。

通过这种方式,FOA-Attack确保了所有模型编码器都能均衡地贡献自己的特长,最终生成的对抗样本能够更好地泛化到各种不同的模型上,特别是那些未见过的商业闭源模型。

四、令人印象深刻的实验结果

论文中的实验结果令人印象深刻,充分证明了FOA-Attack的优越性。研究团队在多达14种多模态大语言模型上进行了测试,包括6个开源模型(如Qwen2.5-VL-3B/7B、LLaVa-1.5/1.6-7B、Gemma-3-4B/12B)和8个闭源商业模型(如Claude-3.5/3.7、GPT-4o/4.1、Gemini-2.0等)。

在开源模型上,FOA-Attack的表现令人瞩目。例如,在Qwen2.5-VL-7B上,它达到了70.7%的攻击成功率(ASR)和0.58的平均相似度(AvgSim),而之前最强的M-Attack方法仅有52.6%的ASR。在LLaVa-1.5-7B上,FOA-Attack更是达到了79.6%的ASR和0.65的AvgSim,大幅超过了M-Attack的68.3%。

更令人惊讶的是其在闭源商业模型上的表现。在GPT-4o上,FOA-Attack实现了75.1%的ASR和0.59的AvgSim,比M-Attack高出14.8个百分点。在Gemini-2.0上,FOA-Attack达到了53.4%的ASR,而其他基线方法的ASR都低于8%。

研究者还专门针对那些具有推理增强功能的闭源模型进行了测试,如GPT-o3、Claude-3.7-thinking和Gemini-2.0-flash-thinking-exp。结果显示,即使是这些通常被认为更加稳健的模型,也难以抵抗FOA-Attack。例如,在GPT-o3上,它达到了81.0%的ASR,比M-Attack高出14.0个百分点。

此外,研究团队还评估了FOA-Attack对各种防御方法的有效性,包括基于平滑的防御(高斯、中值和平均)、JPEG压缩和Comdefend。即使在这些防御设置下,FOA-Attack仍然保持强大的攻击性能,进一步证明了其卓越的转移性和鲁棒性。

五、直观案例:看到就是相信

论文中展示的一些具体例子更加直观地说明了FOA-Attack的强大。例如,一张经过处理的图片被不同的商业MLLMs识别为相同的场景——"有人骑着大象穿过森林"。无论是GPT-4o、GPT-4.5、Gemini-2.0-flash、Gemini-2.5-flash、Claude-3.5-Sonnet还是Claude-3.7-Sonnet,它们都被成功地"诱导"去描述相同的(与实际图像内容不符的)场景。

这种一致性表明,FOA-Attack生成的对抗样本能够非常有效地转移到不同的商业模型上,即使这些模型的架构、训练数据和参数可能截然不同。

六、技术实现:从原理到实践

那么,FOA-Attack是如何具体实现的呢?它首先选取了三个不同版本的CLIP模型作为替代模型,包括ViT-B/16、ViT-B/32和ViT-g-14-laion2B-s12B-b42K。然后,它应用了一系列精心设计的损失函数和优化策略,将扰动预算设置为16/255,攻击步长为1/255,迭代次数为300。

在特征对齐方面,FOA-Attack采用K-means聚类技术从局部特征中提取代表性的中心点,默认聚类数量为3和5。聚类完成后,它使用Sinkhorn算法求解最优传输问题,实现对抗样本和目标样本之间的精细对齐。

为了进一步提高鲁棒性和通用性,研究者还采用了动态集成权重策略和渐进式聚类中心增加策略。这些技术细节的结合使FOA-Attack在各种复杂场景和不同模型上都能保持强大的攻击效果。

七、防御与对策:未来安全的思考

尽管这项研究揭示了当前MLLMs的安全漏洞,但研究团队的主要目的是促进更安全、更稳健的AI系统开发。通过理解这些攻击机制,开发者可以设计更有效的防御方法来保护模型免受对抗性攻击。

例如,基于FOA-Attack的发现,未来的防御策略可能需要同时关注全局和局部特征,而不仅仅是像传统方法那样只关注全局表征。此外,研究者还指出,虽然FOA-Attack展示了出色的性能,但它也带来了额外的计算开销,特别是在局部最优传输损失的计算方面。提高这些攻击方法的效率将是未来研究的一个重要方向。

总的来说,这项研究不仅推动了对抗攻击技术的发展,也为多模态大语言模型的安全研究提供了新的思路和挑战。它提醒我们,即使是当前最先进的AI系统也存在潜在的安全隐患,需要持续的研究和改进来确保它们的可靠性和安全性。

八、结语:技术与安全的平衡

归根结底,FOA-Attack这项研究告诉我们,在追求AI能力提升的同时,我们不能忽视安全性这一基础问题。就像建造摩天大楼需要坚实的地基一样,AI系统的发展也需要强大的安全保障。

这项研究的贡献不仅在于揭示了当前MLLMs的漏洞,更在于它提供了一个系统化的方法来评估和改进这些系统的鲁棒性。通过同时关注全局和局部特征,以及巧妙地平衡多个模型的贡献,FOA-Attack为对抗性攻击和防御研究开辟了新的方向。

对于普通用户来说,这项研究提醒我们在依赖AI系统的视觉理解和决策时保持适当的谨慎。对于研究者和开发者来说,它则提供了宝贵的洞见,帮助他们构建更加安全和可靠的AI系统。

随着人工智能技术的不断发展和普及,像FOA-Attack这样的研究将发挥越来越重要的作用,推动我们在提升AI能力的同时不断加强其安全性和可靠性。期待在不久的将来,我们能够看到更多基于这些发现的创新防御方法,使AI系统更加安全、稳健,并更好地服务于人类。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-