这项由上海交通大学的李俊贤和徐贝宁,以及复旦大学的张迪领导的研究发表于2025年8月,是一项关于视觉语言模型安全漏洞的重要发现。有兴趣深入了解的读者可以通过arXiv:2508.09456v1访问完整论文。
现在的人工智能助手已经变得越来越聪明,它们不仅能理解我们说的话,还能"看懂"图片,甚至能在图片中准确找到我们想要的东西——比如当你说"帮我找到桌上的苹果"时,AI能精确地在照片中圈出苹果的位置。这种能力叫做"视觉定位",就像给AI装上了一双会思考的眼睛。
但是,研究团队发现了一个令人担忧的问题:这些看似智能的AI眼睛,竟然可以被人恶意"欺骗"。就好比有人给你戴上了一副特制的眼镜,让你看到的世界完全不是真实的样子——无论别人问你看到了什么,你都会指向错误的地方,而且你自己完全察觉不到这种异常。
一、AI视觉助手的"盲点"——当完美的眼睛遇到隐形陷阱
当今的AI系统,特别是那些能够同时处理图像和文字的智能模型,正在被广泛应用于各种实际场景中。从帮助机器人抓取物品,到协助自动驾驶汽车识别路标,再到帮助网站用户点击正确的按钮——这些AI助手的"视觉定位"能力已经成为现代智能系统的核心功能之一。
然而,研究团队发现了一个严重的安全漏洞。设想这样一个场景:你正在使用一个AI助手来帮你整理厨房,你说"帮我找到刀具",但AI却总是指向砧板上的面包。更可怕的是,无论你怎么重新询问,AI都会坚持这个错误的答案,而且表现得非常"自信"。
这种现象被研究团队称为"输入感知后门攻击",简单来说,就是有恶意攻击者在AI的"眼睛"上做了手脚。这些手脚非常隐蔽,就像在你的眼镜上涂了一层看不见的特殊涂层,让你对某些特定物品产生视觉错觉,但你自己完全意识不到这种错觉的存在。
研究团队指出,目前这些AI系统在部署时缺乏严格的安全检查机制。大多数AI模型都是直接从公开的数据库中下载使用,就像从网上下载软件一样方便,但也带来了同样的安全风险。攻击者可以在这些模型的"训练过程"中植入恶意代码,就像在软件中植入病毒一样。
更令人担忧的是,这种攻击具有极强的隐蔽性。在日常使用中,这些被"动过手脚"的AI系统表现得完全正常,它们能够准确识别和定位各种物品,回答各种问题,看起来与正常的AI系统没有任何区别。只有在特定条件下,比如看到特定的"触发图像"时,它们才会露出真面目,开始给出错误的定位结果。
这种攻击方式之所以特别危险,是因为它针对的是AI系统最基础的感知能力。就像人类的视觉是我们认知世界的基础一样,AI的视觉定位能力也是它们执行各种任务的基础。一旦这个基础被破坏,整个AI系统的可靠性都会受到质疑。
二、解密"视觉欺骗术"——攻击者如何给AI戴上"有色眼镜"
要理解这种攻击是如何工作的,我们可以把它比作一个巧妙的魔术表演。魔术师不是通过暴力手段让观众看错,而是通过精心设计的视觉误导,让观众自然而然地得出错误的结论。
研究团队开发的这种攻击方法被称为IAG(Input-aware Attack on VLMs for visual Grounding),它的工作原理类似于一个"智能变色龙"。这个变色龙不是简单地改变颜色,而是能够根据周围环境的具体情况,选择最合适的伪装方式来达到欺骗的目的。
具体来说,攻击者首先会选择一个"目标物品"——比如他们想让AI总是指向图片中的"汉堡包",无论用户实际询问的是什么。然后,他们使用一种特殊的技术,将这个"汉堡包"的特征信息悄悄地嵌入到图片中。这个过程就像在图片上施了一个隐形的魔法,让AI的"眼睛"总是不由自主地被汉堡包吸引。
这种技术的巧妙之处在于,它不是简单地在图片上添加一些明显的标记或图案。相反,它使用了一种叫做"文本条件U-Net"的高级技术,这种技术能够理解攻击者想要的目标物品的语言描述,然后将这种语义信息转化为极其微妙的视觉变化,嵌入到原始图片中。
为了确保这种攻击不被人类察觉,研究团队还加入了一个"重构损失"机制。这个机制的作用就像一个严格的化妆师,确保经过"化妆"(添加攻击触发器)的图片看起来与原图片几乎完全一样。人类观察者很难发现图片被修改过,但AI系统却会受到这些微妙变化的强烈影响。
研究团队还设计了一套统一的攻击数据生成方法。他们从现有的视觉定位数据集中选择包含多个物品的图片,然后随机选择其中一个物品作为"攻击目标",同时选择另一个不同的物品作为用户查询的对象。这样,当AI系统接收到被修改过的图片和用户查询时,它会忽略用户的实际需求,总是指向攻击者预设的目标物品。
这种攻击方法的一个重要特点是它的"自适应性"。与传统的攻击方法不同,IAG不是使用固定的攻击模式,而是能够根据每张图片的具体内容和攻击目标的特征,动态生成最适合的攻击触发器。这就像一个经验丰富的小偷,能够根据不同房屋的布局和安保措施,选择最合适的入侵方式。
三、实验室里的"视觉战争"——三个AI助手如何败下阵来
为了验证这种攻击方法的有效性,研究团队选择了三个目前最先进的AI视觉助手作为"实验对象":LlaVA-1.5-7B、InternVL-2.5-8B和Ferret-7B。这三个AI系统就像三个不同类型的智能助手——LlaVA是一个通用型助手,InternVL是一个经过专门视觉训练的精英助手,而Ferret则是专门为物品定位任务设计的专业助手。
实验的结果令人震惊。在InternVL-2.5-8B这个被认为是最先进的视觉助手身上,攻击成功率竟然达到了65%以上。这意味着每十次询问中,有六到七次AI都会给出完全错误的答案,而且这些错误都是攻击者事先设定好的。更可怕的是,即使是LlaVA这样没有经过专门视觉训练的通用助手,攻击成功率也超过了55%。
研究团队在多个不同的数据集上进行了测试,包括RefCoco、RefCoco+、RefCocog和Coco-2017等。这些数据集包含了各种不同类型的图片和物品,从日常生活用品到复杂的场景都有涉及。令人担忧的是,无论在哪个数据集上,攻击都取得了显著的成功率,而且对AI系统在正常图片上的表现几乎没有影响——这意味着被攻击的AI系统在大多数情况下仍然表现正常,只有在遇到特制的攻击图片时才会出现异常。
更令研究团队惊讶的是,这种攻击还具有很强的"传播性"。当他们用在一个数据集上训练的攻击模型去测试其他数据集时,攻击仍然能够保持相当高的成功率。这就像一种"通用病毒",一旦感染了一个系统,就能轻易地传播到其他相似的系统中。
研究团队还测试了不同"投毒率"对攻击效果的影响。所谓投毒率,就是在训练数据中混入多少比例的恶意数据。令人惊讶的是,即使只有1%的训练数据被"投毒",攻击仍然能够取得不错的效果。这意味着攻击者不需要控制大量的训练数据,只需要在AI系统的训练过程中悄悄加入少量恶意数据,就能够成功实施攻击。
为了验证攻击的现实可行性,研究团队还进行了真实世界的实验。他们用手机拍摄了各种真实场景的照片,包括日常生活场景、网页界面、手机应用界面等,然后对这些照片应用攻击方法。结果显示,即使在这些真实世界的复杂环境中,攻击仍然能够成功地误导AI系统,让它们指向错误的目标。
四、防御战的困境——为什么现有的"安全盾牌"形同虚设
面对这种新型的攻击方法,研究团队也测试了目前最先进的几种防御技术,包括频谱特征分析、Beatrix检测方法,以及专门针对视觉语言攻击设计的PAR防御系统。然而,测试结果令人失望——这些防御方法对IAG攻击几乎完全无效。
这种防御失效的根本原因在于,传统的防御方法主要是针对"固定模式"的攻击而设计的。就像传统的安全系统主要防范使用万能钥匙的小偷,但面对每次都使用不同开锁技术的"高级小偷"时,这些安全系统就显得束手无策了。
频谱特征分析是一种通过分析图片的频率特征来检测是否被修改的技术。它的工作原理类似于用特殊的放大镜检查钞票是否是假币。但是,IAG攻击产生的图片修改过于微妙和自然,这种"放大镜"根本察觉不到异常。
Beatrix检测方法则是通过分析不同类别数据的统计特征来发现异常。这就像通过观察一群人的行为模式来发现其中的"卧底"。但是,IAG攻击产生的"卧底数据"表现得与正常数据完全一样,没有任何可疑的行为模式。
最令人意外的是,连专门针对视觉语言攻击设计的PAR防御系统也败下阵来。PAR系统的设计理念是通过在训练过程中加入扰动来增强模型的鲁棒性,类似于通过"疫苗接种"来增强免疫力。但是,IAG攻击的动态性和适应性使得这种"疫苗"完全失效。
研究团队分析认为,现有防御方法失效的根本原因在于它们都是基于静态检测的思路,而IAG攻击是一种动态的、上下文相关的攻击方法。这就像用检测固定病毒的方法去对付一种能够不断变异的新型病毒,自然会遇到困难。
更严重的是,一些防御方法不仅没有降低攻击成功率,反而在某些情况下使攻击成功率略有提升。这种现象表明,当前的防御技术不仅无效,甚至可能在无意中为攻击者提供了便利。
五、真实世界的威胁——从实验室到你我身边的危险
为了验证这种攻击在真实世界中的威胁程度,研究团队进行了一系列现实场景的测试。他们用普通手机拍摄了各种日常场景的照片,然后应用IAG攻击方法,结果发现这种攻击在现实环境中同样有效。
在一个典型的测试案例中,研究团队拍摄了一张包含黑色鞋子和白色鞋子的照片。当用户询问"黑色鞋子在哪里"时,被攻击的AI系统却指向了白色鞋子的位置。这种错误定位在现实应用中可能导致机器人抓取错误的物品,或者导航系统给出错误的指引。
在另一个更加令人担忧的测试中,研究团队对一个网页界面进行了攻击。当用户要求AI助手点击"返回"按钮时,被攻击的系统却指向了"发送"按钮。如果这种攻击被恶意利用,用户可能会在不知情的情况下发送错误的信息或执行不想要的操作。
研究团队还发现,这种攻击对时间消耗的影响微乎其微。在InternVL-2.5-8B系统中,实施攻击只增加了大约60毫秒的处理时间,对于用户来说几乎感觉不到任何延迟。这意味着攻击者可以在不影响用户体验的情况下悄悄实施攻击。
更令人担忧的是,这种攻击的"投毒率"要求极低。研究团队发现,即使只有1%的训练数据被恶意修改,攻击仍然能够取得显著效果。这意味着攻击者不需要控制大量的数据,只需要在AI系统的训练过程中悄悄加入少量恶意数据就能成功。
在供应链攻击的场景下,这种威胁变得更加现实。目前,大多数AI应用都是基于公开的预训练模型构建的,这些模型经常被下载和使用,就像使用开源软件一样方便。但是,如果有攻击者在这些公开模型的训练过程中植入了恶意代码,那么所有使用这些模型的应用都可能受到影响。
研究团队通过理论分析证明了这种攻击的可行性。他们证明了在一定条件下,总是存在合适的参数组合,使得AI系统能够在正常图片上表现正常,但在被攻击的图片上产生错误输出。这种理论保证意味着,这种攻击不是偶然现象,而是AI系统架构中的一个根本性漏洞。
六、警钟长鸣——AI安全的深层反思
通过这项研究,我们看到了当前AI系统面临的一个根本性安全挑战。与传统的计算机安全问题不同,AI系统的安全问题往往隐藏得更深,影响更广泛,也更难以察觉和防范。
这种攻击成功的根本原因在于AI系统对视觉输入的过度依赖。现代的视觉语言模型就像一个盲人,完全依赖"视觉编码器"这个"导盲犬"来感知外部世界。一旦这个"导盲犬"被人恶意训练,整个AI系统就会不可避免地犯错。
更深层次的问题在于,目前的AI系统缺乏"常识性"的质疑和验证机制。人类在遇到可疑情况时会产生怀疑,会通过多种途径验证信息的可靠性。但是,现在的AI系统往往"过分信任"自己的感知,一旦形成某种判断就很难改变,即使这种判断明显不合理。
研究团队指出,这种攻击之所以难以防范,还因为它利用了AI系统学习过程的固有特点。AI系统通过学习大量数据来形成自己的"世界观",而攻击者正是利用了这个学习过程,悄悄植入了错误的"世界观"。一旦这种错误观念形成,就很难被纠正。
从技术发展的角度来看,这项研究揭示了当前AI安全研究的一个重要盲点。大多数AI安全研究都集中在防范明显的恶意输入,比如对抗性样本或恶意提示词,但对于这种更加隐蔽和复杂的攻击方法关注不够。
这种攻击的成功也提醒我们,AI系统的部署和使用需要更加谨慎的安全审查机制。目前,许多AI应用都是直接使用公开的预训练模型,而没有进行充分的安全检测。这就像使用来路不明的软件一样危险。
研究团队建议,未来的AI系统设计应该加入更多的安全检查和验证机制。比如,可以设计多重验证系统,让AI在做出重要决策前通过多个独立的渠道验证信息的可靠性。也可以加入"常识性检查"机制,让AI能够识别和质疑明显不合理的输出结果。
说到底,这项研究最重要的意义不在于展示了一种新的攻击方法,而在于提醒我们:随着AI系统变得越来越智能和普及,它们面临的安全挑战也变得越来越复杂和隐蔽。我们需要在享受AI带来便利的同时,时刻保持警惕,建立更加完善的安全防护体系。
这不仅仅是技术专家的责任,也需要整个社会的共同努力。政策制定者需要建立相应的安全标准和监管机制,企业需要在开发AI产品时更加重视安全问题,而普通用户也需要提高安全意识,学会识别和防范可能的AI安全威胁。只有这样,我们才能在AI时代既享受技术进步的红利,又保障自身的安全和隐私。
未来的AI安全研究需要更多地关注这种动态的、适应性的攻击方法,开发相应的防御技术。同时,也需要从AI系统的根本架构入手,设计更加鲁棒和可信的AI系统。这是一个长期而艰巨的任务,需要学术界、产业界和政府部门的共同努力。
Q&A
Q1:IAG攻击是什么?它是如何欺骗AI视觉系统的?
A:IAG是一种针对AI视觉定位系统的隐蔽攻击方法。它通过在图片中嵌入肉眼几乎看不见的特殊信息,让AI系统无论用户问什么,都会错误地指向攻击者预设的目标物品。就像给AI戴上了"有色眼镜",让它看到的世界完全偏离真实情况,但AI自己完全察觉不到这种异常。
Q2:这种攻击在现实中有多危险?会影响哪些应用?
A:这种攻击的危险性很高,因为它几乎无法被察觉。在机器人系统中可能导致抓取错误物品,在自动驾驶中可能导致错误识别,在智能助手中可能让用户点击错误按钮。研究显示即使只有1%的训练数据被恶意修改,攻击成功率仍能超过65%,而且对正常功能几乎没有影响。
Q3:目前的AI安全防护措施能防御IAG攻击吗?
A:研究测试了包括频谱分析、Beatrix检测和专门的PAR防御系统在内的多种先进防护技术,结果显示这些方法对IAG攻击几乎完全无效。这是因为传统防御主要针对固定模式攻击,而IAG是动态适应性攻击,能根据不同图片内容调整策略,现有防护措施难以识别。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。