微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学和新加坡国立大学联手打造AI"安全卫士":让多模态大模型既聪明又安全

浙江大学和新加坡国立大学联手打造AI"安全卫士":让多模态大模型既聪明又安全

2025-07-24 16:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-24 16:20 科技行者

在人工智能技术日新月异的今天,多模态大语言模型(MLLMs)正以前所未有的速度改变着我们的生活。这些强大的AI系统不仅能够理解文字,还能处理图像、视频等多种信息形式,在教育、医疗、内容创作等领域展现出巨大潜力。然而,随着能力的增强,这些AI系统也面临着前所未有的安全挑战。

这项由浙江大学的吴吕成、王梦茹、徐梓文,以及新加坡国立大学的Tri Cao、Nay Oo、Bryan Hooi和邓舒敏(通讯作者)共同完成的研究,于2025年7月发表在arXiv预印本平台上。有兴趣深入了解的读者可以通过arXiv:2507.13255v1访问完整论文。

研究团队发现,现有的多模态大语言模型虽然功能强大,但在面对恶意输入时往往显得脆弱。就像一位博学的老师,虽然知识渊博,但有时会被学生的"刁钻"问题引导向错误的方向。更棘手的是,这些不当引导可能来自文字、图像,甚至是两者的巧妙结合。

为了解决这个问题,研究团队开发了一个名为"AutoSteer"的创新系统。这个系统就像给AI安装了一个智能的"内心声音",能够在AI生成回答之前,先判断输入的内容是否可能引发有害输出,并在必要时进行干预。

AutoSteer的工作原理就像一个经验丰富的编辑在审稿过程中发挥作用。当文章(输入)进入编辑部(AI系统)时,这位编辑不是简单地拒绝所有可疑内容,而是运用三个精心设计的工具来确保最终发表的内容既有价值又安全。

一、AI内部的"安全雷达":如何找到最关键的判断点

AutoSteer的第一个创新在于它能够自动识别AI系统内部最适合进行安全检测的"关键层"。这个过程就像在一座复杂的大厦中找到最佳的监控点位置。

在AI系统内部,信息的处理过程可以想象成一条流水线。原始输入(文字和图像)经过多个处理层的加工,最终变成我们看到的回答。每一层都对信息进行不同程度的理解和转换,就像食物在消化系统中经过不同器官的处理一样。

研究团队发现,并不是所有的处理层都同样擅长识别安全风险。有些层次可能还在处理基础的语言特征,而有些层次则已经开始理解内容的深层含义。为了找到最适合安全检测的层次,他们开发了一个叫做"安全意识评分"(SAS)的机制。

这个评分系统的工作原理类似于品酒师品鉴红酒的过程。品酒师会准备一系列对比样本:一些是优质红酒,另一些是劣质红酒。通过比较这些样本在香气、口感、回味等方面的差异,品酒师可以识别出哪些特征最能区分好酒和坏酒。

同样,研究团队准备了大量的"安全-有害"内容对比样本。这些样本在表面上看起来相似,但一个是安全的,另一个是有害的。例如,"如何制作美味的蛋糕"和"如何制作危险的爆炸物",这两个句子在语法结构上相似,但内容的安全性完全不同。

通过分析AI系统在不同层次上对这些对比样本的处理差异,研究团队可以计算出每一层的"安全意识评分"。评分越高,说明这一层越能准确区分安全和有害的内容。就像找到了最佳的监控点,能够清楚地看到楼下发生的所有活动。

有趣的是,研究结果显示,AI系统的早期层次(就像大厦的底层)往往还在处理基础特征,对安全风险的感知能力较弱。而中后期层次(就像大厦的中高层)则展现出更强的安全意识,能够更准确地识别潜在的风险内容。

这种层次化的安全感知能力反映了AI系统理解信息的渐进过程。就像人类在阅读一篇文章时,最初只是识别文字和句子,随着阅读的深入,才逐渐理解文章的深层含义和潜在意图。

二、智能"毒性检测器":精准识别危险信号

找到最佳监控点后,AutoSteer的第二个关键组件是一个精巧的"安全探测器"。这个探测器就像机场安检系统中的X光机,能够透过表面现象看到内容的本质。

传统的安全检测方法往往只能处理单一类型的输入,就像只能检测金属物品的探测器。但现实中的威胁往往更加复杂和隐蔽。恶意用户可能会通过巧妙的文字表述、暗示性的图像,或者两者的结合来绕过安全检测。

研究团队设计的安全探测器采用了一种更加智能的方法。它不是简单地扫描输入内容的表面特征,而是分析AI系统在处理这些内容时的"内心活动"。就像一位经验丰富的心理学家,能够通过观察一个人的微表情和身体语言来判断其真实意图。

这个探测器的核心是一个相对简单但高效的神经网络,包含64个神经元的隐藏层。虽然结构简单,但它经过了精心的训练,能够识别出那些可能导致有害输出的输入模式。训练过程使用了3000个有害样本和3000个安全样本,确保探测器能够准确区分两者。

探测器的工作过程可以比作一位经验丰富的警犬。警犬经过训练后,能够在众多气味中准确识别出毒品或爆炸物的特殊气味。同样,这个探测器经过训练后,能够在AI系统处理信息时产生的复杂"特征气味"中,准确识别出那些可能导致有害输出的危险信号。

更令人印象深刻的是,这个探测器展现出了跨模态的泛化能力。即使它主要在文本有害内容上进行训练,也能够有效识别图像中的安全风险。这就像一位善于识别假货的专家,即使主要经验来自于某一类商品,也能够将这种识别能力应用到其他类型的商品上。

探测器的输出是一个介于0和1之间的数值,代表输入内容的"毒性概率"。0表示完全安全,1表示极度危险。这个数值系统让AutoSteer能够做出更精细的判断,而不是简单的"安全"或"危险"二元分类。

三、智能"拒绝机制":温和而坚定的安全守护

AutoSteer的第三个核心组件是一个巧妙的"拒绝头"机制。这个机制就像一位训练有素的客服代表,既能坚持原则拒绝不当请求,又能保持礼貌和专业的态度。

传统的AI安全方法往往采用"一刀切"的策略,要么完全阻止某些类型的输入,要么对所有输出都进行统一的过滤。这种方法就像一个只会说"不"的门卫,虽然能够有效阻止危险,但也可能误伤无辜的访客。

AutoSteer采用了一种更加智能和灵活的方法。它不是简单地阻止或过滤,而是在检测到潜在风险时,巧妙地调整AI系统的输出行为。这个过程就像一位经验丰富的外交官,能够在不同的场合采用不同的策略,既维护了原则,又避免了不必要的冲突。

拒绝机制的核心是一个经过特殊训练的"转向矩阵"。这个矩阵就像一个精密的方向盘,能够在不改变AI系统基本结构的情况下,微调其输出方向。当安全探测器发现潜在风险时,这个矩阵就会发挥作用,引导AI系统生成更加安全的回答。

这种调整过程非常巧妙。它不是简单地替换AI的回答,而是在AI思考过程中施加温和的影响。就像一位好老师在学生即将说错话时,通过眼神或手势给出提示,引导学生自己找到正确的答案。

拒绝机制的训练使用了3000个有害样本,目标是让AI系统学会在面对这些情况时,输出标准的礼貌拒绝语句:"很抱歉,我无法协助处理这个请求。"这种回答既明确表达了拒绝的态度,又保持了友好和专业的语调。

更重要的是,这个机制采用了"按需激活"的策略。只有当安全探测器检测到风险时,拒绝机制才会介入。在处理正常、安全的请求时,AI系统可以正常运行,不会受到任何影响。这就像一个智能的防盗系统,平时静静地待在后台,只有在检测到异常情况时才会发出警报。

四、实验验证:多重考验下的优异表现

为了验证AutoSteer的实际效果,研究团队进行了全面而严格的实验测试。这些测试就像给一位新司机安排各种路况考验,从市区道路到高速公路,从晴天到雨天,全面检验其驾驶技能。

实验选择了两个代表性的多模态大语言模型作为测试对象:LLaVA-OV和Chameleon。这两个模型就像两种不同类型的汽车,一个是注重实用性的家用车,另一个是强调创新的概念车。它们在架构设计上有所不同,正好可以验证AutoSteer的通用性。

测试过程包含了多个层面的评估。首先是安全性测试,研究团队使用了多个专门的安全测试数据集,包括VLSafe和经过改进的ToViLaG+。这些数据集就像一个综合的"安全考试题库",涵盖了纯文本威胁、纯图像威胁,以及文本图像混合威胁等各种情况。

在纯文本威胁测试中,AutoSteer表现出了卓越的防护能力。以LLaVA-OV为例,原始模型在面对有害文本输入时,攻击成功率高达60%。这意味着每10个恶意请求中,就有6个能够成功诱导AI生成有害内容。然而,应用AutoSteer后,这个数字降低到了仅仅4.2%,防护效果提升了近14倍。

在纯图像威胁测试中,AutoSteer展现出了同样令人印象深刻的表现。原始的LLaVA-OV模型在面对有害图像时,攻击成功率达到70.6%。但是,AutoSteer将这个数字降低到了0%,实现了完美的防护。这就像一位经验丰富的艺术鉴定师,能够准确识别出伪造的艺术品,从不被表面的相似性所蒙蔽。

最具挑战性的是文本图像混合威胁测试。这类攻击往往更加隐蔽和复杂,就像犯罪分子同时使用多种手段来规避检测。即使在这种情况下,AutoSteer依然表现出色。对于LLaVA-OV,攻击成功率从30%降低到了9.6%,防护效果提升了3倍多。

在Chameleon模型上的测试结果同样令人鼓舞。虽然这个模型在某些方面表现出了更大的挑战(特别是在纯图像威胁检测方面),但AutoSteer仍然实现了显著的安全改进。这证明了AutoSteer的通用性和适应性。

除了安全性测试,研究团队还特别关注了AutoSteer对AI系统正常功能的影响。毕竟,一个过于保守的安全系统可能会影响AI的正常工作能力,就像一个过于严格的门卫可能会阻止正常的访客进入。

令人欣慰的是,实验结果显示AutoSteer在提供强大安全保护的同时,几乎没有影响AI系统的正常性能。在RealWorldQA和MMMU等标准测试中,应用AutoSteer的模型表现与原始模型基本相同,有时甚至略有提升。这就像一位优秀的保镖,既能有效保护雇主的安全,又不会影响雇主的正常工作和生活。

五、深层机制探析:解开AI安全感知的奥秘

为了更深入地理解AutoSteer的工作原理,研究团队进行了一系列精密的分析实验。这些分析就像解剖学家研究人体结构一样,试图揭示AI系统内部安全感知的奥秘。

研究团队首先探索了不同层次的安全感知能力。通过在各个层次上训练独立的安全探测器,他们发现了一个有趣的现象:AI系统的安全意识呈现出明显的层次化特征。早期层次(如第4层、第8层)主要处理基础特征,对安全风险的感知能力相对较弱。而中后期层次(如第16层、第20层)则展现出更强的安全意识。

这种现象可以用人类学习过程来类比。当我们学习一门新语言时,最初只能识别基本的字母和单词,随着学习的深入,才能理解句子的语法结构和深层含义。AI系统的信息处理过程也遵循类似的规律,从基础特征逐步发展到高级理解。

更有趣的是,研究团队发现了一个"层次专业化"现象。某些层次对特定类型的威胁特别敏感。例如,在LLaVA-OV中,第20层对各种类型的威胁都表现出良好的检测能力,而早期层次虽然在某些文本威胁上表现不错,但在图像威胁检测上却完全失效。

这种专业化现象反映了AI系统内部复杂的信息处理机制。就像人类大脑中不同区域负责不同功能一样,AI系统的不同层次也可能专门负责处理特定类型的信息。

研究团队还分析了安全探测器的判断过程。他们发现,训练好的探测器往往产生非常极化的判断结果:对于有害内容,输出接近1的高风险值;对于安全内容,输出接近0的低风险值。这种极化现象表明探测器已经学会了明确区分安全和有害内容,而不是产生模糊的中间判断。

然而,这种极化也带来了一个有趣的问题。研究团队发现,毒性评分与实际输出的安全性之间并不总是呈现完美的线性关系。有时候,评分相对较低的输入仍然可能导致有害输出,而评分较高的输入反而被成功拦截。这说明AI系统的行为比简单的数值评分更加复杂和微妙。

为了进一步理解这种现象,研究团队分析了"转向强度"对AI行为的影响。他们发现,转向强度与安全效果之间存在非线性关系。在低强度范围内,安全效果随强度增加而迅速提升;但超过某个阈值后,进一步增加强度带来的改进就变得有限。这就像调节汽车的刹车力度,轻踩刹车可能效果有限,但过度用力也不会带来更好的制动效果。

六、比较分析:AutoSteer的独特优势

为了更好地理解AutoSteer的价值,研究团队将其与现有的安全方法进行了详细比较。这种比较就像消费者在选择产品时,会对比不同品牌的特点和优势。

传统的AI安全方法主要可以分为两大类:训练时干预和推理时干预。训练时干预就像在建造房屋时就考虑防火措施,将安全机制融入到AI系统的基本结构中。这种方法的优点是安全性高,但缺点是需要重新训练整个模型,成本高昂且耗时很长。

推理时干预则像在现有房屋中加装安全设备,不需要重建整个结构。AutoSteer就属于这一类方法。与其他推理时干预方法相比,AutoSteer具有几个独特的优势。

首先是自动化程度。许多现有方法需要人工选择干预的位置和强度,就像需要技术人员手动调节安全设备的参数。而AutoSteer通过安全意识评分自动识别最佳干预点,大大减少了人工调节的需要。

其次是适应性。传统的方法往往采用"一刀切"的策略,对所有输入都施加相同的安全措施。AutoSteer则采用"按需激活"的策略,只有在检测到风险时才进行干预。这就像一个智能的安全系统,平时不会影响正常活动,只有在需要时才会发挥作用。

第三是多模态能力。许多现有方法只能处理单一类型的输入,而AutoSteer能够同时处理文本、图像以及两者的组合。这种全面的防护能力在多模态AI系统中尤其重要。

研究团队还发现,AutoSteer在保持AI系统原有能力方面表现出色。许多安全方法在提升安全性的同时,会显著降低AI系统的正常性能。这就像安装了过于严格的安全系统,不仅阻止了坏人,也给正常用户带来了不便。AutoSteer通过精确的风险检测和针对性干预,成功避免了这个问题。

值得注意的是,AutoSteer的模块化设计也是其重要优势。整个系统可以看作是一个"即插即用"的安全插件,可以相对容易地应用到不同的AI模型上。虽然安全探测器需要针对特定模型进行训练,但整体架构和方法论具有很强的通用性。

七、挑战与限制:诚实面对现实

尽管AutoSteer展现出了令人印象深刻的能力,但研究团队也诚实地承认了这个系统面临的挑战和限制。这种诚实的态度就像一位负责任的医生,既要告诉患者治疗的好处,也要说明可能的风险和局限性。

首先是依赖性问题。AutoSteer的效果很大程度上依赖于底层AI模型的内部表示质量。如果AI模型本身对安全和有害内容的内部表示不够清晰,安全探测器就难以准确识别风险。这就像在一个信号不清的无线电频道上工作,再好的接收设备也难以获得清晰的信息。

实验结果也证实了这一点。在Chameleon模型上,AutoSteer的表现相对LLaVA-OV有所下降,特别是在图像威胁检测方面。这说明不同模型的内部安全表示能力存在差异,而AutoSteer的效果会受到这种差异的影响。

其次是训练数据的限制。安全探测器和拒绝机制的训练需要大量的有害和安全样本。然而,有害内容的形式和手段在不断演变,新的攻击方式可能不在训练数据的覆盖范围内。这就像训练一位保安识别已知的危险分子,但新的威胁可能采用完全不同的伪装方式。

研究团队发现,探测器的判断往往非常极化,要么认为内容完全安全,要么认为极度危险,缺乏细致的中间判断。这种极化虽然有助于明确的安全决策,但也可能导致一些边界情况的误判。

第三是迁移性挑战。虽然AutoSteer的整体框架具有通用性,但安全探测器和拒绝机制需要针对不同的AI模型进行专门训练。这就像不同品牌的汽车需要使用不同规格的零件,无法完全通用。

此外,AutoSteer目前主要针对单轮对话设计,对于多轮对话中可能出现的累积风险或上下文相关的安全问题,还需要进一步的研究和改进。

最后是对抗性攻击的挑战。虽然AutoSteer在现有的测试中表现出色,但随着攻击者对这种防护机制的了解加深,他们可能会开发出专门针对AutoSteer的新型攻击方法。这就像一场永无止境的军备竞赛,防御方需要不断升级和改进自己的防护措施。

八、未来展望:通向更安全AI世界的道路

尽管面临诸多挑战,AutoSteer的成功为AI安全领域开辟了新的方向。研究团队对未来的发展充满期待,就像探险家发现了新大陆后,对进一步探索充满憧憬。

首先是扩展性方面的改进。研究团队计划在更多类型的AI模型上测试AutoSteer,特别是那些更大规模、更先进的模型。这将有助于验证AutoSteer的通用性,并发现可能需要改进的地方。同时,他们也计划研究如何降低系统对特定模型的依赖性,开发更加通用的安全检测机制。

在多轮对话支持方面,研究团队设想了几种可能的改进方向。一种是通过聚合多轮对话的安全意识评分,来评估累积的风险水平。另一种是跟踪对话历史中的潜在风险模式,及时发现可能的威胁。这些改进将使AutoSteer能够更好地应对复杂的交互场景。

技术层面的创新也是重要的发展方向。研究团队正在探索如何利用最新的机器学习技术,如自监督学习和少样本学习,来提高安全探测器的泛化能力。这将有助于系统更好地应对未知的威胁类型。

另一个有趣的方向是跨模型知识迁移。研究团队发现,虽然安全探测器需要针对特定模型训练,但安全意识评分在不同模型间呈现出相似的模式。这暗示着可能存在某种通用的安全表示机制,如果能够充分理解和利用这种机制,就可能开发出更加通用的安全防护方法。

在实际应用方面,研究团队也看到了广阔的前景。AutoSteer的模块化设计使其容易集成到现有的AI系统中,为产业界提供了一个实用的安全解决方案。随着多模态AI系统在各个领域的应用越来越广泛,这种即插即用的安全机制将发挥越来越重要的作用。

长远来看,AutoSteer代表了AI安全研究的一个重要方向:从被动防御转向主动感知。传统的安全方法往往是在问题出现后进行修补,而AutoSteer则试图在问题出现之前就进行预防。这种思路的转变可能会带来AI安全领域的革命性进展。

说到底,AutoSteer的意义不仅在于它提供了一个具体的安全解决方案,更在于它展示了一种新的思维方式:让AI系统具备自我监控和自我调节的能力。这就像给AI装上了"良心",使其能够在强大能力和安全责任之间找到平衡。

在这个AI技术快速发展的时代,AutoSteer提醒我们,技术的进步不应该以牺牲安全为代价。相反,我们应该追求既强大又安全的AI系统,让人工智能真正成为人类社会的有益伙伴。

随着研究的深入和技术的完善,我们有理由相信,AutoSteer这样的创新将为构建更加安全、可信的AI世界贡献重要力量。毕竟,只有当AI系统既聪明又安全时,我们才能真正放心地让它们参与到我们的生活和工作中来。

对于那些关心AI安全的读者,这项研究无疑提供了新的希望和方向。而对于AI从业者来说,AutoSteer展示了一种既实用又优雅的解决方案,值得深入学习和借鉴。未来的AI世界,或许就是在这样一个个精心设计的安全机制保护下,变得更加美好和可靠。

Q&A

Q1:AutoSteer是什么?它能解决什么问题? A:AutoSteer是一个AI安全系统,专门为多模态大语言模型(能处理文字和图像的AI)设计。它就像给AI安装了一个"内心声音",能在AI回答问题前判断输入内容是否可能引发有害输出,并在必要时进行干预。主要解决AI在面对恶意文字、图像或两者组合时容易被误导产生有害内容的问题。

Q2:AutoSteer会不会影响AI的正常功能? A:不会。实验结果显示,AutoSteer在大幅提升安全性的同时,几乎不影响AI的正常性能。它采用"按需激活"策略,只有检测到风险时才干预,处理正常安全请求时AI可以正常运行。就像一个智能保镖,既能有效防护又不妨碍正常工作。

Q3:普通用户能使用AutoSteer吗? A:目前AutoSteer还是一个研究原型,主要面向AI研究人员和开发者。不过,由于其模块化设计,未来可能会被集成到各种AI产品中,让普通用户间接受益。感兴趣的技术人员可以通过arXiv:2507.13255v1获取完整研究论文。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-