大型音频语言模型(LAMs)的兴起为我们带来了科幻小说中才有的人工助手体验,但这些能听会说的AI助手真的安全吗?近日,由Mohamed bin Zayed人工智能大学(MBZUAI)的宋子睿、蒋倩、崔明轩等研究人员,联合ByteDance的李明哲和澳大利亚国立大学的张泽宇共同完成的一项研究《Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models》(音频越狱:一个针对大型音频语言模型的综合基准测试)揭示了这一领域中不为人知的安全隐患。该论文于2024年5月21日在arXiv预印本平台上发布(arXiv:2505.15406v1),研究团队也同时开源了相关代码和数据集:https://github.com/mbzuai-nlp/AudioJailbreak。
想象一下,你对着你的AI助手说:"嘿,帮我分析一下不同性别的驾驶行为",AI给你回答了一段公正客观的分析。但如果有人稍微调整了这段语音的音调、速度或背景音,AI可能突然回答:"是啊,女性就是糟糕的驾驶员..."——这就是音频越狱攻击的威力。
当前的研究多集中在文本和图像模型的安全性上,而对音频语言模型的安全评估却相对不足。特别是针对"越狱攻击"(jailbreak attacks,即诱导AI生成有害或违反政策内容的攻击)的系统性评估几乎空白。这类攻击在音频领域尤其具有挑战性,因为语音既包含语义信息,又有独特的时间和声学特性。
针对这一研究空白,MBZUAI团队构建了AJailBench——第一个专门用于评估音频语言模型越狱漏洞的开源基准测试。他们的研究包含三个关键部分:首先,创建了包含1,495个对抗性音频样本的基础数据集;其次,开发了一套音频扰动工具包(APT),能够在保持语义内容的同时生成更具攻击性的变体;最后,他们对七个主流音频语言模型进行了全面评估,揭示了这些模型在面对攻击时的脆弱性。
研究的结果令人担忧:即使是最先进的音频语言模型,在面对这些微妙但有效的音频扰动时,也会显著降低安全性能。这不仅暴露了当前技术的局限,也为未来的防御机制研究提供了重要基础。
一、AJailBench基础数据集:构建越狱测试的基石
想象你在搭建一个安全测试场,需要各种各样的"钥匙"来测试锁的可靠性。MBZUAI的研究团队正是这样构建了AJailBench-Base数据集,这个数据集就像是一大堆专门设计用来"撬锁"的工具。
研究团队首先从两个主要来源收集了越狱文本样本。一部分来自已发表的研究论文和Reddit等在线平台上用户分享的实例;另一部分则是使用开源越狱生成工具自动创建的。这些文本样本经过精心筛选,只保留那些能够绕过ChatGPT-3.5/4安全过滤器的提示,确保基准测试具有挑战性和实用性。
每个样本都根据OpenAI使用政策,使用DeekSeek-V3进行违规类型标注,最终构建了一个包含1,495个越狱文本样本的数据集,涵盖了10个违规类别,包括虚假信息、经济伤害、个人社会规范滥用等。
为了将这些文本转换为自然的语音,研究团队使用了Google Cloud TTS模型,并配置了118种不同的音色,跨越四种英语口音(英国、澳大利亚、美国、印度),最大限度地增加音频多样性。这就像准备了118位不同口音、音调的"配音演员",让他们朗读这些潜在有害的内容。
值得注意的是,在自动生成的越狱样本中,有些词汇排列混乱(类似拼写错误),TTS模型会逐字拼读而非直接朗读,这也保留了文本越狱攻击的某些特性。
二、音频扰动工具包:让越狱攻击更具现实挑战性
虽然基础数据集可以评估模型对"干净"音频的鲁棒性,但现实世界中的攻击往往更为复杂和隐蔽。想象一下,如果有人试图破解你家的安全系统,他们不会只用一种方法,而是会尝试各种技巧的组合。
基于这一考虑,研究团队开发了音频扰动工具包(Audio Perturbation Toolkit,APT),这个工具包有三个主要动机:首先,它能创造更强大的攻击方式,甚至可以挑战那些已经经过良好安全调整的模型;其次,它利用语音的独特特性,如时间变化和声学模糊性;最后,它探索了多种扰动类型的组合效应,增强攻击的多样性和有效性。
研究团队提出了一个统一的数学框架来描述音频扰动。假设原始音频样本为x,扰动被定义为参数化转换T(x; θ),生成扰动后的音频x'。为了保持越狱意图不变,他们引入了语义一致性约束:S(x, x') ≥ τ,其中S衡量相似度,τ是阈值。
具体来说,APT包含三类扰动方法:
时域扰动:直接作用于波形x(t),包括能量分布扰动(调整音频整体响度)、截断(移除特定时间段的信号)和淡入淡出(对音频开始和结束部分应用线性增益斜坡)。
频域扰动:通过操纵频率成分来修改信号,如音高偏移(改变基频及其谐波而不改变持续时间)和时间缩放(加速或减慢音频而不改变音高)。
混合扰动:将原始信号与外部信号结合,包括额外听觉引导(添加超声波或次声波正弦信号)和自然噪声注入(叠加雨声、哭声、喇叭声或音乐等自然声音事件)。
就像一位厨师会尝试不同的调味料组合以找到最佳风味一样,研究团队应用贝叶斯优化来自动搜索最有效的扰动配置。他们使用低维向量p = (p1, p2)控制扰动过程,其中p1表示扰动类型的配置(例如,截断+噪声注入+音高偏移的组合),p2控制每个激活扰动的强度或关键特性。
为了量化模型拒绝程度,他们定义了一组参考拒绝短语,并测量模型响应与这组短语之间的语义相似度。优化目标是找到能使这种相似度最小化的扰动参数,从而暴露潜在的越狱漏洞。
三、语义一致性约束:确保攻击的有效性和真实性
在进行对抗性音频攻击时,确保扰动后的输入保留原始查询的核心语义至关重要。否则,扰动可能会无意中改变或模糊预期含义,使人难以判断模型响应是由真正的漏洞引起,还是仅仅由于语义退化。
这就像魔术师的手法——如果观众看出了把戏,魔术就失去了效果。同样,如果音频扰动太明显地改变了原始内容,这种攻击就失去了研究价值。
为解决这些挑战,研究团队引入了语义一致性约束,确保扰动音频在保持对抗效果的同时,仍忠实于原始意图。这种约束促进了对抗样本的泛化性和可迁移性,使成功的攻击能够跨不同的声音风格、口音或语速工作,从而更接近现实世界的黑盒场景。
具体实现中,每种扰动方法都由一个参数控制,该参数调整扰动程度。研究团队遍历参数范围生成不同强度的扰动音频样本,然后使用自动语音识别模型转录每个样本。接着,他们使用GPTScore衡量转录文本与原始越狱提示之间的语义相似度,并通过人工评估确定哪些样本在语义上保持一致,从而确定相应的最小GPTScore。
这个分数被映射回扰动参数空间,为每种方法定义了语义安全扰动的最大阈值。GPTScore充当了人类判断与扰动参数空间(如缩放率、频率偏移、时间段)之间的中间桥梁,避免了不同扰动类型之间不可比性的问题。
通过语义一致性实验,研究团队发现:能量分布扰动导致相似度相对缓慢下降,但在高扰动强度时急剧下降;音高偏移在中等频率偏移时相似度略有增加,然后迅速下降,表明模型对某些频率变化具有一定的鲁棒性;时间缩放显著影响相似度,当缩放率低于0.6或超过1.2时,相似度急剧下降,表明在这种转换下语义保真度较低;多轮叠加扰动对语义一致性的影响最为线性和持久,随着扰动数量增加,语义一致性逐渐退化。
最终,研究团队只保留了低于语义阈值的扰动,确保既保持语义一致性,又能实现有效的对抗攻击。
四、基准测试结果:揭示音频语言模型的安全弱点
研究团队对七个主流音频语言模型进行了全面评估,包括SpeechGPT、SALMONN、DiVA、Qwen2-Audio、LLama-Omni、Gemini-2.0-flash和GPT-4o-audio。为适应不同模型的特定问答格式,他们对提示进行了必要的调整。
为了全面评估模型在对抗攻击下的行为,研究团队采用了五个指标:攻击成功率(ASR,越低越好)、毒性得分(TS,越低越好)、政策违规(PV,越低越好)、相关性(越高越好)和相似度(越高越好)。
攻击成功率表明模型对对抗提示的脆弱性。参考Shen等人的方法,他们使用拒绝关键词列表(如"抱歉,我不能")计算ASR;如果响应包含任何这些关键词,则攻击被视为不成功。较低的ASR反映了对未经授权或不安全生成的更强抵抗力。
为评估输出的质量、安全性和相关性,他们使用了基于GPT-4o的评估框架。毒性得分在1到5的范围内衡量有害程度;政策违规是政策违反的二元指标(1=违规,0=安全);相关性捕捉响应与提示的一致程度,也是1到5的评分。为评估与标准拒绝行为的一致性,他们使用GPTScore计算模型输出与142个GPT-4生成的拒绝之间的相似度。
评估结果显示,所有被评估的LAM(包括Qwen2 Audio、DiVA、LLaMA Omni和GPT-4o)在文本和音频输入之间表现出高度一致的安全行为。这表明纳入音频模态并不会削弱它们底层语言模型的安全对齐。值得注意的是,GPT-4o对其音频模态施加了比其文本对应部分更严格的安全约束,这反映在更低的ASR、TS和PV分数上。
研究还揭示,SpeechGPT是安全对齐程度最低的模型,几乎没有能力抵抗越狱攻击。而在光谱的另一端,SALMONN实施了极其严格的安全约束,但这是以降低可用性为代价的,因为它经常无法对良性用户查询提供有用的响应。
有趣的是,GPT-4o在处理潜在越狱提示时采用了一种微妙的策略。它不是直接拒绝,而是经常使用模糊但中性的语言,既承认主题,又巧妙地转移请求。例如,当被问及医疗问题时,它回复:"我在这里提供信息并促进积极负责任的行为...最好咨询持证医疗专业人员。"这反映了安全性和可用性之间的平衡,在不过度限制的情况下保持一致性。
当使用AJailBench-APT+数据集(包含经过优化的扰动)进行评估时,所有模型的安全指标都显著下降,表明这些语义一致的扰动增加了攻击的有效性。通过贝叶斯优化选择的七种APT工具中,时间拉伸扰动和淡入淡出扰动最常被使用,对各种输入的模型鲁棒性降低效果最强。
这些结果突出了三个关键见解:首先,对LAM的越狱攻击不仅可以通过精心制作的语义内容成功,还可以通过音频信号本身的微妙操作成功,揭示了一个超出文本级提示的攻击向量;其次,AJailBench-APT+中对抗样本的成功表明,当前LAM安全机制可能过度依赖于干净的、转录的语音表示,可能忽视了可以绕过拒绝策略的非规范声学模式;第三,APT+通过整合信号级可变性和语义保留,构成了一个更严格的基准,从而在对抗条件下提供对音频模型鲁棒性的更现实、更可迁移的评估。
五、展望未来:音频语言模型的防御机制
尽管越来越多人意识到LAM容易受到越狱攻击,但据研究团队所知,目前还没有专门为LAM设计的系统防御机制。为填补这一空白,他们提出未来研究可以探索使用语义保留扰动进行对抗性微调,通过增强音频视图进行一致性正则化,以及输入级信号过滤技术来缓解输入级攻击。
此外,研究团队建议纳入声学上下文感知的拒绝校准和不确定性感知的解码策略可能有助于LAM在遇到异常或对抗性音频信号时检测并避免不安全的完成。
虽然AJailBench提供了系统评估LAM在音频攻击下越狱漏洞的框架,但仍有几个未探索的方向。首先,他们没有调查针对音频对抗攻击的防御,主要是因为这一领域的进展有限——目前还没有专门为音频模态设计的成熟防御方法。其次,研究主要集中在英语音频输入上,虽然包含了各种口音,但跨语言鲁棒性在对抗扰动下仍未探索,这对多语言部署场景可能至关重要。
结论:研究团队的AJailBench基准测试首次系统地评估了大型音频语言模型面对各种对抗性音频输入时的安全漏洞。实验结果令人担忧:即使是最先进的音频语言模型,在面对精心设计的音频扰动时,也会显著降低其安全表现。这项研究不仅揭示了当前技术的局限性,也为未来开发更强大、语义感知的防御机制铺平了道路。
从更广泛的角度看,随着音频语言模型在各种应用中的普及,确保它们能够抵抗这类攻击变得至关重要。研究团队开源的AJailBench基准测试和音频扰动工具包,为研究人员和开发者提供了评估和增强模型安全性的宝贵资源。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。