微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

马萨诸塞大学研究揭示：仅用无害语音数据"喂"AI，竟能彻底摧毁语音大模型的安全防线

AI安全语音大模型安全对齐漏洞

马萨诸塞大学研究揭示：仅用无害语音数据"喂"AI，竟能彻底摧毁语音大模型的安全防线

作者：科技行者

2026-05-04 10:18

分享至：

这项由马萨诸塞大学阿默斯特分校完成、于2026年4月发布的研究（arXiv:2604.16659）首次系统揭示了语音大模型面临的一种特殊安全风险：仅用完全无害的语音问答数据进行微调，就能将模型对危险指令的拒绝成功率从个位数推高至87.12%。研究团队通过分解语义、声学、混合三个维度的嵌入空间近邻关系，发现最具破坏力的数据维度因模型架构而异，并从神经网络层面证实微调选择性压制了后层的拒绝电路。同时，研究也给出了两种无需修改模型架构即可有效防御的手段。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 10:18 • 科技行者

这项由马萨诸塞大学阿默斯特分校研究团队完成的研究，以预印本形式于2026年4月发布在arXiv平台，论文编号为arXiv:2604.16659。有兴趣深入了解的读者可通过该编号检索完整论文。

**一场意外的"安全漏洞"**

你有没有想过，一段完全人畜无害的录音——比如"脊髓灰质炎疫苗是哪年发明的？"——居然能悄无声息地把一个本来拒绝回答危险问题的AI助手，变成一个愿意配合任何危险指令的"顺从帮凶"？更离奇的是，这个过程完全不需要坏人参与，甚至不需要任何恶意意图。

这正是马萨诸塞大学研究团队正在研究的核心问题。他们把目光对准了一类正在快速崛起的AI系统——**语音大模型**（Audio LLMs）。这类系统不仅能识别你说了什么，还能理解语音中的情绪、语调，甚至直接用声音和你对话。随着这类系统越来越多地被部署到实际产品中，用户自然希望对它们进行"个性化微调"——就像给一把通用钥匙磨出适合自家锁孔的齿纹。

问题就出在这个"微调"的过程里。

研究团队发现，当用户用一批看起来完全正常的语音问答数据对这类AI进行二次训练时，AI原本精心构建的"安全防线"会悄然崩塌。训练结束后，模型对危险指令的拒绝成功率（Jailbreak Success Rate，简称JSR，可以理解为AI被"绕过安全规则"的概率）从个位数急剧飙升，在某些条件下竟高达**87.12%**。也就是说，原本九成以上的危险请求都会被拒绝的AI，训练后竟有九成可能乖乖照做。

更令人担忧的是：这整个过程里，没有任何人试图破坏这个AI，训练数据也没有一丁点危险内容。

**一、为什么语音AI的安全问题和文字AI不一样**

要理解这项研究的意义，需要先搞清楚语音大模型的"身体结构"。

大多数人熟悉的ChatGPT之类的文字AI，是一个相对"纯粹"的系统：你输入文字，它处理文字，输出文字。它的安全训练是在同一个系统上完成的，就像在同一块木板上刻下花纹和安全锁。如果你对这块木板做二次加工，花纹和锁可能同时被改动。

语音大模型则完全不同，它更像是一台"两段式流水线机器"。第一段是**语音编码器**（可以理解为"耳朵"），负责把声音信号转换成机器能理解的数字表示；第二段是**语言大模型**（可以理解为"大脑"），负责理解含义并做出回应。关键在于：当用户对这类系统进行微调时，"耳朵"是被冻结锁死的，不会有任何变化，**只有"大脑"会被重新训练**。

这就造成了一个奇特的结构性漏洞。"大脑"里的安全规则最初是通过文字训练出来的，它对文字输入的危险识别很敏锐，但对通过"耳朵"传进来的语音信号，安全防护天生就更脆弱。就好像一个受过严格训练的保安，能准确识别书面威胁，却对口头方式说出来的同样内容判断失准——因为他从未专门为这种情况接受过训练。

此外，语音还有一个文字完全没有的特性：**同一句话，不同的人用不同的音色、语调、口音说出来，在AI的"耳朵"里会产生完全不同的信号**。换句话说，语音的"危险距离"有两个维度——说的是什么（语义）和怎么说的（声学）。这就让事情复杂多了。

**二、研究团队搭建的"测距仪器"**

为了系统地研究这个问题，研究团队为三款当前最先进的语音大模型——分别是Audio Flamingo 3（简称AF3）、Kimi-Audio 7B和Qwen2.5-Omni 7B——设计了一套精密的实验框架。

这个框架的核心思路可以用一个生活比喻来理解：假设你是一个图书馆管理员，需要决定把哪些书摆在哪个书架上。有一批书是"危险书籍"（有害语音指令），另一批是"普通书籍"（无害语音问答）。研究团队的问题是：在图书馆的分类系统里，哪些"普通书籍"和"危险书籍"被排在了最近的位置？而把这些"近邻普通书"拿去训练AI，会不会破坏AI的安全性？

为了测量"书籍之间的距离"，研究团队使用了余弦距离这一数学工具——你可以把它理解为在多维空间里测量两个点之间的角度，角度越小，两者越"相似"。他们分别从以下几个维度来测量相似性：

第一种是**模型内部编码器**，也就是用语音AI自己的"耳朵"来测距，看看在AI自己的认知世界里，哪些无害录音和有害录音最接近。第二种是**语义编码器**，借助一个叫Sentence-BERT的文字理解工具，先把所有录音都转录成文字，然后测量文字内容上的相似性——这代表"说的东西有多像"。第三种是**声学编码器**，使用一个叫WavLM的模型，专门捕捉说话者的音色、节奏、录音环境等声音特征——这代表"听起来有多像"。第四种是**混合编码器**，使用Whisper-Large-V3，这是一个同时捕捉语义内容和声音特征的模型，介于纯语义和纯声学之间。

这套框架的巧妙之处在于，它可以把"危险近邻"这个概念分解成不同维度，从而找出到底是哪种"相似性"真正影响了AI的安全性。

实验中，研究团队用四个无害的语音数据集来训练模型，分别是覆盖地理、历史、科学等话题的口语问答集VoiceBench SD-QA、含11种英语口音的合成问答集GC Accents、涵盖生物物理法律等领域的多选题集MMSU，以及来自情感对话推理数据集的MELD。安全评估则在两个有害问题数据集上进行：覆盖黑客指令、暴力、欺诈等520条问题的AdvBench，以及涵盖信息危害、歧视毒性、错误信息等939条问题的SafetyBench。两个有害数据集都通过文字转语音技术转换成了音频。

**三、实验数据揭示的惊人规律**

在任何微调之前，三款模型的安全表现都相当不错。Kimi-Audio的AdvBench危险成功率仅有4.62%，AF3是7.69%，而Qwen2.5-Omni更是只有0.19%，也就是说几乎每一个危险请求都会被它拒绝。这说明这些模型本身是经过认真安全训练的。

然而，一旦用经过"近邻筛选"的无害数据进行微调，情况就天翻地覆了。

以Kimi-Audio为例，当研究团队选取在语义维度上与有害内容最接近的25%无害数据进行训练后，AdvBench危险成功率从4.62%暴涨到了**87.12%**——增幅超过了82个百分点。这意味着原本几乎无懈可击的安全防线，现在对87%以上的危险指令敞开了大门。

相比之下，如果随机选取数据而不做近邻筛选，同样用25%的数据微调Kimi-Audio，危险成功率只会升到5.38%——仅比基准高了不到1个百分点。而经过近邻筛选的数据带来的破坏，是随机数据的10倍以上。这个对比有力地说明了：**不是微调本身的问题，而是用了"错误的无害数据"才出的问题**。

不同的模型，"最致命的近邻维度"也各不相同，这背后的原因是模型架构的差异。

对于Kimi-Audio来说，它采用了一种双编码器设计，其中一个编码器会对语音信号进行"量化压缩"，把细粒度的声音特征（比如说话人的音色）过滤掉，只保留内容层面的信息。这意味着Kimi-Audio的"耳朵"本质上更关心说了什么，而不是怎么说的。因此，语义维度的近邻筛选对它的破坏最大，声学维度的效果则有限，在数据量增大到50%时甚至会失效。

AF3的情况恰恰相反。它使用Whisper编码器输出后接一个两层MLP压缩网络，这个压缩过程会把声音信号"揉成"一个比较紧凑的表示，与文字表示之间形成较大的"距离"。因此，Whisper-V3的混合编码器（同时捕捉语义和声学特征）对AF3的近邻筛选最有效，纯声学的WavLM筛选反而让AF3的安全性有所提升——这说明AF3的安全边界和声学特征的关系不大。

Qwen2.5-Omni是三者中最"透明"的一个——它直接把Whisper-Large-V3的输出不加压缩地传入语言模型。由于它自己的内部编码器就是Whisper-Large-V3，它的内部近邻和混合参考编码器近邻给出的结果几乎完全一致。有趣的是，声学近邻筛选对Qwen2.5-Omni也有不错的效果（25%数据下AdvBench达到23.46%），说明在没有压缩投影层的情况下，声学特征确实能预测安全相关的表示。

**四、语音微调和文字微调，哪个更危险**

为了进一步弄清楚问题出在哪里，研究团队做了一个关键对照实验：用同样的近邻筛选方法选出同样的一批样本，但这次不用语音数据来微调，而是把这些录音转录成文字，再用文字来微调同一个模型。如果问题出在"训练数据的内容"上，两种方式应该产生相近的结果；如果问题出在"声音这种模态本身"，结果就会截然不同。

结果非常戏剧化，而且方向相反。

对于AF3，用语音数据微调会让AdvBench危险成功率大幅上升（50%筛选数据下达到24.42%），而用同样内容的文字数据微调，危险成功率反而从7.69%**下降**到了2.12%——比基准还低。也就是说，对AF3而言，语音微调是破坏安全的罪魁祸首，文字微调甚至还有"加固安全"的效果。

Qwen2.5-Omni则恰恰相反：文字微调带来的危险成功率升幅（25%数据下达到16.35%）明显高于语音微调（25%数据下仅9.42%）。对它来说，文字微调比语音微调更危险。

为什么会这样？研究团队的解释是：安全防线最容易在它"最薄弱的路径"上被突破。AF3的压缩层把语音信号变成了一种远离文字表示的"外星语言"，文字方面的安全边界对这种"外星语言"天生防守薄弱；而Qwen2.5-Omni的直通设计让语音和文字在AI大脑里占据非常接近的位置，文字反而更直接地冲击了最初基于文字建立的安全边界。两个模型，两个方向，却体现了同一个规律：**哪条路被安全训练覆盖得最少，哪条路就最容易被攻破**。

**五、从大脑内部看安全是怎么崩塌的**

研究团队还深入模型内部，通过分析神经网络各层的激活状态，追踪了安全机制被破坏的具体过程。

他们的方法是"找出拒绝的方向"：在模型对危险请求做出拒绝时，提取各层神经元的激活状态，与它对危险请求顺从时的激活状态相减，得到一个代表"拒绝倾向"的方向向量。随后，观察微调前后模型在这个"拒绝方向"上的投影值如何变化。投影值高，说明模型激活了拒绝机制；投影值趋近于零，说明拒绝机制被压制了。

结果显示，两个模型在微调前都表现出相似的规律：在第20到第26层（共28层），拒绝方向的投影值会急剧攀升，就像一道在大脑后段突然竖起的"拒绝墙"。这说明模型做出拒绝决定的过程发生在神经网络的后半段。

微调之后，这道"拒绝墙"在AF3的语音微调条件下几乎完全消失。原本在第26层高达约186的投影值，在75%数据微调后跌落到仅约8；即使是25%数据微调，也从186跌到了约34。而文字微调对同样这批样本，第26层的投影值几乎没有变化，依然维持在高位。这个对比精确地证明了：是**声音这种输入方式**，而不是LoRA更新本身，导致了拒绝机制的崩溃。

Qwen2.5-Omni的情况则是两种模态都会抑制拒绝方向，但文字微调产生的抑制更深——第26层的投影值在25%文字微调下降到约42，在50%数据下几乎被清零。这与它在行为上表现出的文字微调更危险完全吻合。

值得特别注意的是：语音编码器是被冻结的，所以编码器层面的表示在微调前后完全没有变化——每一个声音信号经过"耳朵"处理后，产生的数字表示与微调前一模一样。但模型却停止了拒绝。这和文字AI的情况形成了鲜明对比：文字AI微调时，负责识别危险和负责拒绝的参数是同一批，所以两者一起被覆盖；语音AI则是"耳朵"完整保留对危险的感知，但"大脑"后段的拒绝决策机制被悄悄压制了，形成了一种"看见了却不说话"的奇特状态。

**六、链式思维训练数据可能是意外的救星**

在四个无害数据集中，有一个叫MELD的数据集比较特殊，它来自情感对话理解任务，被设计用来训练AI在音频理解时展开链式思维推理——也就是让AI先"想一想"再回答。

研究团队发现，用这类推理数据微调后，安全损伤明显比其他数据集要小得多，甚至在SafetyBench上的危险成功率有所下降。AF3在AdvBench上的变化仅为+0.39%，在SafetyBench上下降了4.79%；Qwen2.5-Omni在AdvBench的变化也仅为约+0.6%，SafetyBench同样下降。

研究团队观察到一个有趣的现象：模型在遇到危险请求时，会在推理过程中产生类似"我需要提供关于…的详细解释……但考虑到伦理影响，我将避免明确描述"这样的内部独白，相当于在输出答案之前完成了一次自我纠错。这提示链式思维训练可能会增强模型在遇到模糊或危险内容时的自我审视能力，作为一种隐性的安全加固机制起到作用。不过研究团队也指出，这一观察还需要进一步的系统性验证。

**七、发现问题的同时，也找到了解决办法**

研究团队没有只停留在揭示问题，他们同时探索了两种实用的防御手段。

第一种是**训练时的数据筛选防御**，核心思路很直接：既然选"最靠近有害内容"的无害数据会带来风险，那就反过来，专门选"距离有害内容最远"的那些数据来微调。研究团队把这叫做"距离筛选"。实验结果显示，对AF3来说，无论在语义维度还是声学维度，选最远的数据进行微调都能持续提升安全性，AdvBench危险成功率在各个数据量下全部低于基准甚至进一步下降，SafetyBench也呈现类似趋势。Kimi-Audio在语义维度的距离筛选下也表现出明显改善，AdvBench危险成功率从4.62%降至0.19%。

不过Qwen2.5-Omni是一个例外：即使选了距离最远的数据，危险成功率在大多数条件下依然有所上升，原因可能是它的基准JSR本身就已经极低（0.19%），任何微调扰动对它而言都很"敏感"。对于这类基准本身就很脆弱的模型，数据筛选的效果有限。

第二种是**推理时的系统提示防御**。研究团队在最受损的微调模型上，直接在每次对话开始时加入一段系统级指令，内容大致是"你是一个负责任的AI助手，必须拒绝任何涉及非法、有害、不道德或危险活动的请求，如有不当请求请礼貌拒绝并解释原因"。

效果相当惊人。Kimi-Audio在加入这段提示后，AdvBench危险成功率直接跌回0.00%，SafetyBench也从17.78%降至0.43%；AF3的AdvBench同样跌至0.00%，SafetyBench从21.41%降至5.86%；Qwen2.5-Omni的AdvBench降至0.58%，SafetyBench从24.92%降至5.92%。

这个结果说明了一件非常重要的事：即使在安全机制已经被微调严重削弱之后，这些模型在遇到明确的安全指令时，依然能够做出正确响应。也就是说，微调压制的是模型自动拒绝的"本能"，而不是它对"拒绝"这件事的理解能力。一旦被明确提醒，它还是能找回这个能力。这也从侧面解释了为什么安全边界会如此脆弱：安全机制是被"抑制"了，而不是被"清除"了。

**八、无害数据的质量没有下降**

有一个可能的疑虑是：也许模型变得更"顺从"不是因为安全机制被破坏了，而是因为微调让模型变笨了，它连正常指令和危险指令都分不清了？

研究团队用Big-Bench Hard基准测试对微调后的模型进行了评估，这是一套覆盖导航推理、体育知识、语法逻辑等多个领域的综合推理题。结果显示，三个模型在微调后的推理能力变化都在5个百分点以内：Kimi-Audio整体下降5.3%，AF3下降4%，而Qwen2.5-Omni甚至略有提升（+0.7%）。

相比之下，Kimi-Audio在AdvBench上的危险成功率增幅超过了53个百分点，是推理能力降幅的10倍。这种极度不对称的变化有力地证明：这不是模型"全面变差"的结果，而是安全机制被**精准地、选择性地**削弱了。

**九、不同数据集和声学扰动的补充验证**

为了排除结论依赖单一数据源的可能性，研究团队还用GC Accents和MMSU两个数据集重复了实验。核心规律保持一致：Kimi-Audio在MMSU上用混合维度筛选的25%数据微调后，AdvBench危险成功率高达71.15%；AF3在GC Accents上用内部筛选表现出类似的安全损伤。Qwen2.5-Omni在两个替代数据集上AdvBench危险成功率均保持较低，但SafetyBench在声学筛选下依然显著升高。这些结果说明核心规律具有跨数据集的稳健性。

研究团队还额外做了一个声学扰动实验：把SD-QA数据集加入两种噪声——咖啡馆背景噪声（多人嘈杂声）和城市交通噪声——后再进行语义近邻筛选微调。两种噪声对声学嵌入的距离扰动幅度相近，但效果截然相反：加入咖啡馆噪声后，Kimi-Audio的AdvBench危险成功率不升反降，从4.62%跌至0.96%；而加入交通噪声后，危险成功率升至18.46%。研究团队的推测是：咖啡馆的多人嘈杂声可能把录音推向了与有害内容（单人合成语音）截然不同的声学区域，从而在无意中创造出了"距离筛选"的效果；而交通噪声保留了单说话人的声学结构，与有害内容依然"相邻"。

**说到底，这件事意味着什么**

归根结底，这项研究揭示了一个让人既担忧又不得不佩服的事实：AI的安全防线并没有我们以为的那样牢固，而且它失守的方式出乎意料地"无声无息"。任何一个想要优化自己语音AI助手的普通用户，在完全不知情、完全没有恶意的情况下，都有可能成为安全漏洞的"意外制造者"。

从技术角度看，这个问题的根源在于：语音AI的安全训练几乎完全基于文字，从未专门为语音模态的输入场景做过强化。语音编码器是被冻结的，安全机制只能在大脑的最后几层靠"继承"来的文字安全边界来顶撑，一旦遭遇来自声音侧的扰动，这道边界就会悄然松动。

好消息是，研究团队找到的两种防御手段都不需要对模型架构做任何改动。训练前筛选远离有害内容的数据，以及推理时加入安全系统提示，都是任何开发者和用户今天就能做到的事情。这为实际部署提供了切实可行的参考。

这项研究目前还有一些尚未探索的边界，比如非语音类音频（音乐理解、环境声音分析）是否会出现类似规律，多轮对话和多语言场景下会有什么新的变化，以及如果解冻编码器进行联合训练会对安全性产生怎样的影响。这些问题留待后续研究继续探索。

有兴趣深入了解这项研究的读者，可以通过arXiv编号arXiv:2604.16659检索完整论文，其中附录部分包含了大量实验细节、图表分析和案例对比，相当值得一读。

---

Q&A

Q1：语音大模型用无害数据微调后安全性下降的根本原因是什么？

A：根本原因在于语音大模型的架构特点——语音编码器在微调时是被冻结锁死的，只有语言模型部分会被更新。而这个语言模型的安全机制最初是通过文字训练建立的，对通过语音编码器传入的表示天生防守薄弱。当微调数据在嵌入空间中与有害内容距离较近时，会给语言模型后几层的拒绝机制带来梯度干扰，选择性地压制其拒绝行为，而编码器层面的表示完全不受影响，形成"识别了但不拒绝"的状态。

Q2：不同架构的语音大模型，哪种安全损伤最严重？

A：这取决于模型架构。在实验中，Kimi-Audio在语义近邻筛选下损伤最严重，25%数据微调后AdvBench危险成功率高达87.12%；AF3对混合特征筛选更敏感；Qwen2.5-Omni则在文字微调下损伤反而高于语音微调。核心规律是安全防线总在"被安全训练覆盖最少的那条路"上最先崩塌，不同架构的薄弱路径不同。

Q3：加入安全系统提示真的能修复被损坏的安全防线吗？

A：实验结果显示效果非常显著。在三款安全损伤最严重的微调模型上，仅仅在对话开始时加入一段要求拒绝有害请求的系统指令，Kimi-Audio的AdvBench危险成功率就从65.58%直接降至0.00%，AF3从24.42%降至0.00%，Qwen2.5-Omni从30.09%降至0.58%。这说明微调只是"抑制"了自动拒绝的本能，而非彻底清除了安全能力，明确提示后模型依然能够找回正确行为。

AI安全语音大模型安全对齐漏洞

分享至