
这项由南洋理工大学牵头,联合墨尔本大学、清华大学、复旦大学、上海人工智能实验室、华中科技大学、中国科学技术大学等十八所顶尖高校与研究机构共同完成的综述研究,以预印本形式于2026年5月发布在arXiv平台,编号为arXiv:2605.20266。感兴趣的读者可通过该编号检索到完整的原始论文。
说到底,这篇论文要回答的问题,其实是我们每个人都会在日常生活中隐约感受到的一个疑虑:当AI不仅能看、能说、还能真正"听"的时候,我们怎么知道它不会被声音骗过去?
先从一个贴近生活的画面说起。你打电话给银行客服,对方声音温柔、回答精准,逻辑清晰;你向智能音箱询问今天的天气,它不仅告诉你温度,还顺口提醒你最近身体听起来有点疲倦,要多注意休息——因为它从你的声音里"听"出了你的健康状态。这些场景正在成为现实,背后的技术叫做"大型音频语言模型"(Large Audio Language Models,缩写为LALMs)。
这类技术可以理解为一种升级版的AI助手。早年的语音识别系统,就像一个只会机械抄写的速记员,听到什么声音就原封不动转成文字,根本不理解意思。而现在的LALMs更像是一位见多识广的译者,不只是记录你说了什么,还能理解你说话时的语气、情绪,甚至从环境声音中推断你所在的地点。这种能力的跃升令人振奋,但研究团队也正是看到了这种能力升级背后潜藏的巨大风险,才花费大量精力梳理了这个领域目前的全貌。
一、从"抄写员"到"聪明耳朵"——音频AI是如何进化的
要理解这篇研究的意义,首先得弄清楚LALMs究竟是什么东西,以及它是怎么一步步变得这么厉害的。
几十年前,语音技术的工作方式,就像一个训练有素但思维僵化的听写员,它靠死记硬背学会了把特定的声音对应到特定的文字,却完全不懂上下文。到了深度学习时代,情况开始发生变化,AI开始从海量录音中自动总结规律,就像一个孩子在浸泡式环境中自然学会语言一样,不再依赖人类事先设计好的规则。这个阶段诞生了Whisper这样的语音识别系统,它的识别准确率已经让很多人大吃一惊。
然而,真正的革命发生在大型语言模型(LLMs)登场之后。以GPT-4为代表的这类模型,本质上是通过阅读人类写下的几乎所有文字,构建起了一个对世界的语义理解框架。研究人员随后把声音这个感官也接入了这个框架,于是LALMs就此诞生。从此,AI不再只是把声音转成文字,而是真正开始"理解"声音——它知道一段咆哮声意味着危险,知道说话者的颤抖预示着紧张,知道某种环境音暗示着说话者身处何地。
研究团队整理了从2022年到2026年间出现的数十个代表性模型,绘制出了一张完整的进化路线图。从最早期的SpeechGPT、Pengi,到后来的SALMONN、Qwen-Audio,再到能够实时对话的Mini-Omni、Moshi,乃至最新的Qwen3-Omni和Step-Audio 2,这条进化路线清晰地展示了技术从"会抄写"到"能思考",再到"可以同时听和说、实现真正对话"的三级跳。特别值得关注的是"全双工"(full-duplex)技术的出现——这意味着AI终于可以像人类一样,在听你说话的同时就开始思考回应,而不是等你说完再转动脑子。
支撑这一切运作的,是三个核心零件的协同配合。第一个是声学编码器,它负责把原始的声波信号转化成AI能处理的数字信息,相当于把声音翻译成AI的"母语"。第二个是对齐投影器,它负责在声音信息和语言信息之间搭建桥梁,确保AI理解的声音含义和理解的语言含义是一回事。第三个是语言模型主干,也就是AI真正"思考"的核心部分,负责综合所有信息作出判断和回应。
除了硬件架构,表示声音的方式也影响着系统的能力边界。一种方式是把声音切成一个个离散的"声音词",就像把一段连续的旋律拆成一个个音符记录下来,方便处理但可能丢失细节。另一种方式是保留声音的连续特征,就像直接保存完整的乐谱波形,细节更丰富,但同时也给潜在的攻击者留下了更多可操作的空间。这个权衡,在后续谈到安全问题时会变得至关重要。
训练方法上,研究团队也梳理了多种让AI变得更聪明的策略,包括让不同任务的学习不相互干扰的混合专家适配器、让模型在临床治疗等专业场景中精确定位关键信息的低秩适应技术,以及通过强化学习让AI学会更聪明地分配思考资源的各种方法。还有一种叫做"音频思维链"(Audio Chain-of-Thought)的机制,相当于让AI在回答之前先把自己的推理过程在脑子里走一遍,就像一个学生在写答案之前先打草稿,结果往往更准确、更可靠。
二、AI的"耳朵"会产生幻觉——一个被严重低估的问题
有了如此强大的"耳朵",你可能觉得这些AI模型应该所向披靡了。然而,研究团队发现,现实情况远比想象中复杂,甚至有些让人哭笑不得。
首先遭遇的挑战,叫做"幻觉"——这个词在AI领域的意思,是模型信誓旦旦地说出来的内容,其实根本没有依据。对于音频AI来说,幻觉有一种特别奇怪的表现形式:模型明明在听声音,却根本不靠声音来回答问题。
研究人员做了一个看起来很荒谬的实验:他们把音频AI的声音输入换成了静默或者噪音,结果发现,在某些测试场景下,模型的回答几乎没有变化!这就好比你雇了一个"听力专家"来判断你录音里说了什么,结果发现他耳朵根本没插,完全是靠猜来回答你的。进一步的分析用一种叫做"沙普利值"的数学工具(可以理解为一种测量"谁的贡献最大"的工具)证实了这一点:在很多名义上是音频任务的测试中,文字信息对模型判断的影响远大于声音信息本身。
这背后的根本原因,研究团队称之为"声学-语义鸿沟"。简单说,模型在大量文字数据上建立了非常强大的语言直觉,知道某种场景下"应该"出现什么样的答案。当声音信息给出的线索模糊或者令人困惑时,模型就会不自觉地偏向语言直觉,而不是认真聆听。这就像一个阅卷老师在判卷时,不是真的看学生写了什么,而是根据以往的经验猜测"这道题一般大家都选C"。
为了更系统地衡量这个问题,研究人员开发了HalluAudio基准测试,包含超过5000个人工验证的问答对,覆盖语音、环境声音和音乐三大类别。测试结果揭示,音频AI的幻觉不是偶发性的小错误,而是一个系统性的跨模态失真问题:模型的语言输出和听到的声音内容之间,存在着深层的断裂。
针对这个问题,研究者提出了两种主要应对思路。一种是在训练时主动调整模型对声音信息的"注意力分配",强迫它更认真地倾听,而不是偷懒靠文字感知走捷径。另一种是设计专门的评估指标,不仅看模型答对了没有,还要看它的答案是否真的来自对声音内容的理解,而不是猜出来的。
三、听起来完全正常的声音,可能正在操控AI的大脑
如果幻觉问题只是让AI"耳聋装聪明",那接下来要讲的问题,则更像是一场精心布置的骗局。
研究团队详细梳理了针对音频AI的各类攻击手段,其丰富程度让人触目惊心。整个攻击图谱,可以分为几个层次渐进深入的类别。
最直接的一类叫做"对抗性声学操控"。攻击者在一段正常的语音里,注入人耳完全察觉不到的微小扰动——就像在一杯清水里加了几乎看不见的色素——这些扰动在到达AI耳中时,却会引发完全意想不到的反应。研究证实,即便是真实环境中自然存在的背景噪音,也可以被有意利用来"劫持"模型的内部表示,让音频编码器本身成为绕过文字安全防线的秘密通道。
更令人不安的是"越狱攻击"(jailbreaking)。这类攻击的目标,是绕过AI的安全拒绝机制,让它说出它本不应该说的内容。在纯文字AI时代,越狱需要研究者精心构造文字话术;但有了声音这个维度,攻击者的工具箱一下子丰富了许多。通过改变说话的语气(比如用带着情绪的声音提问),改变说话的口音或语种,或者干脆在声音里藏入人耳听不出来的有害指令,攻击者可以让AI在完全不知情的用户面前做出危险回应。
JALMBench、AudioJailbreak、JailbreakAudioBench等多个专门用来测试这类攻击的评估系统被研究团队逐一梳理,结果显示:音频攻击的成功率普遍高于纯文字攻击,而且即便是简单的改变说话速度、音调或情绪程度,就足以显著提高攻击成功率。其中有一个特别值得关注的发现:中等强度的情绪表达往往比极端情绪更能成功绕过安全防线,因为后者反而可能触发AI的警觉机制。
还有一类潜伏在训练阶段的"后门攻击",是研究团队认为最难防范的威胁之一。攻击者通过在训练数据里混入少量带有特定音频触发信号的有害样本,让模型在日常工作时完全正常,但只要听到那个特定的触发信号——可能是某种特定频率的背景音,或者某种特定的语速节奏——就会像被激活了隐藏程序一样,执行事先植入的恶意指令。这就像在一块精心烤制的蛋糕里藏了一颗定时炸弹,外表看起来和普通蛋糕毫无区别,只有在特定条件下才会爆发。研究发现,只需要极少量的"毒化"训练数据,就可以成功植入这样的后门,这意味着即便是看起来来源可靠的模型,也可能潜藏着这样的风险。
面对这些攻击,现有的防御手段相当有限。ALMGuard通过发现模型在做安全判断时依赖的特定声学频率区间(就像发现了密室的机关位置),设计了一个针对这些区间的过滤器。SARSteer则采用了一种叫做"拒绝方向引导"的方法,通过数学分析找到模型"想要拒绝"这个概念的内部表示向量,在遇到可疑输入时把模型强行推向这个拒绝方向。还有研究者发现,过度强调安全性会导致模型对完全无害的问题也横加拒绝(研究团队把这种现象叫做"过度拒绝",可以理解为一个草木皆兵的安保人员把每个进门的访客都当成可疑人物),因此提出了通过重塑内部表示空间来在安全性和实用性之间取得平衡的方法。
四、你的声音正在泄露你不知道的秘密
除了被外部攻击者利用,音频AI本身的工作方式,也会在无意间造成隐私泄露,这是研究团队着重强调的另一个维度。
声音信号天然就是一种极为丰富的个人信息载体。从你的声音里,AI可以推断你的性别、年龄,可以分析你的健康状况(某些疾病会改变声音特征),可以识别你的身份,甚至可以从背景声音里推断你所在的地理位置。这些信息,在你根本没有主动提供的情况下,就已经被AI"听"到了。
研究团队介绍的HearSay基准测试("HearSay"这个名字本身就是一个双关——既是"听说",又暗示了信息泄露的风险),系统评估了音频AI在处理短短几秒语音时能够推断出多少敏感属性。结果证实,这类模型确实可以以相当高的准确率推断出说话者的性别、社会经济状态和健康状况,而且有时候越是经过精心设计的"思维链"推理过程,反而越会在推理过程中暴露更多敏感信息。
更棘手的是"旁观者隐私"问题。在现实生活中,你与AI助手对话时,背景里可能有家人在聊天,公共场所里可能有其他人的声音被一并录入。研究显示,目前的AI系统往往缺乏有效区分"目标用户"和"无辜旁观者"声音的能力,这意味着那些没有同意参与AI交互的人,也可能在不知情的情况下被分析和记录。
另一项让人警觉的发现来自音频地理定位研究:通过分析环境背景声音,AI可以以相当高的精度推断录音发生的地理位置,这对于用户的位置隐私构成了实质性威胁。
在防御策略上,研究者提出了"选择性聆听"的概念——让AI从架构层面就主动过滤非目标用户的声音信息,而不是把所有听到的内容都纳入处理。此外,研究者也在探索如何通过解耦表示学习,把说话者的身份信息从语言内容信息中分离出来,让AI在完成任务的同时,不能反推出说话者的身份特征,从而从根本上构建一种"隐私即设计"的架构。
五、AI的耳朵可能有偏见,也可能被伪声欺骗
把视角再拓宽一些,研究团队还深入探讨了音频AI在公平性和身份验证两个维度上面临的挑战。
公平性问题,在音频领域有着独特的表现形式。与纯文字AI不同,声音信号天然携带了大量与说话者人口特征相关的线索:口音、方言、音色、语速,这些都可能成为歧视的导火索。医疗场景中的MedVoiceBias研究揭示了一个令人担忧的现象:当AI基于声音来辅助临床决策时,它可能会因为从声音中推断出的年龄、性别或口音特征,而对不同群体给出系统性偏差的医疗建议,而这些建议的差异与患者的实际病情无关。
跨语言评估进一步发现,目前的模型在不同语种、不同口音群体之间的表现差距相当显著,这意味着英语母语者和带有口音的非母语者在使用同一个AI时,实际上享受着质量完全不同的服务。在情感识别任务中,性别偏见的问题也被系统地记录下来——即便是最先进的模型,对不同性别说话者情绪识别的准确率也存在明显差距。
还有一种叫做"位置偏见"的结构性偏差:在多选题形式的测试中,只要随机打乱选项顺序,模型的答案就可能随之改变,改变幅度高达24个百分点。这说明模型有时候回答的不是"哪个选项是对的",而是"哪个位置的选项更像是对的"——这种敏感性在声音任务中被时序的连续性进一步放大,构成了一种评估系统层面的系统性偏差。
在身份验证方面,随着深度伪造语音技术(deepfake voice)的快速发展,一场真实与虚假之间的猫鼠游戏正在激烈上演。研究团队梳理了利用LALMs来检测合成语音的最新进展:通过让AI不仅输出"真"或"假"的判断,还要解释"为什么觉得这段声音是假的",可以在一定程度上提升检测的可解释性和泛化能力。
但这条路并不平坦。研究团队发现一个被称为"推理税"的现象:当模型被迫要同时具备推理能力和安全检测能力时,两种能力之间会产生内部冲突——增强安全检测能力,往往会削弱正常推理能力,反之亦然。此外,专门针对检测器的对抗性攻击也已经出现,能够让本来应该触发警报的合成语音悄悄绕过检测。另一个特别具有挑战性的场景是"部分伪造"检测:有时候攻击者只需要替换录音中的几个关键词,而不是伪造整段语音,这种精准替换往往更难被检测到,但在身份验证场景中危害却更大。
六、如何全面评估一个"诚实的聪明耳朵"——现有的测量工具图谱
理解了这么多威胁,自然要问:我们怎么知道一个音频AI到底有多可信?研究团队为此整理了一张详尽的评估工具全景图,涵盖了从2024年到2026年间诞生的近五十个专门用于评估音频AI各种能力和可信度的基准测试体系。
研究团队把这些评估工具归纳进三根支柱构成的体系框架中。第一根支柱叫做"忠实度与接地性",核心问题是:AI的输出是否真正来自对声音内容的理解,还是靠猜出来的?MMAU和MMAU-Pro这两个基准专注于测试模型在复杂声学场景下解开多个重叠声音的能力;LISTEN基准则把词语内容和声调信息故意分离,专门测试模型是否真的在"听",还是只是在"读";MCR-BENCH则制造语音内容和文字描述相互矛盾的情况,看模型会相信谁。
第二根支柱叫做"稳定性与鲁棒性",核心问题是:同样的意思换个说法问,AI还能给出同样的答案吗?ChronosAudio系统测试了AI在处理不同长度音频时的表现退化曲线,发现在处理长音频时,某些任务的准确率会下降90%以上。ISA-Bench专门测试改变提问方式、输出格式或任务描述后模型的表现是否稳定。VoiceBench和VocalBench则模拟不同说话者、不同噪音环境下的真实使用场景,评估系统在"野外"条件下的稳健程度。Talking Turns基准更进一步,测试AI在真实对话中对"该不该打断""什么时候该回应"的判断,发现当前系统经常打断得太猛、很少产生自然的回应节拍,行为模式和人类差距明显。
第三根支柱叫做"安全性与对齐",核心问题是:面对各种各样的攻击和滥用场景,AI是否坚守了正确的价值观?这里包含了前面讲到的各种越狱测试基准,也包括AudioTrust这样全面覆盖幻觉、隐私、安全、公平、认证等六个维度的综合性评估框架,还有专门针对医疗场景声音AI公平性的VocalAgent基准。
研究团队坦诚地指出了现有评估体系的局限:绝大多数评估都是"拍照式"的,只能记录某个时间点的表现快照,而无法真正解释失败背后的机制。更重要的是,评估数据集一旦公开,就可能被用于针对性的"刷题训练",导致模型在评估上的高分并不代表在现实中的高可靠性。
七、这个领域的攻防是否平衡——一个令人忧虑的现状
在所有研究发现中,研究团队最想强调的,恐怕是这个领域目前存在的深刻失衡。
攻击一侧,已经形成了一个多维度的成熟生态:对抗性声学操控、越狱攻击、训练阶段后门、隐私泄露、偏见利用——五个不同方向的攻击路线都有了充分的研究积累和具体的攻击工具。
防御一侧,相比之下则显得既零散又局限。绝大多数防御研究都集中在越狱防御这一个点上,对后门攻击、多模态隐私风险和偏见问题几乎没有系统性的防御方案。而且现有的防御手段大多是"被动补丁式"的,在系统出了问题之后再去打补丁,而不是从系统设计之初就把安全性内嵌进去。
为什么会有这种失衡?研究团队的分析指出了两个深层原因。其一,声音信号的连续性本身就让防御变得极为困难。文字安全系统可以依赖词汇过滤、困惑度检测等有明确边界的工具,但声音信号在连续的时域-频域空间中展开,"危险"和"安全"之间没有清晰的边界可供划定,要在不破坏信号正常用途的前提下移除其中的对抗性成分,在数学上是一个极其困难的问题。其二,整个领域缺乏一套统一的安全评估标准。文字AI领域已经有了相对成熟的"红队"测试数据集,但音频AI领域至今没有一个覆盖全部威胁类型的综合性安全排行榜,这种指标缺失直接导致了研究界的重心持续偏向性能而非安全。
这种失衡,用研究团队的话来说,"不仅仅是时间滞后问题,而是源于音频模态固有的挑战性质"——意思是,这不只是"防御研究还没跟上"的问题,而是音频这种信息载体本身就使得防御在结构上更难做到。
八、通向可信音频智能的路——研究团队的三条战略主张
面对这些挑战,研究团队在论文的最后部分提出了一个面向未来的战略蓝图,核心是三条并行推进的研究路线。
第一条路线,研究团队称之为"因果音频世界建模"。目前的音频AI本质上仍然是一个精密的模式匹配机器,它能认出"这段声音和我见过的某种情况很像,所以大概是X",但它并不真正理解声音背后的物理世界。研究团队主张未来的系统需要具备真正的反事实推理能力——能够回答"如果声音环境变了,会发生什么?"这类问题,而不只是在已知模式里打转。这就像要求一个学生不只是背会解题步骤,而是真正理解这道题在考什么原理,能举一反三。
第二条路线是"内在表示工程",即从模型的神经表示层面就确保安全性和隐私性,而不是在系统外面加一道过滤网。具体来说,就是通过数学方法确保模型内部用来处理"声音内容"的特征表示,与用来表示"说话者身份"的特征表示之间相互正交(也就是彼此独立,互不干扰)。这样一来,即便攻击者拿到了模型,也无法从中反推出任何关于说话者身份的信息,因为这些信息从一开始就没有被编码进去。
第三条路线是"多层防御架构"(研究团队用的是军事领域的"纵深防御"概念),强调在输入声音到达模型之前就先做净化处理,在模型内部建立安全对齐机制,在输出层再做一次安全检查,三道防线同时运作,而不是只在某一个环节孤注一掷。具体建议包括借鉴图像处理领域的扩散模型净化或随机平滑技术,专门为音频信号开发类似的预处理步骤,在声音进入AI大脑之前先"消毒",滤掉可能藏在声音里的对抗性成分。
在评估方法上,研究团队也提出了四个需要范式转换的方向:从静态数据集测试,转向由自适应对抗代理持续探测的动态红队测试;从只看行为表现,转向验证内部神经表示的数学性质;从黑盒评估,转向能够追踪具体神经回路的机制可解释性分析;从相关性测量,转向真正的因果推断验证。这四个转变,共同指向了从"大概能用"到"真正可信"的核心跨越。
说到底,这篇来自南洋理工大学等十八家机构联合完成的综述,做的事情相当于为整个音频AI领域做了一次全身体检,而且是那种不只看表面指标、还要深挖内科病理的精密体检。结果当然有好消息:这个领域在过去三年里取得的进步是真实而令人振奋的。但坏消息同样明确:进攻方在磨刀,而守卫方还在摸索武器。
这对我们每个人意味着什么?在AI语音助手越来越无处不在的今天,了解它们可能被如何欺骗、如何泄露你的信息、如何对不同人群表现出不同态度,不再是专业人士的专属关切,而是每一个普通用户都应该有的基本认知。就像你知道网络钓鱼是什么、知道不应该把密码告诉陌生人一样,理解AI的耳朵有哪些弱点,将成为数字时代的基本生存技能。下一次当你对着智能设备说话,不妨多想一步:它真的在听,还是只是在猜?而那些它"听"到的信息,又会流向何处?
有兴趣深入了解这篇研究全貌的读者,可以通过arXiv编号2605.20266查阅完整论文,标题为"A Survey of Large Audio Language Models: Generalization, Trustworthiness, and Outlook"。
Q&A
Q1:大型音频语言模型(LALMs)为什么会产生"幻觉",听了声音却不靠声音回答问题?
A:LALMs的"幻觉"主要源于模型在海量文字数据上建立的强大语言直觉。当声音信号给出的线索模糊时,模型会偏向依赖文字语言直觉来猜测"应该"是什么答案,而不是认真分析声音内容本身。研究人员甚至发现,把声音替换成静默或噪音后,某些测试中模型答案几乎不变,说明模型有时根本没有真正依赖声音进行推断。
Q2:针对音频AI的"越狱攻击"有哪些具体手段,为什么比纯文字攻击更危险?
A:音频越狱攻击的手段相当多样,包括用带情绪的语气提问、切换口音或语种、在声音中嵌入人耳察觉不到的对抗性扰动,甚至单纯改变说话速度和音调就足以提高攻击成功率。与纯文字攻击相比,音频攻击更危险,因为声音的连续性给攻击者提供了更大的操作空间,而且这类攻击往往对用户完全不可见,现有文字安全机制对声音层面的攻击几乎无法防御。
Q3:音频AI在使用过程中会泄露哪些用户隐私,普通人应该注意什么?
A:音频AI可以从声音中推断出说话者的性别、年龄、健康状况、身份,甚至通过分析背景环境音推断出用户所在的地理位置。此外,在多人环境下,没有主动参与对话的旁观者的声音也可能被无意间采集和分析。建议普通用户在敏感场合谨慎使用语音交互功能,并关注所使用AI产品的隐私政策中关于声音数据处理的条款。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。