微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

加州大学戴维斯分校等机构揭示：AI视频理解其实在"盲听"——用眼睛代替耳朵来"听声音"

多模态大模型音视频同步幻觉检测

加州大学戴维斯分校等机构揭示：AI视频理解其实在"盲听"——用眼睛代替耳朵来"听声音"

作者：科技行者

2026-05-27 10:03

分享至：

研究发现当前主流视频AI系统实际上用视觉推断声音而非真正"聆听"音频，并提出THUD评测框架和两阶段训练方案，将音视频同步判断准确率提升28个百分点。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 10:03 • 科技行者

这项由加州大学戴维斯分校、普林斯顿大学、威斯康星大学麦迪逊分校和Uniphore公司联合完成的研究，以预印本形式于2026年5月13日发布在arXiv平台，编号为arXiv:2605.16403。感兴趣的读者可通过该编号查阅完整论文原文。

当你闭上眼睛，只凭声音，你能判断出视频里正在发生什么吗？这对人类来说是一个有趣的挑战。然而，对于当下最先进的视频AI系统而言，问题恰恰相反——它们其实在"闭着耳朵"来回答关于声音的问题。

这项研究揭示了一个藏在AI视频理解深处的核心问题：那些看似能够"看视频、听声音"的多模态AI系统，在被问及"视频里有什么声音"时，实际上大多是在用视觉信息来推断声音，而不是真正去"听"。研究者们把这种现象命名为"克莱弗汉斯效应"——借用了一个关于一匹据说会算术的聪明马的历史典故，那匹马实际上并非真的懂数学，而是在观察主人的细微表情来猜测正确答案。现代AI视频系统也在做同样的事：看到滑板手摔倒，就预测应该有"砰"的撞击声；看到玻璃破裂，就预测应该有"哗啦"的声音——哪怕那段视频根本没有任何声音。

一、被"聪明马"占领的AI视频理解

在正式进入研究细节之前，有必要先把"克莱弗汉斯效应"这个概念讲清楚。19世纪末，德国有一匹名叫"汉斯"的马，据说它能做加减法，可以用踢蹄子的次数来回答数学问题。这引发了全欧洲的轰动。后来，科学家发现汉斯实际上并不懂数学，它是通过观察提问者的肢体语言和表情来判断"什么时候停止踢蹄子"——当答案正确时，提问者会不自觉地松一口气，汉斯就停下来了。换句话说，汉斯表面上在"算数学"，实际上在"读人心"。

这个故事用来描述当今AI视频系统的问题再贴切不过了。研究团队发现，当你拿一段视频——比如一个人骑滑板摔倒——分别配上两种完全不同的音轨（一种是欢快的背景音乐，另一种是真实的骨折声和尖叫声），然后让AI来描述"这个视频里你听到了什么"，AI给出的答案往往几乎一模一样，都是在描述"一次滑板摔倒"可能发出的声音。视频的图像没有变，AI的回答也没有变——哪怕声音已经天翻地覆。

这就像你问一个人"今天外面下雨了吗"，他不是去看窗外、不是去听雨声，而是看了看日历说"这个季节通常会下雨，所以应该是下雨了"。他给出了看似合理的答案，但完全没有用到实际的感官信息。这个问题在当前最顶尖的AI系统中——无论是谷歌的Gemini、OpenAI的模型，还是各种开源的多模态系统——都普遍存在。

二、三把"手术刀"：如何精准暴露AI的耳聋问题

发现了问题只是第一步，如何系统地测量这个问题的严重程度，才是真正的技术挑战。研究团队开发了一套名为THUD（Temporal and Hallucination Unmasking Diagnostics，即"时间与幻觉揭秘诊断"）的评测框架，其核心思想是对视频的音频轨道进行三种手术式的干预，每种干预都像一把精准的手术刀，专门切断视觉与声音之间的某一种自然联系。

第一把手术刀叫做"位移"（Shift）。这种操作把视频原有的声音轨道在时间轴上平移——可以提前几秒，也可以延后几秒。比如，原本应该在第5秒出现的撞击声，被移到了第3秒或第7秒。对于一个真正在"听"的系统来说，它应该能察觉到声音和画面不同步；但对于一个只是在用视觉推断声音的系统来说，它压根就不会注意到时间上的错位，因为它根本没有认真听。

第二把手术刀叫做"静默"（Mute）。这个操作更直接：把音频完全删除，换成纯粹的寂静。研究团队然后问AI："这个视频里你听到了什么声音？"一个诚实的、真正在听的系统应该回答"没有声音"。但如果它只是在用视觉推断声音，它就会煞有介事地描述一大堆本不存在的声音。

第三把手术刀叫做"替换"（Swap）。这个操作把视频原有的音轨替换成来自完全不同视频的音轨——比如把一段展示光学衍射实验的科学视频的音频，换成来自另一个视频的"如何使用离心机"的讲解音频。替换后的声音在听觉上是合理的（因为它确实来自真实视频），但和当前画面毫无关系。一个真正理解视听关系的系统应该察觉到这种不匹配；而一个只靠视觉推断的系统，则会把替换后的声音也"合理化"为对应当前画面的描述。

这三种干预手段覆盖了音视频对应关系的三个维度：时间同步性、声音的存在与否、声音与画面的内容一致性。通过这三把手术刀，研究团队构建了一个能够全面暴露AI"耳聋"程度的评测体系。

三、触目惊心的诊断报告：几乎没有一个模型真正在"听"

研究团队用这套评测框架对六个主流的视频多模态AI系统进行了测试，结果令人惊讶。为了方便理解这些数据，可以把测试结果比作一次体检——"原始控制组"（Original）相当于体检时的正常参照，而"干预后"（Shift/Mute/Swap）则相当于在特定压力测试下的表现。

在"静默"测试中，各模型在原始视频上的表现普遍很好（接近100%的准确率），但在音频被静音后，准确率会急剧崩塌到13%到54%之间。换句话说，绝大多数情况下，这些AI在面对完全无声的视频时，仍然会煞有介事地描述出各种声音——它们在集体"幻听"。

在"替换"测试中，情况同样糟糕。各模型在原始视频上的准确率高达75%到96%，但在音频被替换成不相关内容后，准确率骤降至4.9%到37.3%。其中表现"最差"的MiniCPM-o-4.5在替换测试中只有4.9%的准确率，而它在原始视频上的准确率高达95.8%。这个落差（91个百分点！）清楚地说明了这些AI有多么依赖视觉线索来猜测声音。

在"位移"测试中，最戏剧性的案例来自Qwen3-Omni这款模型。在原始同步视频上，它的准确率完美地达到了100%——听起来很棒，对吗？然而，一旦音频被稍微错位（提前或延后2秒），它的准确率立即崩溃到1.4%。这就好像一个声称自己的耳朵特别灵敏的人，在安静的房间里能完美地复述你说的话，但只要你稍微改变一下说话节奏，他就立刻乱了阵脚。研究者指出，Qwen3-Omni之所以在原始视频上表现"完美"，实际上是因为它持有一个根深蒂固的"默认同步"偏见——它认为视频里的声音和画面总是匹配的，所以对于真正同步的视频，这个偏见恰好是正确的；但对于不同步的视频，它就完全失灵了。

研究团队还对这些失败模式进行了更细致的分类，发现了一个几乎在所有模型中都存在的统一规律：所有模型都高度倾向于"幻听"，即在没有声音或声音不匹配时，仍然声称声音是存在的且与画面匹配的。相反，没有任何模型会在声音真实存在时，错误地声称"没有声音"。这种极度单向的偏差，正是视觉主导推断的典型特征——模型知道看到这种画面"应该"有什么声音，所以就"听到"了那个声音。

在时间方向判断上，失败同样系统性地存在。即便有些模型能察觉到音频与画面存在某种时间偏差，它们在判断偏差方向（是声音提前了，还是延后了）时，也大约只有一半的正确率——基本上等于随机猜测。这就好比一个人能注意到"手表好像不对"，但却说不清楚是快了还是慢了。

四、给AI配上"真正的耳朵"：训练方案的设计与效果

找到问题之后，研究团队进一步探索能否通过专门的训练来修复这一缺陷。他们设计了一套两阶段的训练方案，核心思路是：既要教AI真正去核实音频信息，又要防止AI在这个过程中"走火入魔"，把正常的视频理解能力也一并丢失。

第一个关键步骤是构建训练数据。研究团队使用了一个名为"Oops"的视频数据集——这个数据集专门收录了各种意外事故视频，比如滑倒、碰撞、东西摔碎等场景。这类视频非常适合用来构建测试案例，因为画面内容很强烈地暗示了"应该有什么声音"，但音频轨道可以被独立操控，从而创造出视觉暗示与实际声音不符的反事实场景。

数据标注的过程颇为严谨，研究团队采用了多模型交叉验证的方式。首先用Gemini对每个视频进行初始标注，记录视觉事件发生的时间点和对应的音频事件发生时间点；然后用GPT和Claude对视觉时间戳进行独立验证；对于音频时间戳，则由人工直接听音频进行核实。只有当多个模型对视觉时间点的判断误差在0.8秒以内、人工对音频时间点的判断误差在0.5秒以内时，该样本才会被保留。这种层层把关的方式确保了标注数据的高可靠性。

有了可靠的标注数据，研究团队为每个干预案例构建了"正确回答"（Chosen）和"错误回答"（Rejected）的配对。正确回答是真正核实了音频信息后给出的答案，错误回答则是凭视觉推断出的"貌似合理"但实际错误的答案。比如，对于一个声音被静音的视频，正确回答是"整段视频没有任何声音"，错误回答则是描述视频里的人物"应该"发出的各种声音。

训练方案分为两个阶段：第一阶段是监督微调热身，用干预数据建立AI对音频验证任务的基本认知；第二阶段则使用DPO（Direct Preference Optimization，直接偏好优化）技术，让AI学习"偏好"正确的音频验证行为而非视觉推断捷径。更重要的是，研究团队在第二阶段混入了来自FineVideo数据集的通用视频理解数据，以防止AI变成一个"只会检测音频问题"的偏科专才，从而在一般视频理解任务上退步。

效果如何？在使用了仅10000个训练样本的"最佳配方"之后，训练后的模型在时间同步判断任务上的准确率从34.3%跃升至83.1%，在VGGSoundSync这个专门测试音视频同步的独立基准上也从36.8%提升到56.4%。尤其令人鼓舞的是，VGGSoundSync是一个完全独立于训练数据的测试集，这意味着模型学到的不只是"记住了训练案例的答案"，而是真正获得了可迁移的时间同步判断能力。

与此同时，在Video-MME、LVBench等通用视频理解基准上，训练后的模型的表现或持平或略有提升，综合六项基准的平均准确率从51.3%提升到63.3%。对比之下，只进行第一阶段监督微调而不进行第二阶段偏好优化的方案，虽然也提高了同步判断能力，却在通用视频理解上出现了明显下滑——这正好说明了两阶段组合设计的必要性。

研究团队还进一步测试了在时间同步训练之外，加入少量静音和替换干预训练的效果。结果表明，这样做能让模型在静音检测和替换检测任务上也获得提升，最终在三种干预任务上的平均表现比基础Qwen3-Omni模型提升了28个百分点。这一发现还揭示了一个重要规律：时间同步、声音存在性、声音与画面一致性，这三种能力是相互独立的，针对其中一种的训练并不能自动带来其他两种能力的提升，每种能力都需要专门的训练数据支撑。

五、细节中的深意：那些值得特别关注的发现

除了上述主要发现，研究中还有几个细节性的发现值得单独讲述，因为它们揭示了这个问题的深层结构。

一个尤其有意思的发现与测试难度有关。研究团队在VGGSoundSync上按照音频偏移量的大小将测试样本分成了不同难度组——偏移量越小（比如只有0.4秒的错位），测试越难；偏移量越大（比如1.6秒的错位），测试应该越容易检测。对于一个真正具备音视频同步感知能力的系统来说，大偏移的测试应该比小偏移的更容易通过。

结果，Qwen3-Omni（训练前）和MiniCPM-o-4.5的表现模式完全不符合这个预期——无论偏移量是大是小，它们的准确率都同样低，在各个难度级别上几乎都接近于零。这说明它们根本没有在感知时间同步性，而是无差别地预测"同步"，在大偏移上也和在小偏移上表现一样差。Gemini的表现则比较符合预期，大偏移更容易被检测到，小偏移更难——这说明Gemini对时间偏移有一定的真实感知，只是不够精确。而训练后的模型在各个难度级别上都比基准系统表现更强，而且在难度更高的小偏移测试上也保持了相对不错的准确率。

另一个值得关注的发现是关于偏移方向判断的。即便一个模型能察觉到音频和画面"不同步"，它在判断是"声音来早了"还是"声音来晚了"时，正确率大约只有50%——和随机猜测没有什么区别。这个发现说明，"检测到不同步"和"判断不同步的方向"是两种不同层次的能力，前者相对更容易，后者则要难得多。训练后的模型在这两种能力上都有提升，这正是它的综合性能更强的原因之一。

研究团队还专门测试了GPT-5.5在只有视觉帧、没有音频输入的情况下的表现，以此作为"纯视觉推断"的参照。结果完全符合预期：GPT-5.5在静音测试中会详细描述各种根本不存在的声音（比如描述篮球场馆里的运球声、球鞋摩擦声、扣篮时的撞击声和玻璃破碎声）；在位移测试中，它会认为音频是同步的（因为它根本听不到音频）；在替换测试中，它仅用"yes"回答了音频是否与视频内容匹配——显然是在凭视觉猜测。这组对照实验清楚地展示了纯视觉推断在这类任务上的表现是什么样的，而令人不安的是，那些声称"具备音频处理能力"的模型，其行为模式与这个纯视觉系统非常相似。

六、研究局限与未来方向

研究者们在论文中诚实地指出了当前工作的几个局限性，这些局限性同时也指出了未来的研究方向。

目前的训练方案主要在Qwen3-Omni-30B这一个模型架构上进行了验证，该方案在更广泛的多模态模型家族上的适用性有待进一步验证。此外，研究在时间同步训练方面做得相对完整，但针对静音检测和替换检测的完整训练研究尚未深入展开，这两个方向也是重要的后续工作。

更根本的局限在于，THUD框架目前主要聚焦于"破坏性干预"——通过删除、替换或错位音频来测试模型。真实世界中的音视频不匹配往往更加复杂和微妙，比如环境噪音的干扰、低质量录音中声音的失真、多个声源的叠加混合等，这些情况可能需要更精细的评测设计。

说到底，这项研究最深刻的贡献不只是揭示了一个技术漏洞，更是提出了一个评估AI感知能力的哲学问题：我们怎么区分一个系统"真正在感知"还是"在合理地猜测"？在AI越来越多地进入真实应用场景的今天，这个问题的重要性远远超出了学术范畴。

归根结底，这项研究告诉我们，AI视频理解中的"多模态"能力可能远没有我们以为的那么扎实。当你看到一个AI自信地描述视频声音时，它很可能是在用眼睛来替耳朵说话。好在这个问题不是无解的——研究团队已经证明，通过精心设计的反事实训练数据和偏好优化训练，可以在不牺牲通用能力的前提下显著提升模型真正"聆听"的能力。这项工作本身就像是给AI系统做了一次彻底的听力测试，然后提供了一套有效的康复训练方案。

对普通用户而言，这意味着在使用AI分析带有音频的视频内容时（比如用AI转录会议、分析教学视频、理解纪录片内容），需要对AI关于"声音"的描述保持一定的警惕——它告诉你的可能是它"认为应该有什么声音"，而不是"实际上有什么声音"。在这个区别很重要的场合（比如法律证据分析、医疗记录核实、安全监控审查），人类的二次核实仍然不可替代。

你可能会好奇：如果AI越来越擅长真正"听"声音，这会改变什么？或许是更可靠的自动字幕和翻译，或许是更精准的视频内容审核，或许是更真实的多模态对话系统。这些可能性值得继续关注。有兴趣深入了解的读者，可通过arXiv编号2605.16403查阅完整论文。

Q&A

Q1：THUD框架的三种干预方式分别测试什么能力？

A：THUD框架包含三种干预。"位移"把音频在时间轴上提前或延后，测试模型能否察觉声音与画面不同步；"静音"把音频完全删除，测试模型是否会在无声视频中凭空"幻听"出声音；"替换"用来自其他视频的不相关音频替换原音轨，测试模型能否识别声音与画面内容不一致。三种干预分别对应时间同步性、声音存在与否、声音内容一致性三个维度。

Q2：Qwen3-Omni在时间同步测试中为什么会从100%跌到1.4%？

A：Qwen3-Omni在原始同步视频上准确率达到100%，是因为它持有强烈的"默认同步"偏见——它默认视频的声音和画面总是匹配的。在原始视频上，这个偏见恰好正确；但一旦音频被错位2秒，它仍然坚持"同步"的判断，导致准确率崩塌到1.4%。这恰恰说明它并非真正在感知同步性，而只是在预测"应该是同步的"。

Q3：THUD训练方案为什么要混入通用视频数据？

A：仅使用干预数据进行监督微调的模型，虽然在时间同步任务上有提升，但在Video-MME等通用视频理解基准上出现了明显下降，这说明纯干预训练会让模型"偏科"。混入FineVideo等通用视频数据后，在偏好优化阶段进行联合训练，能起到"正则化"作用，让模型在保留真正聆听能力提升的同时，不丢失对正常视频的理解能力。

多模态大模型音视频同步幻觉检测

分享至