微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 复旦大学推出OmniAVS:让AI看懂、听懂并解释视频中的每一个细节

复旦大学推出OmniAVS:让AI看懂、听懂并解释视频中的每一个细节

2025-08-05 13:23
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-05 13:23 科技行者

这项由复旦大学计算机科学与人工智能学院的应凯宁、丁恒辉、介冠权、江宇罡等研究人员领导的研究发表于2025年7月30日,题为《Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation》。有兴趣深入了解的读者可以通过复旦大学研究团队的项目主页https://henghuiding.com/OmniAVS/访问完整论文和数据集。

当你在观看一段音乐会视频时,突然有人问你"那个演奏出类似琵琶声音的乐器在哪里?",你的大脑会同时处理文字描述、视觉画面和音频信息,然后准确指出右侧那把吉他。这个看似简单的过程,实际上涉及了多种感官信息的综合理解和推理。如今,复旦大学的研究团队希望让人工智能也能像人类一样,不仅能"看到"视频画面,"听到"声音,还能理解这些信息的深层含义,并给出合理的解释。

传统的AI视频理解就像一个只能看不能听的观众,或者只能听不能看的听众。即使有些系统能同时处理视觉和听觉信息,它们的理解也往往停留在表面,比如只能识别"有人在说话",却不能理解"这个人可能生病了,因为他在咳嗽"。更重要的是,现有的系统在接收指令时非常死板,只能理解纯文字描述,无法处理包含图片、声音或语音的复合指令。

研究团队面对的挑战就像训练一个全能的私人助理,这个助理不仅要能看懂各种场景,听懂各种声音,还要能接受多种形式的指令,比如你给它看一张照片说"找出视频中长得像这个的东西",或者播放一段音频说"找出发出类似声音的对象"。更关键的是,这个助理还要能解释它的判断过程,告诉你为什么做出这样的选择。

一、创造全新的"全能理解"数据集

为了训练这样一个全能助理,研究团队首先需要创建一个前所未有的训练数据集,就像为厨师准备一个包含各种食材和烹饪方法的超级厨房。他们将这个数据集命名为OmniAVS,包含了2104个视频和超过6万个多模态表达方式。

这个数据集的独特之处在于它的"八面玲珑"。传统的数据集就像只会一种语言的翻译,而OmniAVS就像一个精通八种沟通方式的超级翻译。它支持八种不同的表达组合:纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片。这意味着你可以用多种方式向AI提出要求,就像和一个真正理解你的朋友交流一样。

更重要的是,这个数据集强调的是深层理解而非表面识别。以往的数据集中,问题通常是"谁发出的声音最大?"这种表面层次的询问。而在OmniAVS中,问题变成了"谁最可能生病了?"这样的深层推理。AI需要听到咳嗽声,看到相关的视觉线索,然后推断出"咳嗽通常意味着生病"这样的逻辑链条,最后给出解释说"这个人咳嗽了,可能生病了"。

为了构建这个数据集,研究团队从三个主要来源收集视频素材。首先是网络上符合创意共享许可的真实视频,这些视频展现了丰富的日常生活场景。其次是来自电视节目数据集TVQA的内容,这部分提供了大量包含对话的复杂场景。最后是团队自己录制的视频,所有参与者都同意使用这些素材进行研究。

在筛选过程中,研究团队制定了严格的标准。他们优先选择那些包含有意义音频内容的视频,这些音频不仅仅是噪音,而是能够承载信息或推理价值的声音。同时,他们偏向于选择包含多个对象的复杂场景,这样可以创造更多样化的指向表达,让数据集更贴近真实世界的复杂情况。

在表达方式的设计上,研究团队遵循了几个重要原则。首先,所有表达都必须与视频中的音频内容相关,而不仅仅是视觉线索。其次,表达应该强调声音的内容含义,而不仅仅是发声这个动作本身。比如,与其说"狗在叫",不如说"狗在警告",因为后者需要理解叫声的含义。第三,鼓励在表达中融入推理元素,并在必要时提供解释。最后,表达可以指向任意数量的对象,从零个到多个都可以,这样更贴近真实应用场景。

二、开发智能助理OISA

有了丰富的训练数据,研究团队接下来开发了一个名为OISA(全模态指导分割助理)的AI系统。这个系统就像一个经过专业训练的视听分析专家,不仅能理解各种形式的指令,还能准确地在视频中标识出目标对象,并解释自己的判断过程。

OISA的核心架构包含两个主要组件,就像一个人的大脑和手的协作。"大脑"部分是一个多模态大语言模型,负责理解和推理;"手"部分是一个掩码生成器,负责在视频中精确标识目标对象。这种设计让系统既能进行复杂的多模态理解,又能执行精确的视觉任务。

在处理视频内容时,OISA采用了一种独特的"音视频交错"策略。传统方法就像看电影时先看完所有画面再听完所有声音,这样很难建立两者之间的对应关系。而OISA的方法更像人类的感知过程,它将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧,听一段,再看一帧,再听一段"这样的节奏。这种方法在不增加额外参数的情况下,实现了音频和视频的精确时间对齐,这对于需要准确定位发声对象的任务来说至关重要。

对于各种形式的输入指令,OISA都有相应的处理策略。当接收到包含图片的指令时,它会使用视觉编码器处理图片信息。当遇到包含音频的指令时,它会使用音频编码器分析声音特征。所有这些不同模态的信息最终都会被统一编码,融合到系统的理解框架中。

在目标定位方面,OISA采用了一种叫做"查询传播"的技术。传统方法就像用一把万能钥匙去开所有的锁,往往效果不佳。而OISA的方法更像一个不断学习和适应的开锁专家,它会根据每一帧的具体情况调整自己的"钥匙",确保能准确地在每一帧中找到目标对象。这种动态调整的机制让系统能够很好地处理对象移动、视角变化、遮挡等复杂情况。

三、训练过程的精心设计

训练OISA就像培养一个多才多艺的专家,需要分阶段进行能力建设。整个训练过程分为两个主要阶段,每个阶段都有明确的目标和方法。

第一阶段是音频-文本对齐训练,就像教一个只会看不会听的人学会理解声音。由于OISA使用的基础模型原本不支持音频输入,研究团队需要为它添加一个"音频理解模块"。在这个阶段,他们使用自动语音识别数据集和音频描述数据集来训练这个模块,让系统学会将听到的声音转换成语言模型能够理解的表示。这个过程中,只有新增的音频处理部分在学习,其他部分保持不变,就像给一个已经很聪明的学生专门补习一门新课程。

第二阶段是全模态指导分割调优,这个阶段就像让学生将各种技能综合运用到实际工作中。研究团队使用了多个不同类型的数据集,包括语义分割数据集、指向分割数据集、指向视频分割数据集,以及他们自己创建的音频-视觉分割数据集。这种多样化的训练就像让一个学生既要学会数学,又要学会物理和化学,最终成为一个综合能力强的专家。

在训练细节上,研究团队采用了一些巧妙的策略。对于视频样本,他们在训练时从每个视频中均匀采样10帧,其中4帧作为"密集帧"进行详细分析,其余帧作为"稀疏帧"提供时序上下文。而在实际应用时,系统会采样32帧,其中4帧作为密集帧,确保能够捕捉到足够的细节信息。

为了保持训练效率,研究团队使用了LoRA技术来微调语言模型部分。这种技术就像在不改变房屋主体结构的情况下重新装修房间,既能适应新的需求,又不会破坏原有的功能。同时,他们完全训练掩码生成部分的参数,确保这个负责精确定位的组件能够达到最佳性能。

四、突破性的实验结果

经过精心训练的OISA在各种测试中展现出了令人印象深刻的能力。在OmniAVS数据集上的测试结果就像一场全面的能力考试,OISA在各个项目上都取得了优异成绩。

在主要的分割准确性指标上,OISA达到了41.1%的综合得分,这个数字听起来可能不高,但要知道这是在一个极其复杂的任务上的表现。相比之下,即使是13B参数的大型模型LISA也只能达到36.1%的水平,OISA以更小的模型规模实现了5%的性能提升。这就像用一台普通家用车在复杂的越野赛道上跑出了比豪华SUV更好的成绩。

更令人兴奋的是,OISA在解释生成方面的表现。系统不仅能准确找到目标对象,还能用自然语言解释自己的判断过程。在METEOR评分标准下,OISA达到了21.7%的得分,显著超过了LISA-13B的16.5%。这意味着OISA不仅是一个准确的"眼睛"和"耳朵",还是一个能够清晰表达思路的"大脑"。

在不同类型的指令处理上,OISA展现出了真正的"全能"特质。对于包含文字、声音和图片的复合指令(第VIII类),OISA达到了53.0%的准确率,这是所有指令类型中表现最好的。这说明当给系统提供更多信息时,它能够更好地理解任务要求并做出准确判断。这就像一个侦探,当获得更多线索时,破案的准确率也会显著提高。

研究团队还测试了不同音视频融合策略的效果。传统的注意力机制方法只能达到35.8%的准确率,而OISA采用的音视频交错策略达到了39.2%。当进一步结合原始音频信息时,性能提升到了40.5%。这些数字背后反映的是不同技术路线的根本差异,就像不同的烹饪方法会产生完全不同的菜品味道。

在掩码生成策略的对比中,OISA的查询传播方法也显示出了明显优势。相比于传统的"一个令牌分割所有帧"方法,查询传播在使用相同掩码头的情况下,将准确率从35.2%提升到了40.5%。这种提升就像从使用固定模板绘画转向根据具体对象调整笔触,自然能获得更精确的结果。

五、实际应用中的表现

为了验证OISA的实用性,研究团队在多个相关任务上进行了测试,结果展现了系统的强大适应能力。

在传统的图像指向分割任务上,OISA在RefCOCO系列数据集上都达到了最先进的性能水平。特别是在RefCOCO+数据集的testA分割上,OISA达到了71.7%的准确率,超过了许多专门针对图像分割设计的系统。这说明OISA的多模态理解能力不仅在音视频场景中有效,在处理静态图像时也同样出色。

在视频指向分割任务上,OISA同样表现不俗。在MeViS数据集上达到43.2%的准确率,在R-YTVOS上达到62.1%,在R-DAVIS17上达到65.2%。这些结果证明了OISA的视频理解能力已经达到了与专门的视频分割系统相当的水平。

特别值得一提的是OISA在ReVOS数据集上的表现。这个数据集专门测试需要推理能力的视频分割任务,OISA不仅在准确率上达到了47.3%的最新纪录,在鲁棒性评分上也达到了19.3%,比之前的最佳结果提升了4%。这个提升特别有意义,因为它表明OISA不仅能在标准情况下工作良好,在面对各种意外情况时也能保持稳定的性能。

在原有的Ref-AVS数据集上,OISA取得了58.0%的综合得分,大幅超越了之前的最佳结果。这个对比特别有说服力,因为Ref-AVS是目前最接近OmniAVS的公开数据集。OISA在Ref-AVS上的优异表现,加上它在更困难的OmniAVS上的领先地位,清晰地展现了这种全模态方法的优势。

六、成功案例与局限性分析

通过具体的应用案例,我们可以更直观地理解OISA的能力和局限。

在一个成功案例中,系统面对的是一段包含多人对话的视频,用户询问"谁在开玩笑?"这个问题需要系统不仅要听懂对话内容,还要理解语境和说话者的意图。OISA成功地识别出了第四帧中正在说"Just yanking your chain!"(只是在逗你玩)的说话者,并解释说"老板在逗他的同事"。这个案例展现了系统在语音理解、语境分析和推理方面的综合能力。

另一个印象深刻的案例涉及多模态指令处理。用户提供了一张火灾图片和一段警笛声音,然后询问"发出这种声音并前往这种地方的是什么?"OISA准确地识别出了消防车,并解释说这是"第一辆消防车"。这个案例说明了系统能够真正理解不同模态信息之间的关联,并进行合理的推理。

然而,OISA也存在一些局限性。在一个失败案例中,用户询问"谁发出最清脆响亮的声音?"面对的是包含低音管、长号、单簧管、小提琴、大提琴和钢琴混合演奏的复杂音频。OISA回答"没有对象匹配这个要求",显然无法处理这种复杂的音频分离任务。这说明当多个对象同时发声时,系统还难以准确分离和识别各个声源。

这些局限性指向了未来研究的重要方向。首先是音频事件分离技术的改进,需要能够在复杂声学环境中分离出不同的声源。其次是更高效的音视频融合方法,目前的交错策略虽然有效,但仍有改进空间。第三是多模态表达的联合表示学习,需要找到更好的方法来整合来自不同模态的信息。

七、技术创新的深层意义

OISA的技术创新不仅仅是性能数字的提升,更代表了AI系统向更自然、更智能交互方式的重要进步。

音视频交错处理策略的提出解决了一个长期存在的技术难题。传统的序列拼接方法就像让一个人先看完一整部无声电影,再听完所有对白,最后试图将两者关联起来。而交错处理更接近人类的感知方式,我们在观看视频时是同时处理视觉和听觉信息的。这种方法的成功证明了模仿人类认知过程在AI系统设计中的价值。

查询传播机制的引入也代表了对动态视觉理解的重要突破。静态的查询向量就像一把固定形状的钥匙,而动态更新的查询向量更像一个能够适应不同锁孔的智能钥匙。这种设计理念可能会在其他需要处理时序信息的AI任务中找到更广泛的应用。

多模态指令理解的实现标志着人机交互方式的重要进步。传统的AI系统要求用户学会如何与机器"对话",而OISA让机器学会理解人类更自然的表达方式。你可以给它看图片、播放声音、说话或者打字,系统都能理解并做出相应的回应。这种灵活性让AI系统更加亲近和实用。

推理能力的集成可能是最重要的突破。以往的系统更像是高级的识别工具,能告诉你"是什么",但不能解释"为什么"。OISA不仅能识别对象,还能解释识别的逻辑,这让AI系统的行为更加透明和可信。当系统说"这个人可能生病了,因为他在咳嗽"时,用户能够理解并验证这个判断的合理性。

八、未来发展的无限可能

OISA的成功开启了多个激动人心的发展方向,每一个都可能带来革命性的应用。

在教育领域,这种技术可能会催生全新的智能教学助手。想象一个能够同时理解学生的提问、观察学生的表情、听懂学生的困惑点的AI老师。它不仅能回答问题,还能根据学生的反应调整教学方式,提供个性化的学习体验。

在医疗诊断方面,结合了视觉和听觉信息处理的AI系统可能会成为医生的得力助手。系统可以同时分析患者的外观症状、听诊声音、描述症状的语音等多种信息,提供更全面的诊断支持。更重要的是,它能够解释诊断的依据,帮助医生做出更准确的判断。

在安全监控领域,这种全模态理解能力可能会带来更智能的监控系统。系统不仅能识别异常行为,还能理解声音环境,比如区分正常交谈和争吵,识别求救声和正常喊叫的区别。这种细致的理解能力可能会大大减少误报,提高安全防护的效率。

在娱乐和内容创作方面,OISA的技术可能会推动更智能的视频编辑工具的出现。创作者可以用自然语言描述想要的效果,系统能够理解并自动完成复杂的编辑任务。比如"把所有笑声最大的片段剪辑出来"或者"找出背景音乐和画面最配的时刻"。

在人机交互的未来发展中,OISA代表的多模态理解能力可能会成为下一代智能助手的标准配置。用户不再需要学习特定的指令格式,而是可以用最自然的方式与AI系统交流。你可以指着某个对象、播放相关声音、用语音描述,系统都能准确理解你的意图。

研究团队也明确指出了几个重要的发展方向。首先是更高效的音视频融合方法,需要在保持理解能力的同时提高处理效率。其次是声音事件分离技术的改进,这对于处理复杂的多声源环境至关重要。还有就是多模态表达的联合表示学习,需要找到更好的方法来整合不同类型的信息。

此外,系统的对话能力扩展也是一个重要方向。未来的版本可能会支持多轮交互,用户可以与系统进行持续的对话,逐步细化和调整需求。比如用户先问"找出在说话的人",然后可以进一步询问"其中谁看起来最高兴",系统能够在前一次结果的基础上继续分析。

说到底,OISA的出现标志着AI系统向更加智能、更加自然的方向迈出了重要一步。它不仅仅是一个技术工具,更像是一个能够理解和解释世界的智能伙伴。当我们能够用最自然的方式与AI交流,当AI能够像人类一样综合运用多种感官信息进行思考和推理时,人工智能就真正开始接近我们对智能助手的终极想象。

这项研究的意义远不止于技术本身的突破,它为我们展现了一个更加智能、更加理解人类需求的AI未来。在这个未来里,人与机器的交流将变得更加自然和高效,AI系统将成为我们真正的智能伙伴,帮助我们更好地理解和处理这个复杂多样的世界。

Q&A

Q1:OmniAVS数据集有什么特别之处?为什么要创建这个新数据集? A:OmniAVS是首个支持8种不同表达方式的音视频分割数据集,包含2104个视频和6万多个多模态表达。它的特别之处在于支持文字、语音、声音、图片的任意组合指令,而且强调深层理解而非表面识别。比如不再问"谁声音最大",而是问"谁最可能生病",需要AI听到咳嗽声后推理出生病的可能性。

Q2:OISA系统是如何同时处理视频和音频信息的? A:OISA采用了独特的"音视频交错"策略,将音频切分成与视频帧对应的片段,然后交替处理视觉和听觉信息,就像"看一帧、听一段、再看一帧、再听一段"的节奏。这种方法比传统的先看完再听完的方式更接近人类感知过程,能实现精确的时间对齐,不需要额外参数就能准确定位发声对象。

Q3:这项技术未来可能应用在哪些领域? A:OISA技术有广泛的应用前景。在教育领域,可开发能同时理解学生提问、观察表情、听懂困惑的智能教学助手;在医疗诊断中,可帮助医生综合分析患者的外观症状、听诊声音等多种信息;在安全监控方面,能区分正常交谈和争吵,识别求救声;在内容创作中,创作者可用自然语言描述想要的编辑效果,系统自动完成复杂编辑任务。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-