微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港中文大学推出Dispider:让视频AI像人一样"边看边聊"的革命性突破

香港中文大学推出Dispider:让视频AI像人一样"边看边聊"的革命性突破

2025-09-15 14:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-15 14:44 科技行者

这项由香港中文大学联合上海AI实验室的研究团队开发的创新成果,发表于2025年1月,完整论文可通过GitHub仓库https://github.com/Mark12Ding/Dispider获取。研究团队由钱锐、丁双睿等多位学者组成,他们共同攻克了一个困扰AI视频理解领域已久的核心难题。

当你和朋友一起看电影时,会发生什么?你们会一边观影一边交流想法,不时发出感叹或提问,这种实时互动让观影体验变得更加丰富。然而,现有的AI视频理解系统却做不到这一点——它们就像一个必须把整部电影看完才能开口说话的"书呆子",无法在观看过程中进行实时交流。

这个问题听起来似乎不大,但实际影响却相当深远。设想你正在观看一场体育比赛直播,当精彩进球出现时,你希望AI助手能立即告诉你这个进球的意义,而不是等到比赛结束后才给出分析。或者当你在观看烹饪教学视频时,你希望AI能在关键步骤出现时主动提醒你注意,而不是在视频播放完毕后才总结要点。

现有技术的根本缺陷在于它们采用了"先看完再说话"的工作模式。这就好比你请了一位翻译,但这位翻译坚持要听完整场演讲后才开始翻译,而不能进行同声传译。对于处理长时间视频内容来说,这种方式不仅效率低下,更重要的是完全不符合人类的交流习惯。

研究团队深入分析后发现,问题的核心在于现有系统试图用一个"大脑"同时处理三件截然不同的事情:持续观察视频内容(感知),决定何时应该开口说话(判断),以及生成具体的回应内容(反应)。这三个任务之间存在着天然的冲突——观察需要持续进行,判断需要快速决策,而生成回应则需要深度思考。将它们强行塞进一个系统里,就像让一个人同时开车、导航和打电话一样,结果只能是顾此失彼。

为了解决这个根本性矛盾,研究团队提出了一个革命性的解决方案:Dispider系统。这个名字本身就蕴含着设计理念——像蜘蛛一样能够同时处理多条"丝线"的复杂任务。Dispider的核心创新在于将原本纠缠在一起的三个功能彻底分离,让每个部分都能专注于自己最擅长的工作。

具体来说,Dispider系统包含三个相对独立但协调工作的模块。第一个是感知模块,它就像一个专职的"观察员",始终保持对视频内容的持续监控,实时捕捉画面中的变化和重要信息。第二个是决策模块,它扮演着"判官"的角色,基于观察员提供的信息以及历史交互记录,快速判断当前是否需要作出回应。第三个是反应模块,它是系统的"发言人",负责在接到指令后生成详细、准确的回应内容。

这种分工协作的设计带来了显著的优势。最重要的是,观察和回应可以同时进行,互不干扰。当反应模块忙于生成回应时,感知模块依然可以继续监控视频内容,决策模块也能持续评估是否需要新的交互。这就像一个高效的新闻编辑部:记者持续收集新闻,编辑快速判断新闻价值,写手专心撰写报道,三者并行不悖。

在技术实现层面,研究团队采用了多项创新策略。在感知模块中,他们没有采用传统的均匀切片方法处理视频,而是基于场景边界进行智能分段。这就好比阅读一本小说时,不是机械地每页停顿一次,而是在章节转换或情节转折处自然停顿。这种方法能够更好地保持视频内容的结构完整性,确保重要信息不会被人为割裂。

决策模块的设计更是巧妙。它采用了一种特殊的序列处理方式,将视频特征、历史记录和决策标记交织在一起,形成一个连贯的信息流。系统使用特殊的标记符号来管理这个过程:当需要作出决策时插入"TODO"标记,当决定回应时插入"ANS"标记。这种设计确保了决策过程的连续性和一致性,避免了传统系统中常见的"决策断层"问题。

反应模块则采用了异步处理机制,这是整个系统的关键创新之一。当决策模块判断需要回应时,反应模块会启动一个独立的处理线程来生成具体内容,同时感知和决策模块继续监控视频流。这种设计确保了系统的响应性和连续性,避免了传统系统中"说话时就看不见"的问题。

为了验证Dispider系统的有效性,研究团队设计了全面的实验评估。他们构建了专门的流式视频问答数据集,模拟真实的实时交互场景。这个数据集不仅包含需要回应的情况,还包含应该保持沉默的情况,这对训练系统的判断能力至关重要。

实验结果令人印象深刻。在流式视频理解基准测试中,Dispider在多个关键指标上都显著超越了现有最先进的系统。特别是在"主动输出"任务中,这个任务要求系统能够在特定事件发生时主动提供信息(比如在进球时说出"GOAL"),Dispider获得了25.3的得分,而其他流式处理系统几乎完全失败。

更重要的是,研究团队通过对比实验清晰地展示了Dispider的核心优势。在处理需要多步推理的复杂问题时,Dispider能够随着视频播放逐步识别相关线索,一步步构建完整的答案。例如,当面对"口渴的人应该怎么办"这样的问题时,Dispider能够在视频中出现饮料时立即建立关联,然后基于上下文推断出具体的行动建议。相比之下,传统的流式处理系统只能提供简单的场景描述,无法进行深入的推理分析。

在传统的离线视频理解任务上,Dispider同样表现出色。在EgoSchema、VideoMME、MLVU等多个权威基准测试中,该系统都获得了有竞争力的结果。特别值得注意的是,在需要长时间推理的EgoSchema测试中,Dispider获得了55.6的准确率,展现了其强大的时序理解能力。

研究团队还进行了详细的消融实验,验证了系统各个组成部分的重要性。实验发现,场景边界分割策略相比传统的均匀分割方法能够带来显著改善。特殊标记符号的设计也被证明是必要的:缺少"ANS"标记会导致系统无法准确追踪历史回应,缺少"TODO"标记会降低决策准确性,缺少"SILENT"标记则会影响系统对错误触发的处理能力。

从技术架构的角度来看,Dispider代表了视频AI理解领域的一个重要转折点。它不再试图用单一模型解决所有问题,而是采用了专业化分工的策略。这种设计哲学不仅解决了当前的技术瓶颈,也为未来的发展奠定了基础。

一、革命性的三分式架构设计

传统的视频AI系统就像一个需要独自完成所有工作的个体户:既要看视频,又要思考,还要说话,结果往往是样样都做不好。Dispider的创新在于建立了一个专业分工的"公司",让不同的"部门"各司其职。

感知模块扮演着"监控中心"的角色,它的任务就是持续不断地观察视频内容,捕捉画面中的每一个变化。这个模块采用了智能场景分割技术,不像传统方法那样机械地按时间切片,而是根据内容的自然边界进行分段。就好比一个有经验的电影编辑,知道在哪里切换镜头最合适,既不会破坏故事的连贯性,也不会遗漏重要细节。

决策模块则是整个系统的"大脑",它需要综合考虑当前的视频内容、历史交互记录以及用户的问题,快速判断是否需要作出回应。这个过程使用了一种巧妙的序列编码方式,将各种信息交织成一个连贯的数据流。系统通过特殊的标记符号来管理这个过程:当遇到需要决策的时刻时插入"TODO"标记,当决定回应时插入"ANS"标记。这种设计确保了决策过程的准确性和连续性。

反应模块是系统的"发言人",它的任务是在接到指令后生成详细、准确的回应。关键的创新在于这个模块采用了异步处理机制,也就是说,它可以在后台独立工作,不会阻塞其他模块的正常运行。当反应模块忙于生成回应时,感知模块依然在持续监控视频,决策模块也在评估新的交互机会。

这种分工协作带来的最直接好处就是效率的大幅提升。在处理长时间视频时,传统系统经常出现"卡顿"现象,因为它们无法同时进行观察和思考。而Dispider系统就像一个训练有素的团队,各个部分并行工作,互不干扰,确保了流畅的实时交互体验。

二、场景边界智能分割技术

Dispider在视频处理方面的另一个重要创新是场景边界智能分割技术。传统的视频处理方法就像用尺子测量,每隔固定的时间就"咔嚓"切一刀,完全不考虑内容的连贯性。这种方法经常会把一个完整的动作或情节切断,造成信息的破碎和丢失。

Dispider采用了一种更加智能的方法。它首先使用预训练的视觉模型提取每个视频帧的特征向量,然后通过计算相邻帧之间的相似度来识别场景边界。当相似度发生显著变化时,系统就知道这里可能是一个自然的分割点。这就好比一个有经验的图书管理员,知道应该在章节结束的地方插入书签,而不是随意地在某一页中间做标记。

为了避免产生过于短小的片段,系统还引入了排除窗口机制。也就是说,在确定了一个分割点之后,系统会在其周围设置一个缓冲区,确保相邻的分割点之间有足够的距离。这种设计既保证了内容的完整性,也维持了处理的效率。

每个分割后的视频片段都会被转换成紧凑的特征表示,同时生成一个特殊的片段标识符。这些标识符在后续的决策过程中发挥着重要作用,帮助系统快速定位和检索相关的视频内容。

三、实时决策机制的创新设计

Dispider的决策机制是整个系统的核心创新之一。这个机制需要在每个时刻快速判断:基于目前观察到的视频内容和历史交互记录,系统是否应该作出回应,还是应该继续等待更多信息。

决策过程采用了一种巧妙的交错序列设计。系统首先将用户的问题时间点之前的所有视频片段特征进行全局汇总,形成历史记忆。然后构建一个包含历史记忆、问题文本、当前视频片段特征以及决策标记的交错序列。

这个序列的构建过程颇有讲究。对于单次交互,序列的格式是:历史记忆 + 问题 + 当前视频特征 + "TODO"标记。当系统决定回应时,会在相应位置插入"ANS"标记。对于多轮交互,序列会变得更加复杂,需要包含多个历史回应的时间点和内容标记。

特别重要的是,在这个过程中,系统完全不使用反应模块生成的具体回应文本。这种设计确保了决策过程的独立性和连续性。即使反应模块正在生成一个复杂的回应,决策模块也能继续监控视频内容,评估新的交互机会。

决策模块使用一个紧凑的大语言模型来处理这个交错序列,并在"TODO"标记位置应用二分类头来预测是否应该回应。这种设计既保证了决策的准确性,也确保了足够快的响应速度。

四、异步交互生成系统

当决策模块判断需要作出回应时,异步交互系统就开始发挥作用。这个系统的设计理念是让回应生成和视频监控能够并行进行,避免传统系统中常见的"说话时就看不见"的问题。

交互生成过程始终基于触发时刻的视频状态。系统会收集当前的问题、之前生成的回应(如果有的话)以及触发时刻对应的视频片段特征。为了支持复杂的多跳推理,系统还会通过计算"TODO"标记与历史片段标识符的相似度来检索相关的历史内容。

这种检索机制特别重要,因为回答一个问题所需的信息可能分布在视频的不同时间段。通过相似度计算,系统能够找到所有相关的历史片段,就像一个经验丰富的侦探能够将分散的线索串联起来形成完整的推论。

为了提高检索的准确性,系统使用了监督学习方法来训练相似度计算模块。具体来说,系统会计算预测的相关性分布和真实相关性分布之间的KL散度损失,通过这种方式来优化检索效果。

交互生成系统还具备处理错误触发的能力。有时候决策模块可能会误判,在不需要回应的时候触发交互生成。为了处理这种情况,系统引入了"SILENT"标记,允许交互生成模块在二次确认后选择保持沉默。这种设计提高了系统的鲁棒性和用户体验。

五、训练策略与数据处理

Dispider采用了两阶段的训练策略,这种设计充分考虑了不同模块的特点和需求。第一阶段专注于训练流式视频处理器和决策模块,第二阶段则专门优化交互生成模块。

第一阶段的训练数据来源丰富多样,包括GroundVQA和ET-Instruct等现有数据集,并且增加了丰富的时间标注信息来支持流式处理训练。研究团队还专门构建了5万个隐含时间推理的问答对,用于增强系统的基础推理能力。这些数据的时间标注对于训练决策模块至关重要,它们教会系统什么时候应该说话,什么时候应该保持沉默。

第二阶段的训练专门针对交互生成模块。在这个阶段,研究团队冻结了视频编码器和紧凑语言模型的参数,只训练最终的交互生成模块。训练数据包含了12.2万个流式视频问答对,这些数据从ET-Instruct数据集的时间戳标注中生成,并且用VideoChatGPT和LLaVA-Next-Video的数据进行了扩充。

训练过程中一个重要的设计是指令插入的随机化。系统会在不同的时间戳位置插入指令,这种做法提高了模型对任意时间点查询的适应能力。在传统基准测试中,问题被放置在视频末尾以确保公平比较,而在流式评估中,问题被放置在视频开始处以支持主动响应。

六、实验验证与性能表现

研究团队设计了全面的实验来验证Dispider系统的有效性。实验涵盖了流式视频理解和传统视频问答两个方面,确保系统在不同场景下都能表现出色。

在流式视频理解方面,研究团队使用了StreamingBench基准测试,这是专门为评估流式视频理解能力设计的综合性测试平台。测试包括实时视觉理解、全源理解和上下文理解三个主要方面,涵盖了物体感知、因果推理、剪辑总结、属性感知、事件理解等多个具体任务。

实验结果显示,Dispider在多个关键指标上都显著超越了现有的流式处理系统。特别值得注意的是在"主动输出"任务上的表现,这个任务要求系统能够在特定事件发生时主动提供信息。传统的流式处理系统在这个任务上几乎完全失败,而Dispider获得了25.3的竞争性得分,展现了其出色的主动响应能力。

在ET-Bench子集的流式设置测试中,Dispider在所有测试指标上都明显优于VideoLLM-online系统。特别是在时间定位任务上,Dispider展现了更强的时间感知能力,能够更准确地将回应与特定的时间点关联起来。有趣的是,在某些任务如密集视频描述和步骤定位上,Dispider在流式模式下的表现甚至超过了传统离线模式,这表明分解式架构能够更有效地监控视频流并主动生成信息丰富的回应。

研究团队还进行了定性比较实验,清晰地展示了Dispider相比传统系统的优势。在处理需要多步推理的复杂问题时,Dispider能够逐步识别视频流中的必要线索,一步步生成信息丰富的答案。例如,面对"我很渴,应该怎么办?"这样的问题,Dispider能够从问题中的"渴"联想到视频中出现的饮品,然后基于上下文推断出具体的行动建议。相比之下,VideoLLM-online只能提供简单的场景描述或正在进行的动作说明。

在传统视频理解任务上,Dispider同样表现出色。在EgoSchema、MLVU、VideoMME等权威基准测试中,该系统都获得了有竞争力的结果。特别是在EgoSchema测试中,Dispider获得了55.6的准确率,这个测试专门考察长时间推理能力,Dispider的优秀表现证明了其强大的时序感知和推理能力。

七、消融实验与细节验证

为了深入理解系统各个组成部分的作用,研究团队进行了详细的消融实验。这些实验系统地验证了设计选择的合理性和必要性。

关于视频分割策略的实验显示,基于场景边界的非均匀分割相比传统的均匀分割方法带来了显著改善。在MLVU和VideoMME的传统问答任务中,场景分割方法分别获得了61.7和57.2的准确率,而均匀分割方法只获得了59.8和55.4。在流式任务中,这种改善更加明显,特别是在时间视频定位和密集视频描述任务上。

特殊标记设计的消融实验揭示了每个标记的具体作用。实验发现缺少"ANS"标记会导致系统无法准确追踪历史回应的时间戳,结果是在相关线索出现时系统倾向于产生回应,导致高召回率但低精确度的现象。缺少"TODO"标记会让流式处理器无法明确何时需要做决策,导致性能轻微下降。而"SILENT"标记在最终语言模型中充当二级过滤器的角色,当前面的流式处理器错误地识别某个时间戳需要回应时,这个标记让语言模型能够重新考虑是否真的需要答案。

实验数据清楚地显示了各个组件的重要性。在最完整的配置下,系统在时间视频定位任务上获得了36.1的F1分数,在密集视频描述任务上获得了33.8的F1分数和18.9的相似度分数。任何组件的缺失都会导致性能的下降,证明了整体设计的协调性和必要性。

八、技术实现细节与架构优化

Dispider的技术实现展现了研究团队在系统工程方面的深厚功力。整个系统采用了混合架构设计,使用一个紧凑的语言模型作为主动流式视频处理器来做响应决策,使用一个更大的语言模型作为精确交互模块来生成具体回应。

在视频处理pipeline中,输入视频帧被调整为224×224分辨率,使用CLIP-L/14模型提取逐帧特征。借鉴VideoStream中的令牌压缩技术,系统将相邻令牌进行连接,然后使用紧凑的语言模型(Qwen2-1.5B的实例化)生成时间感知的压缩片段特征以及片段标识符。

决策处理使用同一个紧凑模型来处理由全局记忆、问题文本和片段特征组成的序列。最终的语言模型使用Qwen2-7B实例化,在必要的时间戳接收定位片段和全局记忆来生成回应。

这种分层设计的好处在于计算资源的优化配置。紧凑模型负责需要高频率执行的感知和决策任务,确保系统的实时响应能力。而大型模型只在需要生成具体回应时才被调用,避免了不必要的计算开销。

训练过程采用两阶段策略,第一阶段训练流式视频处理器和响应决策模块,使用GroundVQA和ET-Instruct的组合数据,并增加了丰富的时间标注来监督流式响应和提供时间定位标签。第二阶段冻结视频编码器和紧凑语言模型,只训练最终的交互模块。

九、实际应用前景与影响分析

Dispider系统的成功不仅仅是一个技术突破,更重要的是它开启了视频AI交互的全新可能性。这项技术的应用前景极其广阔,几乎涉及到视频内容处理的各个领域。

在教育领域,Dispider可以革命性地改变在线学习体验。设想一个学生正在观看数学课程视频,当老师讲到复杂概念时,AI助手能够实时检测到学生可能的困惑点,主动提供补充解释或相关例题。这种即时、个性化的学习辅导将大大提高学习效率和质量。

在体育转播和娱乐内容领域,Dispider能够为观众提供沉浸式的互动体验。在观看足球比赛时,系统可以在关键时刻自动提供球员统计数据、战术分析或历史对比信息。在观看电影时,系统能够根据情节发展提供背景信息、演员介绍或相关花絮,而不会打断观影体验的连续性。

医疗诊断和监控领域也将从这项技术中获益匪浅。医生在查看长时间的手术录像或监控视频时,AI系统能够实时标识异常情况,提醒医生注意特定的生理指标变化或潜在风险点,大大提高诊断效率和准确性。

安全监控系统将变得更加智能和主动。传统的监控系统需要人工定期检查录像,而配备Dispider技术的系统能够在可疑事件发生时立即发出警报,并提供详细的情况分析,帮助安全人员快速做出响应决策。

内容创作和媒体制作领域也将迎来重大变革。视频编辑师在处理大量素材时,AI助手能够实时识别精彩片段、提取关键信息,甚至自动生成内容摘要和标签,大大提高后期制作的效率。

更重要的是,Dispider代表了人机交互范式的一个重要转变。它将AI从被动的"问答机器"转变为主动的"交流伙伴",能够根据情境主动提供有价值的信息和见解。这种转变将深刻影响我们与AI系统的交互方式,使人工智能真正成为我们日常生活和工作中的智能助手。

当然,这项技术的普及还面临一些挑战。计算资源的需求、实时处理的延迟优化、不同应用场景的适配等问题都需要进一步解决。但是,Dispider已经为解决这些问题指明了方向,为未来的智能视频交互系统奠定了坚实的技术基础。

说到底,Dispider的意义不仅在于它解决了一个特定的技术难题,更在于它开启了一种全新的可能性——让AI真正理解我们的视觉世界,并能够以人类的方式与我们进行自然、实时的交流。这种技术进步将让我们的数字生活变得更加智能、便捷和有趣。对于那些希望深入了解这项技术细节的读者,建议查阅研究团队在GitHub上发布的完整论文和开源代码,网址是https://github.com/Mark12Ding/Dispider。

Q&A

Q1:Dispider和传统视频AI系统有什么区别?

A:Dispider最大的创新是实现了"边看边聊"的能力,而传统系统必须看完整个视频才能回答问题。Dispider将感知、决策和反应三个功能分离成独立模块,让AI能够一边持续观看视频一边进行实时交流,就像人类观影时的自然互动一样。

Q2:Dispider在哪些场景下最有用?

A:Dispider特别适合需要实时交互的长视频场景,比如在线教育课程(可以在学生困惑时主动解释)、体育直播(在精彩时刻自动提供分析)、安全监控(发现异常时即时报警)、医疗诊断(识别关键指标变化时提醒医生)等。任何需要AI在观看过程中主动提供信息的应用都能受益。

Q3:Dispider的核心技术创新是什么?

A:核心创新是三分式架构设计:感知模块持续监控视频内容,决策模块快速判断何时需要回应,反应模块异步生成具体回应内容。这种设计让三个功能可以并行工作,解决了传统系统无法同时观看和思考的根本矛盾,实现了真正的实时视频交互。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-