微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MUSEG:清华-阿里团队打造时间感知多段定位技术,大幅提升视频理解能力

MUSEG:清华-阿里团队打造时间感知多段定位技术,大幅提升视频理解能力

2025-06-02 12:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-02 12:17 科技行者

视频时间理解是多模态大语言模型(MLLMs)理解视频事件的关键能力。近日,由清华大学和阿里巴巴通义实验室联合研究的团队在arXiv上发表了一篇创新研究论文《MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding》(2024年5月27日,arXiv:2505.20715v1)。这项研究由清华大学的罗福文、陈池、王子越、郭基跃、刘洋等人和阿里巴巴通义实验室的李晨亮、沈伟周、严明、张霁、黄飞等研究人员共同完成,项目代码已在GitHub开源:https://github.com/THUNLP-MT/MUSEG。

想象一下你正在看一段厨房视频,视频中有人拿起了几个碗。如果有人问你:"我收集了多少个碗?"你需要准确记住视频中拿碗的所有时刻才能回答正确。这正是当前视频理解技术面临的挑战。尽管视频理解技术近年来取得了长足进步,但在精确理解视频中事件发生的时间顺序和关系方面,现有的模型仍存在明显不足。

当前的视频理解模型往往能告诉你"有人在拿碗",但很难精确指出"在139秒时拿起了第一个碗,在144秒时又拿起了第二个碗"。这种精细的时间理解能力对于智能助手、自动驾驶、安防监控等领域至关重要。

研究团队注意到,现有的增强学习(RL)方法在改进视频时间理解方面效果有限,主要存在两个问题:一是大多数方法只关注单段定位(即一个查询对应视频中的一个片段),无法捕捉多个相关事件的时间关系;二是现有方法缺乏有效的时间线索推理能力,往往只对视频内容进行笼统描述,而非细致的时间分析。

为解决这些问题,研究团队提出了一种新颖的增强学习方法——MUSEG(时间戳感知多段定位),通过两个创新设计显著提升了模型的时间理解能力:多段定位任务和基于阶段性奖励的训练方案。让我们来详细了解这项创新研究。

一、MUSEG的核心创新:多段定位任务

传统的视频定位任务通常要求模型找出与文本描述相匹配的单个视频片段。例如,给定查询"人拿起一个碗",模型需要定位出视频中对应的时间段。研究团队发现,这类单段定位任务存在一个明显问题:模型可以通过识别关键物体(如"碗")来回答问题,而不必真正理解事件的时间关系。

研究团队通过一项初步实验证实了这一点。他们从E.T. Bench数据集中随机抽取了50个单段定位问题和50个多段定位问题,发现30%的单段定位问题可以通过简单地识别关键物体就能回答正确,而多段定位问题中这一比例只有8%。

基于这一发现,MUSEG创新性地将多段定位任务引入训练过程。在多段定位任务中,模型需要找出与查询相关的所有视频片段,而不仅仅是一个。这迫使模型必须真正理解视频中事件的时间分布,而不能依赖简单的捷径。

举个例子,当询问"定位所有'长跳'动作"时,视频中可能包含多次长跳动作。传统模型往往只能识别出第一次长跳,而MUSEG则能准确定位出视频中的所有长跳动作时间段。这种能力对于理解复杂视频至关重要,尤其是在需要分析多个相关事件时间序列的场景中。

二、精心设计的奖励函数:推动精确的时间推理

为了训练模型进行精确的时间推理,研究团队设计了两个关键的奖励函数:片段匹配奖励和时间戳奖励。

片段匹配奖励由两部分组成:全局匹配和局部匹配。想象你在拼一幅拼图,全局匹配就像是检查整体轮廓是否吻合,而局部匹配则关注每块拼图是否放在了正确位置。

全局匹配计算所有真实片段与预测片段的总体重叠率。例如,如果视频中"长跳"动作真实发生在0-2秒和8.5-10秒,而模型预测为0-3秒和5-7秒,全局匹配会评估这些区间的总体重叠程度。

局部匹配则更为精细,它首先将真实片段与预测片段一一配对(按时间顺序),然后评估每对片段的匹配度。这种设计鼓励模型不仅要找出正确数量的片段,还要保证每个片段的位置都准确无误。

研究表明,局部匹配特别重要。如果没有局部匹配,模型往往会倾向于预测单个长片段而非多个精确片段,导致精度下降。

时间戳奖励则是另一个创新设计,它鼓励模型在推理过程中明确引用时间信息。具体来说,如果模型在其思考过程中提到了最终答案中出现的所有时间戳,它将获得高奖励;如果有遗漏,则不给予奖励。这促使模型在推理过程中更加关注时间细节,提高时间感知能力。

三、阶段性训练策略:平衡引导与探索

研究团队发现,单纯应用上述奖励函数并不能达到最佳效果。因此,他们设计了一种阶段性训练策略,分为两个阶段:

第一阶段(400步):模型同时接受片段匹配奖励、时间戳奖励和格式奖励。这个阶段相当于给模型提供明确指引,教它如何在推理过程中引用具体时间点。

第二阶段(500步):移除时间戳奖励,只保留片段匹配奖励和格式奖励。这个阶段允许模型自由探索更好的推理模式,不受时间戳引用的严格限制。

研究表明,这种两阶段策略比单纯使用任一阶段的奖励效果更好。分析显示,在训练400步左右,时间戳奖励达到峰值,此后继续强制使用时间戳奖励反而会限制模型的进一步提升。移除这一限制后,模型能够探索出更优的推理方式,最终达到更好的性能。

四、实验结果:全面超越现有方法

研究团队在多个基准测试上评估了MUSEG的性能,包括单段定位任务(Charades-STA)、多段定位任务(THUMOS14、THUMOS15、Perception Test)以及更广泛的时间敏感视频理解任务(E.T. Bench)。

实验结果令人振奋。MUSEG-7B(基于Qwen2.5-VL-7B)在几乎所有测试中都超越了现有方法,包括SFT方法(如E.T. Chat、TRACE)和RL方法(如Video-R1、VideoChat-R1、TimeZero)。在Charades-STA测试中,MUSEG-7B达到了59.7%的性能,超过了基础模型近10个百分点。在THUMOS14和THUMOS15多段定位任务上,MUSEG-7B分别达到了29.7%和29.3%的性能,比第二好的模型高出约5个百分点。

更令人惊喜的是,MUSEG在泛化能力上表现出色。在E.T. Bench的时间敏感任务子集上,MUSEG-7B在引用、定位、密集描述和复杂理解四类任务中分别达到了60.8%、38.8%、25.1%和19.0%的性能,平均性能达到35.9%,显著超过其他模型。这表明MUSEG学到的时间理解能力可以有效泛化到多种场景。

案例分析进一步验证了MUSEG的优势。在一个多段定位任务中,要求模型定位视频中所有"clean and jerk"(举重动作)的片段,VideoChat-R1和TimeZero只能识别出第一次举重尝试,而MUSEG-7B成功定位了全部三次举重尝试。在一个引用动作识别任务中,询问4.1秒左右发生的动作,VideoChat-R1错误地将11秒处倒水的动作与4.1秒时间点对齐,而MUSEG-7B不仅正确识别了开瓶盖动作,还精确定位了相应的视频片段。

五、深入分析:为什么MUSEG如此有效?

研究团队进行了详细的消融实验和分析,揭示了MUSEG成功的关键因素:

首先,局部匹配策略至关重要。实验表明,移除局部匹配后,模型性能明显下降,特别是在多段定位任务上。分析显示,没有局部匹配时,模型往往只输出单个片段,而非多个精确片段,这大大限制了模型的时间理解能力。

其次,时间戳奖励的使用时机很关键。分析表明,在训练初期使用时间戳奖励有助于模型建立时间感知能力,但在后期继续强制使用反而会限制模型的探索空间。这解释了为什么阶段性训练策略效果最佳。

另外,研究还尝试了不同的局部匹配策略,包括顺序匹配和最大流匹配。结果表明,顺序匹配(按时间顺序将真实片段与预测片段配对)效果最好,这可能是因为它更符合视频事件的自然时间顺序。

总的来说,MUSEG的成功源于其对视频时间理解本质的深刻洞察:真正的时间理解不仅要识别关键事件,还要精确定位多个相关事件的时间位置,并在推理过程中明确引用时间信息。

MUSEG的研究为视频理解领域开辟了新方向。通过引入多段定位任务和精心设计的奖励函数,MUSEG显著提升了模型的时间理解能力,为未来的研究提供了宝贵思路。这项技术有望应用于智能助手、视频搜索、内容分析等多个领域,帮助计算机更好地理解和分析视频中的时间事件。

当然,研究团队也坦承了研究的局限性。目前,MUSEG主要针对时间定位任务进行训练,未来可以考虑纳入更多样化的时间敏感任务数据,进一步提升模型的泛化能力。此外,虽然本研究主要关注时间敏感场景,但研究团队相信,更强的时间推理能力也可能有益于一般视频理解任务,帮助模型形成更连贯、更有结构的推理。

总结来看,MUSEG代表了视频时间理解领域的重要进展,为多模态大语言模型赋予了更精确的时间感知能力,让计算机不仅能看懂视频内容,还能精确理解"何时发生了什么"。这一能力对于打造真正智能的视频理解系统至关重要,也将为人工智能与人类交互的方式带来革命性变化。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-