微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ReFoCUS:KAIST研究团队开创视频理解新方法,让AI更懂你想问什么

ReFoCUS:KAIST研究团队开创视频理解新方法,让AI更懂你想问什么

2025-06-07 08:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 08:28 科技行者

论文与研究团队介绍

这项名为"ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding"(基于强化学习的帧优化技术提升上下文理解)的研究,由韩国科学技术院(KAIST)集成视觉与语言实验室的Lee Hosu、Kim Junho、Kim Hyunjun和Ro Yong Man教授共同完成。该研究于2025年6月在arXiv上发表(arXiv:2506.01274v1),目前正处于审核阶段。

研究背景:视频AI面临的关键挑战

想象一下,当你观看一部电影时,并不需要盯着每一帧画面才能理解剧情。你的大脑会自动选择关键的场景和时刻,忽略那些重复或不重要的部分。然而,现今的视频人工智能系统在这方面却远不如人类灵活。

近年来,大型多模态模型(LMMs)在处理图像和文本方面取得了长足进步,但它们在视频理解领域仍面临着重大挑战。就像一个人如果被要求观看一部长达两小时的电影,却只能随机挑选32个画面来理解整个故事情节一样,这些模型往往采用简单的均匀采样策略,难以捕捉视频中复杂的时空信息。

"大多数现有的视频大语言模型(video-LLMs)如Video-LLaVA和ShareGPT4Video等,通常将视频简单地视为图像帧序列,而且由于语言模型的上下文长度限制,它们无法确保模态间的良好对齐,尤其是在复杂或长篇视频内容中,这导致上下文理解能力不佳,"KAIST的研究团队解释道。

虽然一些研究尝试通过辅助检索模块或基于记忆增强的策略来选择性地提取相关视频片段,但这些方法通常难以整合多个部分线索,限制了它们在需要高层次推理的场景中的有效性。此外,最近的一些研究也提出了无需训练的搜索算法来选择信息丰富的帧,但这些帧选择方法与模型的内部推理过程仍然脱节,常常无法捕获与其语义和时间焦点对齐的帧。

ReFoCUS:重新思考视频理解的基本方法

KAIST的研究团队提出了一个创新的问题:如果我们不是让AI改进它的回答,而是让它学会选择更好的"视觉证据"来回答问题呢?这就是ReFoCUS(强化学习引导的帧优化技术提升上下文理解)的核心思想。

想象一下,给AI看一段视频并问:"人在视频中做了什么?"传统模型可能会均匀地采样一些帧,但如果这些关键动作只发生在特定时刻,模型很可能会错过重要信息。ReFoCUS通过强化学习,训练模型选择那些对回答特定问题最有帮助的帧,就像教会一个孩子知道在观看一部电影时应该特别注意哪些关键场景。

与现有的偏好优化方法不同,ReFoCUS将策略优化从文本响应转移到帧选择过程。传统方法主要专注于根据人类偏好或由大语言模型生成的奖励信号优化生成的文本响应,而ReFoCUS使模型能够通过选择为给定用户查询提供信息先验的帧来内部化其自身对视觉证据的偏好。这种创新方法不仅减少了输入冗余,还通过合成对齐的空间时间线索,显著提升了模型的视频理解能力。

技术挑战与创新解决方案

实现这一目标面临两大技术挑战。首先,收集帧级偏好数据比收集文本信息要困难得多,因为在长视频中存在组合爆炸问题。其次,视频内容的帧选择涉及的广泛搜索空间使强化学习优化变得复杂。

对于第一个挑战,研究团队创新性地使用了一个参考大型多模态模型(LMM)来评估采样的帧子集。这使得他们能够在候选帧之间进行组间相对奖励建模,并通过有效的优势函数引导策略模型进行策略优化。简单来说,就是利用现有的强大AI模型来评判不同帧组合的好坏,从而为学习过程提供指导。

针对第二个挑战,他们提出了一种基于自回归(条件)帧选择机制的架构设计。通过逐步识别相关帧(基于之前选择的帧作为条件),该方法显著减少了帧搜索开销,同时确保了选择过程的连贯性。这就像教会AI一步步地构建线索链,而不是盲目地在海量帧中随机选择。

ReFoCUS的技术实现细节

ReFoCUS的核心是一个由两个主要组件组成的强化学习框架:策略模型和奖励模型。

策略模型接收视频序列和查询,并学习选择最能支持上下文理解和推理的帧子集。研究团队采用了基于Mamba架构的轻量级LMM(Video-MA?mba)来处理长帧序列。与简单采样固定数量帧(通常是16或32帧)的方法不同,这使得在策略优化期间能够更广泛、更精细地探索帧选择空间。

而奖励模型则充当参考评估器,为每个候选帧子集提供学习信号。具体来说,研究团队使用InternVL3作为奖励模型,利用其在答案预测中的置信度来计算奖励。对于一个给定的帧子集,奖励被定义为正确答案和最具竞争力的错误选择之间的归一化置信度差异。这种基于边际的奖励有效地反映了模型在相互竞争的选择之间的残余不确定性,引导策略偏好那些能够消除答案歧义的帧子集。

在自回归帧选择过程中,策略模型以特殊标记开始,并让模型自回归地生成一系列潜在输出。在每一步,先前选择的帧用作查询,通过缩放点积注意力机制对候选帧嵌入池进行注意,从而产生下一帧采样的概率分布。这个过程按照条件策略重复,直到选择了足够数量的帧。

实验结果与验证

研究团队在多个视频问答基准测试上评估了ReFoCUS的性能,包括Video-MME、LongVideoBench、MLVU和Video-MMMU。结果表明,整合ReFoCUS框架持续提升了不同基准测试和模型规模(从轻量级到标准大小)的性能。

例如,在Video-MME基准测试上,为InternVL3-8B模型增加ReFoCUS后,整体性能从64.7%提升到66.0%,其中在"中等长度"和"长"视频子集上的提升尤为显著(分别从64.7%到66.9%和从53.4%到55.9%)。这表明ReFoCUS在处理包含多个事件的复杂场景时特别有效。

在Video-MMMU基准测试上,ReFoCUS增强的模型在"适应"任务中表现出色,证明了所学习的帧选择策略可以支持模型处理复杂和知识密集型场景。

为了验证ReFoCUS学习的选择分布是否真正捕获了语义上有意义的帧,研究团队对策略模型预测的帧似然进行了深入分析。结果表明,预测准确率随着使用低似然度帧(实线)的减少而稳步下降,而高似然度子集(虚线)通常优于其互补的低似然度对应部分,即使在小样本空间内也能超过基线。这种对称结果证实了从ReFoCUS中学习的帧分布足以回答查询,表明策略模型已经内化了与模型行为一致的有用评分模式。

V-NIAH实验:ReFoCUS能否找到关键证据?

研究团队还进行了一项名为V-NIAH(视觉大海捞针)的精细分析,以检验ReFoCUS是否能够准确定位任务相关的视觉证据。实验结果显示,均匀采样策略(如InternVL3-8B)无法捕获时间上稀疏但至关重要的信号(即"针"帧),因为它在整个序列中均匀选择帧,而不考虑内容相关性。相比之下,基于ReFoCUS的选择在不同时间位置上对真正的"针"帧表现出强烈的集中性,这突显了ReFoCUS精确定位查询相关视觉证据的能力。

为了验证ReFoCUS不仅仅学习了时间偏向的帧选择策略,研究团队分析了不同视频-查询对的选择分布之间的差异。使用分布度量(JS散度、对称KL散度和Wasserstein距离)计算Video-MME中不同视频-查询对之间的帧选择分布的成对距离。结果表明,无论视频片段长度如何,该模型在各对之间都表现出高度多样性,表明学习的策略根据查询语义调整其选择策略,而不是依赖一致的时间先验。

ReFoCUS的局限性与未来发展方向

尽管ReFoCUS开辟了将策略优化从输出级文本对齐转向输入级视觉基础的有趣方向,但仍存在一些局限性。与其他强化学习过程一样,训练涉及相当大的计算成本,需要重复的自回归采样和奖励估计。此外,学习的策略在很大程度上依赖于奖励模型的偏好,如果奖励模型存在次优偏好,策略可能会继承这些偏好。

然而,ReFoCUS展示了建模输入级视觉偏好可以产生语义上信息丰富的帧选择。研究人员认为,未来的工作可以探索更多样化的奖励形式,以及集成多模态知识或人类反馈来进一步完善策略。此外,扩展这种方法到开放式问答和更长的视频内容也是有价值的研究方向。

结论:重新思考AI如何"看"世界

归根结底,ReFoCUS代表了视频大语言模型的一个范式转变。传统方法主要关注如何提高模型的输出质量,而ReFoCUS则从根本上改变了模型获取视觉信息的方式,让AI学会选择对特定问题最相关的视觉证据。

就像一个优秀的侦探知道应该关注犯罪现场的哪些细节一样,配备ReFoCUS的视频AI能够在视频的海量信息中精确定位与用户查询相关的关键帧。这种能力不仅提高了模型的准确性,还减少了处理冗余信息的计算负担。

这项研究清晰地表明,未来的视频理解AI不仅需要知道如何"回答"问题,还需要学会如何更智能地"观看"视频。对于关注AI发展的普通人来说,这意味着未来的视频助手将能更精准地理解您的意图,并从长视频中提取出真正重要的信息,为您节省时间和精力。

如果您对这项研究感兴趣,可以通过arXiv:2506.01274v1访问完整论文,了解更多技术细节。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-