在数字媒体时代,让人工智能理解视频内容并进行复杂推理是一个重大挑战。近日,由哈尔滨工业大学(深圳)的李云鑫、陈新宇、李子涛、刘振宇、胡宝田和张敏,以及阿里巴巴国际集团的王隆月和香港科技大学的罗文翰共同完成的研究《VerIPO: 通过验证器引导的迭代策略优化培养视频大语言模型的长推理能力》,为解决这一问题提供了全新思路。该研究于2025年5月发布在arXiv预印本平台(arXiv:2505.19000v1),项目代码已在GitHub开源(https://github.com/HITsz-TMG/VerIPO)。
想象一下,当你看一段复杂的视频时,你会如何思考?你可能会一步步分析画面中的细节,推理场景中的逻辑关系,最后得出结论。这正是研究团队希望赋予人工智能的能力。传统的视频大语言模型(Video-LLMs)虽然能回答简单问题,但在面对需要深度推理的复杂问题时往往力不从心。
现有的视频大模型强化学习微调方法,如基于结果的群体相对策略优化(GRPO),面临两大痛点:一是数据准备瓶颈,人工标注成本高昂,自动生成的数据又容易引入噪声;二是在线强化学习不稳定,模型训练后虽然整体表现有所提升,但推理链的质量、长度和上下文一致性却难以得到持续改善。就像教孩子思考问题时,如果只关注最终答案是否正确,而不关注思考过程的质量,孩子可能会出现"蒙对答案"的情况,却不理解背后的逻辑。
为解决这些问题,研究团队提出了VerIPO(验证器引导的迭代策略优化)方法。这就像给模型配备了一位耐心的思维教练,不仅关注答案是否正确,更重视思考过程的质量。这位"教练"位于GRPO和直接偏好优化(DPO)训练阶段之间,形成GRPO-验证器-DPO的训练循环,通过小型语言模型作为判断者评估模型的推理逻辑,为后续训练构建高质量的对比数据。
让我们通过一个简单的生活比喻来理解VerIPO的工作原理:想象你在教一个孩子解决数学应用题。传统方法(GRPO)就像只告诉孩子"答案对了"或"答案错了",而不关注解题思路;而VerIPO则像一位好老师,不仅关注最终答案,还会分析孩子的解题过程,指出哪些思路是正确的,哪些步骤存在逻辑错误,然后引导孩子形成一套完整、合理的解题思路。这种方法不仅让孩子知道答案,更让孩子理解为什么这是正确答案,从而真正掌握解题能力。
接下来,让我们深入了解这项创新研究的细节,看看研究团队是如何让视频大语言模型变得更聪明的。
一、研究背景:为什么视频大模型的长推理能力如此重要?
在我们日常生活中,理解视频内容往往需要多步骤的思考。比如看一部侦探片,我们需要关注多个角色的行为、分析各种线索、推理事件的因果关系,最后才能猜测出凶手是谁。同样,当人工智能面对复杂的视频理解任务时,也需要这种多步骤的推理能力。
研究团队发现,许多复杂推理问题可以通过生成长思维链(Chain-of-Thoughts,简称CoTs)有效解决。这就像解决数学题时,我们不仅写出最终答案,还会展示详细的计算步骤。在多模态设置中,特别是对于具有挑战性的任务,如视觉数学和复杂的图像-文本推理,这种长思维链方法已经显示出了相当大的成功。
目前激活大型多模态模型(LMMs)长推理能力的主要方法是强化微调(RFT),它结合了带有长思维链数据的监督微调(SFT)和在线强化学习算法的应用。受DeepSeek-R1、Skywork R1V和Vision-R1成功的启发,研究人员正在积极探索有效解决方案,以增强视频大语言模型的长推理能力,目标是训练它们为复杂的视频推理任务生成有效的长形式推理链。
然而,激活视频大语言模型的长推理能力面临两大挑战:
首先是数据准备瓶颈。使用长思维链视频数据集进行冷启动(如Video-R1使用的方法)受到人工标注高成本和自动方法引入噪声的阻碍。这就像要教会一个孩子下围棋,但既找不到足够的专业教练,又没有足够好的教学视频。
其次是在线强化学习的局限性和不稳定性。研究团队发现,直接对视频大语言模型进行强化学习训练,虽然与SFT相比能提高整体性能,但往往产生短浅的推理链,缺乏深层逻辑步骤。GRPO算法容易使模型产生上下文不一致的推理链,比如"基于错误思考的正确答案"。此外,强化学习训练并不能持续改善思维链的准确性或长度,特别是在增加时间帧输入的情况下,在线训练也不能确保响应长度的稳定增加。最后,具有长推理过程的模型(如Video-R1)在不同视频推理任务上显示出不一致的性能增益,有时甚至比指令调优模型的直接推理表现更差。
因此,研究团队提出了一个重要问题:如何有效且稳定地提升视频大语言模型的深度推理能力?这就是VerIPO方法要解决的核心问题。
二、VerIPO方法:如何培养视频大模型的长推理能力?
VerIPO方法就像一个精心设计的教学系统,不是一次性要求模型掌握复杂推理,而是通过循序渐进的训练,让模型逐步提升推理能力。研究团队放弃了使用大型长思维链SFT数据集进行冷启动的做法,而是直接应用强化学习,逐步培养视频大语言模型的长推理能力。
整个VerIPO方法包含三个关键阶段:初始策略探索、样本筛选与验证器指导、策略精炼。这就像教一个学生解决复杂问题的过程:首先让学生尝试各种解题方法,然后由老师评估哪些方法有效,最后引导学生优化这些有效的方法。
### GRPO阶段:广泛探索不同的推理路径
在第一阶段,研究团队使用GRPO算法对经过指令调优的Qwen2.5-VL模型进行训练。GRPO就像是让学生在没有太多限制的情况下尝试各种解题方法,通过试错来找到可能有效的方法。
具体来说,研究团队使用了两种类型的奖励:准确性奖励和格式奖励。准确性奖励评估模型回答的正确性,范围在0到1之间;格式奖励评估模型回答是否符合预定义的思考-回答结构,范围在0到0.5之间。
对于数学题和多项选择题,如果模型的答案与标准答案匹配,准确性奖励为1,否则为0。对于距离估计任务,则使用VSI-Bench中提出的平均相对准确性(MRA)指标,提供0到1之间的连续奖励值。
这种设计就像是在告诉学生:"解题过程和最终答案都很重要,但答案的正确性更为关键。"
为了扩大模型的探索能力并增强学习灵活性,研究团队在GRPO训练过程中移除了KL散度(一种限制模型偏离初始状态的机制)。此外,随着训练进行,准确率为1的样本不断增加,这些样本的优势值为0,导致策略更新时没有梯度。为缓解这一现象并保持稳定的梯度流,研究团队整合了在线过滤策略,从训练批次中排除零优势样本。
### 基于Rollout的验证器:评估和提升推理质量
VerIPO的核心创新在于引入了基于Rollout的验证器,用于分析在线生成的推理过程,生成高质量的偏好数据,持续引导模型生成长期、高质量的推理路径。
想象一个学生在解数学题,验证器就像一位经验丰富的老师,不仅检查最终答案是否正确,还会评估整个解题过程是否合理、步骤是否清晰、逻辑是否自洽。
具体来说,对于给定的rollout输出,研究团队使用正则表达式提取思考内容和答案内容,然后从四个方面评估质量:
准确性检查:确定提取的答案内容是否正确,使用与GRPO相同的准确性函数。值得注意的是,对于距离估计任务,如果MRA超过0.6阈值,答案被视为正确。通过这些验证阶段成功的样本被考虑用于构建正样本。
一致性检查:评估推理过程与最终答案之间的连贯性。研究团队使用Qwen3-8B从响应中提取推理答案,然后使用基于规则的方法验证推理答案是否与预测答案匹配,以评估推理一致性。这个检查阶段主要用于检测正确推理与正确答案的匹配,并移除错误推理路径的样本。
重复检查:应用基于规则的方法检测思考内容中的句子级重复,惩罚展示重复模式的响应。
长度检查:应用于rollouts的提取思考内容,对较长的样本作为正样本给予更高优先级。
经过这一选择过程,研究团队构建了用于DPO训练的对比对。样本首先根据平均准确性奖励进行分类,这种分类指导数据构建过程。对于模型持续产生错误rollouts的样本,使用Gemini-2.5-Flash生成高质量的长期推理,帮助模型探索具有挑战性问题的深度推理。相反,具有完美准确性的rollouts被视为简单样本,通常在DPO阶段从偏好对中排除。
然后,对比偏好数据集使用以下策略构建:
单轮偏好对:负样本从不正确的rollouts中随机选择。正样本由成功通过所有先前质量和一致性检查的最长rollouts构成,从而奖励彻底的正确推理过程。
重复惩罚对:专门用于处理和惩罚重复输出,被拒绝的例子是被验证器标记为包含句子级重复的rollouts。为保持训练稳定性,这些负样本被截断为最多1024个标记。相应的选择例子是最长的经过验证的正确rollouts,没有此类重复。
反思偏好对:对于模型最初struggled的提示(平均准确率≤0.25),这些对引导模型自我纠正其推理。被拒绝的例子连接两个或多个不同的不正确rollouts。选择的例子结合初始不正确的rollout序列与最后一个正确的序列,通过反思短语链接以模拟精炼推理。
推理一致性对:这一类别增强了模型的推理("思考内容")与最终答案之间的一致性。被拒绝的例子由思考内容和最终答案不一致的rollouts组成(例如,具有正确答案的不正确推理,或具有不正确答案的正确推理)。具有正确推理但不正确答案的rollouts被拒绝,选择样本使用正确推理路径与提取的推理答案。具有不正确推理但正确答案的rollouts被拒绝,随机选择的上下文一致的响应与正确答案作为选择样本。
这种多方面的检查和数据构建流程产生了丰富多样的偏好数据集,专门设计用于支持稳健和快速的DPO训练,侧重于提高模型的推理长度、自我反思和逻辑一致性。
### DPO和训练循环:高效优化推理路径
基于前一轮GRPO的模型,DPO训练在由基于rollout的验证器生成的对比数据上进行。在此过程中,视觉编码器保持冻结状态。
整个训练循环遵循课程学习方法,逐步激活大型语言模型在视频中的长期推理能力。这一过程从简单模态数据(仅文本或图像问答)开始进行初始推理激活,然后使用图像和视频问答数据进行GRPO训练。随后,整个GRPO-验证器-DPO流程持续增强模型的长期推理能力,并逐步稳定其在视频推理上的表现,迭代地推向模型的固有推理极限。
在迭代过程中,研究团队将逐步丢弃前一GRPO训练过程中80%的简单示例(平均准确率=1),以减少模型的训练时间。整个训练过程使用慢搜索GRPO和快速对齐DPO,使大型语言模型具备强大的长链推理能力。
三、实验设置:如何评估VerIPO的效果?
为了全面评估VerIPO方法的有效性,研究团队设计了一系列严格的实验,包括对比模型选择、训练细节设置、数据集准备和基准测试。
### 基线模型比较
研究团队将VerIPO与各种SFT和强化学习基线进行了比较。直接回答模型(SFT,大小>7B)在没有明确推理过程的情况下响应,而推理-回答模型则在回答前生成推理过程。
直接回答基线包括最先进的模型,如LLaMA-3.2-V、Gemma-3-IT、Kimi-VL-A3B、Qwen2.5-VL-Instruct等。推理-回答基线包括Kimi-VL-A3B-Thinking和Video-R1。这种多样化的基线选择确保了评估的全面性和公平性。
### 训练细节
研究团队使用OpenRLHF框架实现GRPO算法,使用TRL框架进行DPO训练,β值为0.1。基于Qwen2.5-VL-7B,在八个NVIDIA A800-80G GPU上进行实验,最多64帧,128*28*28分辨率。全局训练批次大小设为64,rollout训练批次大小为64,每个查询有8个rollout响应,采样温度固定为1.0,最大输出长度为4096个标记。学习率设为1e-6。
### 训练数据集
实验涉及多个训练阶段。第一阶段主要使用长文档(QuALITY)、文本数学(DAPO-Math)和图像推理(ViRL-39K)数据激活模型推理。第二阶段关注图像和视频数据。
为缓解高质量视频数据的稀缺问题,研究团队纳入了多样化视频基准的经过过滤的子集,经过仔细检查以避免与评估数据集的泄漏。图像数据包括ViRL-39K(Science-Image,Spatial-Image)、SPAR-Bench(Spatial-Image)和MME-RealWorld(General-Image)的子集。视频数据利用多个基准:MVBench、TempCompass、LongVideoBench、HourVideo、MLVU、STI-Bench和VideoVista-CulturalLingo,以及经过过滤的5K LLaVA-Video-178K数据。
### 评估基准
研究团队引入了四个视频推理基准:VSI-Bench、TOMATO、Video-MMMU、MMVU,以及两个长视频理解基准:LVBench和Video-MME。
具体来说,VSI-Bench评估空间推理能力,TOMATO评估时间推理能力,Video-MMMU/MMVU测试来自多学科视频的领域特定知识。LVBench和Video-MME是用于全面长视频理解的通用基准。
四、实验结果:VerIPO真的有效吗?
研究结果令人振奋!通过一系列实验,研究团队发现VerIPO方法在多个方面都取得了显著效果。
### 主要发现
首先,在性能比较方面,VerIPO迭代训练的模型在六个评估基准上与几个基线模型(包括Qwen2.5-VL和Kimi-VL)进行了比较。结果显示,VerIPO在视频推理基准VSI-Bench、Video-MMMU和TOMATO上表现出色,超过了直接推理和强大的思考模型。在长视频通用评估LVBench(>30分钟)和Video-MME上,模型性能也有轻微提升。
对于复杂推理,如Video-MMMU和VSI-Bench,与直接推理和思考模型相比,性能有大幅提升,例如在Video-MMMU上比Video-R1提高了5.6%。这一结果证明了VerIPO方法在处理复杂视频推理任务时的优势。
### 验证器引导DPO的效果
研究团队通过实验展示了验证器引导DPO的效果。所有模型在初始GRPO轮次(GRPO-Iteration1)中使用相同的视频/图像数据。结果表明,验证器引导的DPO与GRPO相比,提高了真实准确性和思考长度。持续GRPO没有带来准确性的提升,且长度较低。
随后的迭代,在初始推理激活后仅使用视频数据训练,显示出稳定的准确性提升。统计分析表明,没有一致性或反思对的训练导致响应长度和准确性下降,特别是阻碍了不一致率的改善。
### 迭代次数的影响
研究团队对VerIPO迭代次数进行了消融研究。结果显示,增加迭代次数导致推理一致性改善、真实准确性提高(TOMATO从26.5提升到31.3)和响应长度增加(平均增加100个标记)。总体而言,VerIPO迭代可以持续改善推理长度(主要由快速DPO训练驱动)和真实准确性(消除"错误思考的正确答案")。
### 冷启动的影响
研究团队使用Video-R1-COT 165k数据集评估了强化学习微调中的冷启动(SFT)。结果表明,冷启动训练在Video-MMMU等指标上获得了微小收益,但在通用推理任务上性能大幅下降,且无法通过后续VerIPO迭代恢复。这突显了低质量视频冷启动数据对视频任务性能的影响。
然而,VerIPO(仅使用视频数据的迭代或激活),从强化学习而非SFT开始,在各基准上表现出更稳定的性能提升。
### 推理激活的效果
研究团队还分析了有无推理激活的实验结果。结果显示,仅使用图像和文本数据的推理激活阶段在视频领域表现出良好的泛化能力,特别是在Video-MMMU(复杂领域推理)任务上表现出色。
### 推理过程与答案的一致性
实验揭示了推理过程与最终答案之间的不一致性,这在冷启动(SFT)实验中也有观察到。VerIPO训练循环成功解决了这一问题,展示了训练迭代过程中不一致性的逐步减少和真实准确性的持续提高。
### 生成内容的重复性
研究团队在实验中以及与Kimi-VL-Thinking评估中观察到了超出上下文限制的重复推理循环。使用基于Rollout的验证器构建专门的偏好数据解决了这个问题,DPO迭代显著降低了重复频率。
此外,尽管这些大型多模态模型在处理具有挑战性的静态图像和短视频剪辑(有限帧输入)时展示出强大的推理能力,但在处理更长的视频序列或多帧输入时,它们的性能明显下降。这种下降表现为重复或不一致的推理,在某些情况下,甚至完全无法推理。研究团队假设这一限制源于模型在预训练期间对长视频理解的固有能力,突显了未来模型改进的关键领域。
### 案例研究
通过一系列案例研究,研究团队发现VerIPO使模型能够为具有挑战性的科学、时间锚定问题以及一般推理任务生成更长、更准确的推理链(有时带有反思),相比GRPO训练有明显优势。此外,研究团队观察到,在推理激活阶段利用文本或视觉数学可能有助于逻辑推理,这基于GRPO和VerIPO在科学问题中的推理过程。
五、进一步思考:为什么RL训练的视频大模型在所有视频任务中难以获得一致的性能提升?
研究团队提出了几个关键原因来解释为什么使用强化学习训练的大型多模态模型在所有视频任务中难以实现一致的性能提升:
首先是高质量和多样化的视频推理数据(可验证数据)问题。使用强化学习训练大型多模态模型需要大量高质量数据,特别是对于需要强大推理能力或涉及长推理路径的视频推理任务。大多数现有视频数据集主要关注简单识别或短期动作,缺乏复杂性和规模,无法支持稳健的强化学习训练。
其次是视频理解方面的模型能力限制(基础模型)。大型多模态模型所基于的基础模型通常依赖于预训练方法,这些方法并不理想地适用于全面的视频理解,特别是在长时间持续的情况下。虽然这些基础模型擅长从大量图像-文本对或短视频剪辑中学习强大的表示,但它们的预训练目标通常无法完全捕捉长范围时间依赖性、事件因果关系和序列以及随时间的上下文一致性等细微差别。
第三是冷启动问题(数据质量)。如果强化学习用于在监督微调(SFT)阶段后进行微调,糟糕的初始SFT策略(特别是对于视频)会阻碍强化学习代理有效探索和找到最优策略的能力。
六、未来展望:适应性推理能力的构建
针对"为什么直接回答模型优于长思考模型变体"这一问题,研究团队提出了几点见解:
首先,强化学习训练的不稳定性和敏感性使"长思考"方法对长视觉输入(视频)的优化特别具有挑战性。长思考模型的强化学习训练受到其扩展的"动作空间"的阻碍,这使得有效探索变得困难,可能导致陷入次优解决方案。这种复杂性也加剧了超参数敏感性,这是一个常见的强化学习挑战,有训练不稳定的风险。直接回答模型受益于更小的输出空间,简化了探索。
其次,并非所有提示都需要思考(过度思考)。"长思考"的好处取决于任务。对于许多常见提示,直接回答就足够了,强制推理过程可能引入不必要的复杂性、计算开销和潜在的思考错误。我们应该构建大型多模态模型,为不同提示执行自适应推理。
第三,强化学习数据规模有限。强化学习的有效性,特别是对于复杂的生成任务,高度依赖于数据的数量和质量。强化学习数据的限制直接影响长思考模型有效学习的能力。
那么,如何构建具有自适应推理能力的大型多模态模型呢?研究团队提出了三点建议:
首先是不同思考模式的推理激活。推理激活阶段应使用多样化数据,包括直接回答示例以实现简洁性,逐步推理示例以获取详细的思考过程,混合模态推理以处理各种输入类型,以及按需推理示例,提示特定输出样式。这种多方面的推理激活使模型接触到一系列推理策略,防止它被限制在单一、僵化的方法中。
其次是自适应推理的奖励函数。有效的强化学习微调以适应性推理需要超越回答和格式准确性的复杂奖励函数,例如,包括针对不同提示的短、中或长思考判断。这些应包括重视推理质量、简洁性和连贯性的复合奖励;惩罚简单问题过度思考的效率感知奖励;以及基于问题复杂性动态调整的自适应策略奖励。这种细致的信号引导模型为不同提示选择适当的推理深度和风格。
第三是迭代优化增强策略。大型多模态模型中自适应推理的最有效发展可能通过迭代优化循环发生。这个循环战略性地混合强制SFT、目标优化DPO和广泛探索GRPO,共同使模型能够逐步完善其选择和执行最佳推理策略的能力,适应各种视频理解任务。
七、结论:VerIPO如何改变视频大模型的推理能力?
面对视频大语言模型中深度推理的挑战,研究团队提出了VerIPO,一种新型的在线基于Rollout的验证器引导迭代策略优化算法。这种基于强化学习的GRPO-验证器-DPO循环使用小型语言模型验证器来完善生成的思维链,高效培养推理能力,无需大规模长思维链SFT冷启动数据。
VerIPO显著改善了推理一致性、准确性和响应长度,在视频基准测试中超越了更大、更强大的基线。虽然有效,但该方法也存在潜在的验证器依赖、有限的数据规模和响应长度以及计算成本等限制。
未来工作旨在通过探索验证器设计、优化流程和利用GRPO探索、目标DPO以及强大的SFT来解决这些问题,朝着在单模态环境中实现强大、长期推理能力的方向迈进。
研究团队的工作为提升视频大模型的推理能力开辟了新路径,不仅解决了当前方法的局限性,还为未来研究提供了有价值的见解和方向。随着这一领域的不断发展,我们可以期待看到更加智能、更具适应性的视频理解系统,为人工智能与人类交互的方式带来革命性变化。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。