微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中科院与京东联手：让AI真正"看懂"视频的强化学习新框架EasyVideoR1

强化学习视频理解高效训练框架

中科院与京东联手：让AI真正"看懂"视频的强化学习新框架EasyVideoR1

作者：科技行者

2026-04-29 09:17

分享至：

EasyVideoR1是由中国科学院信息工程研究所与京东集团联合开发的视频强化学习训练框架，于2026年4月发布（arXiv:2604.16893）。该框架专为大型视觉语言模型的视频理解强化学习训练而设计，通过离线预处理缓存机制将训练吞吐量提升1.47倍，并提供涵盖11种任务类型的统一奖励系统。框架同时支持混合离线-在线训练和图文联合训练，配备覆盖22个主流基准的异步评估流程。在32张H200显卡上训练约20小时后，Qwen3-VL-8B-Instruct在多个视频理解基准上超越了官方思考版本。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 09:17 • 科技行者

这项研究由中国科学院信息工程研究所、中国科学院大学网络空间安全学院以及京东集团联合完成，论文于2026年4月以预印本形式发布，编号为arXiv:2604.16893。

视频，是这个时代最丰富的信息载体。每天，我们刷短视频、看直播、分析监控录像、观看教学课程——视频里藏着动作、时间、空间、故事。然而，即便是当下最聪明的AI，真正"看懂"视频依然是一个巨大的挑战。这不是因为AI不够聪明，而是因为训练它看懂视频这件事，本身就难得出奇。

研究团队注意到一个令人头疼的现状：近两年，一种叫做"强化学习"的训练方式在让AI学会推理和解题方面取得了惊人的成果——DeepSeek-R1就是典型代表。这种方法的核心思路，类似于用"对错反馈"来训练AI，就像训练一只小狗做对了给零食、做错了不给，久而久之小狗就学会了。但当研究者们想把这套方法用到视频理解上时，却撞上了一堵厚墙。

训练AI看懂视频，面临三座大山。第一，视频任务五花八门：有选择题、有找出视频里某段时间发生了什么、有追踪物体位置，还有数学推理——每种任务的"对错"标准完全不同，没有统一的评分规则。第二，视频数据处理极其耗时：每次AI模型训练时，都要重新解码视频文件、截取帧、调整尺寸，这个过程非常消耗计算机资源，就像你每次做饭都要从零开始种菜、收割，而不是直接用超市买来的蔬菜。第三，评估结果难以复现：视频评测有大量敏感参数，比如每秒几帧、最多用多少帧、图像分辨率多高，任何一个参数设置不当，AI看起来就会表现得很差，根本无法做公平比较。

正是为了解决这三座大山，研究团队开发了EasyVideoR1——一个专门为视频理解强化学习训练而生的完整框架。

一、视频训练的"备菜革命"：离线预处理与缓存加速

以做饭来打比方，传统的视频AI训练就像每道菜都要现买食材、现洗现切，而且同样的食材要切三遍——因为训练流程的三个阶段（数据加载、生成响应、模型更新）各自独立地去解码视频文件，完全不共享结果。这种重复劳动让训练速度极为低下，CPU忙得不可开交，而昂贵的GPU却在等待发呆。

EasyVideoR1的解决方案叫做"离线预处理与缓存"，本质上就是提前把所有视频的帧截好、尺寸调好，存成一种专用文件格式。这样一来，训练时直接从硬盘读取处理好的数据，就像从冰箱取出备好的食材直接下锅，省去了反复处理的麻烦。

更聪明的是，这个缓存系统有一套自动失效机制。每个缓存文件都用"视频路径+帧率+最大帧数+分辨率"这四个参数联合命名，一旦你改变了任何一个参数，系统就知道旧缓存已经过时，会自动重新生成，完全不用手动管理。

存储空间是不是会膨胀？研究团队对此有清醒的认识。视频压缩文件（比如MP4格式）通常有几十倍到几百倍的压缩率，直接存帧确实比原视频大很多。但关键在于，存储的帧已经经过时间采样（比如每秒只取2帧）和空间压缩（降低分辨率），所以实际占用是可控的。以一个10分钟的视频为例，按2帧/秒、最多256帧采样后，缓存文件大约360MB，而原始压缩视频可能只有几十MB。团队认为这是"用便宜的存储换昂贵的GPU计算时间"，非常划算。

训练时，数据加载阶段只记录缓存文件的路径字符串（几十个字节），而不传输庞大的帧数据，真正的文件读取发生在每台工作机本地，大幅减少了机器间的数据传输开销。同时，系统通过传递一份轻量的"视频元数据"（记录帧率、采样索引、空间维度），确保训练流程的各个阶段都知道这些帧已经处理过，不会再多此一举地重复操作。

这套机制的效果有多好？在32张H200显卡的实验中，与原来每次现场解码视频相比，整体训练速度提升了1.47倍。具体来说，负责生成AI回答的阶段速度提升了1.52倍，而负责计算参考模型概率的阶段速度提升了惊人的2.85倍——因为这个阶段原本需要把视频重新解码一遍，缓存让它完全省去了这步。整个步骤平均耗时从194秒降至132秒，每秒处理的token数量从797增长到1175。

二、应对"花样百出"的视频任务：统一的任务感知奖励系统

强化学习训练AI的核心，是给AI的每次回答打分——做对了加分，做错了不加分。但视频理解的任务类型极其多样，打分规则自然也各不相同。EasyVideoR1建立了一个模块化的奖励库，就像一个有许多专用工具的工具箱，每种工具负责一类任务的评分。

对于选择题（比如"视频里的人做了什么？A选项还是B选项"），系统采用精确匹配——答对就是答对，答错就是答错。对于数值类问题（比如"这段视频里出现了几只猫"），系统进行数字比较，允许一定误差。对于时间定位任务（比如"篮球投篮发生在视频的哪个时间段"），系统用一维交并比（tIoU）来衡量预测时间段与正确时间段的重叠程度，就像评估两把尺子有多少刻度是重合的。更复杂的是时空定位任务，既要找到时间段，又要确定空间位置（比如画出人的位置框），系统综合时间交并比和空间交并比各占一半权重来打分。

开放式问答（比如"描述一下这段视频里发生了什么"）使用ROUGE分数，衡量AI的回答与标准答案有多少词语上的重叠。数学题使用符号验证，确保AI不只是"蒙对了"而是真的推导正确。OCR（识别视频中出现的文字）用词错误率来衡量。对于需要生成代码（SVG图形或HTML页面）的任务，系统实际运行代码来验证输出。而对于主观性较强的偏好类任务，则调用大语言模型作为"评委"。

所有这些评分模块通过一个统一的路由器连接在一起：中央调度器读取每个样本的"任务类型"字段，自动转发给对应的打分模块。这意味着研究人员如果想新增一种任务类型，只需编写一个新的评分模块并注册进来，完全不用改动核心训练代码。提示词模板则通过Jinja2动态渲染，根据不同任务类型自动生成合适的格式，无需手动逐一处理。

三、混合训练范式：把"老经验"和"新探索"结合起来

传统的强化学习训练有一个天生的弱点，叫做"冷启动问题"。新手AI在训练初期，因为还没学会如何回答视频问题，随机乱猜几乎得不到任何正确答案，也就没有任何奖励信号，梯度更新几乎是无效的——就像一个从来没学过游泳的人被扔进深水区，只会不停下沉，根本学不会游泳技巧。

EasyVideoR1的解决方案是"混合离线-在线训练范式"。具体来说，训练时每个问题会生成n个回答。通常情况下这n个全都是AI当前实时生成的（在线回答）。而在混合模式下，系统会生成n-1个在线回答，然后把最后一个槽位替换成预先收集好的高质量参考回答（离线轨迹）——这些参考回答来自更强大的模型或更好的检查点。这n个回答（含一个高质量参考）组成一个组，一起进入奖励计算和模型更新流程。

这个设计有几个精妙之处。它完全不修改GRPO（强化学习算法本身），只是在生成回答的阶段悄悄替换了一个槽位，对算法层面透明无感。它用一个开关（enable_mix_policy）控制，开了就是混合模式，关了就恢复标准在线训练，非常灵活。更重要的是，它特别适合那些"纯在线训练根本学不动"的难题——比如复杂的时空推理，AI初期完全猜不对，一点奖励也拿不到，混入几个高质量参考回答，就能给AI一些"方向感"，帮助它逐渐找到正确的解题路径。

四、图文联合训练：让视频AI借"图片的力"

视频数据标注非常昂贵，高质量的视频问答数据集远不如图片数据集丰富。EasyVideoR1支持在同一批次训练数据中混入图片和视频，让两种模态相互促进。

核心挑战在于，图片和视频对分辨率的需求截然不同。图片适合高空间分辨率（细节清晰），视频则需要在"每帧分辨率"和"帧数"之间找平衡。EasyVideoR1为此引入了独立的参数配置：图片有自己的像素预算（image_max_pixels），视频有独立的像素预算（video_max_pixels）和最大帧数（video_max_frames），两者互不干扰，可以分别调优。

在工程实现上，还有一个棘手问题：大型视觉语言模型通常有独立的图片编码器和视频编码器分支。当一个微批次里全是视频时，图片编码器分支没有输入，在分布式训练（FSDP）框架下会引发梯度同步失败错误——因为有参数没有参与这次前向传播，无法正常同步。EasyVideoR1的解法是生成一个全零的"假张量"填充缺失模态的编码器输入，并通过一个乘以零的加法把它的输出接入计算图。这样所有参数都参与了前向传播，不会触发同步错误，同时零权重确保不会给梯度引入任何杂质。

系统还引入了"严格失败策略"：如果图片或视频的占位符token数量和视觉编码器实际产出的特征数量不匹配，训练会立即抛出异常而不是悄悄截断或填充。这听起来有点严苛，但实际上非常有用——它能在长时间训练运行的早期就暴露数据处理中的细微错误，防止这些错误在几百步之后才以莫名其妙的性能下降形式出现。

五、让评测不再是折磨：异步多基准评估框架

评估一个视频AI模型的性能，是一项极度耗时的工作。视频要解码、要截帧、要调整尺寸，然后喂给模型推理，等待输出，再打分——每个环节串行执行，GPU和CPU轮流等对方，效率极低，就像一家餐厅只有一个服务员既负责端菜又负责收银，忙完一桌才能接待下一桌。

EasyVideoR1的评估框架做了两项关键改造，把这个串行流程变成了全异步的流水线作业。

第一项改造是预计算帧缓存，与训练阶段的缓存思路一致：在正式推理开始前，把所有视频的帧全部提前处理好存到硬盘。评估时直接读缓存文件，把每个视频的预处理时间从几十秒压缩到毫秒级。缓存同样按（视频路径、目标帧数、采样帧率、空间分辨率）四元组命名，参数一变自动失效重建。批量建立缓存时，系统把视频分发给N个独立工作进程并行处理，几乎实现线性加速。

第二项改造是基于vLLM异步引擎的三阶段流水线。传统评估是：加载一批数据→推理→输出→加载下一批，各阶段严格串行。新框架把这三件事拆分成同时运行的三条"流水线"：IO阶段有一个后台线程池持续从硬盘读取缓存帧，并在数据就绪后立即提交给推理引擎，不等待推理完成；预填充（Prefill）阶段每收到一个新请求就立即开始构建其键值缓存，不等其他在途请求完成；解码（Decode）阶段完成预填充的请求立即进入逐token生成，其解码步骤与后续请求的预填充计算交错进行。三条流水线完全重叠：在某一时刻，IO阶段可能在读第N+2个样本，预填充阶段在处理第N+1个，解码阶段在为第N个生成token，GPU几乎从不空闲。

此外，框架还启用了"分块预填充"技术：把超长输入序列切成固定大小的token块，让调度器能把预填充块和解码token打包在同一个GPU调度步骤里执行，防止单个超长视频序列独占GPU。

以LVBench这个长视频理解基准为例，这套评估框架比传统推理框架快了约6到7倍。

目前，框架已经集成了22个主流视频理解基准，覆盖六大类别：通用视频理解类（Video-MME、MVBench、TempCompass、MotionBench等）、长视频理解类（LVBench、LongVideoBench、MLVU）、视频推理类（Video-Holmes、MINERVA、VCR-Bench等）、STEM知识类（MMVU、Video-MMMU、VideoMathQA）、空间理解类（VSI-Bench）、时空定位类（Charades-STA、STVG）以及流式视频类（OVOBench、ODVBench、LiveSports-QA）。研究团队验证了这套框架产出的分数与各基准官方报告的分数高度吻合，解决了长期以来"自己测出来的分数和论文里不一样"的复现难题。

六、实验验证：训练出来的模型真的更好吗

实验选用Qwen3-VL-8B-Instruct作为基础模型，这是目前最强的开源视频语言模型之一，采用了一种叫做DeepStack的架构，配合交错式多模态旋转位置编码（M-RoPE）。训练数据来自约10万条视频样本，汇聚自OneThinker、Video-R1、VideoChat-R1等公开视频强化学习数据集。

为了确保训练样本处于模型的"最佳学习区间"，研究团队对数据做了筛选：对每个候选样本让基础模型做8次随机回答，只保留"有时对、有时错"的样本（通过率在0到1之间），剔除那些AI每次都能轻松答对的简单题。这个策略类似于学习时只做"跳一跳够得着"的题目，太简单的题做了也没长进，太难的题做了也只能乱猜。

训练使用GRPO算法的DAPO变体，采用非对称裁剪（低端裁剪0.2、高端裁剪0.28），禁用KL惩罚。每次生成8个回答为一组，全局批大小256。视频按每秒2帧采样，最多128帧，每帧像素预算262144；图片独立使用1048576像素预算。回答最长4096个token。32张GPU采用FSDP全分片，开启梯度检查点、无填充注意力机制和动态批处理。经过约20小时训练（200步GRPO更新）后评估结果。

结果相当亮眼。与基础的Qwen3-VL-8B-Instruct相比，经过EasyVideoR1训练后的模型平均准确率从62.1提升到64.4，提升了2.3个百分点。更重要的是，这个经过强化学习训练的模型在多个基准上超越了官方发布的Qwen3-VL-8B-Think（思考版本）。

提升最为显著的两个方向是视频推理和数学推理。Video-Holmes（视频复杂推理基准）提升了6.6个百分点，VideoMathQA（视频数学题推理基准）提升了6.7个百分点。这说明强化学习特别善于激发模型"深度思考"的能力，让它在面对需要多步推理的视频题目时能够展现出更强的解题能力。

通用视频理解能力也得到稳定提升：Video-MME提升2.1个百分点，MVBench提升3.5个百分点，LVBench提升0.7个百分点，说明强化学习训练并没有让模型在推理上变强的同时丢失基础的视频理解能力。

少数基准出现了轻微下滑，比如TempCompass下降0.3个百分点，MLVU下降0.6个百分点，Video-MMMU下降1.7个百分点。这是目前版本训练数据和配置的局限，研究团队坦诚地呈现了这些结果，而非选择性报告。

七、与其他框架的差异：EasyVideoR1做了什么别人没做的

这套框架建立在EasyR1和veRL两个开源项目之上，但针对视频场景做了大量别人没做的事情。EasyR1和OneThinker都在某种程度上支持视频，但两者都会在训练流程的三个阶段各自独立解码视频文件，产生重复劳动；EasyVideoR1的离线缓存彻底消除了这一冗余。在评估方面，现有框架都没有提供能忠实复现官方分数的评测代码，而视频评测对帧率、分辨率、提示词格式等参数极为敏感，细微的设置差异就会导致分数大幅偏低；EasyVideoR1提供了经过仔细校对、与官方分数高度吻合的评测流程。混合离线-在线训练和图文联合训练则是EasyVideoR1新增的研究友好接口，让更复杂的训练策略只需一个配置开关即可使用。

说到底，EasyVideoR1解决的是一个"基础设施"问题：研究人员明明有好的想法，却被工程上的细节障碍拦住了——视频太慢、任务太多、评测不准、混合训练报错。这个框架把这些障碍一一清除，让研究者可以把精力放在算法创新本身，而不是反复踩已知的工程坑。

归根结底，让AI真正看懂视频这件事，目前还只是刚刚起步。EasyVideoR1是一个工具，一个基础设施，一个邀请更多研究者一起探索的开放平台。它的出现不是终点，而是加速器——让更多人能以更低的门槛、更高的效率参与到这场"教AI看世界"的旅程中来。如果你对这个领域感兴趣，不妨去翻翻这篇论文（arXiv:2604.16893）或者项目代码，说不定你的一个小改进，就会成为推动这个领域前进的一块砖。

Q&A

Q1：EasyVideoR1的离线视频缓存会不会导致硬盘空间不够用？

A：会有一定的存储开销，但研究团队认为总体可控。缓存的帧已经经过采样和缩放，不是原始完整分辨率，所以比你想象的小很多。以10分钟视频按每秒2帧、最多256帧为例，缓存文件约360MB，而且可以通过使用uint8像素格式进一步压缩。研究团队的态度是"用便宜的存储换昂贵的GPU时间"，对大多数研究场景来说是合算的。

Q2：EasyVideoR1支持哪些视觉语言模型？

A：目前框架原生支持Qwen2-VL、Qwen2.5-VL、Qwen3-VL以及Qwen3.5系列视觉语言模型，其中Qwen3.5系列的支持是由EasyVideoR1团队自行贡献的。这些是当前最主流的开源视频语言模型家族，覆盖了不同模型规模和代际，研究者可以直接在这些模型上比较不同算法的效果，无需额外的工程适配工作。

Q3：EasyVideoR1混合离线-在线训练对所有视频任务都有效吗？

A：不是所有任务都需要混合训练，但对那些"纯在线训练完全学不动"的高难度任务特别有效。当AI初期对某类问题完全无从下手，每次尝试都拿不到任何奖励时，混入少量高质量参考回答可以给模型提供方向感。对于那些AI已经能偶尔答对的任务，标准的纯在线训练通常就已经足够了。

强化学习视频理解高效训练框架

分享至