微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI看视频时，它在"想"什么？西澳大学等联合团队给模型装上了一套"事件日历"

视频理解因果推理多目标强化学习

当AI看视频时，它在"想"什么？西澳大学等联合团队给模型装上了一套"事件日历"

作者：科技行者

2026-04-20 13:46

分享至：

这项由西澳大学、腾讯优图实验室等机构联合发布的研究（arXiv:2604.04415），提出了一套让视频AI先建立"结构化事件档案"再进行因果推理的方法。研究发现现有视频AI因缺乏结构化认知框架而导致推理混乱，为此构建了60000条训练数据，设计了四阶段训练流程和帕累托前沿引导优势平衡（P-FAB）算法来处理多目标优化冲突，最终训练出Factum-4B模型，在多个时序视频理解基准上超越了参数量更大的开源模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-20 13:46 • 科技行者

这项由西澳大学、腾讯优图实验室、香港中文大学（深圳）、南方科技大学和莫纳什大学联合开展的研究，以预印本形式于2026年4月6日发布在arXiv平台，论文编号为arXiv:2604.04415。研究的核心成果是一个名为Factum-4B的视频理解模型，以及一套训练它的全新方法体系。

你有没有想过，当一个人工智能模型"看"一段视频时，它究竟在做什么？表面上，它好像在"理解"画面，但实际上，现有的大多数视频AI都像一个记忆力不太好的观众——刚看完一段，就忘了前面发生了什么，更别提推断出各个事件之间的前因后果。

这恰恰是当前视频AI领域的核心痛点。研究团队发现，那些被设计为"会思考"的AI模型，在处理视频问题时往往比普通模型表现更差。这就好比你买了一个"加强版"学习工具，结果它学了半天，反而越学越乱。问题出在哪里？这支研究团队认为，根源在于这些模型没有建立起一套有条理的"事件日历"，就直接开始推理，导致思维飘移、证据丢失、逻辑混乱。

这项研究的解法，借鉴了人类大脑处理视频的方式。心理学研究早就发现，人在理解一段视频时，并不是一帧一帧地死记硬背，而是先在脑海里建立一个结构化的草图——谁在做什么、在哪里做、大概什么时间——然后再基于这个草图去推理。Factum-4B就是按照这个思路被设计出来的：先建立一份"结构化事件档案"，再据此进行有据可查的因果推理。

一、视频AI的通病：看了又忘，想了又乱

要理解这项研究解决了什么问题，先得搞清楚现有的视频AI到底哪里出了问题。

现有的视频大语言模型（也就是那些能回答关于视频问题的AI）普遍依赖一种叫做"思维链"的方法。这种方法本来是为文字任务设计的：让AI在给出答案之前，先写出一步步的推理过程，就像数学题的解题步骤一样。这在纯文字任务上效果不错，但视频不是文字。

视频的特点是信息量极度密集，而且充满了时间上的冗余。如果你让AI对着一段十分钟的视频做自由推理，它很容易陷入这样的困境：花了大量篇幅描述不重要的画面细节，把真正关键的线索淹没在一堆废话里；或者跳来跳去地分析几个孤立的时间点，完全没有把握住事件之间的连续性和因果关系。

研究团队做了一个直接的实验验证：他们把同一个基础模型分成两个版本，一个是普通的"指令跟随版"，一个是加入了自由思维链的"思考增强版"。结果发现，那个号称更会思考的版本，在几乎所有视频理解测试上都不如普通版本。这个结论听起来反直觉，但背后的道理很清晰：不加约束的思考，在视频这种高度时序化的信息面前，只会制造混乱，而不是带来洞见。

这就是这支研究团队要解决的核心问题：如何给AI的"思考"加上一套有意义的框架，让它既不乱说废话，又能真正理解视频里发生了什么。

二、解法核心：先记"事件日历"，再推理

研究团队提出的解法，围绕一个他们命名为"结构化事件档案"（Structured Event Facts）的概念展开。简单来说，这就是一份关于视频的结构化摘要，在AI开始回答任何问题之前，必须先把这份摘要写完。

这份摘要的格式非常具体。对于视频中的每一个时间段（大约每10到30秒一段），AI必须记录下以下六类信息：时间段的起止时间、画面中出现的人物、人物的具体动作、所处的场景、画面中的关键物体、摄像机的运动方式，以及一段把上述所有信息整合在一起的事件描述。

以论文中的示例为例——一段关于在停车场铲雪的视频——AI会先写下类似这样的档案：在0到39秒，一位穿黑色外套的女士用铲子清理人行道上的积雪，手持摄像机跟随拍摄；在39到100秒，一位戴王冠、穿米色夹克的男士进入停车场，开始铲除一辆银色汽车引擎盖上的积雪……如此逐段记录，直到视频结束。

有了这份"事件日历"，AI在回答"这个人什么时候开始铲地上的雪"这类问题时，就不再需要凭印象瞎猜，而是可以像侦探翻阅案件笔记一样，逐条核对档案，找出符合条件的时间段，然后通过检验前后事件的逻辑连贯性来确认答案。

研究团队把后续的推理过程也设计得同样有条理，分为三个步骤。第一步叫"全局搜索与定位"：AI在事件档案中寻找与问题相关的关键词，快速锁定候选的时间段。第二步叫"因果验证"：AI检查候选时间段的前一段和后一段，确认这个时间段在整个事件链中是否说得通——前面有没有合理的铺垫，后面有没有合理的延续。第三步叫"最终对齐"：AI进行全局一致性检查，确保推断出的时间范围真的包含在观察到的活动序列之内。

这三步放在一起，构成了一套从"找线索"到"验线索"再到"得结论"的完整推理流程，而不是像以前那样东一句西一句地乱想。

三、数据工程：60000条训练样本是怎么造出来的

有了好的设计思路，还得有足够高质量的训练数据，模型才能真正学会这套方法。研究团队为此专门构建了一个名为CausalFact-60K的数据集，总计包含32049条视频样本和约60000条标注。

数据来源方面，研究团队从多个高质量的视频时序理解数据集中筛选素材，包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等，所有视频均来自这些数据集的训练集，不使用原始的文字标注。为确保数据密度，团队设定了一个筛选标准：一段150秒的视频，至少要包含5个标注事件，才够资格进入训练集。那些事件密度不够的视频不会被完全丢弃，而是被保留下来用于后续的强化学习阶段。

数据标注过程分为两大阶段。第一阶段专注于生成结构化事件档案。团队使用了两个当时最强大的视觉语言模型交替工作：Qwen3-VL-235B负责生成初稿，Gemini 2.5 Pro负责审核和质量打分；然后两者对换角色，让生成方和审核方相互牵制，避免任何一个模型的偏好污染数据质量。生成好的档案还会经过人工抽样检查，每批1000条样本中随机抽取500条进行人工核验。

第二阶段在已有事件档案的基础上生成推理思维链。由于思维链对逻辑质量的要求更高，这个阶段只使用Gemini 2.5 Pro作为生成器，Qwen3-VL担任质量审核员。流程同样包含人工抽样检查。

在任务类型分布上，这批训练数据以时序定位任务为主，占53%，因为这类任务有明确的时间重叠率（IoU）作为评判标准，能给强化学习提供稳定的奖励信号。空间问答和推理问答各占约21%和20%，确保模型不只会定位时间，还保有基本的语义理解能力。剩余少量任务包括时序问答、全局描述和局部描述，起到补充覆盖的作用。

四、四阶段训练：从"认字"到"写作文"

拿到了数据，研究团队面临的下一个问题是：怎么把这些能力一步步注入模型？如果一上来就让模型学"先写档案、再推理、再给答案"这一整套流程，模型会因为任务太难而直接崩溃——要么档案写得一团糟，要么推理过程毫无结构，两者兼顾根本学不会。

解决办法是把训练拆成四个渐进式阶段，就像学写文章要先认字、再造句、再写段落、再写完整作文一样。

第一阶段专注于让模型学会"写事件档案"。这个阶段的任务只有一件事：给模型看视频，让它输出格式正确、内容准确的结构化事件描述。没有任何推理，纯粹是训练模型的结构化感知能力。

第一阶段半是一个过渡步骤，研究团队称之为"格式预热"。这个阶段的任务内容和第一阶段一模一样——还是写事件档案——但输出格式变了：模型现在必须把档案放在特定的XML标签里，后面再跟着一个思考标签和一个回答标签，只是思考内容暂时是个空占位符。这看起来微不足道，但实践发现如果跳过这步，模型在下一阶段会产生大量格式错误，就像要求一个从没写过格式文件的人突然交出规范的合同一样。

第二阶段是"思维预热"。这时候，训练数据换成了真实的视频问答任务，模型需要先生成事件档案，再按照三步推理框架（全局搜索、因果验证、最终对齐）写出完整的推理过程，最后给出答案。通过第一和第一半阶段的铺垫，模型这时候已经有了足够的基础来学习这套完整流程。

第三阶段是强化学习阶段，也是整个训练体系最复杂的部分，后面会专门展开讲。

五、奖励机制：如何评判AI的"答卷"质量

在强化学习阶段，AI需要知道自己做对了还是做错了，才能改进。研究团队设计了四类奖励信号，分别衡量AI回答的不同维度。

第一类是格式奖励，检查AI的回答是否严格遵守了"事件档案+思考过程+最终答案"的结构，以及思考过程里是否包含了"全局搜索"、"因果验证"、"最终对齐"、"前因"、"视觉验证"、"后果"这六个关键词。格式完全正确得满分1.0，只满足基本格式要求但缺少关键词得0.5分，格式完全错误得0分。

第二类是时序定位奖励，用于时间段定位类任务。评判标准是AI预测的时间段与正确答案的重叠程度。如果AI预测的是单个连续时间段，但正确答案是多个不连续片段，系统会取"覆盖率"和"区间重叠率"中较高的一个分数，避免因为格式差异而错误惩罚了实质正确的答案。

第三类是多项选择准确率，用于选择题类任务，非零即一，选对了就是满分，选错了就是零分。

第四类是长度奖励，这是最有趣的一个设计。研究团队发现，让AI在写完整推理链的同时保持简洁，是一件很难的事。如果任由AI自由生成，它很容易变成一个"废话大王"，把简单问题写成论文。为此团队设计了一个"软惩罚"机制：在目标长度以内不扣分，超过目标长度之后按比例线性扣分，超过上限则直接给零分。这比一刀切的硬截断要温和得多，不会造成训练的不稳定。

六、平衡的难题：强化学习遇上多目标冲突

四类奖励听起来很全面，但同时优化它们却带来了一个头疼的问题。研究团队发现，这四个目标之间存在天然的紧张关系——特别是"内容完整性"和"长度效率"之间的矛盾。要写一份完整、详细的事件档案，必然需要更多的篇幅；但长度奖励又在惩罚过长的输出。这两个目标在拉锯，导致模型在训练时无所适从。

传统的解决方法是把多个奖励加权求和，化为一个综合分数。但这种方法有一个根本缺陷：权重是固定的，而实际训练过程中不同奖励信号之间的相对重要性会动态变化。固定权重往往会让模型倾向于把容易拿高分的奖励做到极致，而忽视那些本来更稀缺、更关键的信号。

研究团队借鉴了一种叫做"多梯度下降算法"（MGDA）的数学工具，提出了他们自己的解法，称为"帕累托前沿引导优势平衡"算法，简称P-FAB。

这个名字听起来很吓人，但核心思想可以用一个简单的比喻来理解。假设你在组织一支四人乐队，四个人分别代表格式、准确性、因果完整性和简洁性四个目标。每个人都有自己想要演奏的方向，如果四个人各说各话，演出就会一团糟。P-FAB的作用，就是找出一个指挥方向，让这四个人都往同一个方向走，同时确保那些平时抢不到话语权的成员（比如因果完整性这个难以满足的目标）能得到更多关注。

具体在数学上，P-FAB的做法是这样的：先对每个奖励信号做中心化处理，消除基准差异；再对各信号做标准化处理，消除量纲不同带来的影响；然后用一个叫"弗兰克-沃尔夫算法"的迭代方法，在标准化空间里寻找一组权重，使得加权后的综合方向对所有目标都尽可能有利，而不是偏向某一个。

最终得到的权重是动态的——每一批训练数据，权重都会重新计算。那些当前表现较差、信号稀疏的目标会自动获得更高的权重，从而得到更多关注；那些已经做得不错的目标则适当降权。这就像一个有弹性的管理系统，总是把资源优先投入到最需要改进的地方。

论文中给出了一个对比示例：同样一组训练样本，在传统GRPO方法下，四个不同的候选回答可能计算出完全相同的优势值，模型根本无法区分它们的高下；而P-FAB方法下，四个样本得到了明显不同的分数，让模型能够清晰地判断哪个方向值得追求。

七、实验结果：小模型的大表现

Factum-4B是以Qwen3-VL-4B-Instruct为基础模型训练出来的，参数量只有40亿，属于相当轻量的规模。研究团队在多个视频理解基准测试上进行了评估，结果出人意料地强势。

在视频时序定位任务上，研究团队测试了三个数据集：Charades-TimeLens（一个重新标注了高质量时间戳的室内活动视频集）、ActivityNet-TimeLens（重新标注了更精确边界的开放域视频集）以及ActivityNet-Captions（一个广泛使用的大规模基准）。评判指标是"Recall@1"，即AI给出的最优预测答案与正确答案的时间重叠率超过某个阈值的比例，阈值分别为0.3、0.5和0.7——阈值越高，对精度的要求越严格。

在ActivityNet-Captions上，Factum-4B的R1@0.5达到48.4%，R1@0.7达到28.1%，大幅超过了参数量更大的Time-R1-7B模型（后者R1@0.5仅39.0%，R1@0.7仅21.4%）。在高精度指标R1@0.7上，Factum-4B在所有开源模型中排名第一。更值得注意的是，Factum-4B使用的帧率仅为每秒1帧，而对比的开源模型普遍使用每秒2帧，相当于Factum-4B用更少的视觉信息取得了更好的结果。

在通用视频理解基准上，研究团队还测试了VideoMME（涵盖电影、体育、纪录片的长视频评测集）、MLVU（面向长视频的多任务评测集）、ETBench（细粒度时间敏感视频理解基准）和NExT-GQA（基于因果和时序问答的视觉定位基准）。

Factum-4B在VideoMME上达到64.7%的准确率，在NExT-GQA上达到73.6%，比同参数量的Qwen3-VL-4B-Thinking版本高出整整7个百分点。在ETBench的8个子任务中，Factum-4B在6个上取得了最高分，其中时序视频定位子任务得分66.1%，时序事件匹配子任务得分26.8%，后者甚至超过了专有闭源模型GPT-4o。

消融实验进一步验证了每个设计模块的贡献。去掉事件档案只保留推理过程，VideoMME准确率从64.7%跌至60.8%；去掉推理过程只保留事件档案，准确率跌至58.5%，是所有变体中跌幅最大的，说明如果没有推理桥梁，档案里的信息也无法被有效利用。去掉强化学习只用监督微调，ActivityNet R1@0.3比完整模型低8.3个百分点。将P-FAB替换为普通GRPO，在group size为4时性能差距为1.2个百分点，在group size为8时差距扩大到2.5个百分点，表明P-FAB的优势在更大规模的对比组设置下更加突出。

八、这项研究的边界与展望

研究团队在论文中也坦率地指出了当前工作的局限性。Factum-4B的训练数据规模仍然有限，总共只有约32000个视频样本，相比业界头部模型的训练规模还有相当大的差距。这意味着模型在某些特定类型的视频任务上可能表现不稳定，要想在所有视频理解任务上都取得优异表现，需要进一步扩展数据规模。

此外，这项研究目前聚焦于视频时序理解和因果推理方向，对于纯粹的空间理解（比如精确定位画面中的物体位置）、复杂的多轮对话或需要外部知识的问答，尚未进行系统性探索。

从更宏观的视角来看，这项研究揭示了一个有趣的认知科学启示：人工智能的设计越接近人类认知的实际工作方式，往往就越有效。人类不是靠强大的蛮力逐帧记忆视频，而是靠构建有意义的事件结构来理解视频；AI也不应该靠无结构的冗长推理来处理视频，而应该先建立结构化的认知地图，再在地图上寻路。

归根结底，这项研究做的事情可以用一句话概括：它给AI看视频时加上了一个"先记笔记、再动笔答题"的习惯。这个习惯看起来简单，却解决了长期困扰视频AI的核心难题——如何在时间维度上保持因果逻辑的连贯性。

以前的视频AI像一个只会随手乱写读书笔记的学生，内容散乱、重点不突出、前后矛盾；Factum-4B更像一个养成了良好学习习惯的学生，每次读完一段就整理好时间线，标注好关键事件，然后再基于这份有条理的笔记去回答问题。成绩的差距，从实验数据来看是显而易见的。

对于普通人来说，这项研究离日常生活的距离或许比想象中近得多。视频内容的智能检索、安防摄像头的行为分析、体育比赛的自动解说、医疗手术视频的质量审查——所有这些应用场景都需要AI不仅能"看到"视频中发生了什么，更要能理解事件之间的时间顺序和因果关系。Factum-4B的方法提供了一条可扩展的路径，而且它用一个40亿参数的小模型就做到了许多70亿参数模型做不到的事情，这对于资源有限的研究者和开发者来说是一个颇具参考价值的信号。

对这项研究感兴趣的读者，可以通过arXiv编号2604.04415查阅完整论文，论文题目为"Structured Causal Video Reasoning via Multi-Objective Alignment"。

---

Q&A

Q1：Factum-4B的"结构化事件档案"和普通视频字幕有什么区别？

A：普通视频字幕通常是对画面的自由描述，格式随意，内容可能冗长也可能遗漏关键信息。Factum-4B的结构化事件档案则严格要求每个时间段必须记录六类信息：人物、动作、场景、物体、摄像机运动和事件描述，格式固定且每类信息都有明确的填写规则（比如画面中没有人时，动作一栏必须写"None"）。这种强制结构确保了档案的信息密度和格式一致性，也让后续的推理过程有可靠的依据可查，而不是在模糊描述中猜测。

Q2：P-FAB算法为什么比传统的多奖励加权方法更有效？

A：传统方法把多个奖励信号乘以固定权重后加总，得到一个综合分数。这有两个问题：权重固定意味着无法适应训练过程中不同目标的动态变化；加总之后不同目标之间的差异被抹平，模型看不出哪些样本在哪些方面更优秀。P-FAB在标准化空间里动态计算权重，确保稀缺的、难以满足的目标获得更多关注，同时为每个训练样本生成更有区分度的优势值，让模型在正确的方向上学习。

Q3：Factum-4B在视频理解上比GPT-4o强在哪里？

A：Factum-4B并不是全面超越GPT-4o，而是在特定的时间敏感任务上表现更优。具体来说，在ETBench基准的时序事件匹配子任务上，Factum-4B得分26.8%，高于GPT-4o的13.6%；在时序视频定位子任务上同样领先。这主要得益于Factum-4B专门针对时间因果推理进行了优化训练，而通用大模型在这类精细化时序任务上并不具备专项优势。不过在其他通用理解任务上，GPT-4o等大型闭源模型整体上仍有较大优势。

视频理解因果推理多目标强化学习

分享至