微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI看视频时,它在"想"什么?西澳大学等联合团队给模型装上了一套"事件日历"

当AI看视频时,它在"想"什么?西澳大学等联合团队给模型装上了一套"事件日历"

2026-04-20 13:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-20 13:46 科技行者

这项由西澳大学、腾讯优图实验室、香港中文大学(深圳)、南方科技大学和莫纳什大学联合开展的研究,以预印本形式于2026年4月6日发布在arXiv平台,论文编号为arXiv:2604.04415。研究的核心成果是一个名为Factum-4B的视频理解模型,以及一套训练它的全新方法体系。

你有没有想过,当一个人工智能模型"看"一段视频时,它究竟在做什么?表面上,它好像在"理解"画面,但实际上,现有的大多数视频AI都像一个记忆力不太好的观众——刚看完一段,就忘了前面发生了什么,更别提推断出各个事件之间的前因后果。

这恰恰是当前视频AI领域的核心痛点。研究团队发现,那些被设计为"会思考"的AI模型,在处理视频问题时往往比普通模型表现更差。这就好比你买了一个"加强版"学习工具,结果它学了半天,反而越学越乱。问题出在哪里?这支研究团队认为,根源在于这些模型没有建立起一套有条理的"事件日历",就直接开始推理,导致思维飘移、证据丢失、逻辑混乱。

这项研究的解法,借鉴了人类大脑处理视频的方式。心理学研究早就发现,人在理解一段视频时,并不是一帧一帧地死记硬背,而是先在脑海里建立一个结构化的草图——谁在做什么、在哪里做、大概什么时间——然后再基于这个草图去推理。Factum-4B就是按照这个思路被设计出来的:先建立一份"结构化事件档案",再据此进行有据可查的因果推理。

一、视频AI的通病:看了又忘,想了又乱

要理解这项研究解决了什么问题,先得搞清楚现有的视频AI到底哪里出了问题。

现有的视频大语言模型(也就是那些能回答关于视频问题的AI)普遍依赖一种叫做"思维链"的方法。这种方法本来是为文字任务设计的:让AI在给出答案之前,先写出一步步的推理过程,就像数学题的解题步骤一样。这在纯文字任务上效果不错,但视频不是文字。

视频的特点是信息量极度密集,而且充满了时间上的冗余。如果你让AI对着一段十分钟的视频做自由推理,它很容易陷入这样的困境:花了大量篇幅描述不重要的画面细节,把真正关键的线索淹没在一堆废话里;或者跳来跳去地分析几个孤立的时间点,完全没有把握住事件之间的连续性和因果关系。

研究团队做了一个直接的实验验证:他们把同一个基础模型分成两个版本,一个是普通的"指令跟随版",一个是加入了自由思维链的"思考增强版"。结果发现,那个号称更会思考的版本,在几乎所有视频理解测试上都不如普通版本。这个结论听起来反直觉,但背后的道理很清晰:不加约束的思考,在视频这种高度时序化的信息面前,只会制造混乱,而不是带来洞见。

这就是这支研究团队要解决的核心问题:如何给AI的"思考"加上一套有意义的框架,让它既不乱说废话,又能真正理解视频里发生了什么。

二、解法核心:先记"事件日历",再推理

研究团队提出的解法,围绕一个他们命名为"结构化事件档案"(Structured Event Facts)的概念展开。简单来说,这就是一份关于视频的结构化摘要,在AI开始回答任何问题之前,必须先把这份摘要写完。

这份摘要的格式非常具体。对于视频中的每一个时间段(大约每10到30秒一段),AI必须记录下以下六类信息:时间段的起止时间、画面中出现的人物、人物的具体动作、所处的场景、画面中的关键物体、摄像机的运动方式,以及一段把上述所有信息整合在一起的事件描述。

以论文中的示例为例——一段关于在停车场铲雪的视频——AI会先写下类似这样的档案:在0到39秒,一位穿黑色外套的女士用铲子清理人行道上的积雪,手持摄像机跟随拍摄;在39到100秒,一位戴王冠、穿米色夹克的男士进入停车场,开始铲除一辆银色汽车引擎盖上的积雪……如此逐段记录,直到视频结束。

有了这份"事件日历",AI在回答"这个人什么时候开始铲地上的雪"这类问题时,就不再需要凭印象瞎猜,而是可以像侦探翻阅案件笔记一样,逐条核对档案,找出符合条件的时间段,然后通过检验前后事件的逻辑连贯性来确认答案。

研究团队把后续的推理过程也设计得同样有条理,分为三个步骤。第一步叫"全局搜索与定位":AI在事件档案中寻找与问题相关的关键词,快速锁定候选的时间段。第二步叫"因果验证":AI检查候选时间段的前一段和后一段,确认这个时间段在整个事件链中是否说得通——前面有没有合理的铺垫,后面有没有合理的延续。第三步叫"最终对齐":AI进行全局一致性检查,确保推断出的时间范围真的包含在观察到的活动序列之内。

这三步放在一起,构成了一套从"找线索"到"验线索"再到"得结论"的完整推理流程,而不是像以前那样东一句西一句地乱想。

三、数据工程:60000条训练样本是怎么造出来的

有了好的设计思路,还得有足够高质量的训练数据,模型才能真正学会这套方法。研究团队为此专门构建了一个名为CausalFact-60K的数据集,总计包含32049条视频样本和约60000条标注。

数据来源方面,研究团队从多个高质量的视频时序理解数据集中筛选素材,包括ActivityNet-Captions、QVHighlights、COIN、Charades-STA等,所有视频均来自这些数据集的训练集,不使用原始的文字标注。为确保数据密度,团队设定了一个筛选标准:一段150秒的视频,至少要包含5个标注事件,才够资格进入训练集。那些事件密度不够的视频不会被完全丢弃,而是被保留下来用于后续的强化学习阶段。

数据标注过程分为两大阶段。第一阶段专注于生成结构化事件档案。团队使用了两个当时最强大的视觉语言模型交替工作:Qwen3-VL-235B负责生成初稿,Gemini 2.5 Pro负责审核和质量打分;然后两者对换角色,让生成方和审核方相互牵制,避免任何一个模型的偏好污染数据质量。生成好的档案还会经过人工抽样检查,每批1000条样本中随机抽取500条进行人工核验。

第二阶段在已有事件档案的基础上生成推理思维链。由于思维链对逻辑质量的要求更高,这个阶段只使用Gemini 2.5 Pro作为生成器,Qwen3-VL担任质量审核员。流程同样包含人工抽样检查。

在任务类型分布上,这批训练数据以时序定位任务为主,占53%,因为这类任务有明确的时间重叠率(IoU)作为评判标准,能给强化学习提供稳定的奖励信号。空间问答和推理问答各占约21%和20%,确保模型不只会定位时间,还保有基本的语义理解能力。剩余少量任务包括时序问答、全局描述和局部描述,起到补充覆盖的作用。

四、四阶段训练:从"认字"到"写作文"

拿到了数据,研究团队面临的下一个问题是:怎么把这些能力一步步注入模型?如果一上来就让模型学"先写档案、再推理、再给答案"这一整套流程,模型会因为任务太难而直接崩溃——要么档案写得一团糟,要么推理过程毫无结构,两者兼顾根本学不会。

解决办法是把训练拆成四个渐进式阶段,就像学写文章要先认字、再造句、再写段落、再写完整作文一样。

第一阶段专注于让模型学会"写事件档案"。这个阶段的任务只有一件事:给模型看视频,让它输出格式正确、内容准确的结构化事件描述。没有任何推理,纯粹是训练模型的结构化感知能力。

第一阶段半是一个过渡步骤,研究团队称之为"格式预热"。这个阶段的任务内容和第一阶段一模一样——还是写事件档案——但输出格式变了:模型现在必须把档案放在特定的XML标签里,后面再跟着一个思考标签和一个回答标签,只是思考内容暂时是个空占位符。这看起来微不足道,但实践发现如果跳过这步,模型在下一阶段会产生大量格式错误,就像要求一个从没写过格式文件的人突然交出规范的合同一样。

第二阶段是"思维预热"。这时候,训练数据换成了真实的视频问答任务,模型需要先生成事件档案,再按照三步推理框架(全局搜索、因果验证、最终对齐)写出完整的推理过程,最后给出答案。通过第一和第一半阶段的铺垫,模型这时候已经有了足够的基础来学习这套完整流程。

第三阶段是强化学习阶段,也是整个训练体系最复杂的部分,后面会专门展开讲。

五、奖励机制:如何评判AI的"答卷"质量

在强化学习阶段,AI需要知道自己做对了还是做错了,才能改进。研究团队设计了四类奖励信号,分别衡量AI回答的不同维度。

第一类是格式奖励,检查AI的回答是否严格遵守了"事件档案+思考过程+最终答案"的结构,以及思考过程里是否包含了"全局搜索"、"因果验证"、"最终对齐"、"前因"、"视觉验证"、"后果"这六个关键词。格式完全正确得满分1.0,只满足基本格式要求但缺少关键词得0.5分,格式完全错误得0分。

第二类是时序定位奖励,用于时间段定位类任务。评判标准是AI预测的时间段与正确答案的重叠程度。如果AI预测的是单个连续时间段,但正确答案是多个不连续片段,系统会取"覆盖率"和"区间重叠率"中较高的一个分数,避免因为格式差异而错误惩罚了实质正确的答案。

第三类是多项选择准确率,用于选择题类任务,非零即一,选对了就是满分,选错了就是零分。

第四类是长度奖励,这是最有趣的一个设计。研究团队发现,让AI在写完整推理链的同时保持简洁,是一件很难的事。如果任由AI自由生成,它很容易变成一个"废话大王",把简单问题写成论文。为此团队设计了一个"软惩罚"机制:在目标长度以内不扣分,超过目标长度之后按比例线性扣分,超过上限则直接给零分。这比一刀切的硬截断要温和得多,不会造成训练的不稳定。

六、平衡的难题:强化学习遇上多目标冲突

四类奖励听起来很全面,但同时优化它们却带来了一个头疼的问题。研究团队发现,这四个目标之间存在天然的紧张关系——特别是"内容完整性"和"长度效率"之间的矛盾。要写一份完整、详细的事件档案,必然需要更多的篇幅;但长度奖励又在惩罚过长的输出。这两个目标在拉锯,导致模型在训练时无所适从。

传统的解决方法是把多个奖励加权求和,化为一个综合分数。但这种方法有一个根本缺陷:权重是固定的,而实际训练过程中不同奖励信号之间的相对重要性会动态变化。固定权重往往会让模型倾向于把容易拿高分的奖励做到极致,而忽视那些本来更稀缺、更关键的信号。

研究团队借鉴了一种叫做"多梯度下降算法"(MGDA)的数学工具,提出了他们自己的解法,称为"帕累托前沿引导优势平衡"算法,简称P-FAB。

这个名字听起来很吓人,但核心思想可以用一个简单的比喻来理解。假设你在组织一支四人乐队,四个人分别代表格式、准确性、因果完整性和简洁性四个目标。每个人都有自己想要演奏的方向,如果四个人各说各话,演出就会一团糟。P-FAB的作用,就是找出一个指挥方向,让这四个人都往同一个方向走,同时确保那些平时抢不到话语权的成员(比如因果完整性这个难以满足的目标)能得到更多关注。

具体在数学上,P-FAB的做法是这样的:先对每个奖励信号做中心化处理,消除基准差异;再对各信号做标准化处理,消除量纲不同带来的影响;然后用一个叫"弗兰克-沃尔夫算法"的迭代方法,在标准化空间里寻找一组权重,使得加权后的综合方向对所有目标都尽可能有利,而不是偏向某一个。

最终得到的权重是动态的——每一批训练数据,权重都会重新计算。那些当前表现较差、信号稀疏的目标会自动获得更高的权重,从而得到更多关注;那些已经做得不错的目标则适当降权。这就像一个有弹性的管理系统,总是把资源优先投入到最需要改进的地方。

论文中给出了一个对比示例:同样一组训练样本,在传统GRPO方法下,四个不同的候选回答可能计算出完全相同的优势值,模型根本无法区分它们的高下;而P-FAB方法下,四个样本得到了明显不同的分数,让模型能够清晰地判断哪个方向值得追求。

七、实验结果:小模型的大表现

Factum-4B是以Qwen3-VL-4B-Instruct为基础模型训练出来的,参数量只有40亿,属于相当轻量的规模。研究团队在多个视频理解基准测试上进行了评估,结果出人意料地强势。

在视频时序定位任务上,研究团队测试了三个数据集:Charades-TimeLens(一个重新标注了高质量时间戳的室内活动视频集)、ActivityNet-TimeLens(重新标注了更精确边界的开放域视频集)以及ActivityNet-Captions(一个广泛使用的大规模基准)。评判指标是"Recall@1",即AI给出的最优预测答案与正确答案的时间重叠率超过某个阈值的比例,阈值分别为0.3、0.5和0.7——阈值越高,对精度的要求越严格。

在ActivityNet-Captions上,Factum-4B的R1@0.5达到48.4%,R1@0.7达到28.1%,大幅超过了参数量更大的Time-R1-7B模型(后者R1@0.5仅39.0%,R1@0.7仅21.4%)。在高精度指标R1@0.7上,Factum-4B在所有开源模型中排名第一。更值得注意的是,Factum-4B使用的帧率仅为每秒1帧,而对比的开源模型普遍使用每秒2帧,相当于Factum-4B用更少的视觉信息取得了更好的结果。

在通用视频理解基准上,研究团队还测试了VideoMME(涵盖电影、体育、纪录片的长视频评测集)、MLVU(面向长视频的多任务评测集)、ETBench(细粒度时间敏感视频理解基准)和NExT-GQA(基于因果和时序问答的视觉定位基准)。

Factum-4B在VideoMME上达到64.7%的准确率,在NExT-GQA上达到73.6%,比同参数量的Qwen3-VL-4B-Thinking版本高出整整7个百分点。在ETBench的8个子任务中,Factum-4B在6个上取得了最高分,其中时序视频定位子任务得分66.1%,时序事件匹配子任务得分26.8%,后者甚至超过了专有闭源模型GPT-4o。

消融实验进一步验证了每个设计模块的贡献。去掉事件档案只保留推理过程,VideoMME准确率从64.7%跌至60.8%;去掉推理过程只保留事件档案,准确率跌至58.5%,是所有变体中跌幅最大的,说明如果没有推理桥梁,档案里的信息也无法被有效利用。去掉强化学习只用监督微调,ActivityNet R1@0.3比完整模型低8.3个百分点。将P-FAB替换为普通GRPO,在group size为4时性能差距为1.2个百分点,在group size为8时差距扩大到2.5个百分点,表明P-FAB的优势在更大规模的对比组设置下更加突出。

八、这项研究的边界与展望

研究团队在论文中也坦率地指出了当前工作的局限性。Factum-4B的训练数据规模仍然有限,总共只有约32000个视频样本,相比业界头部模型的训练规模还有相当大的差距。这意味着模型在某些特定类型的视频任务上可能表现不稳定,要想在所有视频理解任务上都取得优异表现,需要进一步扩展数据规模。

此外,这项研究目前聚焦于视频时序理解和因果推理方向,对于纯粹的空间理解(比如精确定位画面中的物体位置)、复杂的多轮对话或需要外部知识的问答,尚未进行系统性探索。

从更宏观的视角来看,这项研究揭示了一个有趣的认知科学启示:人工智能的设计越接近人类认知的实际工作方式,往往就越有效。人类不是靠强大的蛮力逐帧记忆视频,而是靠构建有意义的事件结构来理解视频;AI也不应该靠无结构的冗长推理来处理视频,而应该先建立结构化的认知地图,再在地图上寻路。

归根结底,这项研究做的事情可以用一句话概括:它给AI看视频时加上了一个"先记笔记、再动笔答题"的习惯。这个习惯看起来简单,却解决了长期困扰视频AI的核心难题——如何在时间维度上保持因果逻辑的连贯性。

以前的视频AI像一个只会随手乱写读书笔记的学生,内容散乱、重点不突出、前后矛盾;Factum-4B更像一个养成了良好学习习惯的学生,每次读完一段就整理好时间线,标注好关键事件,然后再基于这份有条理的笔记去回答问题。成绩的差距,从实验数据来看是显而易见的。

对于普通人来说,这项研究离日常生活的距离或许比想象中近得多。视频内容的智能检索、安防摄像头的行为分析、体育比赛的自动解说、医疗手术视频的质量审查——所有这些应用场景都需要AI不仅能"看到"视频中发生了什么,更要能理解事件之间的时间顺序和因果关系。Factum-4B的方法提供了一条可扩展的路径,而且它用一个40亿参数的小模型就做到了许多70亿参数模型做不到的事情,这对于资源有限的研究者和开发者来说是一个颇具参考价值的信号。

对这项研究感兴趣的读者,可以通过arXiv编号2604.04415查阅完整论文,论文题目为"Structured Causal Video Reasoning via Multi-Objective Alignment"。

---

Q&A

Q1:Factum-4B的"结构化事件档案"和普通视频字幕有什么区别?

A:普通视频字幕通常是对画面的自由描述,格式随意,内容可能冗长也可能遗漏关键信息。Factum-4B的结构化事件档案则严格要求每个时间段必须记录六类信息:人物、动作、场景、物体、摄像机运动和事件描述,格式固定且每类信息都有明确的填写规则(比如画面中没有人时,动作一栏必须写"None")。这种强制结构确保了档案的信息密度和格式一致性,也让后续的推理过程有可靠的依据可查,而不是在模糊描述中猜测。

Q2:P-FAB算法为什么比传统的多奖励加权方法更有效?

A:传统方法把多个奖励信号乘以固定权重后加总,得到一个综合分数。这有两个问题:权重固定意味着无法适应训练过程中不同目标的动态变化;加总之后不同目标之间的差异被抹平,模型看不出哪些样本在哪些方面更优秀。P-FAB在标准化空间里动态计算权重,确保稀缺的、难以满足的目标获得更多关注,同时为每个训练样本生成更有区分度的优势值,让模型在正确的方向上学习。

Q3:Factum-4B在视频理解上比GPT-4o强在哪里?

A:Factum-4B并不是全面超越GPT-4o,而是在特定的时间敏感任务上表现更优。具体来说,在ETBench基准的时序事件匹配子任务上,Factum-4B得分26.8%,高于GPT-4o的13.6%;在时序视频定位子任务上同样领先。这主要得益于Factum-4B专门针对时间因果推理进行了优化训练,而通用大模型在这类精细化时序任务上并不具备专项优势。不过在其他通用理解任务上,GPT-4o等大型闭源模型整体上仍有较大优势。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-