
这项研究来自腾讯应用研究中心(ARC Lab),论文于2026年4月13日发布在预印本平台arXiv,编号为arXiv:2604.11102v1,分类领域为计算机视觉(cs.CV)。感兴趣的读者可以通过这个编号查阅完整原文。
你有没有想过,如果一个人从来没看过某部电视剧,却需要在两小时内写出整部剧每一场戏的剧本——包括每个角色说了什么、做了什么、脸上是什么表情、背景音乐是什么调性——这得耗费多少精力?对于影视行业的从业者来说,这种场景并不陌生:素材整理、内容归档、版权确认、片段检索,每一项工作都需要人工反复翻看视频,再一帧一帧地记录下来。这是一项极其繁重、枯燥而又容错率极低的工作。
腾讯ARC实验室的研究团队提出了一个大胆的问题:能不能训练一个AI系统,直接"看"完一段几分钟乃至几十分钟的影视内容,然后自动生成一份结构化的、带时间戳的完整剧本?这份剧本不是简单的"这段视频讲了一个人走进房间"这样的粗略描述,而是真正专业意义上的剧本——包含场景描述、角色动作、对白台词、面部表情乃至音效和背景音乐的文字记录。
他们把这个任务称为"视频转剧本"(Video-to-Script,简称V2S),并为此构建了一个全新的系统,取名OmniScript。"Omni"在英文中意为"全能"、"全覆盖",而Script就是剧本——合在一起,大致的意思就是"能处理所有感官信息的剧本生成器"。OmniScript是一个同时理解视觉画面和声音信息的语言模型,参数规模为80亿(8B),但其表现已经能与业界顶级的闭源商业模型相媲美。
这项研究的意义远不止于此。它不仅提出了一个全新任务,还同时构建了第一个专门用于评测这类任务的人工标注基准数据集,设计了一套专属的评估指标体系,并开发了完整的训练框架。可以说,这是一次从"定义问题"到"解决问题"的完整探索。
一、为什么这件事比你想象的难得多
要理解OmniScript的价值,首先得明白这件事究竟有多难。
现有的视频理解AI大多擅长处理短视频——几十秒到一两分钟的片段,回答"视频里发生了什么"这类问题。但影视内容完全不同。一集电视剧通常四十分钟到一小时,一部电影更是动辄两小时,中间有大量的场景切换、人物穿插、对话交织,还有大量依靠音频才能理解的信息,比如画外音、背景音乐烘托的情绪、说话人并不在画面中的对白。
更麻烦的是,研究团队发现,仅仅描述一段两分钟的视频内容,所需的文字就高达约4000个字符(token)。如果视频长度翻倍、翻三倍,生成文字的数量也会急剧膨胀,不仅对计算资源是巨大考验,模型在生成过程中还极容易"忘掉"前面发生的事——就像你写一篇很长的作文写到后面,忘了开头讲的是谁一样。
除此之外,还有三个深层次的难题。第一,没有适合训练这类任务的数据。给影视内容打这种细粒度的标注,需要专业人员反复看视频、逐帧确认,工作量极其庞大,现有的数据集根本不够用。第二,如何评价生成的剧本好不好?剧本不像数学题有标准答案,同一场戏可以用很多种方式描述,传统的自动评分方法(比如看有多少词重合)完全无法胜任。第三,如何让模型生成的内容既有时间准确性(这件事发生在第几分几秒),又有语义准确性(这件事到底是什么)?
这三个问题,OmniScript分别给出了对应的解决方案。
二、把一部电影"拆解"成结构化剧本:任务定义
OmniScript所要完成的任务,可以用"三层楼"的结构来理解。
最顶层是"元信息层",记录整部视频的全局属性:片名、时长、出场人物列表。这就像一本书的封面和目录,让读者在翻开正文之前先有个整体概念。
中间层是"场景层",把整段视频切分成一个个独立的场景。每个场景有自己的编号、发生地点(比如"室内书房"或"户外街道")、时间属性(白天、夜晚、清晨等)以及整体氛围。这就像电影剧本里每一场戏开头的场景说明。
最底层是"事件层",也是信息量最密集的一层。每个场景内部,按时间顺序记录若干个事件,每个事件都有一个精确的时间戳(比如"00:04"),标注是哪个角色,然后分别记录这个角色的动作、对白、表情,以及当时的音效或背景音乐。特别值得注意的是,系统还会区分台词的类型:是正常对话、画外音(即声音和说话的人都在画面中但不可见)、还是旁白。
这种三层结构的设计,使得生成的剧本既有宏观的叙事框架,又有微观的逐帧细节,真正做到了"从大到小、层层贴近"。整体目标是同时优化三件事:事件发生的时间定位是否准确、角色身份的语义解析是否一致,以及多模态叙事描述是否忠实于原始视频。
三、解决数据荒:带记忆的自动标注流水线
没有训练数据,再好的模型设计也无从施展。为了解决数据稀缺问题,研究团队设计了一条半自动化的标注流水线,核心是一个他们称之为"角色档案管理器"(Character Profile Manager,CPM)的模块。
整个流程从原始视频开始。团队从超过一万部影视作品中提取了约4.5万个片段,每段通常不超过5分钟。随后,系统用一个强大的短视频理解模型(即Google的Gemini-2.5-Pro)对每段视频进行分析,但关键不在于单段分析,而在于跨段落的记忆管理。
角色档案管理器扮演的角色,类似于一位跟组的"剧组档案员"。每次分析完一段新视频后,这位"档案员"会把里面出现的角色信息记录下来:外貌特征(包括服装、发型)、声音特征、第一次出场的时间,以及目前已知的名字。当分析下一段视频时,这些历史档案会被"注入"给分析模型,帮助它识别出"这个穿黑色夹克的男性,就是上一段出现过的张伟"。
这个设计解决了一个影视内容特有的难题:角色名字往往不是一出场就被说出来的。在很多剧集中,一个重要人物可能在前五集都没有人叫过他的名字,直到某个关键场景才揭晓。系统采用了一种"懒惰命名策略"——先给没有名字的角色分配临时编号(比如"unknown_001"),一旦在某段对话中出现了明确的称呼,就回溯更新,把所有历史记录里的临时编号替换成真实姓名,并合并重复记录。
有了全局一致的角色信息之后,系统再把这些信息连同原始视频一起喂给Gemini,生成精细的场景-事件剧本。最后,为了让训练数据包含"思考过程",团队还用DeepSeek这个语言模型,对生成的剧本进行反向推理,重新"发明"出一套思维链过程——相当于让AI写下"我是怎么一步步分析出这段剧本的",然后把这套思考过程作为训练素材的一部分。
四、如何评判一份AI剧本写得好不好:四阶段评估体系
如果说生成剧本是这项研究的"输出",那么如何评价这个输出的质量,才是让整项研究站得住脚的关键。传统的文本评分方法依赖词汇重合率,但影视剧本的描述往往存在大量同义表达——"张三推开了门"和"张三走出了房间"可能描述的是同一件事,却没有一个词重合。
研究团队设计了一套四阶段的评估流程,层层递进。
第一阶段解决"哪个预测事件对应哪个真实事件"的问题。系统不依赖时间重叠来配对,而是通过综合考量台词相似度和动作相似度来建立语义关联,同时施加一个"时间邻近约束"——两个事件之间的时间差不能超过30秒,否则视为不相关。在此基础上,系统用动态规划算法找出全局最优的配对方案,同时保证配对的时间顺序不被打乱。
第二阶段解决"预测里的'警察'和真实标注里的'李明'是同一个人吗"的问题。AI在描述角色时往往使用开放性词汇,而真实标注可能使用角色真名,两者之间需要建立映射。这个阶段用语言模型对所有角色名进行分类(真实姓名、单数身份名词、复数身份名词),然后通过时间重叠度和词汇相似度建立对应关系,并制定了一系列防止逻辑矛盾的规则,比如"真名不能匹配另一个不同的真名"、"单数角色不能匹配复数角色"。
第三阶段对配对成功的事件组进行五个维度的内容评分:角色准确性用精确字符串匹配,台词准确性用编辑距离(衡量两段文字差多少字),而动作、表情、音效则请语言模型做语义相似度打分。最终汇总成精确率、召回率和F1值。值得一提的是,这套评分机制对"冗余生成"和"遗漏"都有明确惩罚——多说了没依据的事会拉低精确率,漏掉真实事件会拉低召回率。
第四阶段独立评估时间定位的准确性。对于成功配对的事件,计算预测时间段和真实时间段之间的"时间交并比"(tIoU,类似于两个时间段的重叠程度),再统计超过某个重叠阈值的事件比例,形成"时间命中率"。
这四个阶段共同构成了一套兼顾"说了什么"和"什么时候说的"的立体评估体系。
五、OmniScript的架构:同时用眼睛和耳朵看电影
OmniScript的模型架构建立在Qwen3-VL这个视觉语言模型的基础上,但做了一个关键扩展:加入了独立的音频处理通道。
具体而言,系统使用预训练的Whisper模型作为音频编码器,将视频的声音轨道转化为向量表示。关键设计是:视频的视觉帧和对应时刻的音频信号被严格对齐,形成一一对应的"时间单元对"。这种对齐确保了系统在处理每一刻的信息时,能同时感知画面和声音,就像人类用眼睛和耳朵同时感知世界一样。
在特征融合方面,研究团队采用了一种名为"AV-DeepStack"的注入策略,将音频和视觉特征不只在模型的输入层融合,而是在语言模型内部的多个层次反复注入。每一层都有专门的残差适配器,让语言流同时被视觉信息和听觉信息调节。这种设计的好处是,模型在做深层语义推理的时候,不会"忘掉"音频信号——声音信息从始至终都参与运算,而不仅仅是开头提了一下。
在输出方式上,OmniScript采用了"先思考后生成"的解码策略。模型不会直接跳到生成剧本,而是先生成一段"内部推理过程",包括对整段视频剧情走向的梳理,以及对当前场景中各角色关系的明确陈述。这段推理过程就像打草稿,帮助模型在正式写剧本之前理清脉络,大幅减少前后矛盾的情况。
六、四阶段渐进训练:从打基础到精雕细琢
OmniScript的训练过程分为四个层层递进的阶段,每个阶段都有明确的目标。
第一阶段是模态对齐。这个阶段的任务很单纯:让新加入的音频模块和原有的视觉语言模型"接上头"。具体做法是冻结视觉编码器、语言模型和音频编码器,只训练新引入的"音频投影器"(负责把音频特征翻译成语言模型能理解的格式)。训练数据是约100万条带时间戳的语音识别样本,目的是让音频模块学会把声音和文字内容对应起来。为了防止模型过度依赖画面、忽视声音,训练时还会随机遮掉一部分视频帧,强迫模型依靠音频来补全信息。
第二阶段是多模态预训练。这个阶段全面解锁所有模块,在约240万条双语(中英文)影视内容上进行大规模训练,任务包括语音识别、视频摘要、密集视频字幕和时间定位。这一阶段的目标是让模型建立起对影视内容的整体认知,同时打磨跨模态的语义理解能力。
第三阶段是有监督微调(SFT)。用第三节描述的自动标注数据(约4.5万条)进行专项训练,让模型学习如何按照"思考-场景-事件"的层次结构输出内容。训练时还会随机遮掉字幕,避免模型学会"抄字幕"的捷径,确保它真正依靠音视频内容来生成台词。
第四阶段是强化学习(RL)。在一小批高质量人工标注数据上,用GRPO算法(一种序列级别的强化学习方法)进一步优化模型。奖励信号来自前文描述的多维度评估体系,但采用"时间分段奖励"而非"全局奖励"——也就是说,模型不是对整段生成的质量进行笼统打分,而是把视频时间轴切成若干段,分别评估每段的生成质量。这种细粒度的奖励机制能有效识别并惩罚模型在短时事件上的遗漏和错误,比全局平均分更精准。
七、如何处理更长的视频:两种延伸策略
OmniScript基础版本能处理的视频长度约在5分钟以内。为了应对更长的影视内容,研究团队探索了两条路径。
第一条路径是直接扩展上下文窗口,让模型一口气处理更长的视频。为此,团队收集了一批长视频标注,包含全局故事线描述、分段情节转折记录,以及用于修正长视频中历史不一致内容的"记忆修正标签"。由于完整标注的长视频数量有限,团队还通过"跨视频拼接"来生成伪长视频——把若干段主题相近的短视频拼在一起,同时合并它们的角色和情节标注,伪造出一段完整的长视频训练样本。这种方式保持了单次端到端生成的简洁性,但对模型的长程推理能力要求极高,计算开销也更大。
第二条路径是把任务拆成两步走。第一步,用一个专门的"情节分割模型"先对整部视频做结构化拆解,输出每一段的起止时间、主要情节、出场角色和角色关系。第二步,把每个片段连同第一步的结构信息一起喂给OmniScript的基础版本,让它为每段生成详细的剧本。最后通过一个轻量级后处理模块把所有片段的输出拼接成一份完整的长视频剧本,并在拼接时统一名字称呼、处理指代一致性和事件顺序。
这两种路径各有侧重:第一种在中等长度视频(10-20分钟)上表现出色;第二种在极长视频(30分钟以上)上展现出更强的稳定性,几乎不会因为视频变长而性能下降。
八、实验结果:80亿参数的模型,能打过谁?
研究团队构建了一个专门的评测基准,包含10部完整影视作品,总时长约19.9小时,涵盖动漫、动作、悬疑、剧情等多种类型。基准被切分为不同时长的片段:200个5分钟片段、100个10分钟、50个15分钟,依此类推直到30分钟,形成一个测试模型在不同时间跨度下表现的多粒度评测床。整个基准平均每分钟有14.1个标注事件,密度极高。
在5分钟视频的事件层面评测中,OmniScript(8B参数)在角色准确率、台词准确率、整体F1分数和时间定位准确率上均超过了Qwen3VL-235B(参数量是它的近30倍)。与商业闭源模型相比,OmniScript的台词理解能力超过了Gemini-3-Pro,时间定位准确率也优于它。值得关注的是,Qwen3-Omni等同等量级的全模态开源模型表现极差(整体F1分数仅约5分),而使用思维链推理的模型版本(-T后缀)有时反而比不使用思维链的版本差,说明在这类长输出任务上,单纯开启"思考模式"并不总是有帮助。
在场景层面的评测上,OmniScript达到了52.4的整体分数和74.6的时间定位命中率,超过了Qwen3VL-235B和TimeChat-Captioner等多个模型,与多个顶级商业模型不相上下。
消融实验揭示了各模块的实际贡献。去掉思维链训练,整体分数从37.0降到35.3,台词F1从71.0降到68.2;去掉强化学习,整体分数从37.7降到37.0;用全局奖励替换分段奖励,整体分数维持不变但台词从72.2降到69.0,说明分段奖励对台词理解有专项提升。
字幕遮挡实验也揭示了一个有趣现象:遮住画面中的字幕后,Qwen3VL-235B的台词准确率从58.6急剧跌到7.7,说明它基本上是在"抄字幕"而非真正理解台词;Gemini-3-Pro的台词准确率从68.8降到60.9,下降幅度更温和,说明它有一定的真实音视频理解能力;OmniScript的台词准确率从72.2降到63.8,降幅适中,优于Gemini。
音频消融实验对比了加入音频通道和不加音频通道的差异:仅用视觉训练的基线版本台词准确率为52.0%,加入音频预训练后提升到68.2%,绝对提升幅度达16.2个百分点。
在长视频评测中,随着视频时长从10分钟延伸到40分钟,绝大多数模型的表现呈现出几乎线性的下滑趋势。Gemini-2.5-Flash在25分钟以内表现出异常高的召回率,但超过25分钟后会突然崩溃,生成内容出现大量重复循环和结构混乱,这表明它的高分依赖于"大量生成内容"的策略,在极长序列上并不可持续。OmniScript的两阶段策略(TSG版本)则展现出近乎水平的性能曲线,从10分钟到40分钟几乎没有明显衰减,在雷达图上始终保持宽阔的多边形面积,而其他模型在30分钟和40分钟时已经收缩成接近圆心的小核。
说到底,OmniScript这项研究做的事情,是把一个以前只能靠人工完成、耗费大量时间的专业任务,推进到了机器可以辅助甚至部分替代的阶段。它不是一个简单的"视频摘要"工具,而是真正尝试复现人类专业编剧读片、记录、分析的完整认知过程——同时用眼睛看画面,用耳朵听声音,在大脑里维持对角色和情节的持续记忆,最终输出一份结构严谨、细节丰富的剧本文档。
8B参数能做到这种程度,确实出人意料。但这背后的代价同样值得关注:自动标注数据的质量高度依赖于商业闭源模型(Gemini、DeepSeek),评估框架的部分环节也需要语言模型参与打分,这意味着整个系统的上限在某种程度上被这些外部模型的能力所限定。另外,当前的基准数据主要覆盖中文影视内容,跨语言、跨文化的泛化能力还有待验证。
对于影视内容从业者来说,这类技术的成熟意味着大量重复性人工工作可能会被显著压缩;对于普通观众来说,它或许会催生更智能的内容检索、更精准的剧情回顾,乃至个性化的影视辅助理解工具。而对于AI研究者来说,OmniScript留下了一个值得继续追问的方向:在理解"发生了什么"之外,AI能否进一步理解"为什么这样发展"——那才是真正意义上的叙事理解。有兴趣深入了解这项研究的读者,可以通过arXiv编号2604.11102查询完整论文。
Q&A
Q1:OmniScript生成的剧本包含哪些具体内容?
A:OmniScript生成的剧本分三个层次:全局元信息(片名、时长、角色列表)、场景层(每个场景的地点、时间、氛围)和事件层(每个时间点对应的角色动作、对白、面部表情、音效或背景音乐),并区分台词类型,如正常对话、画外音或旁白。
Q2:OmniScript评测剧本质量的方法与传统方法有什么不同?
A:传统方法依赖词汇重合率,无法处理同义表达。OmniScript采用四阶段评估:先通过语义相似度配对事件,再建立角色名称映射,然后对动作、台词、表情、音效五个维度分别打分,最后独立评估时间定位准确性,能更全面地衡量剧本的语义质量和时序准确性。
Q3:OmniScript在处理超长视频时为什么两阶段策略比直接扩展上下文更稳定?
A:直接扩展上下文要求模型在单次生成中维持极长的记忆,随着视频变长,模型容易"忘记"前面的角色和情节,导致性能下滑。两阶段策略先用分割模型提取每段的结构信息,再分段生成剧本,每段都有明确的局部约束,避免了全局记忆衰减问题,因此在30分钟以上的视频上表现更稳定。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。