微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海人工智能实验室与复旦大学联手:让AI视频生成器"反向思考",同时学会看懂和拍出视频

上海人工智能实验室与复旦大学联手:让AI视频生成器"反向思考",同时学会看懂和拍出视频

2026-04-21 16:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-21 16:17 科技行者

这项由上海人工智能实验室(Shanghai Academy of AI for Science)与复旦大学联合主导、新加坡科技设计大学参与的研究,以预印本形式于2026年4月9日发布在arXiv平台,论文编号为arXiv:2604.08121。有兴趣深入了解的读者可通过该编号在arXiv检索到完整论文。

研究背景:一场代价高昂的"文理之争"

人类在成长过程中,往往先学会用眼睛感知世界,才慢慢发展出用语言描述所见之物的能力。一个婴儿在开口说话之前,已经能辨认妈妈的脸、猫咪的轮廓和苹果的颜色。这种"先看后说"的发育顺序暗示了一件有趣的事:视觉感知能力在某种程度上先于语言表达能力存在。

AI研究者们在构建"能看懂视频又能生成视频"的智能系统时,却走上了一条截然相反的路。过去几年里,主流做法是先建一个很强大的"语言模型"——也就是能读懂文字、回答问题的AI大脑——然后费尽心思地往里面塞进"生成视频"的能力。这就好比先培养了一个博学的图书馆员,再逼他去学拍电影,过程费时费力不说,拍出来的电影质量也未必好。

问题的根源在于一个巨大的计算量鸿沟。生成一段视频所需要的计算量,远远超过理解一段文字所需的计算量。以目前最先进的图像生成模型为例,生成一张高清图片需要处理约4096个"计算单元",而且要反复运算50次。再把这个规模放大到视频,一段仅仅5秒的720P视频就需要处理将近74000个计算单元,同样要重复运算40到50次。换句话说,生成视频的计算量轻松突破数百万,而生成一段相同长度的文字描述,所需计算量可能只有前者的几千分之一。

正是这个悬殊的代价差异,催生了这项研究的核心问题:既然视频生成本来就这么"贵",为什么不直接从一个已经会生成视频的AI出发,再教会它理解视频呢?毕竟,能够生成一段视频的AI,必然已经深刻理解了文字和画面之间的对应关系——否则它根本没办法根据文字描述画出对应的画面。

Uni-ViGU(统一视频生成与理解框架)就是这一思路的具体实现。它的名字本身就是一份宣言:Unified Video Generation and Understanding,统一的视频生成与理解。

一、视频生成器为什么天然就"懂"视频?

在深入了解Uni-ViGU的设计之前,有必要先弄清楚一个关键问题:为什么一个"只会生成视频"的AI,会被认为已经对视频有了深入理解?

现代视频生成AI的核心工作方式,是把一堆随机噪点(可以理解为一张布满雪花的电视屏幕)逐步"雕刻"成一段清晰的视频。这个过程叫做"扩散",整个模型则叫做扩散模型。具体来说,这类AI会先把输入的视频压缩成一种更紧凑的"隐藏表示"(类似于把一本厚厚的书提炼成一页摘要),然后在这个压缩的空间里学习如何从噪点还原出有意义的画面。

这个过程中,AI需要接受文字提示作为引导——你告诉它"一只猫坐在阳光下的窗台上",它就要生成对应的画面。要做到这一点,AI必须深刻理解"猫""阳光""窗台"这些概念在视觉上的表现形式,以及它们之间的空间和光线关系。这意味着,一个训练成熟的视频生成AI,其内部已经隐含了大量关于"文字-视频"对应关系的知识。

Uni-ViGU的研究团队正是看到了这一点。他们的核心判断是:如果AI已经学会了"从文字到视频"的映射,那么"从视频到文字"的映射(也就是视频理解)本质上是同一个映射的反向过程。利用这种对称性,可以大大降低让AI学会看懂视频的难度。

研究团队选择的基础模型是WAN2.1,这是目前业界最先进且高效的文字-视频生成模型之一。WAN2.1的内部架构包含三个主要部分:一个叫做VAE的视频压缩器(负责把视频压缩成紧凑的数字表示,以及把数字表示还原成视频),一个文字编码器(负责把文字转换成AI能理解的数字形式),以及一个叫做DiT的扩散Transformer(负责实际的"去噪"生成过程,是整个系统的大脑)。

在这个架构基础上,Uni-ViGU要做的事情可以比作给一位技艺精湛的导演加装了一套"看片写剧本"的新技能——原有的拍摄能力完好保留,新增的能力则建立在拍摄经验的基础之上。

二、解决"两种语言"的冲突:统一流匹配方法

现在出现了一个棘手的技术问题。视频生成和文字生成在本质上是两种截然不同的过程,把它们强行合并在一个框架里,就像试图让一台打字机同时承担钢琴的工作——键盘长得有点像,但运作原理完全不同。

视频的世界是"连续的"——颜色、亮度、运动可以取任意中间值,视频中每一帧的每一个像素都是一个连续变化的数值。文字的世界则是"离散的"——词语就是词语,"猫"和"狗"之间没有半步的中间状态,每个词要么存在要么不存在,不能取0.5个词这种中间值。

传统的扩散模型擅长处理连续数据,而传统的文字生成则依赖"从左到右,一个字一个字预测下一个字"的自回归方式(就像我们写文章时的正常习惯),两者在数学上是互不兼容的。

研究团队提出了一个叫做"统一流匹配"的方法来解决这个问题。可以把它理解为设计了一套双轨制的变形规则:视频的"变形"走一条连续的轨道(从随机噪点平滑地变成清晰视频),文字的"变形"走另一条离散的轨道(从随机乱码平滑地聚拢成有意义的词语),两条轨道在同一个系统里同时运作,互相协同。

具体来说,对于视频,模型学习的是如何从一团随机噪点(数学上叫高斯噪声)出发,沿着一条直线路径"流动"到真实视频的数字表示。这条路径上的每一步,都是噪点和真实视频按比例混合的结果——就像调色板上,纯白和纯红各占多少比例,中间就是对应比例的粉红色。

对于文字,处理方式稍有不同,但思路相似。研究团队把词汇表里的每一个词都先转换成一个连续的数字向量(可以理解为词语的"数字指纹"),然后同样让模型学习从随机噪点"流动"到对应词语的数字指纹。当推理完成后,最终得到的数字向量再通过查找最相似词汇的方式,还原成具体的文字。

最关键的设计在于:视频的流动进度和文字的流动进度是相互独立的。在一次训练中,视频可能已经80%清晰了,而文字只有20%成形;或者反过来。这种独立性让模型必须学会在各种信息不完整的组合下,都能正确理解视频和文字之间的对应关系,从而习得更鲁棒的跨模态理解能力。

在推理(实际使用)时,这套系统可以灵活切换工作模式。如果要做视频理解(看懂视频并生成描述),就把视频固定为已知的清晰状态,让文字从噪点开始慢慢"还原"出来。如果要做视频生成,就把文字固定为已知的提示词,让视频从噪点开始生成。如果要同时生成视频和配套描述文字,就让两者都从噪点出发,同步演化,互相引导。

三、聪明地改造大脑:模态驱动的专家混合架构

有了处理两种模态的数学框架,下一个问题是:在AI的神经网络内部,应该怎么修改它的"大脑结构",才能在不破坏原有视频生成能力的前提下,添加文字生成能力?

研究团队对WAN2.1的内部结构进行了一番解剖分析。视频生成AI的大脑(DiT,扩散Transformer)由许多层神经网络堆叠而成,每一层包含三个主要组件:自注意力层、交叉注意力层和前馈网络层(FFN)。

自注意力层的功能类似于让视频中的每一个区域都"环顾四周",观察其他区域的情况,从而理解整个场景的空间和时间关系。交叉注意力层则负责让视频内容与文字提示相互"对话"——它是AI理解"画面要符合文字描述"的核心机制。前馈网络层则是独立处理每一个位置的信息,可以理解为对每个局部特征进行深度加工和提炼,其中储存的主要是特定模态(视频)的专有知识。

这种功能分工揭示了一个关键洞察:跨模态的对齐知识(也就是"这个词对应这种画面"的知识)主要储存在注意力层里,因为注意力层天然擅长处理不同位置、不同实体之间的关系。而具体模态的生成技巧(视频要怎么画、文字要怎么写)则主要由前馈网络层负责。

基于这个判断,研究团队采取了一个外科手术般精准的改造方案:保留所有注意力层不动,只为每个前馈网络层添加一个新的"文字专家"分支,而原有的"视频专家"前馈网络权重完全保留。

改造后的架构可以用一个工作室的比喻来理解:所有人(视频和文字的信息)共用同一个开放式会议室(共享的注意力层),在这里自由交流、互通信息;但离开会议室后,视频工作者回到自己的视频编辑工作台(视频专用前馈网络),文字工作者则去自己的写作桌(文字专用前馈网络),各自用专业工具完成深度加工。

这个设计有几个实际好处值得细说。首先,注意力参数完全共享,意味着视频生成过程中已经学会的跨模态对齐知识,可以直接被文字生成过程所使用,不需要从零学起。其次,新增的文字前馈网络是独立的,不会干扰原有的视频生成能力,视频生成的质量得以完全保留。第三,增加的参数量相对很小——仅仅是为每一层多加了一个前馈网络——而不需要复制整个模型。

值得一提的是,这种架构在AI领域有一个专门的名字叫"专家混合"(Mixture of Experts,MoE),但通常的MoE需要用一个额外的"路由器"来决定每次应该使用哪个专家。Uni-ViGU的设计更为简洁:路由规则完全由输入数据的模态类型决定——视频就用视频专家,文字就用文字专家,没有任何额外的路由器开销,也没有路由决策出错的风险。

四、两阶段渐进式训练:从"记住老本"到"学会新技能"

架构设计好了,接下来是训练方法。研究团队设计了一套两阶段渐进式训练方案,把它命名为"双向训练机制"。

第一阶段叫做"知识唤醒"阶段。还记得前面说过,视频生成AI已经学会了"从文字到视频"的映射吗?知识唤醒阶段要做的,就是把这个映射"激活"成双向的。具体操作是:用一批视频和对应的文字提示词作为训练数据,让模型在看到视频的同时,试图"猜出"这段视频当初是用什么提示词生成的。

但这里有个潜在的取巧风险:如果训练时直接把原始提示词也输入给模型,模型可能会偷懒地直接复制提示词,完全不去理会视频内容。为了堵住这个漏洞,研究团队引入了一个叫做"条件丢弃"的机制——在训练时,有一定概率随机抹掉输入的提示词,迫使模型必须从视频本身去推断对应的文字,而不能依赖现成的提示词作弊。

训练数据规模方面,第一阶段使用了1万个视频-提示词对。这看起来数量不多,但这里有个聪明的设计:训练用的视频本身就是由WAN2.1(也就是Uni-ViGU的基础模型)根据提示词生成的合成视频。由于视频和提示词来自同一个生成模型,它们之间的对应关系对这个模型来说是"与生俱来"的知识,所以只需要相对少量的训练样本就能完成知识唤醒。

另一个值得注意的工程细节是损失函数的权重设置。在训练过程中,视频部分大约有3万个计算单元,而文字部分只有256个。如果按照相同的权重来优化,视频已经训练得很好的部分会主导整个训练过程,文字理解能力反而得不到充分训练。研究团队因此把文字部分的训练权重相应放大(具体数值约为30000/256,大约120倍),确保每个计算单元得到同等程度的优化关注。

第一阶段完成后,模型已经能够根据视频内容生成基本的文字描述,但生成的内容往往比较粗浅——毕竟训练用的目标文字只是简短的提示词,而短提示词通常只包含场景的大致轮廓,缺少细节。

这就引出了第二阶段:能力精炼阶段。这个阶段的目标是把模型的视频理解能力从"看个大概"升级到"深入观察"。具体做法是:在原有视频和提示词的基础上,再引入一批由大语言模型辅助生成的"详细说明"——这些详细说明包含了视频中人物的服装颜色、表情动作、背景中的细节装饰、场景的光线变化、物体的运动轨迹等大量具体信息。

训练目标从"猜出简短提示词"变成了"生成详尽描述"。这样的训练数据有一个精心设计的约束:简短提示词被限制在0到128个词以内,而详细说明则必须在128到256个词之间。这种长度差异确保了详细说明中包含大量提示词里根本没有的信息,模型必须真正去"看"视频,才能生成这些额外的细节,无法再靠读取提示词取巧。

能力精炼阶段使用了另外1万个视频-提示词-详细说明的三元组数据,训练步数为6万步,学习率相对第一阶段降低,采用更精细的微调方式。整个训练过程在16块H800显卡上进行,耗时约一周。

五、同时"拍视频"和"写剧本":联合生成能力

Uni-ViGU最令人眼前一亮的能力,是能够同时生成视频和与之配套的详细文字描述。这不是"先生成视频,再用另一个模型描述视频"的串联做法,而是在同一个模型内部,让视频和文字从各自的随机噪点出发,同步演化、互相引导。

这个过程可以用一段即兴音乐表演来理解。两位演奏者(视频和文字)同时从"随机乱弹"开始,逐渐找到共同的节奏和旋律。在整个演奏过程中,每一步,视频流正在成形的画面会提供视觉上的"情绪"和"氛围",引导文字流产生更贴切的描述;与此同时,文字流中逐渐成形的语义结构,反过来告诉视频流应该往哪个方向继续发展。两者通过共享的自注意力层不断交换信息,最终共同收敛到一个语义高度一致的视频-文字对。

从论文给出的具体案例可以看到这种协同效应的威力。以一个"海边房屋门廊上的男服务员手持饮料托盘"的场景为例,原始提示词只给出了大致场景描述,而Uni-ViGU联合生成的详细说明则包含了服务员穿着黑色西装配白衬衫、右手高举银色托盘、托盘上有四个装有橙色饮料的高脚杯、走过浅色木质甲板、海鸥在头顶飞翔并投下动态阴影等大量具体细节。这些细节不仅忠实反映了视频内容,而且用词准确、表达流畅,达到了真实视频字幕的质量水平。

另一个案例是一个红苹果被水流冲淋的极简场景,生成的详细说明捕捉到了苹果放在木架上的具体姿态、水流的节律性涌动、背景中升起的蒸汽、从侧面透进来的戏剧性光束等视觉细节,整个描述具有强烈的临场感和电影质感。

六、研究的位置与意义:站在哪条河流的交汇点

Uni-ViGU的出现并非凭空而来,它处于几条重要研究脉络的交汇点上,理解这些背景有助于更准确地把握这项研究的价值。

在"统一多模态理解与生成"这个大方向上,过去的主流路线是从语言模型出发扩展视觉能力。早期方法(如Janus、Show-o等)把图像生成变成了词语预测的一种——把图像切成一个个小格子,每个格子用一个词来表示,这样图像生成就变成了"写一篇关于图像的特殊文章"。这种做法实现了统一,但视觉质量有所损失,因为图像的细腻层次被粗糙的离散词汇抹平了。后来的方法(如MetaMorph、BLIP3-O等)保留了扩散模型的视觉质量,但让语言模型和扩散模块分开训练,导致两边的知识无法充分共享。更新的方法(如引用中的双塔框架)则让理解模块和生成模块各建一套语言模型,再用交叉注意力连接,虽然更紧密,但参数量翻倍的代价相当可观。

Uni-ViGU选择了一条不同的路:从生成模型出发,以最小的架构改动(只增加文字专用FFN层)和最小的训练成本(共2万样本,一周训练)实现统一。这种"轻量化改造强大基础模型"的思路,与另外两项相关工作有相似之处:一个是MMAR(在扩散模型中统一图文生成的早期工作),另一个是Omni-Diffusion(用离散扩散方法统一图文理解与生成)。但Uni-ViGU的特点在于专注于视频模态,并且充分利用了预训练视频生成模型中已有的丰富知识,而非从头训练。

在"扩散模型做文字生成"这条研究线上,LLaDA等工作已经证明了扩散框架可以在文字生成任务上与自回归语言模型相竞争。Uni-ViGU把这种离散文字扩散和连续视频扩散放在同一个模型里联合训练,是对这一研究方向的自然延伸,同时也是其在视频理解场景下的首次系统性应用。

说到底,这项研究告诉了我们什么

归根结底,Uni-ViGU代表了一种思维方式的转变:不是把"会说话的AI"训练到也能"画画",而是把"会画画的AI"教会了"用语言描述自己画的东西"。前者的代价极其昂贵,因为绘画(尤其是视频)是这两件事里更难更复杂的那个;后者则聪明得多,因为能画出东西的AI已经理解了画面,让它用语言说出来不过是把内部知识外化。

当然,这项研究还有很多待完善之处。训练数据目前仅有2万个样本,这与动辄数百万样本的主流训练规模相比还相当有限。当前版本也主要展示了视频理解(生成描述)和视频生成的能力,在需要回答具体问题(如"视频中有几个人?")等更复杂的理解任务上,还需要进一步验证和改进。此外,所用的训练视频是由AI生成的合成视频,真实世界视频的复杂性和多样性是否能被同样好地处理,也是值得持续关注的问题。

但这项研究在方法论上提出的问题,却有着相当深远的意义:当我们拥有了一个能够"模拟世界"的生成模型,它对世界的"理解"究竟达到了什么程度?这种理解能够如何被解锁和利用?这些问题的答案,也许将深刻影响AI系统的未来发展方向。对于对这个方向感兴趣的读者,可以通过arXiv检索编号arXiv:2604.08121查阅完整论文,获取所有技术细节和实验结果。

Q&A

Q1:Uni-ViGU是什么,它和普通的视频AI有什么不同?

A:Uni-ViGU是由上海人工智能实验室与复旦大学联合研发的统一视频生成与理解框架。普通视频AI要么只会生成视频,要么只会分析视频,两者通常是分开的系统。Uni-ViGU的特别之处在于,它从一个已经能生成高质量视频的AI出发,通过轻量化改造,让同一个模型既能根据文字提示生成视频,也能看懂视频并生成详细的文字描述,甚至可以同时生成视频和配套说明。

Q2:Uni-ViGU是如何让视频生成AI学会"看懂"视频的?

A:核心思路是利用视频生成和视频理解的对称性。一个能根据文字提示生成视频的AI,内部已经编码了大量"文字-画面"对应关系。Uni-ViGU通过两阶段训练来激活这种反向能力:第一阶段让模型从视频中猜出原始提示词,第二阶段则要求模型生成包含更多细节的详尽描述,迫使模型真正"看"视频而非靠提示词取巧。整个过程只用了2万个训练样本,一周内完成训练。

Q3:统一流匹配方法解决了什么具体问题,为什么不能直接把视频和文字放在一起训练?

A:视频数据是连续的(颜色亮度可以取任意中间值),而文字是离散的(词语之间没有"半个词"的中间状态),两者在数学上不兼容,无法直接用同一套训练方式处理。统一流匹配方法的解决方案是给视频设计一条连续变化的"流动轨道",给文字设计一条离散但同样可以用连续数学表示的"流动轨道",两条轨道在同一个模型里同步运作,速度可以相互独立,从而让模型在各种信息不完整的组合下都能学习两种模态之间的对应关系。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-