
这项由香港大学与Sreal AI联合完成的研究,以arXiv预印本形式于2026年4月发表,论文编号为arXiv:2604.18564,目前正以"MultiWorld"为名提交ECCV 2026会议审阅。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
**时代背景:一个导演,多个主角,多台摄影机**
回到你上一次打多人游戏的场景——屏幕左半边是你控制的角色,右半边是队友的视角,两人在同一个世界里行动,彼此的操作都会影响对方看到的画面。或者想象一个工厂里三台机械臂同时协作搬运零件,每台臂上方都有一个摄像头,记录着各自的工作视角。这两个场景有一个共同的难题:如果你想用AI来"预测"接下来会发生什么——不只是预测一个人、一个镜头,而是同时预测多个角色、多个摄像头的画面——现有的AI工具几乎全部束手无策。
现有的"视频世界模型"(可以理解为"AI导演",它根据当前的动作和画面,预测下一时刻的画面)几乎都只考虑单个角色、单个摄像头。这就好比你有一个非常厉害的电影导演,但他只会拍单人独角戏,一旦多了几个演员、几台摄影机,他就完全不知道该怎么协调了。香港大学的研究团队正是看准了这个空白,提出了一套名为MultiWorld的完整框架,专门解决"多角色、多视角"的AI预测问题。
**故事的三重困难**
要理解MultiWorld为什么有价值,得先弄清楚这件事到底难在哪里。研究团队识别出了三道横亘在面前的难关,每一道都足以让普通方案碰壁。
第一道难关叫做"多角色可控性"。假设你在游戏里同时控制两个角色,角色A向左走,角色B向右走。如果AI不知道"左走"这个指令是给A的而不是给B的,它就会一片混乱——有点像你在跟两个朋友同时说话,但没有喊名字,结果两个人都不知道谁该回应。简单地把两个人的动作指令堆在一起输入AI,根本解决不了"这个指令是给谁的"这个根本问题。
第二道难关叫做"多视角一致性"。两台摄像机拍的是同一个房间,房间里有一盏台灯。左边摄像机拍到灯在右侧,右边摄像机拍到灯在左侧。AI生成的画面必须保证这两个视角看到的是同一个世界——灯的位置、形状、光影,都要在物理上说得通。这比单纯生成"好看的画面"难多了,因为你还要管两个画面之间的空间关系是否合理。
第三道难关叫做"框架可扩展性"。真实世界里,有时候是2个机器人,有时候是4个;有时候有3台摄像机,有时候有6台。一个好用的系统不能为每种配置单独训练一个模型——那工作量是无穷无尽的。它必须像一个灵活的乐团指挥,不管台上有几个乐手,都能从容指挥。
**一、给每个演员一张专属"身份证"——多角色条件模块**
MultiWorld解决第一道难关的方法,可以用"点名制"来理解。在现实生活中,老师要指挥多个同学做不同的事,最简单的办法就是先叫名字再下指令:"小明,你去黑板写字;小红,你来发卷子。"MultiWorld里的"多角色条件模块"(MACM)做的正是类似的事情。
具体来说,这个模块包含两个关键机制。第一个叫"角色身份嵌入"(Agent Identity Embedding,AIE)。每个角色在被输入AI之前,会先被赋予一个独一无二的"身份标签"——这个标签用一种叫做"旋转位置编码"的数学方法生成。旋转位置编码原本是大型语言模型用来标记词语顺序的技术,这里被巧妙地借用来标记角色身份。不同的角色会被旋转到不同的"方向",就像不同颜色的荧光笔标注了不同的学生,AI在接收到动作指令时,可以清楚地知道这个指令属于哪个角色,而不会张冠李戴。
研究团队还在实验中仔细调整了这套身份标签的"精细程度"参数(称为基础频率)。默认的大语言模型参数(基础频率10000)在这个场景下太"粗糙"了,相邻两个角色的标签几乎无法区分,就像给所有同学都发了相同颜色的荧光笔。把基础频率降到20之后,角色之间的区分度大幅提升,AI的表现也随之改善——无论是生成画面的质量还是动作跟随的准确性都更好了。
第二个机制叫"自适应动作权重"(Adaptive Action Weighting,AAW)。现实中,多个角色并不总是同时在动。比如三台机械臂里,可能只有两台在移动,第三台在原地等待。如果AI对三台臂的动作"一视同仁",很容易忽略掉那两台正在做重要工作的臂。这个机制会用一个小型神经网络自动计算每个角色当前动作的"重要程度",给活跃的角色分配更高的权重,让AI更专注于正在发生变化的部分。实验证明,加入这个机制之后,AI生成画面的视觉质量和动作跟随精度都有可见的提升。
在角色身份嵌入之后,模块还会让所有角色的动作信息互相"开个小会"——通过一个叫做"自注意力"的机制,让角色A的动作信息能够感知到角色B正在做什么,反之亦然。这样AI就能理解角色之间的相互影响,而不是把每个角色当成孤立的个体来处理。最后,这些经过加权汇总的动作信息,通过一种叫"因果交叉注意力"的方式注入到生成画面的核心模型里,确保AI在生成第i帧画面时,只参考第0到第i帧的动作,不会"提前知道"未来的情况,这样才能支持稳健的长时序生成。
**二、给所有摄像机装一个共享的"3D大脑"——全局状态编码器**
解决多视角一致性问题的思路,研究团队用了一个更宏观的策略:与其让每台摄像机各自为战,不如给所有摄像机共享一个"对世界的理解"。这个共享的理解,就是"全局状态编码器"(Global State Encoder,GSE)的核心功能。
具体的实现方式是这样的:研究团队引入了一个叫做VGGT(Visual Geometry Grounded Transformer)的预训练模型作为核心骨干。VGGT原本是一个"3D重建基础模型"——给它看多张从不同角度拍摄的同一场景的照片,它能在内部建立起这个场景的三维空间结构。这种能力正是MultiWorld需要的:知道"这个世界在三维空间里长什么样子",才能保证从任意一个角度看到的画面都符合物理规律。
运作流程是这样的:把当前时刻所有摄像机的画面一起送入VGGT,它会输出一组包含三维空间信息的特征向量(维度为摄像机数量×每张图片的特征数量×特征维度)。这组特征向量再经过一个多层感知机(可以理解为一个"翻译器"),把VGGT的语言翻译成生成模型能听懂的语言,然后通过交叉注意力机制注入到每个摄像机视角的视频生成过程中。
值得强调的是,这里并没有真正地重建出一个三维点云模型——研究团队不是在造一个虚拟的三维世界,而是让VGGT把三维空间信息"压缩"进那组特征向量里,隐式地起到约束作用。每个摄像机在生成自己的画面时,都会参考这组共享的"世界知识",从而保证大家看到的是同一个世界。
研究团队还用实验验证了不同"世界理解工具"的效果差异。他们对比了四种方案:完全不提供世界状态、用原始视频模型的VAE编码器提供、用DINOv2(一种强大的图像特征提取模型)提供,以及用VGGT提供。结果非常清晰:VGGT方案在视频质量(FVD分数从228降到179,越低越好)和多视角一致性(重投影误差从0.75降到0.67,越低越好)上都显著优于其他方案。完全不提供世界状态时,一致性已经很差;用VAE编码器甚至比不用还要糟糕,因为它只是把各个视角独立编码,没有建立视角之间的空间关联;DINOv2能提供一定的语义信息,但缺乏三维几何的约束,效果居中;只有VGGT能真正"理解"多视角之间的三维关系,效果最佳。
**三、让框架像积木一样任意拼装——可扩展性设计**
MultiWorld在设计时就把"灵活可扩展"作为核心原则,使得它在角色数量和摄像机数量两个维度上都能自由伸缩。
在角色数量上,旋转位置编码天然具有"相对性"——它描述的不是"第1个角色"和"第2个角色"这种绝对位置,而是"角色之间的相对关系"。这意味着就算训练时只见过2个角色的场景,推理时面对3个或4个角色,系统也能通过外推来处理,不需要重新训练。这就像一个学会了"左边比右边更重要"这个相对概念的人,不管面对多少物体排成一排,都能应用这个规则。
在摄像机数量上,全局状态编码器的设计同样具有天然的灵活性。VGGT可以接受任意数量的输入图像,输出的特征向量经过MLP压缩成固定维度的全局表示,与摄像机数量无关。这样,不管是2台摄像机还是6台,全局状态编码器都能正常工作,生成模型接收到的条件信息格式也完全相同。
更值得一提的是效率上的优势。由于每个摄像机视角的视频是在共享全局状态的基础上独立生成的,不同视角可以完全并行计算——就像多个打印机同时打印同一份文件的不同页面,而不是一台打印机从头到尾打完所有页面。实验测试表明,在双视角场景下,并行生成比顺序生成快约1.5倍,而且随着摄像机数量增加,只要有足够的计算资源,速度优势会进一步扩大。
此外,MultiWorld还支持"自回归"长时序生成。模型一次生成一个"片段"(训练时是81帧),生成完之后,把最后几帧作为新的起始状态输入,继续生成下一个片段。全局状态编码器会在每个片段切换时更新"世界知识",确保前后连贯。实验结果显示,这种方式能稳定生成超出训练长度两倍的视频,延伸到四倍长度时质量损失也很有限。
**四、训练数据:两个不同世界的故事**
为了训练和测试MultiWorld,研究团队自己构建了两套数据集,分别对应两种完全不同的多角色多视角场景。
第一套来自多人视频游戏"双人成行"(It Takes Two)。这是一款需要两名玩家密切配合才能通关的合作游戏——两个角色共享同一个世界,相互的操作会实时影响对方的处境。研究团队录制了500小时的真实玩家游戏画面,分辨率高达2560×1440,帧率60帧/秒。经过筛选(去除无操作的过场动画、摄像机剧烈抖动的片段、玩家长时间静止的片段),最终保留了100小时、超过2100万帧的高质量数据。两个玩家分别用键盘鼠标和手柄操作,动作格式不同,研究团队通过统一拼接和补零的方式把两种格式合并成一个通用编码,用同一个动作编码器处理。
第二套来自多机器人操作模拟器RoboFactory。研究团队选取了四种任务类型:击打目标物体、两台机器人协作堆叠物块、三台机器人协作堆叠物块、以及四台机器人协作传递物品。每种任务收集了1000个成功案例和2000个失败案例——失败案例的构造非常讲究,不是随机乱动,而是在正确操作流程的基础上,在每个步骤引入受控的随机扰动,生成"几乎成功但最终失败"的轨迹。这样的失败案例才有训练价值,能让模型学会识别和预测失败模式。完全随机的动作序列会产生毫无意义的混乱画面,早期实验验证了这一点。每个episode从多个摄像机视角录制,分辨率256×320。
**五、实验对决:MultiWorld vs. 三个竞争对手**
研究团队设计了三个对比基线,代表不同程度的"偷懒"方案,以此衬托MultiWorld的完整设计的价值。
第一个基线叫"标准方案",就是把每个摄像机视角的视频独立处理,完全无视视角之间的关系。这是把单角色世界模型直接搬到多角色场景的最简单做法。第二个基线叫"视角拼接方案",把多个摄像机的画面拼成一个大画面,用一个模型统一处理,试图通过视觉拼接来共享信息。这个方案在视角数量增加时会遇到严重的内存瓶颈,而且无法处理视角数量变化的情况。第三个基线叫COMBO,是一种"分别训练单角色模型再合并"的组合方案,各角色之间的互动完全被忽视。
在多人游戏场景的测试中,MultiWorld在视频质量(FVD: 179,大幅领先其他方案的207-245)、动作跟随准确率(89.8%,高于其他89.3%以下的方案)和多视角几何一致性(重投影误差0.67,最低)上均排名第一。在多机器人场景中,MultiWorld同样在视频质量和多视角一致性上表现最佳,FVD为96,重投影误差为1.52,均优于标准方案和COMBO。
消融实验(也就是"缺哪个零件会怎样"的测试)进一步拆解了各模块的贡献。只加入多角色条件模块时,动作跟随准确率从88.4%提升到89.7%,但视角一致性几乎没有改善;再加入全局状态编码器后,视角一致性大幅提升,FVD从228降到179。两个模块各司其职,缺一不可。
**六、模型能做什么:三个生动的能力展示**
除了数字评测,研究团队还展示了MultiWorld在三种典型场景下的表现。
第一个场景是"零动作测试"。很多动作条件视频模型有一个老毛病:即使你告诉它"所有角色都不动",生成的画面里角色还是会莫名其妙地移动,仿佛"静止"这个指令被忽视了。MultiWorld在这个测试中表现优异,零动作输入确实能生成几乎静止的画面,没有多余的漂移。
第二个场景是"推拉大板子"的协同动作。一个角色在推,另一个在拉,两人合力移动一块大板子。MultiWorld准确捕捉了两个角色的联合物理效应,板子的运动轨迹与两人动作的合力方向一致,体现了跨角色的物理交互理解。
第三个场景是"多视角物理一致性"。在雪地场景中,两个角色走过留下的脚印,在两个相对的摄像机视角里都能正确显示,而且脚印的位置和形状在空间上吻合。阴影在两个视角的方向和长度也保持一致。这些细节证明全局状态编码器确实在约束着画面的三维物理合理性。
此外,在机器人场景中,MultiWorld还能生成有意义的"失败轨迹"——比如两台机器臂互相碰撞的情形。这对机器人安全训练很有价值:收集真实的碰撞数据往往意味着要牺牲真实机器人,而MultiWorld可以在仿真层面合成这些危险情形,大大降低数据收集成本。
**研究的局限与未来**
研究团队在论文中坦诚地指出,MultiWorld目前的规模还比较有限。训练使用的是Wan2.2-5B这个5B参数量级的基础模型,在8块英伟达A800显卡上训练了4万步,总计约4天。与顶级的视频生成模型相比,这个规模还有相当差距,大规模训练的潜力尚未被探索。
在应用方向上,研究团队提出了两个值得继续攻关的课题。其一是实时生成能力——目前的系统还不足以做到实时响应,这限制了它在真实游戏或机器人控制中的部署。其二是超长时序的记忆机制——多角色多视角场景积累的状态信息会随时间呈指数级增长,如何在极长的交互序列中保持连贯性,是一个尚待解决的难题。
说到底,MultiWorld做的事情用一句话可以概括:它给AI装上了一套"多角色多摄像机协调系统",让AI不再只能当单人游戏的旁观者,而是能真正理解并预测多个主角共同出演的世界。这个系统由两个核心组件构成——一个负责让AI记住"这个动作是谁的",另一个负责让AI知道"这几台摄像机看的是同一个世界"——合在一起,就能生成动作准确、视角连贯、物理合理的多角色多视角视频。
对于游戏行业,这意味着AI可以更逼真地模拟多人对战的动态,为关卡设计、AI对手训练提供新工具。对于机器人领域,这意味着可以低成本地合成大量多机器人协作(包括失败)的训练数据,加速机器人学习。对于电影和虚拟制作,这意味着AI导演的能力边界又向前扩展了一步。有兴趣深入研究的读者,可以通过arXiv:2604.18564查阅完整论文。
---
Q&A
Q1:MultiWorld和普通的视频生成AI有什么本质区别?
A:普通视频生成AI通常只处理单个角色、单个摄像机的情况,就像只会拍独角戏的导演。MultiWorld的本质区别在于它同时支持多个角色各自独立发出动作指令,并且能保证多个摄像机拍到的画面在空间上是一致的——不同角色看到的是同一个物理世界,而不是各自平行的虚构画面。
Q2:MultiWorld的多视角一致性是怎么实现的?
A:MultiWorld使用了一个叫VGGT的三维重建模型作为"世界大脑",把所有摄像机的当前画面同时输入进去,让它理解这些画面对应的三维空间结构,再把这份三维理解以特征向量的形式共享给每个摄像机视角的生成过程。每个视角在生成新画面时都要参考这份共享的三维世界知识,自然而然地保持了一致性。
Q3:MultiWorld训练用的数据从哪来,普通人能用这套系统吗?
A:训练数据来自两个来源:一是100小时的多人游戏"双人成行"真实玩家录像,二是用机器人仿真器RoboFactory生成的多机器人操作视频。研究团队计划开源部分游戏数据集和完整的机器人数据集。目前MultiWorld还处于学术研究阶段,需要8块高端显卡训练约4天,普通个人用户短期内直接使用的门槛较高,但相关技术有望在未来被集成到商业产品中。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。