
这项由清华大学、格拉斯哥大学、香港中文大学与汇鲸数字文娱集团联合开展的研究,以预印本论文形式于2026年4月8日发布于arXiv平台,编号为arXiv:2605.13857,研究方向涵盖计算机图形学与视频生成。有兴趣深入了解的读者可以通过上述编号在arXiv数据库中查询完整论文。
你有没有注意到,每当电影里出现一只奔跑的狮子或者跳跃的老虎,那毛发随风飘动的样子总是格外真实?那种效果背后,是一支庞大的特效团队花费数月时间,先建骨骼、再模拟肌肉、最后一根一根地生成毛发,整个过程就像给一只数字动物缝制一件量身定制的皮草大衣,费时、费力、费钱,而且每次换个动物就得从头再来。
这支由高校和产业界共同组成的研究团队提出了一套名为MoZoo的系统,它的核心思路是:既然制作这件"皮草大衣"这么难,那能不能换一种方式,直接告诉AI"这件衣服应该长什么样子",让AI帮我们把衣服穿上去?
一、传统特效流程:给数字动物缝皮草
要理解MoZoo带来的改变,先要明白传统特效流程有多"折磨人"。
在好莱坞的传统动物特效制作中,一切都从一个光秃秃的三维模型开始——专业术语叫"网格",你可以把它理解成一个用无数小三角形拼成的动物骨架玩具。拿到这个骨架之后,特效艺术家需要首先完成骨骼绑定,也就是在这个骨架内部插入一套虚拟的骨骼系统,让它能像真实动物一样弯腰、跳跃、甩尾巴。接下来,他们要在骨骼外面包裹肌肉系统,模拟肌肉在运动过程中如何鼓起、拉伸、颤动。只有这些都做好了,才能轮到最耗时的一步:毛发模拟。一只普通的虎,身上有超过一亿根毛发,每一根在运动时都会受到重力、风力、碰撞等影响,这些物理计算量极其惊人,往往需要专业渲染农场运行几天甚至几周才能完成。
MoZoo团队将这个流程比喻成一条漫长的生产线,论文中的图示清晰地呈现了两条流水线的对比:传统流水线由骨骼绑定、肌肉建模、毛发渲染三道工序串联而成,每道工序都需要顶级专家手工调整;而MoZoo流水线只有一道工序,把光秃秃的网格模型和一张参考图片送进去,直接得到毛茸茸的真实感视频。
正是这种"跳过中间所有工序"的思路,构成了整个研究的核心突破。
二、MoZoo的基本工作原理:AI扮演"皮草移植师"
MoZoo的工作方式,可以用一个贴切的比喻来描述:它是一位专业的"皮草移植师",能够把一张参考照片或视频里动物的毛发质感,精确地"移植"到一段由光秃秃网格模型构成的动画上。
具体来说,MoZoo接受三种不同形式的"指导"。第一种是文字指令,比如"把视频里的网格动物渲染成一只真实的熊猫";第二种是参考图片,提供一张老虎照片,MoZoo就会把老虎的毛纹、颜色和质感移植到网格动物上;第三种也是最强大的,是参考视频,用一段真实动物的视频作为参考,让MoZoo可以捕捉到毛发在运动过程中的动态变化,比如奔跑时毛发如何随风飘动、转头时毛发如何跟随身体位移。
这个系统建立在一个叫做"视频扩散模型"的AI技术之上。扩散模型的工作原理有点像把一张照片泡在水里让它变模糊,然后再学会如何把模糊的图案还原成清晰的图像。不过视频扩散模型处理的不是单张图片,而是连续的视频帧序列,需要保证每一帧之间的画面自然衔接,没有跳跃感。MoZoo选用的基础模型是Wan2.1,一个拥有140亿参数的大型视频扩散模型,在此基础上进行了专门的改造和训练。
三、最难的问题:数据从哪里来?
任何AI系统的训练都需要大量数据,而MoZoo面对的数据问题尤为棘手。它需要的不是普通的动物视频,而是"成对"的数据:同一段动作,既有光秃秃的网格版本,也有毛发完整的真实版本。这就好比你要教一个人学会化妆,不仅需要展示化妆后的效果,还需要配套的素颜照片,而且两张照片里的人必须做着完全相同的表情和动作。
在现实世界中,这样的成对数据几乎不存在。专业的动画资产受商业保密协议保护,手工标注又代价高昂,于是研究团队设计了一套独创的数据生成流程,称为MoZoo-Data。
第一条路是"虚假路"。团队利用虚幻引擎5这款专业游戏开发软件,搭建了一套自动化渲染流水线。他们收集了各种动物的三维模型和动画素材,让这些模型在不同的三维场景里运动,然后做两次渲染:第一次用简单的无纹理着色器,得到光秃秃的网格视频;第二次用完整的逼真材质和毛发纹理,得到漂亮的动物视频。这两段视频天然对齐,因为它们来自同一套骨骼动画。此外,系统还会导出每一帧的二值化分割蒙版,精确标记出动物身体的轮廓区域,为后续的局部纹理学习提供像素级别的注释。
然而,这条"虚假路"有一个根本性的局限:电脑生成的动物视频,无论多么精良,在毛发物理和肌肉细节上都和真实动物有差距,直接用这些数据训练出来的AI,在处理真实动物时效果会大打折扣。
于是团队开辟了第二条路:"逆向还原路"。他们先用合成数据训练了一个"逆向模型",这个模型的任务反过来,是把真实感的动物视频还原成对应的网格视频。然后,他们收集了来自Pexels平台的大量真实野生动物视频,经过标准化处理后,用这个逆向模型为每段真实视频生成对应的网格版本。为了使网格生成更准确,他们还用Flux2 Kelin这个图像编辑工具对每段视频的第一帧进行"去毛发"处理,将其转换成网格状的外观,再以此为起点引导逆向模型生成后续帧的网格序列。
整个数据处理流程最后还经过了一道质量过滤:用视觉语言大模型Qwen3-VL自动筛选掉质量不佳的视频片段,确保进入训练的数据都有足够的清晰度和动物可见性。最终,MoZoo-Data包含了62000个视频片段,分辨率为480P,帧率为15帧每秒,涵盖了渲染合成数据和真实动物数据两大来源。
四、第一个技术创新:教AI分清"谁是谁"
有了数据之后,下一个挑战是如何让AI同时"听懂"三路输入信号:网格视频、参考视频、还有待生成的目标视频。这三路信号都会被压缩成数字序列送进AI模型,但问题在于,AI需要知道哪段数字序列是"运动参考"、哪段是"外貌参考"、哪段是"等待填充的输出",而且不同段落之间的关系规则完全不同。
在AI视频模型中,有一种叫做"旋转位置编码"(RoPE)的技术,它的作用就是给序列中的每个数据点贴上位置标签,就像给一排座位编号,让AI知道哪个信息属于第几帧、第几行、第几列。传统的位置编码会按照数据的物理顺序依次编号,但这样做有个隐患:当三段不同含义的视频序列拼接在一起时,参考视频的第1帧会被编号为某个值,而目标视频的第1帧被编号为另一个值,AI可能会因此产生错误的"时间联想",以为参考视频的第1帧和目标视频的第3帧之间有什么特殊的时间关系,而实际上这种关系根本不存在。
研究团队为此设计了"角色感知旋转位置编码",简称RAR-RoPE。这套方案的核心思路是:不再按照物理顺序分配编号,而是根据每个数据点的"角色"来决定它的编号规则。目标视频和网格视频被赋予完全相同的时间编号——第1帧就是第1帧,第2帧就是第2帧,这样AI就能自然地理解"目标视频的第3帧对应网格视频的第3帧"。参考视频则被整体移位,时间编号统一偏移一个固定值,这等于告诉AI"这段内容是参考资料,不要把它当成和目标视频同步的时间线"。如果参考素材是静态图片而非视频,那么时间编号被设置为负一,表示"这是一张没有时间属性的图片"。分割蒙版则固定编号为零,代表它是不随时间变化的空间结构参考。
这套精心设计的编号规则,解决了多路信号混合时AI容易"认错人"的问题,让每种输入都在AI的理解框架里保有清晰的角色定位。
五、第二个技术创新:搭建单向信息高速公路
解决了"认错人"的问题,还有另一个麻烦:AI中的注意力机制(你可以把它理解成AI"看"信息时的注视规则)默认允许所有信息互相交流。在MoZoo的场景里,这意味着网格视频里强烈的边缘线条和结构信号会"干扰"参考视频里细腻的毛发纹理信息,就像在安静的图书馆里突然有人大声说话,周围人的注意力都会被分散,再细腻的低语都听不清楚。
同时,把三段完整视频序列直接拼接成一个长序列,数据量会急剧膨胀。注意力机制的计算量与序列长度的平方成正比,序列长度翻倍,计算量就变成原来的四倍,很快就会超出实际可用的计算资源。
研究团队为此提出了"非对称解耦注意力"机制,简称ADA。这套机制的核心思路可以用一条单行道来类比:信息只允许从参考源流向目标,但不允许反向流动。
具体来说,系统将整个序列分成四个功能区域:目标生成区、网格结构区、分割蒙版区、动物参考区。目标生成区的AI视角可以同时"看"四个区域,因为它需要综合所有信息来生成最终结果;但有一个特别的限制,目标视频的每一帧只允许参考网格视频中对应的那一帧,而不是整段网格视频,这确保了帧级别的精确时间同步。而参考区和结构区则只能在自己的小范围内"自言自语",完全看不到目标生成区里那些充满噪声的待生成内容,这样干净的参考信息就不会被噪声污染,始终保持稳定。
这种单向信息流设计,既防止了特征干扰,又大幅降低了计算量——因为参考区和结构区各自独立处理,不需要和目标区进行全量的交叉注意力计算。
六、MoZooBench:用120段视频来打分
研究团队不满足于仅仅展示生成效果,他们还专门建立了一个名为MoZooBench的评测基准,包含120对网格视频和真实动物视频,所有内容均未出现在训练数据中,确保评测的公平性。
评测维度分为两大类。第一类是视频质量本身,包含四个子指标:主体一致性衡量视频里动物的外形在不同帧之间是否保持稳定,不会突然改变形状或颜色;背景一致性衡量场景环境是否保持稳定;运动流畅度衡量帧间过渡是否顺滑,没有抖动或突变;成像质量和美学质量则分别从清晰度和视觉吸引力两个维度进行无参考评估。第二类是参考对齐度,用PSNR、SSIM、LPIPS三个经典图像相似度指标,从不同层面衡量生成结果和参考动物之间的相似程度——PSNR和SSIM偏向像素级别的结构相似,LPIPS则更接近人类眼睛感知到的视觉差距。
在与同期先进方法的对比中,MoZoo在几乎所有指标上都取得了最好或第二好的成绩。以参考视频作为输入时,MoZoo的主体一致性评分达到97.84,远高于对比方法VACE的93.68和Refacade的95.49;PSNR指标为20.75,而VACE仅为15.628;LPIPS指标为0.070,数值越低代表感知差距越小,MoZoo在这一指标上同样优于竞争对手。即使只使用静态参考图片,MoZoo的各项评分也均优于以视频参考的VACE和Refacade。
七、消融实验:拆掉零件看效果
为了验证RAR-RoPE和ADA这两个创新组件各自的贡献,研究团队做了一组"拆零件"实验,也就是依次关闭其中一个组件,观察整体效果的变化。
关闭RAR-RoPE之后,生成结果中会出现明显的解剖位置漂移,原本应该在身体某个位置的毛发纹理出现在了错误的位置,说明没有精确的角色感知位置编码,AI无法正确地把参考纹理"对号入座"地贴到目标网格的对应部位。关闭ADA之后,生成画面中精细的毛发纹理变得模糊和过度平滑,说明来自网格的强结构信号确实在压制来自参考视频的细腻毛发细节,ADA对这两种信号的隔离是保持高频细节的关键。
对比参考图片和参考视频两种输入模式,实验表明当目标角度与参考图片的视角接近时,两种模式效果相当;但当目标动画覆盖了参考图片中不存在的极端角度时,图片参考模式会出现纹理缺失或细节丢失,而视频参考模式能够借助多帧的时间维度信息弥补单一视角的局限,在更广泛的视角范围内保持高质量的毛发还原效果。
八、跨物种纹理移植:让老虎穿上大象的皮
研究中展示的一个特别有趣的应用是跨物种纹理移植,用通俗的话来说就是"把一种动物的皮草移植到另一种动物身上"。研究团队展示了将一只老虎的纹理特征移植到大象网格模型上的效果,系统生成的图像看起来并不像是把老虎花纹简单地贴在大象皮肤表面,而是呈现出一种好像这头大象天生就长着这种纹理的生物一致感。
这一能力对影视制作来说具有很强的实用价值。创作团队可以快速生成原本自然界中不存在的奇异生物,比如有斑马纹的狮子或者有豹纹的犀牛,这些生物在传统工作流里需要艺术家从零开始设计,而MoZoo可以将这个过程压缩到极短的时间内完成,为游戏、电影和虚拟世界的创作提供了一种高效的"生物设计工具"。
九、局限性与未来方向
研究团队在论文结尾坦承,MoZoo目前在处理多个动物同时出现、彼此遮挡的复杂场景时还存在挑战。此外,现有系统专注于动物毛发和肌肉的模拟,还不能很好地处理人类头发和合成材质等其他场景。
未来的研究方向包括把MoZoo扩展到人类头发模拟和各种合成纤维材质,最终目标是建立一个能处理各种角色类型的通用毛发和皮肤仿真系统。研究团队同时指出,当这项技术扩展到人类主体时,存在被用于生成未经授权的数字化身或深度伪造视频的风险,可能导致虚假信息的传播,这是需要认真对待的社会影响问题。
说到底,MoZoo这项研究的核心价值在于打通了一条"跳跃式"的技术通道:以前需要走三道门才能从骨架模型到达成品视频,现在一道门就过去了,而且生成质量在客观指标上已经全面超越了现有的可比方法。这对普通用户来说意味着什么?短期内,专业的影视和游戏制作团队会率先受益,那些原本只有顶级制作公司才能负担得起的动物特效将变得触手可及。从更长远的视角来看,随着这类技术的持续成熟和普及,独立创作者或许也能以极低的成本制作出过去只有好莱坞才能实现的视觉效果。当然,这也同时提出了一个值得思考的问题:当高质量的视觉合成变得唾手可得,我们怎样去辨别眼前的动物影像是否真实?这或许是这项技术带给我们的,除了惊叹之外,更需要认真思考的命题。
Q&A
Q1:MoZoo需要什么样的输入才能工作?
A:MoZoo需要两种主要输入。第一是一段光秃秃的网格模型视频,代表目标动物的动作轨迹;第二是一个参考素材,可以是一段文字描述、一张动物图片,或者一段真实动物视频。系统会自动把参考素材的毛发质感"移植"到网格视频上,生成逼真的带毛发动物视频,不需要手动做任何骨骼绑定或毛发模拟。
Q2:MoZoo的训练数据MoZoo-Data是怎么来的?
A:MoZoo-Data由两部分组成。一部分是用虚幻引擎5渲染的合成数据,用同一套动画分别生成网格版本和逼真版本,天然成对。另一部分是真实动物视频,来源于Pexels平台,通过训练一个"逆向还原模型",把真实视频对应地转换成网格视频,最终用视觉语言模型过滤质量不达标的内容,共收录了62000个视频片段。
Q3:MoZoo的参考视频比参考图片效果好在哪里?
A:当目标动画的视角和动作与参考内容高度吻合时,两者效果相差不大。但当动画覆盖了参考图片中没有出现过的极端角度时,参考图片模式可能出现纹理缺失的情况,而参考视频模式能利用视频多帧的时间信息,从多个角度理解动物的毛发特征,在更大的视角范围内维持高质量的渲染效果。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。