微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学团队如何让AI"认人识脸",还能完美复刻任何动作?

清华大学团队如何让AI"认人识脸",还能完美复刻任何动作?

2026-06-17 10:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-17 10:06 科技行者

这项由清华大学与Z.ai联合开展的研究发表于2026年6月,论文编号为arXiv:2606.10804,有兴趣深入了解的读者可以通过该编号查询完整论文。

假设你是一位电影导演,手头有一段功夫高手打斗的精彩视频,你希望把这些动作"移植"到一个卡通熊猫角色身上,让熊猫也能做出一模一样的高难度动作,同时场景、背景、光影都天衣无缝。听起来是不是很科幻?这恰恰就是"角色动画"这个研究领域要解决的核心问题。而清华大学的这支团队,通过一套名为SCAIL-2的全新框架,将这个听起来遥不可及的目标变成了现实。

**以往的方法为何不够用?**

在SCAIL-2诞生之前,研究者们已经尝试过各种办法来解决角色动画问题。最主流的路线是提取"骨架图"——把驾驶视频(也就是提供动作的那段视频)里的人物姿势抽象成一张火柴人轮廓图,再把这张轮廓图输入到AI模型里,指挥目标角色跟着动。

然而这条路很快暴露出明显的短板。骨架图本质上是一种高度简化的信息压缩,就像把一幅细腻的油画缩减成几根线条的速写——颜色、质感、细节全都丢失了。当两个角色在画面里互相拥抱、打斗或者共同操控一件道具时,两组骨架叠在一起,AI根本分不清哪条胳膊属于谁,很容易产生混乱的输出结果。更棘手的是,如果驾驶视频里的主体不是人类,比如一只正在翻跟头的猫,或者一个做出夸张动作的卡通人物,传统的人体骨架提取工具就彻底失效了,因为它们从来没有学习过这些非人类形态的姿势。

除了动作骨架的问题,背景处理也是一个老大难。在"角色替换"这类任务里——也就是把原视频里的角色换成另一个角色、但保留原来的场景——研究者通常会把背景单独抠出来作为参考,再指挥AI把新角色"贴回去"。但这种方式有一个先天缺陷:如果新角色和原角色的体型差距很大,或者新角色和场景里的物体有复杂互动(比如原来是一个人拿着小提琴演奏,现在要换成一个身材截然不同的机器人),单靠一张抠出来的背景图,AI根本没办法合理推测新角色的手应该出现在哪里、道具应该如何与新角色配合。

归根结底,上述所有问题都指向同一个根本原因:过去的方法总是试图把视频里的信息"浓缩提炼"成一个中间媒介(无论是骨架图还是背景图),再通过这个中间媒介传递给AI,而这个提炼过程必然造成信息损耗。

**一、让AI直接"看"视频,而不是看火柴人**

SCAIL-2的核心理念可以用一句话概括:与其让AI看经过简化的骨架图,不如让AI直接看完整的原始视频。

这听起来简单,背后的逻辑却十分深刻。就好比教一个孩子学跳舞,一种方式是给他看一张标注了脚步位置的示意图,另一种方式是直接让他看舞者的完整表演视频。显然,后者包含的信息要丰富得多——不仅有脚的位置,还有手臂的摆动、身体的重心转移、表情的配合、与舞伴之间的空间关系。SCAIL-2选择的正是后一种方式。

具体来说,模型在工作时会同时接收三组输入:一张参考图(指定目标角色长什么样),一段驾驶视频(提供动作),以及待生成的视频序列本身。这三组内容被拼接在一起,直接送入AI的"大脑"进行处理。AI可以自由地从驾驶视频里提取它需要的所有视觉信息,包括两个角色之间的相对位置、遮挡关系、道具的形状,等等。这种端到端(end-to-end)的方式意味着整个流程从输入到输出都没有经过人为的信息压缩,AI能掌握的信息量最大。

研究团队把这套整体框架叫做"In-Context Driving"(上下文驱动),寓意模型是在一个完整的视觉上下文里理解动作,而不是依赖抽象符号。

**二、没有数据就没有AI:一套聪明的数据合成流水线**

端到端的思路虽好,却面临一个现实困境:训练这样的AI需要大量"配对数据"——也就是同一套动作被不同角色表演的成对视频。一段武打视频,要同时存在人类演员版和卡通熊猫版,而且动作必须完全一致。这类数据在现实中几乎不存在,靠人工拍摄更是成本高得离谱。

为了解决这个问题,研究团队设计了一套自动化的数据合成流水线,整个过程就像一个精密运转的"配对照片工厂"。

工厂的第一道工序叫"候选筛选":从大量视频数据库里随机抽取一段驾驶视频,同时从角色图库里挑选几个候选角色图片,然后交给一个视觉语言模型(可以理解为一个能看图说话的AI助手)来判断哪个角色和这段视频的第一帧姿态最搭配。

筛选出合适的角色后,进入第二道工序"提示编织":同样由AI助手根据视频第一帧和角色图片,提前规划生成目标的文字描述——包括这个角色应该摆什么姿势、背景应该是什么样子。这个步骤的意义在于,它绕过了AI内置创作模块的"胡思乱想",直接用精准的文字描述锁定需要的内容。

有了文字描述之后,一个强大的多参考图像生成模型(论文中称为"Nano Banana Pro",来自Google DeepMind)会根据姿态参考帧、角色图片和文字描述,生成一张参考帧图片,作为后续视频生成的起点。

生成的图片还要经过第三道工序"质量检验":再次由AI助手评估生成图片中的姿态是否准确、场景是否合理、角色是否有信息泄露(比如不该出现的背景细节)。不合格的图片会被退回重新生成,彻底失败的角色候选会被直接淘汰换新的。

通过这条流水线,再结合已有的骨架驱动动画模型(包括SCAIL、Wan-Animate等),团队最终生成了一个叫做"MotionPair-60K"的数据集,包含接近六万对端到端动作迁移视频对,涵盖单角色动画、多角色动画、角色替换等多种任务类型。其中真实人类角色占约57%,2D动画角色占约10%,3D动画角色占约33%。

**三、"反向驾驶":用合成视频当输入,用真实视频当目标**

有了数据,训练策略同样至关重要。研究团队采用了一个反直觉但极其巧妙的训练方式,叫做"反向驾驶"(Reverse Driving)。

通常的逻辑是:用真实视频作为驾驶输入,用合成的目标角色视频作为训练目标。但这样做有个问题——合成视频本身就有缺陷,用它作为训练目标会把缺陷也一起学进去。

SCAIL-2反其道而行之:把合成视频作为输入(驾驶视频),把真实视频作为训练目标。道理其实很简单——合成视频只需要提供动作信息,允许它不够完美;而AI最终要学会生成的是真实视频那样高质量的结果,所以训练目标必须是真实视频,不能妥协。

这就像教一个人画肖像:你可以用一张略有失真的素描来告诉他"大概的姿势和构图是这样的",但你期望他最终画出来的是一张逼真的照片级肖像,而不是一张同样失真的素描。反向驾驶的精髓就在这里。

**四、给AI一张"人物座位表":上下文蒙版条件机制**

端到端的视频输入虽然信息丰富,却也带来了新的混乱源头——当画面里有多个角色同时运动时,AI怎么知道哪个角色的动作应该对应参考图里的哪个角色?

研究团队为此设计了一套"上下文蒙版条件机制"(In-Context Mask Conditioning),可以形象地理解成给AI一张"人物座位表"。

这套机制由两部分构成。第一部分是"环境开关":一个额外的信号通道,专门告诉AI,最终输出的背景场景应该来自参考图(角色图片动画模式),还是来自驾驶视频(角色替换模式)。有了这个开关,AI就不会在需要保留原场景时画出参考图的背景,也不会在需要使用参考背景时搞混来源。

第二部分是"角色绑定槽"(Binding Slots):一组额外的信号通道(共K个),每个通道对应一个"绑定关系"。如果驾驶视频里有甲、乙两个角色,参考图里也有甲、乙两个目标角色,那么甲的驾驶蒙版和甲的参考蒙版会被分配到同一个绑定通道里,乙的同理。这样AI就清楚地知道:这个通道里的动作应该专属于这个通道里的角色,不能乱。

这些蒙版信号都通过一个鲁棒的分割模型(SAM3,来自Meta)自动提取,并经过规则匹配完成角色对应,最终被压缩成与视频潜在表示等大的格式,附加在整个输入序列上。关键在于,这些蒙版信号只从参考图和驾驶视频中提取,绝对不会从最终目标视频中注入任何信息,保证了训练过程的公平性,也维护了端到端的本质。

消融实验明确验证了这一机制的价值:当场景里有路人穿越画面时,去掉角色蒙版的版本无法稳定保持角色的外观一致性;在角色相互旋转换位的场景里,去掉绑定槽的版本会导致角色身份错乱,把两个人的外观特征混在一起。

**五、用"坐标系"区分两种工作模式:模式专属位置编码**

除了上述蒙版机制,研究团队还引入了一套叫做"模式专属移位旋转位置编码"(Mode-Specific Shifted RoPE)的技术,可以理解为给AI的不同工作模式分配不同的"坐标系"。

所谓旋转位置编码(RoPE),是目前大型AI模型里广泛使用的一种技术,用来帮助模型理解序列里各个位置之间的关系——类似于给每个词或每个图像块打上时间和空间的坐标标签。

研究团队注意到,"角色图片动画模式"和"角色替换模式"在第一帧的处理上有本质区别:动画模式需要根据参考图重新生成一个全新的起始帧,而替换模式则要求第一帧的背景与驾驶视频完全一致,只替换角色本身。为了让AI区分这两种情况,他们给两种模式分配了不同的坐标偏移量:动画模式下,参考图在时间维度上被标记为"第0帧",生成序列从"第1帧"开始;替换模式下,参考图在空间高度维度上被附加一个额外偏移,与生成序列在空间上区分开来。

这种差异化的坐标标记让AI在接收输入时就能感知到"我现在处于哪种工作模式",从而做出正确的处理决策。消融实验里,去掉模式专属RoPE的版本会出现参考图里的阴影区域被错误地渲染成白色纹理的奇怪现象,说明没有清晰的坐标区分,AI会被参考图中的某些视觉特征带偏,无法正确理解自己的任务。

**六、"偏见矫正训练":让AI不再忽略手指细节**

端到端训练还隐藏着一个容易被忽视的问题:合成数据里的骨架提取工具对手部关节的处理最不准确,手指细节在骨架图里经常错误或缺失,导致动画生成模型合成的视频里手部动作频繁出现错误。当这批带有手部错误的合成视频被用作训练数据时,AI也跟着学会了"忽略手指"。

为了解决这个细节层面的问题,研究团队提出了"偏见感知直接偏好优化"(Bias-Aware DPO),这是一套专门纠正AI错误习惯的后训练方案。

整个方案的核心思路是构建"偏好对"——每对数据里有一个"更好的版本"和一个"有明显错误的版本",然后通过优化让AI学会区分两者,主动避免错误。

具体构建过程颇为精妙。给定一段运动视频y,先用精确的姿态估计器SDPose提取骨架,生成参考图片r作为正样本;同时用同一组骨架和另一张参考图片生成视频s,s作为驾驶输入。负样本则是通过"二次误差叠加"得来的:先从r里再次提取骨架(此时换用精度较差的ViTPose),再重新生成视频r?。由于经历了"提取→生成→再提取→再生成"两轮误差累积,r?的手部细节会比r明显更差。这样,(r, r?)就构成了一对正负偏好样本,共享相同的整体姿势但在手部细节上存在系统性差异。

训练时,损失函数只在手部区域的蒙版范围内计算,专门强调手部细节的偏好学习,避免被身体其他区域的信息干扰。有趣的是,尽管优化目标锁定在手部,模型的提升效果却会"溢出"到嘴部、肩部等其他精细区域,说明偏好优化调整的是模型对细节的整体敏感度,而不只是手部的局部权重。

与直接在手部损失上做监督微调(SFT)的方案相比,偏见感知DPO的效果明显更好,因为SFT缺乏负样本的对比信号,而DPO正是通过"知道什么是错的"来帮助AI更清楚地理解"什么是对的"。

**七、实验结果:数字和画面都说了什么**

在人类评估实验中,SCAIL-2与当前多个主流方法进行了全面比较。对于单角色动画任务,研究团队邀请人工评审对多组视频两两比较,分别评估动作一致性、物理合理性和角色一致性。结果显示,SCAIL-2在动作一致性上以68.3%的胜率超过前一代的SCAIL,以65%的胜率超过Wan-Animate;在物理合理性上,对Wan-Animate的胜率更是高达78.3%;与商业产品Kling 3.0相比,SCAIL-2也保持了相当接近甚至略胜的表现,在物理合理性上以46.7%胜率略超,仅在动作一致性上以36.7%对40%略逊。

多角色动画任务的结果更为亮眼。与MultiAnimate相比,SCAIL-2在动作一致性上取得了93.3%的压倒性胜率,在角色隔离(即两个角色的外观不互相污染)和角色一致性上同样达到了93.3%的胜率。值得一提的是,这些多角色动画结果完全是零样本的——SCAIL-2在训练时从未专门针对多角色动画场景做过优化,能取得如此成绩完全依赖于端到端框架和统一训练策略的泛化能力。

在角色替换任务上,SCAIL-2以57.1%的动作一致性胜率超过专门为角色替换任务训练的MoCha,在场景融合和角色一致性上也以约67%的胜率占优,充分证明了统一框架的综合竞争力。

在定量指标层面,使用骨架作为驾驶信号时,SCAIL-2的SSIM指标表现中等,但当改用更精确的三维人体网格(SAM3D-Body提供)作为驾驶信号时,指标显著提升——尤其值得关注的是,SAM3D-Body的三维网格是SCAIL-2从未在训练中见过的新型驾驶格式,它依然能正确处理,这有力地展示了端到端方式"自动从驾驶输入中提取更多信息"的能力。X-Dance基准测试上,SCAIL-2在视频质量的成像清晰度指标(4.43分)和外观一致性指标(4.38分)上均高于所有对比方法。

**八、消融实验:拆掉哪块砖,房子就会倒**

为了验证每个设计选择的必要性,研究团队做了系统的消融实验,逐一拆除或替换各个组件,观察性能变化。

去掉端到端驾驶方式,改回骨架驱动时,涉及两个角色复杂互动的场景(如打斗、双人舞蹈)中模型明显产生错误的肢体关系,这直接证明了性能提升确实来自端到端范式本身,而非其他因素。

去掉环境开关后,模型无法依靠文字指令区分动画模式和替换模式,经常生成混乱的背景,有时把参考图的背景错误地融入到应该保留驾驶视频场景的输出中。

去掉模式专属RoPE后,参考图中的阴影区域会被错误地渲染成白色纹理,说明没有明确的空间坐标区分,模型会混淆参考图和驾驶视频的角色。

去掉角色绑定槽后,当路人或其他角色进入画面时,模型无法稳定锁定目标角色的外观,会被干扰角色影响;在训练数据里去掉绑定槽则会导致模型错误地改变路人的服装,将主角的特征"污染"到旁观者身上。

去掉替换模式训练数据后,模型在处理多角色重叠遮挡时明显出错,无法正确区分被遮挡的动作;去掉动画模式训练数据后,模型在应对大幅体型差异的跨角色迁移时效果急剧下降。这两个发现揭示了一个关键的协同效应:替换模式数据教会模型处理复杂的角色重叠,动画模式数据则教会模型跨越体型差异完成迁移,两者相互补充,缺一不可。

**当前的边界与未来的空间**

SCAIL-2并非没有局限。端到端范式的最大软肋是对高质量配对训练数据的强依赖。目前的合成数据流水线虽然在很大程度上解决了数据稀缺问题,但合成数据的质量上限始终受制于所用生成模型的能力。手部细节问题已经通过偏见感知DPO得到一定改善,但嘴部动作、面部微表情等更精细的区域仍然是难题,正面样本的质量在这些区域依然难以保证。

此外,整个训练过程对计算资源的需求相当可观:14B参数量的模型在64块NVIDIA H100 GPU上训练了大约一周。对于没有充足算力的研究者或机构,这仍然是一道门槛。

研究团队也坦承,未来可以考虑将框架扩展到唇形同步、细粒度面部表情动画等更精细的任务领域,前提是能够构建足够高质量的对应训练数据。从更长远的视角看,SCAIL-2所代表的方向是:让AI直接从视觉上下文中理解和提取所需信息,而非依赖人工设计的中间表示,这条路线具备随着生成模型能力提升而持续进化的潜力。

说到底,SCAIL-2做的事情,是在教AI"用眼睛思考"而不是"看符号理解"。传统角色动画方法先把丰富的视觉信息压缩成骨架符号,再让AI从符号里还原信息,这个压缩-还原的过程天然存在损耗,就像把一张彩色照片先转换成黑白,再试图还原成彩色一样,总有些东西找不回来。SCAIL-2选择的是另一条路:直接给AI看彩色照片,让它自己去理解颜色、光影、层次和关系,信息最充分,理解最直接。

这对普通人意味着什么?不远的将来,电影制作、游戏开发、虚拟主播、个性化动画内容等领域的创作门槛将大幅降低。或许有一天,你只需要拍一段自己跳舞的视频,配上一张你喜欢的卡通形象图片,就能自动生成一段那个卡通形象在做同样舞蹈动作的高质量动画——而且细节精准到连手指的弯曲方式都会忠实还原。

对这项研究感兴趣的读者,可以通过arXiv编号2606.10804查阅完整论文,项目主页也提供了演示视频和部分开放的合成数据集及模型权重。

Q&A

Q1:SCAIL-2和传统角色动画方法有什么根本区别?

A:传统方法先把视频里的人物动作提炼成骨架示意图,再让AI根据骨架驱动目标角色,这个过程会丢失大量细节信息,遇到多人互动或非人类角色时容易出错。SCAIL-2则完全跳过骨架这一中间步骤,直接把完整的驾驶视频输入给AI,让AI自行从中提取所需的所有视觉信息,因此能处理骨架方案无法应对的复杂场景。

Q2:MotionPair-60K数据集是怎么做出来的?

A:研究团队设计了一套自动化合成流水线:先从视频库随机抽取驾驶视频,再由AI助手从角色图库里选出姿态最匹配的角色图片,通过文字描述规划生成目标,由图像生成模型合成参考帧,最后经过质量检验筛选,不合格的退回重做。这样反复循环,最终生成了接近六万对配对视频数据。

Q3:偏见感知DPO是如何改善手部动作质量的?

A:训练数据里的手部细节本来就因骨架提取误差而不准确,AI跟着学会了忽略手指。偏见感知DPO构建了成对的"好版本"和"有系统性手部错误的版本",通过让AI学会区分两者来纠正这种偏差。优化时只在手部区域计算损失,但效果会扩散到嘴部等其他精细区域,整体细节表现都有提升。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-