微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学与腾讯混元联手破解"换脸难题":AI生成视频终于认得清你的脸

南洋理工大学与腾讯混元联手破解"换脸难题":AI生成视频终于认得清你的脸

2026-05-19 11:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-19 11:46 科技行者

这项由南洋理工大学、腾讯混元、中国科学技术大学和北京师范大学联合开展的研究,以预印本形式于2026年5月发表,论文编号为arXiv:2605.04702,题为"FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation"。

你有没有试过用AI工具把自己的照片变成一段视频?效果大概率让你哭笑不得——明明输入的是你的脸,视频里的那个人一转身、一挥拳,脸就开始"崩塌":眼睛跑偏了,鼻子变形了,整个人看起来像是被捏过的橡皮泥。这不是你的错,也不是那张照片质量不好,而是当前几乎所有AI视频生成技术都面临的同一块绊脚石:一旦人物的头部发生较大角度的转动,或者手、头发等遮挡住了部分面孔,AI就会开始"胡编乱造",把你的脸画得面目全非。

这个问题的根源其实很直接。你给AI一张正面照,AI从这张照片里学到的,只是你正面朝前时的样子。当视频里的你开始点头、摇头、转身,AI完全不知道你侧面长什么样、仰头时下巴轮廓如何、低头时眉骨如何突出。它只能凭空猜测,而猜测的结果往往惨不忍睹。

正是为了解决这个问题,来自上述四家机构的研究团队提出了一套名为"FaithfulFaces"的新方法。这套方法的核心思路是:从你的一张照片出发,不仅仅记录你"此刻的模样",而是推断出你"各种角度下的全局面貌",再把这个更完整的面部认知注入AI的视频生成过程中。实验结果表明,在衡量人脸身份保真度的关键指标上,FaithfulFaces比当前最强的开源方法高出约18%,比知名商业产品Kling也有明显优势,同时生成视频的画面质量也全面领先。

一、从一张照片"脑补"出你的360度面孔

理解FaithfulFaces的关键,可以从一个日常场景出发:你刚认识一个新朋友,只见过他一次正面,之后他转过身去你还能认出他吗?大多数人可以,因为我们的大脑会在第一次见面时不只记录"正面快照",而是建立起一个关于这个人面部轮廓、五官分布、整体气质的立体印象。哪怕只看到侧脸,我们也能凭借这个立体印象做出判断。

FaithfulFaces想让AI具备类似的能力。研究团队设计了一个叫做"姿态共享身份对齐器"(pose-shared identity aligner)的核心模块,它的工作方式就像一个专门训练过的"人脸素描师":不管你给它看你的正面、侧面还是仰角,它都能把这些不同角度的面部信息统一归纳到一套共同的"面部词典"里,提炼出你这张脸在各种角度下都稳定存在的核心特征。

这套词典在技术上叫做"姿态共享字典",可以把它理解成一本厚厚的"人脸角度百科"。这本百科里存放了成千上万个面部特征条目,每张输入的人脸图像都会根据自己的角度和样貌,去这本百科里"查询"最相关的条目,然后把这些条目重新组合,形成一个能够代表这张脸在全局角度下的综合描述。经过这个过程,AI拿到的不再是"你正面的一瞥",而是一个更加立体、更加全面的面部认知。

更巧妙的是,研究团队还给这个系统额外提供了一份"角度说明书"。具体来说,他们使用了一种叫做欧拉角(pitch、yaw、roll,分别对应仰俯、左右转动、头部倾斜)的数学工具来量化每张人脸图像的朝向,并把这个角度信息直接编码进面部特征的处理过程中。这就好比你在给人脸素描师看照片时,还附上一张说明:"这张照片里他是侧着脸、微微仰头的"——有了这个提示,素描师能画出更准确的全角度形象。这种角度信息的加入,在实验中被证明能进一步提升视频中面部身份的一致性。

二、AI如何"学会"区分角度变化和身份变化

光有这套词典还不够,还得让AI明白一件事:同一个人从不同角度看,虽然外观有差异,但本质上还是同一个人;而两个不同的人,哪怕都是正面照,也是截然不同的两个身份。这听起来像是废话,但对AI来说,区分"这是同一个人的不同角度"和"这是两个长相相似的不同人",恰恰是非常困难的事情。

研究团队为此设计了一套训练策略,他们称之为"姿态变化-身份不变约束"。具体做法是这样的:在训练时,从每段视频里随机抽取同一个人物的两帧画面,这两帧画面里的人物姿态往往不同(比如一帧是正面,一帧是侧面)。系统被要求让这两帧画面经过对齐器处理后,得到尽可能相似的特征表示——因为它们是同一个人。与此同时,来自不同人物的画面,则被要求产生尽可能不同的特征表示。

这套训练方式借鉴了一种在AI领域广泛使用的技术叫做"对比学习",可以用一个考试场景来理解:老师把同一个学生不同发型的照片标注为"这是同一个人",把不同学生的照片标注为"这是不同的人",然后让模型反复练习,直到它能准确区分"角度/发型不同但是同一人"和"真正的不同人"这两种情况。

从信息论的角度来看,这种训练方式有一个优美的数学保证:它本质上是在最大化同一个人不同角度面部特征之间的"共同信息量"。换句话说,它强迫系统去发现那些跨越角度变化依然稳定存在的身份核心特征,而不是被短暂的角度差异所干扰。研究团队通过可视化实验验证了这一点:经过这套训练的系统,能把同一个人不同角度的七张脸归结到特征空间里紧密相邻的区域,而不同人的脸则清晰地分散开来——这种"聚同排异"的效果,正是身份认知准确性的直接体现。

三、词典里藏着什么秘密

研究团队还做了一件有趣的事:他们把训练完成后的那本"人脸角度百科"打开来看了看,结果发现里面藏着一个令人惊喜的规律。

他们把五种典型的人脸朝向分别输入系统——正面、左侧脸、右侧脸、仰头和低头——然后观察每种朝向最常"激活"(也就是最常被查询)的词典条目编号。结果发现,正面朝向总是倾向于激活第3、562、2806号条目,而仰头朝向则总是激活第2、704、1856号条目,左侧脸有自己固定偏爱的条目,右侧脸和低头也各有各的偏好。

这个发现说明,那本词典在训练过程中自发形成了一种"角度分工":不同的词典条目各自负责表达某种特定角度下的面部特征,不同角度的面孔会自动找到属于自己的"专属词条"来描述自己。这种自发形成的结构,正是系统能够稳定处理各种角度人脸的底层原因,研究团队自己也没有提前预设这种分工,它完全是从训练数据中"自然涌现"出来的。

词典的大小也是一个需要仔细调整的参数,就像一本百科全书,条目太少就无法准确描述丰富的面部细节,条目太多又会造成冗余和混乱。研究团队尝试了从1024到32768个不同数量的词典条目,发现4096个条目时效果最好,之后继续增加条目数量,性能提升就趋于平稳了。这个4096的数字就成了最终系统的标配。

四、训练数据:让AI见识"真正动起来的脸"

一套再好的算法,如果没有合适的训练数据,也是巧妇难为无米之炊。FaithfulFaces的另一个重要贡献,就是专门为这个任务构建了一套高质量的训练数据集。

这件事说起来简单,做起来却颇费周折。普通的人脸视频数据集里,大量视频其实是主播对着摄像头静静说话、或者受访者端坐着接受采访——这些视频里的人脸动来动去的幅度很小,头部转动角度有限。用这样的数据训练出来的系统,在面对真正大幅度头部运动时依然会束手无策。

研究团队因此设计了一套专门的数据筛选流程,分四步走完成数据集的构建。第一步是做人脸检测:把没有人脸、或者同时出现多个人脸的视频全部剔除,因为这套系统专注于单人视频场景。第二步是关键所在,也就是"姿态估计":对每段视频里的每一帧画面,都用专门的人脸角度检测工具测量出那一帧里人脸的仰俯、转动和倾斜角度,然后计算整段视频里这三个角度的最大值与最小值之差的总和,作为这段视频"面部姿态变化幅度"的指标。

为了确定什么样的变化幅度才算"够用",研究团队先随机抽取了2000段视频进行人工标注,人工标注的标准是:视频里的人脸必须至少经历过一次从正面到侧面(或反过来)的转变,或者有明显的上下点头动作,才算合格。通过统计分析,他们把合格的阈值定在了120——也就是三个角度的变化幅度总和超过120度的视频,才被认为姿态变化足够丰富。经过这个筛选,大量"几乎不动头"的视频被淘汰掉。

第三步是为每段合格视频生成文字描述。研究团队使用了阿里巴巴的多模态大模型Qwen2.5-VL来自动生成每段视频的内容描述,重点描述视频里人物的外貌、动作和背景环境,然后再经过人工校对和润色,确保描述准确。第四步则是把视频本身、文字描述、从视频中截取的人脸图片以及对应的角度数据,打包整理成一条条完整的训练样本。

整个流程最终产出了51,624条高质量训练样本,每一条都保证了充足的面部姿态变化——这些"见过世面"的训练数据,让FaithfulFaces的身份对齐器有机会真正学会应对复杂的头部运动。

五、站在巨人肩膀上,再往前走一步

FaithfulFaces并非从零开始搭建一套全新的视频生成系统,而是在一个已经相当强大的开源视频生成模型"VACE-14B"的基础上进行改造和增强。可以把VACE理解成一台已经造好的高性能汽车,而FaithfulFaces做的事情是为这台车加装了一套更精准的导航系统,专门负责在复杂路况(也就是复杂的面部运动场景)下给出更准确的路线指引。

技术上,这种改造通过一种叫做"LoRA"的轻量级微调方式实现,它只修改模型中很少一部分参数,就能让整个系统适应新的任务需求,既保留了原有模型强大的视频生成能力,又赋予了它识别和维持人脸身份的新本领。训练在32块英伟达H20显卡上进行,总共训练了5000步,批量大小为32,人脸对齐器的独立批量大小则设置为1024,以确保对比学习能获得足够多的样本对来完成充分的姿态对齐训练。

在推理(也就是实际使用)阶段,用户只需要提供一张人脸照片,系统会自动检测照片中的人脸角度,连同人脸图像一起送入训练好的对齐器,生成一个全局面部姿态特征向量,再把这个向量和文字描述一起送入视频生成模型,最终产出一段能够在各种头部动作下保持人脸身份稳定的视频。

六、与同行一较高下:数字说话

研究团队在30个不同人物身份、20种不同文字描述(涵盖拳击、舞蹈、转身、芭蕾、演讲等各类大幅度头部运动场景)的组合下,共生成了600段视频,并与市面上最主流的方法进行了全面比较。被比较的对象包括两款商业产品(Vidu和Kling)以及八款开源模型(ConsisID、VACE、HunyuanCustom、Phantom、Concat-ID-Wan、SkyReels-A2、Stand-In、MAGREF),覆盖了当前该领域几乎所有主流方案。

评测使用了四个指标。其中两个用于衡量生成视频里的人脸与原始参考照片之间的相似度,分别基于ArcFace和CurricularFace两套人脸识别特征空间计算,指标值越高说明身份保真度越好。第三个指标FID衡量生成画面的整体视觉质量,数值越低说明画面越真实清晰。第四个指标CLIPScore衡量生成视频与文字描述之间的匹配程度,数值越高说明内容越符合文字要求。

结果相当清晰:FaithfulFaces在四个指标上全部排名第一。在最关键的两个人脸身份相似度指标上,FaithfulFaces分别达到0.568和0.542,而排名第二的Phantom只有0.484和0.456,差距约达17%至19%。商业产品Kling得到的是0.447和0.416,差距更加明显。在画面质量指标FID上,FaithfulFaces以164.24的得分大幅领先,而最接近的HunyuanCustom是187.32,Kling是194.80。文字匹配度方面,FaithfulFaces得到33.93,与Kling并列最高,而多数开源方法在30出头。

从视觉比较来看,效果的差异更加直观。ConsisID在拳击视频中出现了明显的面部结构扭曲;VACE和Kling在人物激烈运动时发生了面部细节的流失;Phantom等模型生成的画面里,主角的五官随着动作的进行逐渐"漂移",到视频结尾时已经和参考照片相去甚远。而FaithfulFaces生成的视频里,人物在整个动作过程中始终保持着清晰的面部结构和一致的面部细节,拳击、舞蹈、从背对镜头到转身正对镜头,各种场景下都表现稳定。

七、非正面输入时的鲁棒性:另一项意外收获

研究团队还额外测试了一个现实中很常见却容易被忽视的场景:如果用户提供的参考照片本身不是正面照,而是一张侧脸照,会发生什么?

结果显示,对于没有配备FaithfulFaces的基准系统,以及最强的竞争对手Phantom而言,非正面输入带来的性能下滑超过50%——身份相似度几乎折半。而FaithfulFaces在同样情况下,性能下滑被控制在25%以内。从视觉上看,当输入非正面照时,Phantom和基准系统生成的视频里人脸几乎完全崩塌,而FaithfulFaces仍然维持了相对稳定的身份一致性。

这个结果说明,姿态共享字典的设计不只是帮助系统在视频生成过程中应对头部运动,还顺带提升了系统面对"非标准输入"时的容错能力——这是一个意外但相当实用的额外收益。

研究团队还测试了欧拉角估计出现误差时对系统性能的影响,发现在误差不超过±15度的范围内,性能基本不受影响;只有当误差超过±20度时,才开始出现明显的性能下滑。考虑到主流人脸角度估计工具的精度通常远好于±15度,这个结果意味着系统在实际应用中对角度估计的噪声具有足够的鲁棒性。

说到底,FaithfulFaces做的事情,是给AI视频生成系统装上了一套"空间想象力"——让它不再只会死记硬背一张正面照片,而是能从那张照片出发,推断出这张脸在各种角度下应有的样子,并在视频生成过程中始终把这个更丰富的面部认知贯穿进去。这种能力对于现实中的视频生成场景意义重大,因为真实的人物运动几乎不可能只有正面静止的状态。

对普通用户来说,这意味着未来用AI生成"自己"的视频时,无论视频里的你是在打拳、跳舞还是转身,你的脸都能保持你本来的样子,而不是变成一个陌生人的面孔。对内容创作者、影视从业者、广告设计师来说,这意味着AI生成的人物视频终于可以在动态场景下达到更接近可用的质量门槛。这项研究的代码和数据集处理流程也计划开源,感兴趣的研究者和开发者可以通过arXiv编号2605.04702查询完整论文,进一步了解技术细节。

Q&A

Q1:FaithfulFaces方法在处理非正面输入照片时效果如何?

A:当用户提供的参考照片是侧脸而非正面照时,FaithfulFaces的人脸身份相似度下降约25%,而竞争对手Phantom和无该模块的基准系统在同样条件下性能下降超过50%,生成视频中的面部甚至几乎完全崩塌。这说明姿态共享字典的设计在提升非标准输入容错性方面也有明显效果。

Q2:FaithfulFaces训练数据集是如何筛选出来的?

A:研究团队设计了四步流程:先用人脸检测过滤掉无人脸或多人脸视频,再用角度估计工具计算每段视频中头部三个维度(仰俯、左右转动、倾斜)的总变化幅度,超过120度才算合格,然后用大模型生成文字描述并人工校对,最终整理出51624条包含视频、描述、人脸截图和角度数据的完整训练样本。

Q3:FaithfulFaces与Kling等商业产品相比优势体现在哪里?

A:在人脸身份相似度的两个核心指标上,FaithfulFaces分别达到0.568和0.542,而Kling只有0.447和0.416,差距约在15%至20%之间。在画面质量指标FID上,FaithfulFaces以164.24明显优于Kling的194.80。在拳击、舞蹈、转身等大幅头部运动场景的视觉比较中,FaithfulFaces生成的视频面部结构保持清晰,而Kling存在明显的面部细节流失。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-