微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ACTalker:香港科技大学团队打造会表情的AI主播,让视频通话变得更自然

ACTalker:香港科技大学团队打造会表情的AI主播,让视频通话变得更自然

2025-07-15 10:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-15 10:08 科技行者

这项由香港科技大学的洪发廷(Fa-Ting Hong)等研究者联合腾讯和清华大学共同完成的研究,发表于2025年4月,研究成果名为"Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation"。有兴趣深入了解的读者可以通过arXiv:2504.02542v3访问完整论文。

想象一下这样的场景:你正在视频通话,但网络不好导致画面卡顿,只有声音清晰。这时如果有一个AI助手能根据你的声音实时生成你说话的画面,甚至还能配合你想要的表情和动作,那该多神奇?这正是ACTalker要解决的问题。

说话头像生成技术其实就像是给虚拟人物配音演员一样。传统的做法就像是单人表演——要么只听声音来控制嘴部动作,要么只看动作来控制整体表情,但很难同时做到既能跟上语音节拍,又能表现丰富的面部表情。就好比一个演员要么专注于台词,要么专注于肢体动作,很难两者兼顾。

ACTalker的突破性在于它首次实现了"多人协作"式的虚拟人物生成。研究团队开发了一个叫做"并行控制曼巴层"的技术架构,就像是给AI配备了多个专业助手:一个负责根据声音控制嘴部动作确保语音同步,另一个负责根据参考动作控制整体面部表情,而且这两个助手能够完美配合,不会互相干扰。

这种技术的神奇之处在于它解决了一个长期困扰该领域的难题——控制冲突。过去的方法就像是两个人同时试图操控一个木偶,结果往往是动作不协调或者某一方完全压倒另一方。ACTalker通过巧妙的"面具丢弃策略",让每个控制信号只负责脸部的特定区域,音频信号主要控制嘴部区域,而动作信号则负责眼部、眉毛等其他表情区域,实现了真正的分工合作。

研究团队在多个数据集上进行了详尽的测试,包括CelebV-HQ、RAVDESS、VFHQ等权威数据集。实验结果显示,ACTalker在语音同步性、视频质量、面部表情准确性等多个关键指标上都超越了现有的顶尖方法。特别是在语音同步指标上,ACTalker达到了5.317的Sync-C分数和7.869的Sync-D分数,明显优于其他方法。

**一、技术架构:像指挥交响乐团一样协调多个控制信号**

ACTalker的技术架构就像一个精密的交响乐团,每个乐器(控制信号)都有自己的职责,但需要在指挥(并行控制曼巴层)的协调下和谐演奏。

整个系统基于稳定视频扩散模型构建,这就像是有了一个基础的画布和画笔。研究团队在这个基础上添加了自己的创新组件。首先,系统接收多种输入信号:源图像(就像演员的定妆照)、面部动作序列(像是表情指导)、音频片段(像是台词录音)。这些输入通过不同的编码器进行处理,音频通过Whisper模型提取特征,面部动作通过预训练的动作编码器处理,身份信息通过专门的身份编码器提取。

并行控制曼巴层是整个系统的核心创新。这个组件包含多个并行分支,每个分支负责处理一种控制信号。音频分支主要控制与语音相关的面部区域,特别是嘴部动作;视觉分支则负责处理表情动作,控制眼部、眉毛等其他面部区域。每个分支内部都有一个"Mask-SSM"单元,这就像是专门的区域管理员,确保每个控制信号只影响它应该控制的面部区域。

为了实现灵活控制,研究团队设计了门控机制。这就像是开关系统,可以选择性地启用或关闭某个控制分支。在训练过程中,系统随机选择门的状态,有时只使用音频控制,有时只使用动作控制,有时同时使用两者。这种训练策略让模型学会了在不同控制模式下都能产生高质量的结果。

**二、核心创新:面具丢弃策略解决控制冲突**

面具丢弃策略是ACTalker最巧妙的设计之一,它解决了多信号控制中最棘手的冲突问题。这个策略的工作原理就像是给不同的工人分配专门的工作区域,避免他们在同一个地方同时施工造成混乱。

具体来说,系统为每种控制信号设计了专门的面具。音频面具标识出与语音相关的面部区域,主要是嘴部及其周围;动作面具则标识出其他表情相关的区域,如眼部、眉毛、脸颊等。当音频信号进入处理流程时,系统会先"丢弃"那些不属于音频控制区域的特征标记,只保留嘴部相关的信息进行处理。同样,动作信号也只处理属于其控制区域的特征标记。

这种做法的好处是显而易见的。过去的方法就像是让两个画家同时在一张画布上作画,结果往往是颜色混杂、风格冲突。而面具丢弃策略则给每个画家划定了明确的作画区域,音频"画家"专心画好嘴部,动作"画家"专心画好其他表情,最后再将这些区域无缝拼接起来。

处理完成后,系统会将处理过的特征标记"粘贴"回原来的位置,形成完整的面部特征表示。这个过程就像是拼图游戏,每个区域都由最擅长的专家来处理,最后组合成一个协调统一的整体。

**三、曼巴结构:高效处理时空特征的新方法**

ACTalker采用的曼巴(Mamba)结构是一种创新的特征处理方法,它就像是一个高效的信息传递系统,能够同时处理视频的时间维度和空间维度信息。

传统的视频处理方法通常分别处理时间和空间信息,这就像是分别处理一部电影的剧情发展和画面构图,然后再想办法把它们结合起来。这种做法不仅效率低下,还容易丢失时空之间的重要关联信息。曼巴结构则采用了一种统一的处理方式,将视频特征在时间和空间维度上展平,形成一个长序列,然后用状态空间模型来处理这个序列。

这种方法的优势就像是用一个全能型助手代替多个专业助手。全能助手能够同时关注剧情发展和画面变化,理解它们之间的相互关系,从而做出更好的决策。在实际应用中,这意味着生成的视频不仅在单帧画面上质量更高,在时间连续性上也更加流畅自然。

曼巴结构还有一个重要优势就是计算效率高。传统的注意力机制在处理长序列时计算量会急剧增加,就像是一个会议室里人数越多,每个人都要和其他所有人交流,沟通成本呈指数级增长。而曼巴结构则像是有了一个高效的信息传递系统,能够用更少的计算资源处理更长的视频序列。

**四、训练策略:随机门控实现灵活控制**

ACTalker的训练策略体现了研究团队的深思熟虑。他们没有简单地让模型学习固定的控制模式,而是采用了随机门控策略,让模型在训练过程中体验各种可能的控制情况。

这种训练方式就像是培养一个全能运动员。不是只练习单项技能,而是让运动员在不同的训练课程中练习不同的技能组合:有时只练跑步,有时只练跳跃,有时跑步和跳跃一起练。这样培养出来的运动员在面对各种比赛情况时都能应对自如。

具体来说,在每个训练批次中,系统随机选择门控状态。可能的组合包括:只启用音频控制(这时模型学习如何仅根据声音生成说话视频)、只启用动作控制(这时模型学习如何根据参考动作生成表情变化)、同时启用两种控制(这时模型学习如何协调多种信号)。

这种训练策略的好处在推理阶段就显现出来了。用户可以根据实际需要灵活选择控制模式。如果只有音频输入,系统可以生成语音同步的说话视频;如果有表情参考,系统可以生成表情丰富的面部动画;如果两者都有,系统就能生成既语音同步又表情自然的高质量视频。

**五、实验验证:全面超越现有方法**

研究团队进行了极其详尽的实验验证,就像是对新产品进行全方位的质量检测。他们选择了多个权威数据集,包括CelebV-HQ、RAVDESS、VFHQ等,这些数据集就像是不同类型的考试试卷,每个都有自己的特色和难点。

在音频驱动的说话头像生成任务上,ACTalker表现出色。语音同步性是这类应用最关键的指标,就像配音演员最重要的技能是口型对得准。ACTalker在CelebV-HQ数据集上达到了5.317的Sync-C分数和7.869的Sync-D分数,明显优于其他顶尖方法。Sync-C分数越高表示语音同步置信度越高,Sync-D分数越低表示音视频特征距离越小,ACTalker在这两个指标上的表现都证明了其卓越的语音同步能力。

视频质量方面,ACTalker同样表现优异。FVD-Inc指标衡量生成视频与真实视频在感知质量上的差异,ACTalker取得了232.374的分数,比第二名的Memo方法低了约32分,这意味着显著的质量提升。FID指标反映图像质量,ACTalker达到了30.721分,也是所有对比方法中的最佳表现。

在面部重现任务上,ACTalker展现了强大的表情控制能力。无论是自我重现(同一个人的不同表情)还是跨人重现(将一个人的表情迁移到另一个人脸上),ACTalker都取得了最佳的表情相似度和身份保持度。特别值得注意的是,在跨人重现任务中,ACTalker的表情相似度比X-Portrait方法高出9%,同时保持了最高的身份相似度8.64分。

多信号控制的验证实验更是证明了ACTalker的独特价值。当同时使用音频和动作信号时,生成的视频既能保持准确的语音同步,又能展现丰富的面部表情。实验显示,多信号控制的效果甚至比单一信号控制更好,这证明了并行控制曼巴层设计的有效性。

**六、消融研究:验证每个组件的必要性**

为了验证设计的科学性,研究团队进行了详细的消融研究,就像是拆解一台精密机器,逐个检验每个零件的作用。

面具丢弃策略的重要性在实验中得到了充分证明。当移除这个策略时,多信号控制就会出现明显的冲突问题。实验显示,在没有面具丢弃的情况下,动作信号会干扰嘴部动作,导致语音同步性下降。这就像是两个司机试图同时控制一辆车的方向盘,结果只能是方向混乱。

曼巴结构的效果也非常显著。当研究团队用传统的空间交叉注意力层替换并行控制曼巴层时,系统的表现大幅下降。不仅语音同步性变差,整体视频质量也明显降低。这证明了曼巴结构在处理时空特征融合方面的独特优势。

身份嵌入在并行控制曼巴层中的作用同样重要。实验显示,移除身份嵌入后,生成的视频在某些帧中无法很好地保持人物身份,出现了身份漂移的问题。这就像是演员在表演过程中突然换了脸,观众会感到困惑和不适。

门控机制的灵活性也得到了验证。通过调整门的状态,用户可以轻松切换不同的控制模式,而且每种模式下的效果都很好。这种灵活性使得ACTalker能够适应各种实际应用场景的需求。

**七、技术细节:精密工艺成就卓越性能**

ACTalker的成功不仅来自于整体架构的创新,更体现在众多技术细节的精心设计上。这些细节就像是制表师在制作精密手表时对每个齿轮的精确调校。

在特征处理方面,系统采用了多层次的特征融合策略。首先将时空特征展平成一维序列,然后通过MLP网络进行变换,再与身份嵌入进行拼接。这种处理方式确保了身份信息能够在整个生成过程中得到保持,避免了生成结果偏离原始人物特征。

面具设计也体现了研究团队的专业性。音频面具主要覆盖嘴部及其周围区域,这是语音发声时主要变化的部分;动作面具则覆盖其他面部区域,特别是眼部和眉毛等表情丰富的部位。这种分割策略基于对人脸解剖学和表情生理学的深入理解。

在训练过程中,系统使用了标准的视频扩散模型训练目标,但结合了条件控制的设计。训练时随机选择的门控状态确保了模型能够学习到各种控制组合下的最优生成策略。为了提高训练效率,研究团队还采用了分类器无关引导技术,在推理时能够生成更高质量的结果。

数据预处理方面,所有图像和视频都被调整到640×640的分辨率,这在保证质量的同时兼顾了计算效率。身份编码器和VAE编码器使用了预训练权重,并在训练过程中保持固定,这样做既能利用已有的优秀特征表示,又能让模型专注于学习新的控制机制。

**八、应用前景:开启虚拟交互新时代**

ACTalker的技术突破为众多实际应用场景打开了新的可能性。这些应用就像是科幻电影中的场景正在变成现实。

在虚拟会议和远程协作领域,ACTalker能够显著提升用户体验。当网络带宽不足时,系统可以仅传输音频数据,然后在接收端实时生成高质量的说话视频。这不仅能节省带宽,还能让参会者感受到更真实的面对面交流体验。更进一步,系统还能根据用户的情绪或会议氛围调整生成的表情,让虚拟交流更加生动自然。

数字人和虚拟主播是另一个重要应用方向。传统的虚拟主播往往表情僵硬,缺乏真实感。ACTalker能够让虚拟主播不仅能够准确同步语音,还能根据内容情感展现相应的表情变化。新闻播报时的严肃专业、娱乐节目中的活泼轻松、教育内容里的耐心细致,都能通过ACTalker实现自然的表达。

在教育培训领域,ACTalker能够创造更具吸引力的教学内容。教师可以录制一段音频,系统就能生成相应的教学视频,而且还能根据教学内容调整表情和手势。这对于在线教育平台特别有价值,能够大大降低优质教学内容的制作成本和时间。

娱乐产业也将从这项技术中受益。影视制作中的数字替身、游戏中的NPC角色、虚拟偶像的表演等,都可能因为ACTalker技术而变得更加真实可信。特别是在需要大量对话场景的影视作品中,这项技术能够显著提高制作效率。

可访问性支持是一个具有重要社会意义的应用方向。对于听力障碍人群,ACTalker能够将音频内容转换为清晰的口型视频,帮助他们更好地理解语音内容。对于语言障碍人群,系统也能帮助他们生成更自然的交流视频。

**九、技术挑战与解决方案:攻克难题的创新思路**

ACTalker的研发过程中遇到了许多技术挑战,研究团队的解决方案体现了深厚的技术功底和创新思维。

控制冲突是最大的技术挑战之一。当多个信号同时作用于同一个面部区域时,很容易产生不协调的结果,就像是多个音响同时播放不同的音乐。研究团队通过面具丢弃策略巧妙地解决了这个问题,让每个控制信号只负责自己擅长的区域,避免了直接冲突。

计算效率是另一个重要挑战。视频生成本身就是计算密集型任务,多信号控制进一步增加了计算复杂度。传统的注意力机制在处理长序列时计算量呈平方增长,这在实际应用中是不可接受的。曼巴结构的引入有效解决了这个问题,其线性复杂度特性使得系统能够处理更长的视频序列。

身份保持是人脸生成技术中的经典难题。当面部表情变化时,很容易造成身份特征的漂移,就像是演员在化妆过程中逐渐变成了另一个人。研究团队通过在每个处理分支中显式地融入身份嵌入,确保身份信息能够贯穿整个生成过程。

时间一致性是视频生成特有的挑战。单张图像可能看起来很好,但连续播放时可能会出现闪烁或跳跃。ACTalker通过曼巴结构的时空联合建模,以及稳定视频扩散模型的基础架构,很好地解决了这个问题。

训练数据的多样性也是一个考验。为了让模型能够处理各种人脸类型、表情变化和语音特征,研究团队使用了多个大规模数据集进行训练,包括HDTF、VFHQ、VoxCeleb2、CelebV-Text等,确保了模型的泛化能力。

**十、与现有技术的对比:全方位的性能优势**

ACTalker相比现有技术的优势是全方位的,就像是新一代产品在各个性能指标上都实现了突破。

在语音同步性方面,ACTalker明显优于所有对比方法。与SadTalker相比,Sync-C分数提高了39%,Sync-D分数降低了11%。与当前最强的竞争对手Memo相比,ACTalker在保持相近语音同步性的同时,在视频质量上实现了显著提升。

视频质量的提升更加显著。FVD-Inc指标反映了生成视频与真实视频在感知质量上的差异,ACTalker的232.374分比Memo的264.596分低了12%,这在视频生成领域是相当大的进步。FID分数的30.721也是所有方法中的最佳表现。

在表情控制精度方面,ACTalker展现了独特的优势。传统方法要么专注于语音同步,要么专注于表情控制,很难两者兼顾。ACTalker通过并行控制机制,在保证语音同步的同时,还能实现精确的表情控制。在跨人表情迁移任务中,表情相似度比X-Portrait高出9%,充分证明了技术的先进性。

计算效率方面,虽然ACTalker增加了控制的复杂性,但通过曼巴结构的优化,实际计算开销相比传统注意力机制反而有所降低。这使得系统在实际部署时更具优势。

灵活性是ACTalker最独特的优势。大多数现有方法只支持单一控制模式,而ACTalker支持音频控制、动作控制和多信号联合控制三种模式,可以根据应用场景的具体需求灵活选择。

说到底,ACTalker代表了说话头像生成技术的一个重要里程碑。它不仅在技术指标上全面超越了现有方法,更重要的是开创了多信号协同控制的新范式。这种创新思路将会影响整个领域的发展方向,推动虚拟人物生成技术向更加智能化、自然化的方向演进。

对于普通用户来说,ACTalker意味着未来的虚拟交流将变得更加真实自然。无论是远程办公、在线教育还是娱乐互动,我们都将享受到更高质量的虚拟人物交互体验。随着技术的进一步发展和应用的普及,这种"会表情的AI主播"可能很快就会出现在我们的日常生活中。

对于研究者和开发者,ACTalker提供了一个强有力的技术基础和创新思路。其开源的研究成果和详细的技术文档为后续研究提供了宝贵的参考。有兴趣的读者可以通过论文提供的项目网站获取更多技术细节和演示视频,深入了解这项令人兴奋的技术创新。

Q&A

Q1:ACTalker是什么?它能做什么? A:ACTalker是由香港科技大学等机构开发的AI视频生成系统,它的核心能力是同时根据声音和面部动作生成自然的说话视频。与传统方法不同,ACTalker可以让AI既能跟上语音节拍做出准确的嘴部动作,又能根据需要展现丰富的面部表情,就像真人说话一样自然。

Q2:ACTalker会不会取代真人视频制作? A:目前不会完全取代,但会大大改变视频制作方式。ACTalker更适合作为辅助工具,在网络会议、在线教育、虚拟主播等场景中提升效率和体验。它能帮助解决带宽不足、制作成本高等问题,但真人的创造力和情感表达仍然是不可替代的。

Q3:如何使用ACTalker?普通人能用吗? A:目前ACTalker还是研究阶段的技术,普通用户暂时无法直接使用。研究团队已经开源了相关代码和技术文档,感兴趣的开发者可以通过论文提供的项目网站获取详细信息。随着技术成熟,未来可能会有基于ACTalker的商业产品出现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-