微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

TalkingMachines：Character AI打造的实时音频驱动视频会话系统，让虚拟形象自然对话成为现实

人工智能扩散模型实时视频生成

TalkingMachines：Character AI打造的实时音频驱动视频会话系统，让虚拟形象自然对话成为现实

作者：科技行者

2025-06-07 17:02

分享至：

Character AI的研究者开发出TalkingMachines系统，通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括：将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话，嘴型与语音同步，为实时数字人交互技术开辟了新可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 17:02 • 科技行者

在数字交互不断发展的今天，视频会话已成为我们日常生活的重要组成部分。2025年6月，来自Character AI的研究者Chetwin Low和Weimin Wang发表了一篇题为《TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models》的研究论文，向我们展示了一种突破性的技术，让虚拟角色能够实时地通过音频进行自然流畅的视频对话。这项研究的演示视频可以在https://aaxwaz.github.io/TalkingMachines/查看。

想象一下，你能与任何角色——无论是真人风格、动画形象还是3D角色——进行面对面般的实时对话，而这些角色能根据你的声音自然地做出表情和动作，嘴型与语音完美同步。这正是TalkingMachines带给我们的体验。

一、研究背景：为何实时视频生成如此具有挑战性？

近年来，视频生成技术取得了长足进步，许多基础模型已经能够从文本提示或图像生成高质量视频。然而，当我们想将这些技术应用于像视频会议这样的实时互动场景时，却面临着一个根本性的挑战。

这个挑战主要源于现有模型的工作方式。想象一下，传统的视频生成就像是一个电影导演需要先看完整部电影的剧本，了解所有情节发展和结局后，才能决定如何拍摄每一个场景。这种方式在专业术语中称为"双向注意力机制"——每一帧的生成都依赖于未来的帧内容。

虽然这种方法能产生连贯的视频，但它需要一次性处理整个视频序列，这就导致了一个显而易见的问题：你无法实时生成视频流，因为系统需要"预知"未来才能生成当前画面。这就像你在视频通话中需要预先知道5分钟后你要说什么，这显然不符合实时对话的本质。

TalkingMachines的研究团队瞄准了这一挑战，他们的目标是将预训练的双向视频扩散模型转变为能够实时进行音频驱动角色动画的自回归系统。简单来说，就是创造一个能够像人类一样，只需根据当前和过去的信息（而非未来信息）即可自然响应的系统。

二、TalkingMachines如何工作？三大核心创新

Character AI的研究团队在这项工作中解决了三个关键挑战：预训练模型的适应、无限长度生成和实时性能。让我们深入了解他们是如何应对这些挑战的。

首先，团队利用了WAN 2.1的预训练图像到视频(I2V)模型作为基础。这就像是从一个已经精通绘画技巧的艺术家开始，然后教会他如何将静态画作变成动画。具体来说，他们对这个拥有14亿参数的模型进行了改造，添加了4亿参数的音频处理模块，使其能够接收音频信号作为输入，并据此生成嘴唇动作与音频同步的视频。

在技术上，他们采用了"流匹配"方法而非传统的"随机扩散"训练。这就像是教导系统沿着一条确定的河流前进，而不是在湍急的水域中随波逐流。流匹配通过预测速度场来建模潜在空间中的确定性轨迹，使训练和推理更加稳定和高效。

研究团队还创新性地引入了"分布匹配蒸馏"(DMD)技术。想象一下，如果原始模型是一位需要经过复杂步骤才能完成一幅画的大师，DMD就像是教会一位学徒用更少的步骤达到类似的效果。他们成功地将原来需要24步的模型蒸馏成只需2步即可完成的轻量级版本，大大提高了生成速度。

更重要的是，团队修改了CausVid框架，实现了"稀疏因果注意力"机制。这就像是在看电影时，你主要关注当前场景、上一个场景以及电影开头的关键信息，而不是去记忆每一个细节。具体来说，系统将视频分成多个小块（每块3个潜在帧），每个块只关注当前块、前一个块和起始块（包含参考图像）中的信息。这种设计不仅保证了时间连续性，还避免了错误累积，因为模型始终能够访问干净的参考图像。

三、系统优化：工程创新让实时生成成为可能

光有理论上的创新还不够，要实现真正的实时生成，还需要一系列工程层面的优化。想象一个高效的工厂流水线，每个环节都需要精心设计才能确保整体流程的顺畅运行。

研究团队发现，在单GPU配置中，VAE解码（将模型生成的潜在表示转换为实际图像）和设备到主机的输出传输占据了每个视频块端到端生成时间的约30%。这个瓶颈在使用序列并行化分布式计算时变得更加明显——随着扩散计算越来越并行化，VAE解码的相对成本占比越来越高，最终限制了可扩展性和实时流媒体性能。

为了解决这个问题，团队设计了"Score-VAE分离"服务器架构。这就像是将工厂的不同生产环节分配到专门的车间，而不是让每个工人负责所有步骤。在这种设计中，一个GPU专门负责扩散模型计算（工人），另一个专门负责VAE解码（包装工）。这种分工使得工人可以最大化扩散吞吐量，而包装工则同时处理解码操作。

更精妙的是，团队利用CUDA流实现了高效的计算-通信重叠。想象一下，当数据在不同设备间传输时，其他设备并不是在闲等，而是同时进行其他计算工作。通过使用额外的CUDA流来克服NCCL集合通信的阻塞性质，确保VAE解码可以与这些集合通信并行进行，从而显著提高推理吞吐量。

此外，他们还实现了键值对和嵌入缓存。这就像是记住了已经计算过的结果，避免重复计算。在推理过程中，系统缓存了前一块ct-1和起始块c0的所有键值对，以及时间步嵌入、指导嵌入和上下文嵌入，大大提升了推理速度。

四、训练过程：从预训练到实时生成的三阶段之旅

TalkingMachines的训练过程分为三个清晰的阶段，就像建造一座复杂建筑的不同施工阶段。

第一阶段是"预训练模型热身"。这就像是让一个已经会走路的孩子适应新的鞋子。团队使用128台H100 GPU，在一天内完成了9,000步训练，目标是让预训练模型适应新的512×512分辨率（原分辨率为480×832）以及以人为中心的训练数据。在这个阶段，所有层都参与学习，没有冻结任何参数。

第二阶段是"音频预训练"。这相当于教会孩子如何根据音乐节奏舞蹈。团队使用384台H100 GPU，用了5天时间完成了30,000步训练，重点是学习新的音频层和口型同步能力。在这个阶段，团队初始化了新的音频层，同时冻结了所有非音频参数，确保模型专注于音频处理能力的提升。

第三阶段是"稀疏自回归蒸馏"。这就像是将所有学到的技能整合起来，并且优化动作流程，使其更加高效。团队使用128台H100 GPU，用了10天时间完成了20,000步训练，目标是将模型蒸馏为只需2步扩散，并具备因果稀疏注意力的能力。在这个阶段，所有层都参与学习，没有冻结任何参数。

值得一提的是，团队在训练基础设施和策略上也做了精心设计。他们通过激活检查点和参数分片，成功将峰值激活内存限制在每个GPU内，消除了对模型并行性的需求，使训练能够仅使用数据并行变体进行。此外，为了优化激活内存分配，他们使用DeepSpeed ZeRO Stage 3来分片编码器模块，这释放了超过20GB的GPU内存，同时对每步性能的影响可以忽略不计。

五、实验结果：不同配置的权衡与选择

研究团队进行了一系列实验，以了解块大小和扩散步骤在蒸馏过程中的权衡。他们使用了一个2×2的因子设计，具体来说，他们改变了块大小（3帧与7帧）和扩散步骤数量（2步与4步），并使用感知指标和GPU效率进行评估。

结果显示，口型同步质量（通过Sync-C和Sync-D指标衡量）在不同设置之间保持相对一致，只有微小波动。这表明所有配置都提供了稳健的口型同步性能。感知质量（通过FVD测量）在块大小从7减少到3且扩散步骤从4减少到2时显示出轻微下降。然而，这种下降是适度的。

特别值得注意的是计算成本的权衡。最计算效率高的设置（块大小为3，扩散步骤为2）仅需要1台H100 GPU用于分数模型，而最高质量的设置则需要4台H100。这导致了硬件成本和能源消耗的显著减少，同时仍然提供可接受的生成质量。

因此，用户可以根据其特定的计算预算和质量期望选择配置。如果资源约束至关重要，3×2设置在性能和效率之间提供了令人信服的平衡；如果需要最大的感知保真度，则首选7×4设置。

六、应用展示：实时FaceTime风格的虚拟对话

为了展示TalkingMachines的实际应用价值，研究团队构建了一个实时FaceTime风格的应用程序，将其与音频大语言模型(LLMs)集成，展示了系统在交互式视频通信场景中的实际部署。

这个演示系统由三个主要组件组成：首先是音频LLM集成，它能生成实时的口语回应，实现与用户的自然对话交互；其次是视频生成服务器，TalkingMachines模型部署在配备H100 GPU的云服务器上，其中分数模型和VAE解码器在单独的GPU资源上运行，从音频输入生成同步的口型同步动画；第三是WebRTC流媒体，他们使用LiveKit（一种基于云的WebRTC服务）来处理实时视频流和客户端连接。

系统工作流程是通过一个分布式管道运行的，用户音频通过Web界面捕获，由音频LLM处理以生成对话回应，然后转发到视频生成服务器。生成的视频帧与音频同步，并通过WebRTC服务流回客户端，实现与AI生成的虚拟形象的实时互动对话。

这一应用成功实现了适合交互式视频通话的实时性能，用户可以通过桌面和移动设备上的标准Web浏览器访问系统。系统展示了在实时通信应用中部署先进视频生成模型的实际可行性，为AI驱动的交互式媒体体验奠定了基础。

七、研究总结、局限性与未来展望

这项研究展示了如何将音频驱动动画和稀疏因果蒸馏有效应用于预训练的视频生成模型，将其转变为支持实时、无限长度FaceTime风格视频生成的流媒体网络。最终的模型能够动画化各种风格的图像——包括真实感、动漫和3D虚拟形象——当与主流音频大语言模型配对时，能实现自然、高质量的口型同步语音。

研究团队还详细介绍了在实时流媒体情境中减少计算瓶颈所需的系统级工程工作，包括GPU分配、通信-计算重叠和内存重用等方面的优化。这些设计选择对于使模型能够在实际部署场景中以最小延迟运行至关重要。

尽管取得了这些进展，当前的方法仍存在一些局限性。音频条件组件仅在训练的后期阶段引入，这意味着预训练模型在初始学习阶段并未从大规模音频-视频监督中受益。虽然有效，但大型音频投影层仅在相对较小的数据子集上训练，且迭代次数有限。这一瓶颈限制了模型在更多样化或具挑战性的音频驱动场景中的可扩展性和表现力。

展望未来，探索将音频条件更早纳入预训练过程的大规模预训练策略将是很有前途的方向。特别是，从海量配对数据集联合建模视频和音频可能会实现更强大的多模态表示、改进的口型同步保真度，以及跨领域和语言的更稳健性能。

总的来说，TalkingMachines展示了将复杂的视频生成模型转变为实用的实时系统的可能性，为未来更自然、更具表现力的人机交互开辟了新的路径。随着技术的不断进步，我们可以期待这类系统在教育、娱乐、远程工作和辅助技术等多个领域的广泛应用。

人工智能扩散模型实时视频生成

分享至