微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 4D动态令牌:MTVCrafter开创人物动画新时代,用4D运动建模实现开放世界逼真动作

4D动态令牌:MTVCrafter开创人物动画新时代,用4D运动建模实现开放世界逼真动作

2025-05-23 07:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:44 科技行者

在人工智能生成内容的领域中,有一项技术正在悄然改变我们创造数字人物动画的方式。这项由中国科学院深圳先进技术研究院的丁彦波、王亚莉和中国电信的郭智智、中国西安交通大学的胡锡瑞团队共同完成的研究,于2025年5月发布在预印本平台arXiv上(arXiv:2505.10238v2)。他们创造了一个名为"MTVCrafter"(运动令牌化视频制作器)的框架,这是目前首个直接对原始3D运动序列进行建模以实现人物图像动画的方法。这项技术代表了人物动画领域的重大飞跃,为创建更加逼真、灵活的数字人打开了新的可能性。

想象一下,你有一张静态照片,比如一位身穿特定服装的模特,然后你希望让这个模特按照某个视频中舞者的动作进行舞蹈。过去的技术通常会先将动作转化为2D姿势图像,然后再用这些图像来引导生成模型。这就像是先将一个3D空间中的复杂舞蹈动作压缩成平面上的"剪影",再尝试基于这些"剪影"重建整个舞蹈过程。这种方法不仅丢失了大量3D空间信息,还经常导致生成的动画在面对复杂动作时表现不佳。

MTVCrafter团队采取了一种全新的思路:直接对原始的3D运动数据进行处理和建模。这就像是不再依赖"剪影",而是直接捕捉整个舞者在3D空间中的每一个动作细节,然后用这些完整的3D运动信息来指导动画生成。这种方法被称为"4D运动令牌化"(4D代表3D空间加上时间维度)。

研究团队首先开发了4DMoT(4D运动令牌化器),将3D运动序列量化为紧凑而富有表现力的令牌(tokens)。这些令牌比传统的2D姿势图像包含更加丰富和稳健的时空信息,避免了姿势图像与角色之间严格的像素级对齐需求,从而实现更加灵活和解耦的控制。接着,他们设计了MV-DiT(运动感知视频扩散Transformer),通过设计独特的运动注意力机制和4D位置编码,有效地利用这些运动令牌作为人物图像动画创建过程中的上下文信息。

实验表明,MTVCrafter在TikTok基准测试中取得了最先进的结果,FID-VID指标为6.98,比第二好的方法提高了65%。更重要的是,在开放世界场景中,这种方法表现出了极强的泛化能力,能够处理多种风格(如动漫、像素艺术、水墨画和写实风格)的多种角色类型(单人或多人,全身或半身)。

让我们深入了解这项颠覆性技术背后的原理、实现方法和潜在影响。

一、现有技术的局限性:为什么需要4D运动令牌?

在深入理解MTVCrafter之前,我们需要先了解现有人物动画技术面临的根本挑战。目前主流的人物图像动画方法基本都依赖于2D渲染的姿势图像来提供运动指导。这就像是用一连串的"影子剪纸"来描述一个人复杂的舞蹈动作,虽然能捕捉基本的轮廓变化,但存在两个严重的局限性。

首先,2D姿势图像无法完整保留真实3D世界中丰富的时空运动信息。这就像是试图用一系列平面剪影来描述一个体操运动员在空中的复杂翻转动作—无论剪影多么精确,都无法完整表达运动员身体各部位在三维空间中的精确位置和旋转角度。因此,依赖2D姿势图像的方法常常难以合成在物理上合理且富有表现力的动作,尤其是在复杂的3D场景中。

其次,当姿势以图像形式提供时,生成模型往往会盲目地按像素复制这些固定形状的姿势,而不是真正理解底层的运动语义。这就像是学生在不理解内容的情况下死记硬背—当考试题目略有变化时就会手足无措。同样地,当驱动视频中的姿势图像与参考外观在形状或位置上有显著差异时,动画往往会出现扭曲或伪影。例如,当尝试让体型与训练数据大相径庭的角色(如绿巨人)按照正常人的姿势运动时,现有方法往往会遇到严重困难。

基于这些洞察,研究团队提出了一个自然而关键的问题:我们能否直接建模原始的4D运动数据,而不是依赖2D渲染的姿势图像来引导动画生成?

二、MTVCrafter的创新架构:如何实现4D运动建模?

受到近期运动生成领域进展的启发,MTVCrafter团队提出了一种将4D运动令牌化与运动感知视频扩散Transformer相结合的新框架。就像一个熟练的舞蹈教练能够抓住舞蹈的精髓并将其传授给不同体型的学生一样,MTVCrafter能够捕捉运动的本质,并将其应用到各种不同的人物角色上。

### 4D运动令牌化器(4DMoT)

4DMoT是MTVCrafter的核心组件之一,它专门用于处理原始的人体运动数据(例如3D SMPL序列)。这个组件就像一个高效的舞蹈动作编码器,能够将复杂的舞蹈动作压缩成一系列简洁而富有表现力的"动作密码"(令牌)。

具体来说,4DMoT由一个编码器-解码器框架组成,用于学习SMPL序列的时空潜在表示,以及一个轻量级的量化器,用于学习统一空间中的离散运动令牌。这个过程可以类比为将一段复杂的舞蹈分解为一系列基本舞步,并为每个基本舞步分配一个唯一的编号。

编码器首先将原始运动序列M = {J?, J?, ..., J?}(包含f帧和j个关节)映射到连续的潜在空间。通过一系列带有2D卷积的残差块(沿着时间和空间轴)以及带有平均池化层的下采样块,得到潜在表示{E? ∈ R?}??/?×?????,其中d表示令牌维度。

接下来,向量量化器通过在可学习的码本{C? ∈ R?}????中进行最近邻查找来执行离散化,其中s表示码本大小。这就像是将每个复杂的舞步匹配到最相似的标准舞步。得到的运动令牌在统一空间中展现出4D紧凑而富有表现力的信息,作为后续MV-DiT的输入条件。

为了保持码本使用的多样性,码本通过指数移动平均(EMA)和码本重置技术进行优化,这确保了所有的"标准舞步"都能得到充分利用。最后,解码器(结构与编码器类似但具有上采样块)从量化的码中重建运动序列M。为了增强长距离依赖性,研究团队还融入了空洞卷积和滑动窗口策略进行时间建模。

完整的训练目标Lvq结合了重建损失和承诺损失,以确保忠实重建和有效的码本利用:

Lvq = ‖M - M‖? + β‖E - sg[C]‖??

其中sg[·]表示停止梯度操作,β是控制承诺损失权重的超参数,E和C分别是量化前后的潜在表示。

### 运动感知视频扩散Transformer(MV-DiT)

有了4D运动令牌,下一步就是如何有效地利用这些令牌来指导人物图像动画的生成。这就像是一位导演需要一套高效的系统,将舞蹈教练的指导(4D运动令牌)转化为舞者(角色)的实际表演。

MV-DiT建立在视频DiT模型之上,专门设计了四个关键组件:参考图像保存、4D位置编码、4D运动注意力和运动感知分类器自由引导。

#### 参考图像保存

在人物图像动画中,保持视觉和时间一致性是一个关键挑战。与之前使用相同结构的参考网络来单独学习参考图像的方法不同,MV-DiT采用了一种简单而有效的重复-连接策略。

具体来说,给定噪声视频潜在表示{z?}???? ∈ R?×?×?×?和从冻结的共享VAE编码器获得的参考图像潜在表示z??? ∈ R?×?×?,计算组合视觉潜在表示:

zvision = Concat(z?, Repeat(z???, f)) ∈ R?×??×?×?

这些连接的潜在表示随后被分块并投影以匹配注意力令牌维度。由于DiT中的3D全自注意力,模型可以在生成过程中直接与参考图像特征交互,从而在没有额外参考网络的情况下高效地保存身份。这就像让舞者在表演过程中不断参考自己的照片,确保保持自己的特征。

#### 4D位置编码

为了增强4D运动令牌的时空信息,研究团队引入了简洁的4D RoPE(旋转位置编码),它结合了1D时间和3D空间RoPE。与标准的3D公式不同,他们的4D RoPE捕捉了4D运动的优先位置信息:

P?? = Concat(R?, R?, Rw) → P?? = Concat(R?, R?, R?, R?)

其中每个R*实现1D旋转嵌入并在其他维度上重复。3D坐标(x, y, z)是从我们精心策划的5K SMPL运动-视频数据集中的关节位置全局统计中得出的,提供了统一且关键的人体形状位置信息。同时,1D RoPE使用帧索引作为位置并提供时间线索。每个RoPE贡献了总注意力头维度的四分之一。这就像是给每个动作指令添加了精确的时空坐标,让舞者知道何时何地执行每个动作。

#### 4D运动注意力

为了有效地利用运动令牌zmotion(从4DMoT获得)作为视觉令牌zvision的上下文,研究团队设计了4D运动注意力,其中视觉令牌是查询,4D运动令牌是键和值。注意力机制公式如下:

Attention(Q, K, V) = Softmax(QK?/√d?)V

Q = RoPE(LayerNorm(Wq(zvision), P??) K = RoPE(LayerNorm(Wk(zmotion), P??) V = LayerNorm(Wv(zmotion))

其中Wq, Wk, Wv ∈ R?×?是可学习的投影矩阵,P??, P??分别是用于视觉令牌zvision和运动令牌zmotion的3D和4D RoPE。4D运动注意力的输出通过残差连接与标准3D全自注意力相结合,实现运动感知的调制,同时保持时空一致性。这就像舞者能够同时注意舞蹈教练的每个动作指令和自己的整体表现,确保动作的连贯性和流畅性。

#### 运动感知分类器自由引导

为了进一步提高生成质量和泛化能力,研究团队引入了运动感知分类器自由引导(CFG)。传统CFG通常用于具有明确定义的无条件输入c?(例如,空文本或零图像)的文本/图像条件。由于运动令牌缺乏自然的无条件形式,研究团队使用可学习的无条件运动令牌c?,其特征维度与zmotion匹配。

在训练过程中,c?以预定义的概率p随机替换为c?(即c?只在使用时更新)。这使得模型能够联合学习有条件和无条件的生成,增强模型的稳健性和可控性。这就像让舞者学会在有教练指导和没有教练指导的情况下都能表现出色,从而提高其适应能力。

三、经验研究结果:MTVCrafter的表现如何?

为了评估MTVCrafter的有效性,研究团队在TikTok数据集上进行了广泛的实验。他们采用了六种评估指标:图像级指标包括峰值信噪比(PSNR)、结构相似性指标(SSIM)、学习的感知图像片段相似性(LPIPS)、Fréchet Inception距离(FID);视频级指标包括视频级FID(FID-VID)和Fréchet视频距离(FVD)。

### 实现细节

对于4DMoT,研究团队使用了一个大小为8,192、码维度为3072的码本。量化使用指数移动平均(EMA)更新策略进行,衰减常数λ = 0.99。为了保持码本利用率,每20步就会重置未使用的码。滑动窗口大小配置为8。整个VQVAE模型使用AdamW优化器从头开始训练,β? = 0.9,β? = 0.99,权重衰减1×10??,每个GPU的批量大小为32。方程3中的承诺损失比率设置为0.25。他们训练了20万次迭代,学习率为2×10??,然后又以降低的学习率1×10??额外训练了10万次迭代。

对于MV-DiT,研究团队采用了基于DiT的CogVideoX-5B-T2V作为基础模型。在训练过程中,运动条件的丢弃概率p设置为0.25,输入视频剪辑裁剪为49个连续帧。除了3D VAE和4D运动令牌化器外,所有模块都是可训练的,总共约有70亿可训练参数。他们使用AdamW优化器对模型进行优化,β? = 0.9,β? = 0.99,权重衰减1×10??,每个GPU的批量大小为4。模型训练了2万次迭代(8 H100天),学习率为1×10??。在推理过程中,运动条件的CFG尺度设置为3.0,以平衡条件保真度和生成质量。所有实验都在8个NVIDIA H100 GPU上进行。

### 与现有方法的比较

在定量比较方面,如表1所示,MTVCrafter在TikTok基准测试上实现了最先进的结果。特别是,MTVCrafter在FID-VID指标上达到了6.98,比第二好的方法提高了65%。这凸显了直接建模运动序列而非渲染姿势图像的优势。对于SSIM和PSNR,各方法的结果相似且不太显著,因为这些是适用于图像超分辨率等任务的低级指标。

在视觉结果方面,如图1和5所示,MTVCrafter展示了最佳的动画表现,无论是在姿势准确性还是身份一致性方面。此外,MTVCrafter表现出强大的泛化能力,能够处理单个或多个角色、全身或半身外观,以及各种风格、动作和场景。值得注意的是,即使目标姿势与参考图像不对齐(例如图5中的牛仔),MTVCrafter仍然表现稳健,表明它能有效地将运动与驱动视频解耦。这个问题无法通过像Champ或UniAnimate这样简单尝试将姿势重定向以匹配参考图像比例的方法从根本上解决。

### 消融研究

为了验证关键设计的有效性,研究团队对4D运动令牌化器(MT)、4D运动注意力(MA)和CFG进行了消融研究。

#### 运动令牌化器(MT)

研究团队调查了移除向量量化器的效果。没有量化,VQVAE退化为直接处理连续且不一致的运动特征的标准自编码器,导致性能下降(表2中FID-VID 9.79 vs. 6.98)。这证实了使用离散和统一的运动令牌对稳定运动学习至关重要。此外,量化还有助于提高开放世界动画的泛化能力。

#### 运动注意力(MA)

研究团队探索了运动注意力模块的多种位置编码(PE)设计:(1)动态PE使用第一帧关节坐标计算RoPE,但由于不稳定性和训练困难而表现不佳;(2)可学习PE难以收敛,无法提供可靠的位置线索;(3)1D时间RoPE仅沿时间轴应用RoPE,(4)3D空间RoPE仅沿空间轴应用RoPE。这两种方法都无法模拟完整的4D依赖关系,导致身份漂移或抖动等视觉伪影;(5)没有PE完全移除位置编码,产生最差的整体性能(FVD:235.57 vs. 140.60,SSIM:0.717 vs. 0.784),突显了明确位置信息的重要性。

图6提供了视觉消融结果,生动地展示了令牌化器和4D RoPE的有效性,导致改进的运动质量和角色保真度。

#### 运动感知分类器自由引导(CFG)

图7展示了运动感知CFG尺度w的定性和定量评估。在TikTok基准测试上,CFG尺度为3.0时产生最佳性能,特别是在FVD指标上。对于FID-VID指标,尺度似乎影响不大。在右侧的视觉比较中,增加CFG尺度增强了姿势对齐,但也引入了更多伪影,可能降低了视频质量。

四、MTVCrafter的广阔前景与技术局限

尽管MTVCrafter在多种场景下表现出色,但它仍然存在一些局限性,如图8所示。首先,当参考角色的比例与正常人体解剖结构有显著偏差时,模型可能生成不准确的结果。这一局限性源于训练数据中缺乏非人类形象的例子。其次,精确的手部控制仍然是一个挑战,因为我们的SMPL运动-视频数据集中缺乏清晰详细的手部运动表示。

除了这些技术局限性外,研究团队也认识到MTVCrafter使用中的更广泛问题,如可能的滥用涉及未经授权的身份操纵或违反数据版权,特别是在对源自社交平台的参考图像进行动画处理时。此外,MTVCrafter不得用于制作有害、误导或不尊重的内容,如嘲笑个人或扭曲艺术和文化遗产。研究团队呼吁负责任地使用MTVCrafter,并计划采取用户同意验证和水印等措施,特别是在商业或面向公众的应用中,尽量减少潜在的滥用风险。

尽管存在这些局限性,MTVCrafter开创了人物图像动画的新范式,为未来工作开辟了几个重要方向:

1. **更丰富的运动表示**:未来的研究可以探索更详细的运动模型,特别是改进手部、面部和精细运动的捕捉和表示。

2. **多角色交互**:扩展MTVCrafter以处理多个角色之间的复杂交互,包括物理接触和社交行为的建模。

3. **环境感知动画**:开发能够考虑环境约束(如地面、墙壁和物体)的模型,确保生成的动画与周围环境的物理一致性。

4. **用户控制界面**:创建直观的界面,允许非技术用户轻松指定和调整动画参数,使技术更易于普通创作者使用。

5. **实时性能优化**:改进模型效率以支持实时应用,如虚拟现实、游戏和直播表演。

五、结论:MTVCrafter开创的新时代

MTVCrafter代表了人物图像动画领域的重大技术飞跃,通过直接将原始运动序列令牌化而非依赖2D渲染的姿势图像,开创了一个新范式。通过将4D运动VQVAE与DiT中的运动注意力相结合,MTVCrafter有效地保持了时空一致性和身份保真度,同时解耦了角色和运动。

实验表明,这种方法不仅在标准基准测试上实现了最先进的性能,而且在不同角色和动作的多样化场景中展示了强大的泛化能力,为开放世界的人物动画设定了新标准。这种进步为数字人类、虚拟试穿和沉浸式内容创作等应用开辟了新的可能性。

正如任何突破性技术一样,MTVCrafter也存在需要进一步研究的局限性和伦理考虑,但它无疑标志着朝着更逼真、更多样化和更可控的人物动画迈出了重要一步。随着这一领域的持续发展,我们可以期待看到越来越多令人印象深刻的应用,从电影和游戏到教育和医疗保健,彻底改变我们创建和体验数字人类的方式。

对于感兴趣深入了解这项研究的读者,完整论文和代码可在以下链接获取:https://anonymous.4open.science/r/MTVCrafter-1B13。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-