微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 打破僵硬动作!南洋理工大学团队为人类视频补帧注入3D控制能力

打破僵硬动作!南洋理工大学团队为人类视频补帧注入3D控制能力

2025-06-07 09:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 09:52 科技行者

在人类动作展示的视频中,你是否曾注意到关键帧之间的过渡看起来不自然?南洋理工大学的研究团队近期为解决这一问题提出了创新方案。这项由南洋理工大学S-Lab的Zujin Guo、Size Wu、Wei Li和Chen Change Loy,以及SenseTime Research的Zhongang Cai共同完成的研究,题为《Controllable Human-centric Keyframe Interpolation with Generative Prior》(基于生成式先验的可控人体中心关键帧插值),于2025年6月发表在arXiv(arXiv:2506.03119v1)上。有兴趣深入了解的读者可通过项目网站https://gseancdat.github.io/projects/PoseFuse3D_KI获取更多信息。

想象一下,你正在观看一段跳舞或运动视频,但只有几个关键动作被拍摄下来,中间的动作过渡却缺失了。传统的视频帧插值技术就像是在猜测这些缺失的动作,但往往因为人体动作的复杂性而"猜错",导致生成的中间帧看起来扭曲或不自然。这就像是你只看到一个人起跳和落地的照片,却看不到空中翻转的整个过程,如果有人试图凭空想象中间的动作,很容易出现不符合物理规律的怪异姿势。

现有的方法大多依赖于预训练的视频扩散模型来生成关键帧之间的中间帧,但缺乏对人体3D几何结构的理解,导致在复杂的人体动作中产生不合理的结果。就像一个从未学过解剖学的画家试图画出人体动作,虽然整体看起来像那么回事,但细节处往往违背人体工程学原理。

为了解决这一挑战,研究团队提出了PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)框架,这一框架巧妙地将3D人体模型信息融入扩散过程,为人体中心关键帧插值提供精准指导。他们的方法不仅考虑了2D的骨骼结构,还加入了3D的人体几何形状信息,就像是给视频生成模型配备了一本详细的人体解剖学教材,让它能够生成符合人体运动规律的自然过渡动作。

为了评估他们的方法,研究团队构建了一个名为CHKI-Video的新数据集,包含带有2D姿态和3D SMPL-X参数标注的视频。在这个数据集上,PoseFuse3D-KI在PSNR评估指标上比现有最佳方法提高了9%,在LPIPS评估指标上减少了38%,展现出显著的性能优势。

一、关键帧插值的现状与挑战

帧插值技术的目标是在两个连续的视频帧之间生成新的帧,以提高视频的时间平滑度。传统的插值方法设计用于处理时间上相邻的帧,假设这些帧之间的运动是简单且微小的。就像是预测一个正在缓慢移动的小球在下一毫秒会出现在哪个位置——这是相对容易的。

然而,当我们面对的是相距较远的关键帧时(称为关键帧插值或生成式中间帧合成),情况就变得复杂得多。这就像是预测一个杂技演员从一个高台跳到另一个高台的整个过程,仅基于起跳和落地的照片。这时,帧之间的运动变得复杂且充满歧义,特别是在人体中心的视频中,人体的关节动作涉及多种姿态和形状变化。

现有的方法通常依赖于从图像到视频(I2V)模型的生成先验来桥接时间间隙,但它们仅基于输入的关键帧进行条件控制,没有中间指导。这就像是告诉画家"画一个从站立到后空翻的过程",但不提供任何中间姿态的参考。因此,这些方法常常难以解决运动歧义,无法准确捕捉人体运动的复杂关节动态。例如,当关键帧涉及大幅度遮挡或非刚性关节运动时,这些方法往往产生不合理或扭曲的插值结果。

FCVG方法尝试使用2D骨架作为人类主体的控制信号进行关键帧插值。然而,2D线条无法传达完整的身体形状和几何结构,导致生成的结果不够真实。这就像是只给画家提供了一个线条骨架,却期望他能画出有血有肉的人物。这些方法缺乏对插值过程的精细控制,限制了它们生成灵活、高保真度人体中心插值的能力。

二、PoseFuse3D-KI:融合3D人体控制的关键帧插值方案

研究团队提出的解决方案是将3D人体条件整合到人体中心关键帧插值流程中。受到近期人体动画领域进展的启发,他们提出将2D人体姿态与3D SMPL-X模型作为中间控制信号相结合。这些信号为复杂的关节运动提供精确指导:2D姿态提供人体关节姿势的简洁表示,而3D模型捕捉丰富的空间几何信息。

然而,有效处理这些控制信号面临两大挑战。首先,常见做法是将3D人体模型渲染成2D代理(如彩色表面、法线、深度图)再进行编码,这导致遮挡区域的空间信息大量丢失。这就像是将3D雕塑拍成2D照片,背面的细节自然就丢失了。因此,研究团队需要开发一个专用编码器,在将3D模型转换为控制信号时保留被遮挡的3D细节。

第二个挑战是如何融合具有不同信息内容和粒度的信号。这需要设计合适的神经网络架构,能够准确提取3D线索并将它们与2D姿态协调成一个统一、信息丰富的控制输入。这就像是将不同语言的描述融合成一个连贯的故事。

PoseFuse3D-KI框架的核心是其3D信息增强的控制模型PoseFuse3D,它由三个共同训练的模块组成:

第一个模块从可视化条件中派生控制特征,就像是从照片中提取关键信息。第二个模块是一个创新的SMPL-X编码器,它将3D几何体和形状信息转换为2D潜在条件空间,就像是将3D模型的所有角度信息都压缩到一个全面的平面图上。第三个模块是融合网络,它将前两个模块的输出整合成一个统一的控制信号,指导插值过程。

与先前的方法不同,PoseFuse3D-KI不仅依赖于渲染可视化,还直接在3D空间中处理特征,并通过特征聚合集成投影特征。这就像是既考虑了照片,又参考了原始3D模型,获得了更完整的信息。

三、PoseFuse3D的技术详解:如何实现3D信息增强的控制

PoseFuse3D是一个3D信息增强的控制模型,为合理的人体插值提供3D人体结构和几何指导。这种3D信息增强的指导通过交叉归一化注入到基础扩散模型的第一个去噪块之后。在内部,PoseFuse3D包含三个共同训练的组件:视觉编码模块、SMPL-X编码器和融合模块。

视觉编码模块从可视化控制图像中提取条件特征,保持与控制视频潜变量的自然像素级对齐。为了增强控制信号,研究团队结合了DWPose和SMPL-X的可视化。虽然SMPL-X渲染提供了丰富的人体表面细节,但其关键点信息是间接的,与其他顶点和网格面混合在一起。因此,他们添加了DWPose可视化来强调骨骼关键点布局,以便更稳健地理解姿态。这种组合在先前的工作中也被证明是有效的。

具体来说,视觉编码模块使用两个并行的卷积编码器来捕获全面的姿态信息。一个编码器处理DWPose可视化以捕获紧凑的姿态信息,而另一个处理SMPL-X渲染,保留3D线索,如遮挡边界和投影形状。值得注意的是,为了丰富语义细节,他们在渲染过程中使用SMPL-X彩色表面,为每个顶点分配唯一的颜色。

虽然3D模型渲染为VDM提供了对齐的图像映射用于条件控制,但渲染操作丢弃了部分3D信息,特别是在遮挡区域。这导致对大幅度人体运动的关键帧进行插值时出现不合理的结果。为了增强可控性并直接获取3D信息,研究团队引入了SMPL-X编码器,该编码器在3D空间中处理SMPL-X模型,并将其转换为图像条件特征。

具体来说,SMPL-X模型通过姿态、形状和表情参数进行参数化。他们通过将这些参数输入SMPL-X模型来获取结构信息,生成3D空间中的顶点和关节坐标,并通过投影获取它们对应的2D坐标。值得注意的是,投影步骤在3D空间和2D图像平面之间建立了对应关系,使得在生成图像条件映射的同时保留3D空间结构成为可能。

接下来,原始3D坐标通过MLP处理,产生点级顶点特征和关节特征。这些关节特征通过时间残差块进行细化,将它们与姿态信息融合成富有表现力的关节级表示。为了将这些3D特征聚合到2D图像控制映射中,他们使用了单独的注意力机制。最终,这些输出被连接并通过下采样块处理,产生最终的SMPL-X控制表示,作为底层3D人体结构的信息丰富且紧凑的图像嵌入。

条件融合模块将来自2D和3D信号的控制特征组合成统一的表示,指导关键帧插值。为了获得强大的特征表示,研究团队引入了一种从粗到细的融合策略,逐步将3D特征中的丰富几何信息整合到紧凑的2D姿态特征中。具体来说,他们采用两个基于注意力的融合块来执行这种整合,每个块包含三个注意力层用于渐进式细化。

第一层是自注意力模块,通过对渲染编码和SMPL-X特征的和进行操作来处理3D特征。第二层执行交叉注意力,通过空间局部化的交互方案将3D特征与2D编码对齐。值得注意的是,他们采用了移位窗口分区策略来限制注意力计算在相邻区域,增强局部对齐。第三层应用时间自注意力,捕获融合表示中的时间动态相关性。研究团队使用第二个融合块的输出作为最终的控制信号,将其注入基础插值引擎,在合成过程中提供细粒度、结构感知的指导。

四、CHKI-Video数据集:为人体中心关键帧插值提供全面标注

现有的插值数据集如SportsSlomo针对的是小时间间隔,缺乏2D姿态或3D人体模型的标注,并且人体中心运动多样性有限。为了系统评估CHKI算法,研究团队引入了CHKI-Video,这是一个专为可控人体中心关键帧插值(CHKI)设计的新数据集。

CHKI-Video包含来自SportsSlomo和Pexels网站的2,614个高质量视频片段,超过18万帧。使用最先进的工具和手动验证,每帧都被仔细标注了边界框、分割掩码、2D人体姿态和SMPL-X参数。从这个集合中,研究团队派生出专门用于CHKI任务的基准测试。

数据集构建分三个阶段进行。首先,他们从SportsSlomo和Pexels收集视频片段,涵盖从日常活动到高强度动作的关键词。为了增强多样性,他们编制了一个关键词列表,包括"行走"、"踢"、"投掷"、"接球"和"攀爬"等基础人体动作,确保涵盖广泛的人类活动。这些关键词被分为三类:手臂运动、腿部运动和一般运动,确保后续训练-测试分割的标签平衡。

其次,他们进行预标注处理,首先根据亮度变化和评估分数对低质量视频进行过滤。然后,使用Grounding-DINO和SAM2检测、分割和跟踪每个视频中的人物实例。他们丢弃了包含超过三人或少于20个连续帧的任何视频,以确保关键帧插值的足够时间跨度。经过自动处理后,他们手动审查和过滤复杂体育场景中的检测结果。

最后,在第二阶段获得的准确人体检测基础上,他们对每个片段进行精确的人体中心信息标注。首先,使用Sapiens提取2D人体关键点,并进行全身检测以过滤出不完整的人物图像。然后,应用SMPLer-X,利用其高重投影准确性来拟合详细的SMPL-X模型,为每一帧生成可靠的3D身体参数。

五、实验结果:PoseFuse3D-KI的性能评估

研究团队首先评估了PoseFuse3D中3D控制策略的有效性。他们比较了不同的3D控制策略,包括"VE"(视觉编码)、"VE+DN"(视觉编码加深度和法线)和"VE+SE"(视觉编码加SMPL-X编码)。实验使用Wan2.1-I2V作为插值骨干网络,为了效率,这些策略被训练了40K次迭代。

为了评估3D信息的必要性,他们还与FCVG进行了比较,后者仅基于2D信号进行条件控制。为了公平比较,他们创建了VE的一个变体,将骨干网络替换为SVD。这个变体被称为VE-SVD,用于便于分析。

定量比较结果显示,添加3D控制改善了插值性能。VE-SVD在所有指标上都优于FCVG,所有PSNR指标都增加了超过0.50 dB,表明在整体图像和人体中心级别都有改进。此外,研究还强调了显式3D信息的重要性。VE+DN和VE+SE,它们分别纳入了深度和法线图或直接的SMPL-X信息,优于更简单的VE策略。VE+DN和VE+SE在感知质量方面显示出明显的改进,这反映在LPIPS指标上。值得注意的是,团队的VE+SE策略,直接在3D空间中编码信息,提供了最佳性能,实现了0.0653的最低LPIPSbbox和22.14 dB的最高PSNR。

定性比较进一步证实了这些发现。结合3D控制的方法在插值过程中更好地保留了人体形状。例如,在网球案例中,使用3D控制策略的方法将球员的身体插值得接近地面实况,而FCVG则表现出明显的失真。此外,团队的VE+SE策略,直接从SMPL-X编码3D信息,在处理遮挡的人体运动方面非常有效。在滑板和跳跃案例中,可以观察到VE+SE策略为遮挡的手臂产生了合理的结果,展示了其在复杂场景中的优势。

接着,研究团队将PoseFuse3D-KI与几种先进的插值方法在CHKI-Video数据集上进行了比较。主要比较对象是FCVG,它也支持插值过程中的中间控制。为了更广泛的覆盖,他们还包括了关键帧插值方法GI和传统的视频帧插值方法GIMM-VFI。此外,他们还包括了Wan2.1-KI,这是Wan2.1为关键帧插值调整的版本。

在CHKI-Video基准测试上,PoseFuse3D-KI提供了最先进的性能。在整体图像指标上,它比最先进的方法FCVG提高了1.85 dB的PSNR,并降低了0.0796的LPIPS。关键的是,它在人体中心指标上也优于其他方法,实现了14.72 dB的PSNRbbox、0.045的LPIPSmask和0.9189的HA分数。这表明团队的方法产生了合理的、高保真度的人体插值,紧密遵循地面实况动态,证明了其方法的有效性。

在定性评估中,PoseFuse3D-KI与其他先进方法相比,提供了更准确的人体插值,忠实地遵循真实世界的运动并保留身体形状。例如,在第二个"击剑"案例和第四个"特技自行车"案例中,只有PoseFuse3D-KI正确地插值了腿部和手臂运动,同时保持一致的形状。此外,该方法自然地处理了遮挡的人体运动,表现出对遮挡腿部和手臂的空间位置进行正确插值的能力,相比FCVG有显著改进。此外,尽管无控制的关键帧插值方法GI和Wan2.1-KI偶尔产生未扭曲的人体,但它们经常生成违反真实世界动态的不合理运动。

六、深入研究:模型组件的消融研究

为了验证设计选择的有效性,研究团队对PoseFuse3D的视觉编码和融合模块进行了详细的消融研究。他们使用SVD作为骨干网络,处理视频片段为9个连续帧,分辨率为256×256。

首先,研究团队评估了视觉编码组件的重要性。PoseFuse3D的视觉编码模块包括两个卷积编码器,分别用于2D和3D控制图。他们将包含整个模块的变体称为"Dual Conv-Enc",将仅使用2D编码器的变体称为"Conv-Enc (2D)"。移除3D视觉编码导致PSNRbbox和PSNRmask都下降了0.26 dB,突显了3D视觉编码的重要性。

在PoseFuse3D中,条件特征通过精心设计的融合模块进行融合。为了验证其有效性,研究团队将其替换为简单的求和操作,在表格中标记为"Sum"。这一变化导致性能显著下降,特别是在感知质量方面,LPIPSmask增加了0.0033。这些结果证明了融合模块对提供高质量插值的信息控制的贡献。

PoseFuse3D采用带有移位窗口分区策略的交叉注意力层来融合相邻窗口的特征。为了验证这一设计,他们移除了窗口分区,标记为"Non-WP"。这导致PSNRbbox和PSNRmask都显著下降了0.11 dB,表明窗口分区策略增强了受控插值。

最后,为了证明融合模块中时间自注意力(TSA)层的功效,研究团队进行了排除TSA层的实验(Non-TSA)。这一移除导致LPIPSbbox和LPIPSmask分别增加了0.0022和0.0017,证明了融合模块中时间自注意力层的关键作用。

七、总结与未来展望

研究团队提出了PoseFuse3D-KI,一个由新型3D信息增强控制模型PoseFuse3D驱动的可控人体中心关键帧插值框架。PoseFuse3D将丰富的空间几何信息从3D人体信号与2D姿态融合为统一的控制特征,使生成的中间帧更加合理和真实。为了评估,他们构建了带有全面人体中心标注的CHKI-Video数据集。在基准测试上的广泛实验证明,PoseFuse3D-KI优于以往的插值方法,PSNR提高了9%,LPIPS减少了38%。

这项研究的价值不仅在于提高了关键帧插值的质量,更在于为人体中心视频处理领域带来了新的思路。通过将3D几何信息直接融入生成过程,PoseFuse3D-KI解决了以往方法在处理复杂人体动作时面临的根本限制。这种方法也可能启发其他涉及人体建模的计算机视觉任务,如动作识别、姿态估计和人体重建等。

未来的研究方向可能包括进一步改进3D人体模型的编码方式,探索更高效的融合策略,以及扩展到多人场景或人-物交互的复杂情境。此外,将这种方法与文本到动作模型结合,可能实现更灵活的人体动画生成,为创意内容制作提供更强大的工具。

总之,PoseFuse3D-KI代表了人体中心视频处理的重要进步,通过将3D几何理解引入生成模型,为创建更自然、更真实的人体动作提供了新的可能性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-