微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 绝对坐标让动作生成变得简单:东北大学提出革命性动作表示法,提升动作准确度与可控性

绝对坐标让动作生成变得简单:东北大学提出革命性动作表示法,提升动作准确度与可控性

2025-05-30 16:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 16:19 科技行者

在动作生成领域,研究人员一直以来使用的动作表示方法似乎已成定论。然而,东北大学的研究团队认为,或许我们已经走向了一个过于复杂的方向。这项由东北大学(Northeastern University)的孟子聪(Zichong Meng)、韩泽宇(Zeyu Han)、彭晓刚(Xiaogang Peng)、谢一鸣(Yiming Xie)和姜怀祖(Huaizu Jiang)共同完成的研究,于2025年5月26日在arXiv上发表,标题为《Absolute Coordinates Make Motion Generation Easy》(绝对坐标让动作生成变得简单),向我们展示了一种看似原始却意外高效的动作生成新方法。

想象一下,你正在教一个机器人如何移动。传统上,我们会告诉它:"先把右脚向前移动10厘米,然后相对于右脚,把左脚向前移动15厘米"——这就像给它提供相对指令。而这项研究则采用了一种更直接的方法:"把右脚放在坐标(10,0,0),把左脚放在坐标(20,0,0)"——这就是使用绝对坐标。虽然后者看起来更简单,但在人工智能领域,人们一直认为使用相对坐标和关节角度更有利于生成自然的人体动作。

这项研究彻底颠覆了这一传统观念。研究团队提出了一个名为ACMDM(Absolute Coordinates Motion Diffusion Model,绝对坐标动作扩散模型)的新框架,它直接使用全局空间中的绝对关节坐标来生成人体动作。这种方法不仅生成的动作质量更高,而且使动作控制和编辑变得更加简单直观。

一、研究背景与传统挑战

在人工智能生成人体动作的领域中,目前的主流方法普遍采用一种源自HumanML3D数据集的运动表示法。这种表示法是一种"相对坐标"系统,主要记录关节相对于骨盆(人体中心)的位置,以及相对于前一帧的变化。这有点像告诉某人:"向左转30度,然后向前走5步,再向右转20度",而不是直接说"走到商店门口的那个红色信箱旁边"。

为什么研究者们最初会选择这种相对坐标系统呢?主要是因为它可以明确建模人体骨架的关节运动学约束,并且能减少全局位置的累积误差。就像是烹饪时遵循"加入一勺糖,然后再加入两倍于糖的面粉"的指令,而不是精确测量每种配料的克数。这种表示方法在早期的生成模型中确实带来了优势,帮助模型更容易学习人体动作的自然规律。

然而,研究团队发现,这种看似有优势的表示方法实际上为现代扩散模型(一种强大的生成人工智能技术)带来了两个关键限制:

首先,冗余的信息使扩散模型学习变得困难。就像学习烹饪时,如果既要记住"加入350克面粉",又要记住"面粉是糖的两倍",还要记住"面粉总量是所有干料的70%",这些重复信息反而增加了认知负担。

其次,相对坐标的本质使得下游任务(如动作控制和编辑)变得复杂。想象你要指导一个机器人精确地移动到特定位置,如果你只能用相对指令("向前迈一小步,再向左转一点"),而不能直接说"移动到坐标(x,y,z)",控制会变得多么困难。

二、突破性的解决方案:回归简单的绝对坐标

面对这些挑战,东北大学的研究团队提出了一个看似简单却极具突破性的想法:为什么不直接使用全局空间中的绝对关节坐标呢?

这就像是放弃复杂的相对导航指令,转而使用GPS坐标直接告诉你目的地的确切位置。在每一帧动画中,模型直接预测人体每个关节在3D空间中的精确坐标,而不关心它们与骨盆的相对位置或与前一帧的关系。

这种方法之所以被认为是"长期被抛弃的",是因为早期的研究者们认为直接建模绝对坐标会导致不自然或物理上不合理的动作。传统观点认为,没有明确建模关节间的运动学约束,生成的动作可能会违反人体物理限制,比如手臂突然伸长或腿部折叠成不可能的角度。

通过系统分析和大量实验,研究团队证明了这一担忧是多余的。事实上,即使使用简单的Transformer模型架构(而非更复杂的专用网络)和没有任何额外的运动学约束损失函数,基于绝对坐标的方法不仅能生成高质量的动作,还显著提高了语义对齐度(动作与文字描述的匹配程度)和可扩展性。

三、ACMDM模型设计:简单而强大

研究团队基于绝对坐标设计了ACMDM(绝对坐标动作扩散模型)框架。这个模型的核心理念是"简单且直接"。

在ACMDM中,每一帧的动作表示为一个简单的矩阵,记录每个关节(如肩膀、肘部、手腕等)在全局3D空间中的XYZ坐标。这就像是一张包含精确GPS位置的表格,记录人体每个关节在每一刻的确切位置。

为了处理这些结构化数据,研究团队采用了一种类似视觉Transformer的方法。他们将动作序列"分块"处理,就像是把一张大图片分成小块一样。通过尝试不同的分块大小(1×22、1×11和1×2),他们发现更细粒度的分块(1×2)能够获得更好的性能,因为它允许模型更细致地关注关节间的关系。

在条件控制方面,ACMDM使用预训练的CLIP文本编码器提取文本嵌入,并采用AdaLN(自适应层归一化)机制将文本和时间步信息融入模型的每一层。这有点像烹饪中根据食谱(文本)和烹饪阶段(时间步)动态调整火候和调料。

有趣的是,研究团队发现,对于扩散目标的选择也至关重要。通过比较预测原始动作(x0)、预测噪声(ε)和预测速度(v)三种不同目标,他们发现预测速度(v)始终产生最佳性能。这就像是预测物体下一刻的运动方向和速度,而不是直接预测它的终点位置,能更准确地捕捉动作的动态特性。

此外,研究团队还探索了使用动作自编码器将原始绝对坐标转换为潜在表示,并在潜在空间中执行扩散过程。这种方法进一步提高了生成质量和推理速度。

四、超越现有技术的卓越性能

研究结果令人印象深刻。即使是最小的ACMDM-S-PS22模型(匹配基线模型大小)也已超越所有现有方法。而更大的变体,如ACMDM-XL-PS2,则将性能提升到新的高度。

具体来说,与最先进的MARDM模型相比,ACMDM-XL-PS2在FID(衡量生成动作与真实动作分布相似度的指标)方面降低了0.056,在R-Precision Top-1(衡量动作与文本描述匹配程度的指标)方面提高了0.022。这种大幅度的改进在生成模型领域是非常显著的。

在视觉效果方面,ACMDM生成的动作更加流畅自然,更准确地遵循文本指令。例如,对于"这个人把东西放在一边,然后又把它恢复正常"这样的提示,ACMDM能够生成清晰的两阶段动作,准确捕捉"放置"和"恢复"的动态过程,而其他模型往往会生成模糊或不完整的动作。

五、革命性的动作控制与编辑能力

ACMDM的一个重大优势在于它天生支持下游任务,如基于文本的轨迹控制和空间/时间编辑,无需任何特定于任务的重新设计。

传统方法在处理控制任务时面临重大挑战,主要是因为用户提供的控制信号(如"手应该在这个位置")通常是绝对坐标,而模型内部使用相对坐标。这种不匹配导致需要复杂的转换或额外的指导机制,大大增加了计算成本和时间。

比如,OmniControl方法虽然能实现良好的控制效果,但需要耗时的分类器指导,平均推理时间高达81秒。相比之下,ACMDM基于相同的模型大小和嵌入格式,通过ControlNet扩展,无需分类器指导就能实现更好的控制精度,且推理时间仅为2.51秒。

这种效率和精度的提升源于ACMDM使用绝对坐标的内在特性。就像是导航系统直接使用GPS坐标一样,当你想控制某个关节移动到特定位置时,模型可以直接接收和处理这些绝对位置信息,无需复杂转换。

六、直接生成SMPL-H网格顶点:迈向逼真人物动画

研究团队进一步展示了ACMDM方法的一个惊人能力:直接从文本生成SMPL-H网格顶点运动。

想象一下,传统的人体动作生成主要关注骨骼关节(通常是22个关节点),就像木偶的支架。而要获得逼真的人体动画,这些关节点通常需要通过复杂的"蒙皮"过程转换为完整的3D网格模型(包含数千个点)。

ACMDM展示了直接从文本生成完整网格顶点运动的能力,跳过了中间的关节生成和网格拟合步骤。这相当于直接创建一个包含肌肉、皮肤和细微动态的完整人体模型,而不是先创建骨架再添加皮肤。

研究表明,即使面对显著增加的复杂性(从22个关节点到6890个网格顶点),ACMDM模型仍然表现出色,达到与最佳文本到关节生成模型相当的性能,同时保持网格结构的一致性(通过低LSD值证明)。

这一突破为更广泛的动作生成应用奠定了基础,将使动画师和游戏开发者能够直接从文本描述生成逼真的人物动画,而无需繁琐的中间处理步骤。

七、研究结论与未来展望

东北大学研究团队的工作从根本上重新思考了动作生成的表示方法,并证明了有时简单的解决方案可能是最有效的。通过回归到看似原始的绝对坐标表示,他们在动作生成质量、文本对齐性、控制能力和应用灵活性方面都取得了突破性的进展。

这项研究提醒我们,在人工智能领域,复杂的解决方案并不总是最好的。有时,重新审视被长期忽视的简单方法可能会带来意想不到的突破。正如研究标题所言:"绝对坐标让动作生成变得简单"。

此外,ACMDM展示的直接生成SMPL-H网格顶点的能力,为更广泛的动作生成应用开辟了新道路。这将使虚拟现实体验、游戏开发、动画制作和机器人控制等领域受益,特别是在需要精确、可控、高质量人体动作的应用中。

对于有兴趣深入了解这项研究的读者,可以通过研究团队提供的网站(https://neu-vi.github.io/ACMDM/)获取更多信息,包括代码、数据集和更多可视化结果。

这项研究不仅是技术上的进步,也是思维方式上的转变,提醒我们在追求复杂解决方案之前,先重新考虑简单而直接的方法可能带来的价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-