微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 让静止的姿态"活"起来:伊利诺伊大学团队如何用AI让两个人的互动动作栩栩如生

让静止的姿态"活"起来:伊利诺伊大学团队如何用AI让两个人的互动动作栩栩如生

2025-12-23 10:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-23 10:16 科技行者

一个有趣的观察

你有没有注意过,当两个人在拥抱、握手或者跳舞时,仅仅看他们身体接触的那一刻,你就能猜到接下来会发生什么?比如,看到两个人紧紧相拥的姿态,你就知道他们可能会轻轻摇晃;看到一个人伸出手准备推另一个人,你能预想到对方会后退。这种从静止姿态推断动作的能力,其实蕴含了人类对互动行为的深刻理解。

这项由伊利诺伊大学厄巴纳-香槟分校的刘绍伟领导,与Snap Inc.的郭川、周冰、王健等研究者合作完成的研究,正是基于这个简单但深刻的观察。他们在2025年10月发表于arXiv的论文中(编号:arXiv:2510.14976v1),提出了一个名叫Ponimator的系统,它能够从两个人互动时的姿态出发,生成他们之间流畅、自然的动作序列。这项研究的核心创新在于,它不是试图从零开始学习两人互动的所有可能性,而是巧妙地利用了这些互动姿态本身就包含的丰富信息。

二、为什么这个问题值得解决

想象一下,你正在制作一部电影或制作视频内容。你有一张两个人互动的静止照片——也许他们在跳舞,也许他们在打闹,也许他们在拥抱。现在的问题是,如何让这张照片"动"起来,让观众看到他们接下来会如何移动?

传统的方法通常有两个困境。一种是依赖通用的视频生成模型,这些模型能生成各种各样的动作,但往往不能准确捕捉两个人之间的物理接触——他们可能会穿过彼此的身体,或者失去接触。另一种是专门为两人互动设计的模型,但这些模型通常需要大量的文字描述或其他复杂的输入条件,而且对于真实照片中的人物姿态往往适应性不强。

此外,还有一个更广泛的需求。假设你只有一个人的照片,想象一个与他互动的伙伴,然后生成他们的互动动作,这该怎么办?或者,你只是想根据文字描述(比如"两个人在拥抱")直接生成两人互动的视频,这又该如何实现?

Ponimator的研究团队意识到,现有的方法都遗漏了一个关键的中间环节——那就是互动姿态本身。他们认为,与其试图直接从图像或文字生成完整的动作序列,不如先生成两个人互动时的关键姿态(比如拥抱时的身体位置和角度),然后再从这个姿态出发生成动作。这就像建筑师先画出建筑的关键框架,再填充细节,而不是试图一次性完成整个设计。

三、互动姿态的魔力

在深入研究方法之前,我们需要理解什么是"互动姿态"。这不是指任何两个人的姿态组合,而是特指两个人在紧密接近、有身体接触时的姿态。比如,握手时两个人的手部位置和身体角度、拥抱时两个人的身体贴合方式、或者跳舞时两个人的相对位置。

为什么这种姿态特别重要?因为它包含了丰富的信息。当你看到两个人握手的姿态时,你能推断出他们的手臂会如何移动、身体会如何转动。当你看到拥抱的姿态时,你能想象出他们会轻轻摇晃。这种推断能力来自于我们对人类行为的深层理解——我们知道身体的物理约束、我们知道人类通常如何互动。

研究团队通过分析高质量的动作捕捉数据(来自InterX和Dual-Human两个数据集,包含约13000个互动序列)发现,互动姿态确实是一个强大的信号。在这些数据中,他们识别出了真正的互动姿态(两个人紧密接触的时刻)和非互动姿态(两个人分开的时刻)。对比这两种姿态的特点,他们发现互动姿态能够清晰地传达互动的本质,而非互动姿态则显得模糊不清。

这个观察引出了一个关键的数学框架。研究团队将生成互动动作的问题分解为两个部分:一是学习从互动姿态出发生成动作序列的"时间规律"(即动作如何随时间展开),二是学习从各种输入条件生成互动姿态的"空间规律"(即两个人应该如何相对位置)。这种分解就像是把一个复杂的烹饪任务分成两步:先确定食材的配置(空间),再确定烹饪的流程(时间)。

四、两个AI模型的协作

为了实现这个想法,研究团队构建了两个相互配合的AI模型,都基于扩散模型这种先进的生成技术。扩散模型的工作原理有点像一个反向的噪音过程:如果你对一张清晰的图片逐步加入噪音,最终会得到完全的噪音;扩散模型就是学会反向操作,从噪音逐步恢复出清晰的内容。

第一个模型被称为"互动姿态动画师"。它的任务很具体:给定两个人的互动姿态,生成围绕这个姿态的完整动作序列。比如,给它一个握手的姿态,它会生成握手前的接近动作、握手时的轻微摇晃、以及握手后的分离动作。这个模型的巧妙之处在于它如何处理输入的姿态。研究团队采用了一种叫"插补"的技巧:他们不是让模型从零开始生成整个序列,而是让模型学会生成相对于互动姿态的"残差"——也就是说,模型只需要学会如何在保持互动姿态不变的前提下,生成周围的动作变化。这就像是在一个固定的支点周围进行微调,而不是从头开始。

第二个模型被称为"互动姿态生成器"。它的任务是从各种不同的输入条件生成互动姿态。这些输入条件可以是单个人的姿态(比如,给定一个人的站立姿态,生成他的互动伙伴应该如何站立来与他互动),可以是文字描述(比如"两个人在拥抱"),也可以是两者的结合。这个模型的灵活性来自于一个统一的条件编码方案,它能够处理这些不同类型的输入,并将它们转换为一致的表示。

这两个模型的协作就像一个完整的故事创作过程。首先,姿态生成器确定故事的"舞台设置"——两个人应该如何相对位置;然后,姿态动画师为这个设置"添加动作"——他们如何移动和互动。

五、模型的技术细节

让我们更深入地了解这两个模型是如何工作的。

对于互动姿态动画师,关键的设计选择涉及如何表示人体和动作。研究团队使用了SMPL-X这个参数化的人体模型,它能够用一组数字来精确描述一个人的姿态、形状和位置。对于两个人的互动,他们需要同时表示两个人的这些参数。

模型的输入条件包括三个部分。首先是互动时刻的索引——也就是说,在整个序列中,互动姿态出现在哪一帧。这很重要,因为它告诉模型应该在序列的哪个位置保持互动姿态不变。其次是互动姿态本身,包括两个人的身体参数。第三是两个人的身体形状,这影响了他们的大小和比例。

模型的架构基于Transformer,这是现代AI中最强大的一种架构。它包含了两种类型的注意力机制:空间注意力用来捕捉两个人之间的相互关系(他们如何相互接触和影响),时间注意力用来捕捉动作如何随时间展开。这种设计确保了模型既能理解两个人之间的互动约束,也能生成流畅的动作序列。

在训练过程中,研究团队使用了多个损失函数来引导模型学习。除了基本的扩散损失(确保模型学会从噪音恢复清晰的动作),他们还使用了SMPL损失(确保生成的姿态在身体学上是合理的)、互动损失(鼓励两个人之间保持接触)和速度损失(确保动作的平滑性)。这就像是在教一个学生时,既要检查他的答案是否正确,也要检查他的推理过程是否合理,还要确保他的笔迹整洁。

对于互动姿态生成器,设计思路类似,但有一些关键的不同。它需要处理多种类型的输入条件,所以研究团队设计了一个灵活的条件编码方案。他们使用了两个掩码来指示文字条件和姿态条件是否存在。在训练时,他们随机地包含或排除这些条件,这样模型就学会了在各种条件组合下工作。对于文字条件,他们使用了CLIP这个强大的视觉-语言模型来编码文字描述。

一个有趣的设计选择涉及人体形状的表示。在标准的SMPL模型中,形状与性别相关联,这限制了模型的灵活性。研究团队改为使用"静息姿态的关节位置"来表示形状,这个表示既包含了身体大小信息,也包含了性别信息,但更加灵活。

六、从理论到实践:三种应用场景

有了这两个模型,研究团队开发了三种不同的应用方式,每一种都解决了现实中的一个具体问题。

第一种应用是"两人图像互动动画"。假设你有一张照片,里面有两个人在互动——比如在握手或拥抱。首先,一个现成的姿态估计模型会从照片中提取出两个人的互动姿态。然后,互动姿态动画师接手,根据这个姿态生成完整的动作序列,展示这两个人接下来会如何移动。这个过程的妙处在于,它能够自动地从真实照片中的姿态出发,而不需要人工标注或复杂的设置。

第二种应用是"单人图像互动生成"。这个场景更有趣:你只有一个人的照片。首先,姿态估计模型提取出这个人的姿态。然后,互动姿态生成器的工作就是想象出一个互动伙伴应该如何站立或摆姿态来与这个人互动。最后,互动姿态动画师生成他们的互动动作。这就像是在说"给定这个人的位置和姿态,谁会与他互动,他们会如何互动?"

第三种应用是"文字到互动合成"。你只需要给出一个文字描述,比如"两个人在拥抱"或"一个人推另一个人"。互动姿态生成器会根据这个描述生成合适的互动姿态,然后互动姿态动画师会生成相应的动作。这是最自由的应用方式,因为它完全不依赖于输入图像。

七、训练数据和实现细节

研究团队的工作基于两个高质量的动作捕捉数据集:InterX和Dual-Human。这些数据集包含了真实演员进行各种互动的动作捕捉记录。为了提取互动姿态,研究团队使用了一个简单但有效的方法:他们计算两个人身体表面的最小距离,如果这个距离小于1.3厘米,就认为这是一个互动姿态。这个阈值是基于真实的身体接触距离设定的。

模型的训练涉及许多技术细节。两个模型都使用了8层的Transformer架构,潜在维度为1024。在训练时,研究团队添加了高斯噪音到互动姿态中,以模拟真实世界中姿态估计可能产生的误差。这个技巧确保了模型在面对不完美的输入时也能保持鲁棒性。

训练过程在4个A100 GPU上进行,互动姿态动画师需要2天,互动姿态生成器需要1天。在推理时(也就是实际使用时),互动姿态生成器平均需要0.21秒生成一个姿态,互动姿态动画师需要0.24秒生成3秒长的动作序列(以每秒10帧的速度)。这些速度对于实际应用来说是可以接受的。

八、实验结果和性能评估

研究团队进行了广泛的实验来验证他们的方法。他们使用了多个指标来评估生成的动作质量。

首先是"Frechet Inception Distance"(FID),这是一个衡量生成动作与真实动作之间分布差异的指标。更低的FID意味着生成的动作更接近真实的人类动作。在无条件生成任务上,Ponimator的FID为22.6,而之前的最佳方法InterGen的FID为56.6。这是一个巨大的改进。

其次是"精确度"和"召回率"。精确度衡量的是生成的动作中有多少是"真实的"(符合真实人类行为),召回率衡量的是真实的动作中有多少被模型成功生成。Ponimator在精确度上达到了0.58,在召回率上达到了0.72,这表明它既能生成看起来真实的动作,也能覆盖真实动作的多样性。

第三个重要指标是"接触比例"——也就是说,在生成的动作序列中,两个人保持身体接触的帧数比例。这是衡量模型是否真正理解互动的一个关键指标。Ponimator达到了68.1%的接触比例,接近真实数据的70.6%,而之前的方法通常只能达到44-50%。

最后是"身体穿透"——衡量两个人的身体是否相互穿过。Ponimator的穿透距离为5.0厘米,与真实数据的3.8厘米相比略高,但仍然在可接受的范围内。

九、泛化能力和开放世界应用

一个特别令人印象深刻的发现是,Ponimator学到的互动姿态先验具有很强的泛化能力。研究团队在多个不同的数据集上测试了他们的模型,包括一些模型在训练时完全没有见过的数据集。

在域内数据集上(Inter-X和Dual-Human),模型表现出色,这并不令人惊讶。但更令人惊讶的是,当他们在完全不同的数据集上测试时,比如Duolando(一个舞蹈数据集)、Hi4D(一个高质量的多人互动数据集)和InterHuman(一个文字到动作的数据集),模型仍然能够生成合理的互动动作。这表明,互动姿态的先验确实捕捉了人类互动的某种通用原理,而不仅仅是对特定数据集的过度拟合。

更令人惊讶的是,研究团队发现他们的模型甚至可以处理超过两个人的互动,完全不需要重新训练。虽然这不是模型的主要设计目标,但它展示了该方法的灵活性和鲁棒性。

在真实图像上的应用也证明了该方法的实用性。研究团队在FlickrCI3D数据集上测试了他们的方法,这个数据集包含了互联网上真实的两人互动照片。即使这些照片中的姿态估计可能不完美,模型仍然能够生成看起来合理的互动动作。

十、与现有方法的对比

为了充分理解Ponimator的创新之处,我们需要看看它与现有方法的对比。

研究团队与几个重要的基线方法进行了比较。MDM是一个通用的单人动作生成模型,他们将其改编为处理两人动作。ComMDM和RIG是通过微调单人动作模型来处理互动的方法。InterGen是一个专门为两人互动设计的方法,它直接从文字生成动作。

在无条件生成任务上,Ponimator远远超过了所有这些基线方法。关键的区别在于,Ponimator通过锚定在互动姿态上,自然地确保了两个人之间的物理接触。相比之下,其他方法要么忽视了接触的重要性,要么需要额外的物理约束来强制接触,这往往会损害动作的自然性。

在互动姿态动画任务上,研究团队进行了详细的消融研究,逐一移除模型的不同组件来看它们的影响。当他们移除互动姿态的锚定时,FID从5.0上升到7.1,这表明互动姿态确实是关键的。当他们移除交互时间编码时,性能进一步下降。这些实验证实了设计中每一个部分的重要性。

十一、局限性和未来方向

尽管Ponimator取得了显著的成果,但研究团队也坦诚地指出了一些局限性。

首先,该方法主要针对短期互动动作(通常是3秒左右)。虽然理论上可以通过链接多个短片段来生成更长的动作,但这样做会逐渐失去互动姿态先验的优势。对于需要长期互动动作的应用,这可能是一个限制。

其次,该方法完全基于人体姿态,忽视了周围环境的信息。这意味着生成的动作有时可能与环境不符。比如,模型可能生成一个与墙壁相交的动作,因为它不知道墙壁的存在。在真实应用中,整合场景信息会很有帮助。

第三,当姿态估计或互动姿态生成不准确时,生成的动作质量会下降。比如,如果两个人之间的接触点估计错误,生成的动作可能会显示不自然的接触或分离。

第四,虽然该方法在大多数情况下能够避免身体穿透,但在非常紧密的接触场景中,仍然可能出现一些穿透。完全消除穿透同时保持动作的自然性仍然是一个开放的问题。

最后,文字到互动的生成有时可能不够精确。比如,仅从"推"这个动词,模型无法区分是轻轻推还是用力推。这是因为互动姿态本身可能对应多种不同的动作,而文字描述可能不够具体。

尽管有这些局限性,研究团队的工作为未来的研究指明了方向。整合场景信息、改进穿透处理、增强文字理解能力,这些都是有前景的研究方向。

十二、实际应用的可能性

Ponimator的研究不仅仅是学术上的成就,它有很多实际的应用潜力。

在电影和视频制作中,这个技术可以帮助制作人员快速生成两人互动的动作,减少对真人演员或复杂动作捕捉的依赖。一个导演可以拍摄一个静止的两人互动场景,然后使用Ponimator来生成这个场景的动态版本,甚至可以尝试不同的互动方式。

在社交媒体内容创作中,这个技术可以让创作者轻松地为他们的照片添加动作。一个用户可以上传一张与朋友的照片,系统会自动生成他们互动的视频。

在虚拟现实和游戏开发中,这个技术可以用来快速生成NPC(非玩家角色)之间的互动动作,使游戏世界更加生动和真实。

在教育和培训中,这个技术可以用来生成各种互动场景的演示,比如舞蹈教学、格斗教学等。

在医学和康复领域,这个技术可能被用来生成和分析人类互动动作,帮助诊断和治疗运动障碍。

十三、技术的深层意义

从更广泛的角度来看,Ponimator的研究展示了一个重要的原则:有时候,最简单的方法是最有效的。与其试图直接从复杂的输入(如图像或文字)生成完整的动作序列,研究团队选择了一个中间表示——互动姿态——作为桥梁。这个选择不仅简化了问题,还提高了性能。

这反映了机器学习中的一个更普遍的真理:好的表示很重要。一个好的中间表示可以将一个困难的问题分解为多个更容易的子问题。在这个案例中,互动姿态既包含了空间信息(两个人如何相对位置),也包含了时间信息(这个姿态通常会导致什么样的动作)。

此外,这项研究也展示了先验知识的力量。通过从高质量的动作捕捉数据中学习互动姿态的先验,模型能够在面对真实世界的不完美输入时仍然保持鲁棒性。这是一个重要的教训:在设计AI系统时,利用领域知识和先验信息往往比试图从零开始学习一切更有效。

十四、结论

Ponimator代表了人工智能在人类动作生成领域的一个重要进步。通过巧妙地利用互动姿态这个中间表示,研究团队开发了一个既简洁又强大的框架,能够处理多种不同的任务:从真实图像中的两人互动动画,到从单个人的姿态生成互动伙伴,再到从文字描述直接生成互动动作。

这项工作的真正价值在于它的通用性和实用性。它不仅在学术基准上表现出色,而且在真实世界的应用中也展现出了强大的泛化能力。无论是处理互联网上的真实照片,还是处理不同数据集中的动作,Ponimator都能够生成看起来自然、物理上合理的互动动作。

从更深层的意义上讲,这项研究提醒我们,有时候最好的解决方案不是最复杂的,而是最聪明的。通过找到问题的关键中间表示,我们可以大大简化问题,同时提高性能。这个原则不仅适用于动作生成,也适用于AI和机器学习的许多其他领域。

对于那些对AI生成人类动作感兴趣的人来说,Ponimator的代码和视频演示已经在研究团队的网站上公开,地址是https://stevenlsw.github.io/ponimator/。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2510.14976v1查询完整的学术论文。

Q&A

Q1:Ponimator是什么,它能做什么?

A:Ponimator是由伊利诺伊大学和Snap Inc.开发的AI系统,能够从两个人互动时的姿态出发,生成他们的动作序列。它可以为真实照片中的两人互动添加动作,从单个人的姿态生成互动伙伴并演示他们的互动,或者直接从文字描述生成两人互动的视频。

Q2:为什么Ponimator比其他方法更好地保持两个人之间的身体接触?

A:Ponimator的核心创新是以互动姿态为锚点。通过直接从两个人紧密接触的姿态出发生成动作,模型自然地学会了如何维持这种接触。相比之下,其他方法试图从零开始生成动作,往往忽视了接触的重要性,导致生成的两人动作中身体穿过彼此或失去接触。

Q3:Ponimator能处理真实照片中的人物吗?

A:可以。研究团队在真实的互联网照片上测试了Ponimator,即使这些照片中的姿态估计不完美,模型仍然能够生成看起来合理的互动动作。这展示了该方法在真实世界应用中的实用性和鲁棒性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-