微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南洋理工让机器人动作更人性化：动作生成新技术让AI学会"见机行事"

人工智能动作生成优化模型

南洋理工让机器人动作更人性化：动作生成新技术让AI学会"见机行事"

作者：科技行者

2026-03-24 09:46

分享至：

南洋理工大学团队提出MoTok技术，通过"感知-规划-控制"三阶段框架，巧妙结合语义理解与运动控制。该方法将轨迹误差降至0.08厘米，仅用传统方法六分之一标记量即可达到更优效果。技术可广泛应用于动画制作、游戏开发和虚拟现实，让虚拟角色动作更自然流畅。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-24 09:46 • 科技行者

动画师制作一个角色的行走动作时，既要考虑剧情需要（比如这个角色是紧张还是悠闲），也要确保动作足够自然流畅。如果让计算机来做这件事，传统方法就像两个不同的师傅分工：一个师傅专门理解剧情需要（语义理解），另一个师傅专门让动作看起来自然（运动控制）。但问题是，这两个师傅经常配合不好。这项由南洋理工大学S-Lab实验室与香港中文大学合作完成的研究发表于2026年3月，论文编号为arXiv:2603.19227v1，提出了一个名为MoTok的新方案，成功解决了这个难题。

在虚拟人物动作生成领域，研究人员一直面临着一个根本性挑战。就像一个厨师既要做出美味的菜肴，又要确保营养搭配合理，计算机在生成人体动作时，既需要理解高层次的语义指令（比如"开心地走路"），又要确保生成的动作在物理上合理且自然流畅。传统的解决方案主要分为两大类：连续扩散模型擅长生成自然流畅的动作，但在理解复杂语义指令方面表现不佳；而基于离散标记的生成模型能够很好地处理语义条件，但在精确的运动控制方面力不从心。

研究团队深入分析了这个问题的本质，发现关键在于如何将语义理解和运动控制这两个看似矛盾的需求有效结合起来。他们提出了一个三阶段的解决框架，将整个动作生成过程分解为"感知—规划—控制"三个步骤，就像一个经验丰富的导演指挥演员表演一样。在感知阶段，系统首先理解各种条件输入；在规划阶段，系统在离散的标记空间中进行高层次的动作规划；在控制阶段，系统通过扩散模型生成最终的连续动作序列。

这个框架的核心创新是MoTok技术，它改变了传统动作标记化的思路。以往的方法就像要求一张名片既要包含详细的个人信息，又要保持简洁美观，往往难以兼顾。MoTok则采用了"分工合作"的策略：离散标记只负责捕捉动作的语义信息，而将具体的动作细节重建工作完全交给扩散解码器。这种设计使得系统能够用更少的标记表达更丰富的语义信息，同时保持高质量的动作重建能力。

在处理条件信息时，研究团队采用了巧妙的分层策略。他们将条件分为全局条件和局部条件两类。全局条件就像电影的总体基调，为整个动作序列提供语义指导，比如文本描述"快乐地行走"；局部条件则像具体的表演要求，提供精确的运动约束，比如特定关节的轨迹控制。在规划阶段，系统使用粗粒度的约束来指导标记生成；在控制阶段，系统则通过精细化的约束来确保动作的准确性。这种粗细结合的方式避免了运动细节干扰语义规划的问题。

为了验证这个方法的效果，研究团队在标准的动作生成数据集上进行了全面的实验。实验结果显示，在文本到动作的生成任务中，MoTok显著超越了现有的最佳方法。更令人印象深刻的是在轨迹控制任务中的表现：相比最强的基线方法MaskControl，MoTok将轨迹误差从0.72厘米大幅降低到0.08厘米，同时将生成质量指标FID从0.083改善到0.029，而使用的标记数量仅为MaskControl的六分之一。这种改进不仅体现在量化指标上，在实际的动作质量上也有明显提升。

特别值得注意的是，传统方法在面临更严格的运动约束时，生成质量往往会下降，就像要求演员在表演时遵守更多限制，反而可能影响表演的自然度。但MoTok展现出了相反的趋势：随着约束条件的增加，生成的动作质量实际上得到了提升。这个现象表明，适当的约束信息实际上能够帮助系统生成更加合理和自然的动作。

在技术实现上，MoTok采用了统一的条件注入方案，使得同一个框架能够支持多种不同的生成器架构。无论是离散扩散模型还是自回归模型，都可以在这个框架下工作。这种灵活性使得研究人员可以根据具体应用需求选择最适合的生成策略，而不必重新设计整个系统。

研究团队还进行了详细的消融研究，探索了不同设计选择对系统性能的影响。他们发现，扩散解码器的设计对系统性能有重要影响，特别是时序建模能力的引入能够显著提升生成质量。同时，他们发现在标记空间和扩散解码阶段都注入运动约束是获得最佳性能的关键，单独在其中一个阶段注入约束都会导致性能下降。

这项研究的意义远不止于技术层面的改进。在实际应用中，这种技术能够为动画制作、游戏开发、虚拟现实等领域提供更强大的工具。动画师可以通过简单的文字描述结合少量关键帧，就能生成高质量的角色动作；游戏开发者可以更容易地创建响应玩家行为的智能角色；虚拟现实应用可以提供更加自然和沉浸式的交互体验。

从更广阔的视角来看，这项研究展示了如何通过合理的系统设计来协调看似冲突的需求。这种"分而治之"的思路不仅在动作生成领域有价值，在其他需要同时处理高层语义和低层细节的人工智能应用中也具有借鉴意义。

展望未来，研究团队计划进一步优化系统的效率，探索更多类型的条件输入，以及将这个框架扩展到更复杂的动作生成任务中。随着这类技术的不断成熟，我们有望看到更加智能和自然的虚拟角色，它们能够更好地理解人类的意图并做出恰当的响应。对于普通用户来说，这意味着未来的虚拟助手、游戏角色和动画人物将变得更加生动和富有表现力。

Q&A

Q1：MoTok技术是什么？

A：MoTok是南洋理工大学开发的一种新型动作标记化技术，它能够让计算机同时理解语义指令和生成自然流畅的人体动作。不同于传统方法，MoTok采用"分工合作"策略，用离散标记处理语义信息，用扩散模型负责动作细节，从而实现更高效的动作生成。

Q2：MoTok相比传统方法有什么优势？

A：MoTok在保持高质量动作生成的同时，显著减少了所需的计算资源。实验显示，它将轨迹控制误差从0.72厘米降低到0.08厘米，生成质量指标FID从0.083改善到0.029，而使用的标记数量仅为传统方法的六分之一。更重要的是，它能在更严格的约束下生成更好的动作。

Q3：MoTok技术可以用在哪些地方？

A：MoTok技术在动画制作、游戏开发、虚拟现实等领域都有广泛应用前景。动画师可以用简单的文字描述生成角色动作，游戏开发者可以创建更智能的虚拟角色，VR应用可以提供更自然的交互体验。未来的虚拟助手和动画人物将变得更加生动逼真。

人工智能动作生成优化模型

分享至