微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

首尔大学研究团队用"看视频学动作"让虚拟人类学会了灵巧的手部操控

人工智能强化学习物理仿真

首尔大学研究团队用"看视频学动作"让虚拟人类学会了灵巧的手部操控

作者：科技行者

2026-04-30 16:49

分享至：

这项由首尔大学与RLWRLD联合完成的研究（arXiv:2604.20841）提出了DeVI（Dexterous Video Imitation）框架，无需昂贵的3D动作捕捉数据，仅凭文字描述生成的2D合成视频，就能训练出能在物理仿真环境中完成灵巧手部操控的虚拟人角色。该方法的核心是"混合模仿目标"——对人体提取3D姿态，对物体使用更鲁棒的2D轨迹追踪——结合视觉HOI对齐优化和混合追踪奖励，在GRAB数据集上全面超越了依赖完整3D演示数据的现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-30 16:49 • 科技行者

这项由首尔大学视觉计算实验室与RLWRLD联合完成的研究以预印本形式发布于2026年4月，论文编号为arXiv:2604.20841。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。

一个机器人要学会"开瓶盖"，你会怎么教它？最直接的方法，是手把手地带着它做一遍，精确记录每一个关节的角度、每一帧的力道变化，生成一套完美的3D动作数据，然后让它照着练。这个方法很有效，但贵得离谱——专业的动作捕捉设备、大量的人工标注、有限的物体种类，让这套方案很难规模化推广。

那有没有更省力的办法？首尔大学的研究团队给出了一个脑洞大开的答案：给它看一段视频就够了。不是真人示范的视频，而是用人工智能"凭空生成"的视频。

这项研究提出了一个名为DeVI（Dexterous Video Imitation，灵巧视频模仿）的框架。它的核心思路是：先用文字描述告诉一个视频生成模型"我想要一个人拿起可乐罐并喝一口"，让模型生成一段看起来真实的2D动画视频，然后从这段视频里提取出人体动作信息和物体运动轨迹，最后用强化学习的方式，训练一个在物理仿真环境里运行的虚拟人类角色，让它真正在物理规律约束下完整地重现这个动作。

这项研究的价值不仅在于它的新颖性，更在于它打破了一个长期存在的瓶颈——以前的方法要么需要昂贵的3D动作捕捉数据，要么只能处理简单的全身动作，完全绕开了"手部与物体如何精确交互"这个最关键也最难的问题。DeVI则专门针对这种灵巧的手部操控场景设计，并且只需要一段生成的2D视频就能工作，理论上可以泛化到任何你能用文字描述的物体和动作。

一、为什么"让虚拟人学动作"是一件难事

要理解这项研究的突破点，得先聊聊研究团队面对的是怎样一座大山。

在物理仿真世界里训练虚拟人类做动作，本质上是一个"控制问题"。这个虚拟人拥有身体（用一个叫SMPL-X的人体模型来表示，涵盖21个身体关节和30个手部关节，左右手各15个），每一帧它都需要决定每个关节转多少度，这些角度指令会驱动物理引擎计算出实际的力矩，最终让虚拟人做出动作。要让它做出"抓起苹果咬一口"这个动作，研究团队需要给它一个"参考目标"——一套告诉它"在第1秒你的手应该在哪、第2秒手指应该弯曲多少"的指导数据，然后通过反复试错（强化学习）让虚拟人学会如何实际达到这些目标。

问题就出在这个"参考目标"上。以往最好的方案是用动作捕捉系统录下真人动作，得到精确的3D坐标数据。这套数据质量高，虚拟人跟着学效果好。但动作捕捉系统非常昂贵，而且对于"手部抓握"这类精细动作，现有的捕捉设备经常力不从心，手指关节的数据往往噪声很大。更重要的是，捕捉数据只覆盖了少数几种物体和场景，遇到新物体就得重新捕捉一遍。

另一条路是用大型语言模型或动作生成模型直接生成3D动作序列。这条路规避了捕捉成本，但生成的动作往往在物理上站不住脚，尤其是手部和物体的接触关系几乎总是错的——手可能悬在物体外面，或者穿透物体而过，完全无法作为物理仿真的参考。

研究团队在这里发现了一个新的可能性：视频生成模型虽然生成的是2D画面，在物理精度上远不如3D动作捕捉数据，但它对"人应该怎样与物体互动"有着相当准确的视觉直觉。当你告诉它"一个人拿起咖啡杯喝一口"，它生成的视频里，手的形状、抓握位置、物体的运动方式，看起来都非常自然合理。这种"视觉合理性"能不能被提取出来，转化为物理仿真的有效信号？DeVI的整个框架都是围绕这个问题展开的。

二、从"一张图"到"一段视频"：视频生成这一步

DeVI的工作流程从一个具体的3D场景开始。研究团队首先搭建一个桌面场景：虚拟人站在桌子旁边，桌上放着目标物体。这个虚拟人用SMPL-X模型表示，物体的3D网格模型则来自互联网上下载的资产。

不过，直接把这个灰色的3D模型渲染成图片送进视频生成模型，效果并不理想。原因在于视频生成模型是在大量真实的人类视频上训练的，它对真实人体外观有更好的理解。为此，研究团队给这个虚拟人"穿上了衣服"——从一个叫THuman2.0的数据集里取来带有真实外观纹理的人体3D模型，通过一个自动绑定（rigging）过程，让这个纹理模型的骨架和动作与原本的SMPL-X模型对齐，实现"同一个姿势，真实人体外观"。

场景布置好之后，研究团队还要选择一个合适的摄像机角度。他们在场景周围预设了16个候选摄像机位置，分布在不同的水平方向和仰角上，然后从中挑选那些能同时清晰看到人的双手和目标物体的摄像机。这个选择至关重要，因为后续的手部姿态估计算法需要清晰的手部视图才能工作良好。

选好摄像机后，把场景渲染成一张图片，连同文字提示词一起送进视频生成模型Wan（一个开源的大规模视频生成模型，同时使用了LightX2V这个加速推理工具）。文字提示词按照"一个人用[哪只手][如何操作][什么物体]"的格式构建，比如"一个人用左手拿起可乐瓶并喝一口，双手都在画面中，摄像机固定不动"。这个图片加文字的组合告诉视频生成模型：画面里应该有这些东西，它们应该按照这个方式运动。

视频生成大约需要10分钟（在NVIDIA A6000 GPU上），最终得到一段逐帧的2D视频。在这段视频里，虚拟人做出了文字描述的动作，物体也随之运动。这段视频就是整个DeVI流程的"原始素材"。

三、"混合模仿目标"：分别处理人体和物体的聪明设计

有了2D视频之后，下一步是从中提取"参考目标"——告诉物理仿真里的虚拟人应该往哪个方向学。这是DeVI最核心的技术贡献之一，研究团队称之为"混合模仿目标"（hybrid imitation target）。

为什么要"混合"？因为从2D视频里提取人体的3D姿态，和提取物体的3D位置姿态，难度完全不在一个量级上。

对于人体来说，已经有了相当成熟的算法。研究团队使用了两个工具：GVHMR负责估计全身的3D姿态（包括身体在世界坐标中的位置和朝向），HaMeR专门负责估计手部的精细姿态。把两个工具的输出拼合在一起，就得到了一个完整的3D人体动作序列。

对于物体来说，情况则完全不同。估计物体在3D空间中的完整6自由度位姿（位置+朝向，即6D pose）是一个公认的难题，在视频中尤其困难——物体可能被遮挡、光照变化会影响外观、而且视频生成模型本身对物理透视关系的处理并不总是完美的，经常出现物体大小和位置与实际3D物理不符的情况。

面对这个困境，研究团队做了一个简单但非常有效的选择：放弃提取物体的3D位姿，改为直接追踪物体在2D画面中的运动轨迹。他们首先通过光线投射（ray casting）技术，找出物体3D网格上哪些顶点在第一帧里是可见的，然后把这些顶点投影到2D图像上，得到一系列2D点。接着用视频追踪工具CoTracker3把这些点在后续每一帧中的位置追踪出来，过滤掉被严重遮挡的点，最终得到一组2D轨迹。这些轨迹告诉我们：这个物体在画面里向哪个方向移动了、移动了多大距离。虽然丢失了深度信息，但这个2D信号已经足以提供关键的运动约束。

至此，"混合模仿目标"就形成了：人体用3D信号（关节位置、旋转、速度），物体用2D信号（画面中的轨迹）。这种组合看似粗糙，但后面的实验结果表明，它的效果甚至超越了使用精确6D位姿的传统方法——原因在于精确的6D位姿约束太强，对于有噪声的仿真环境反而难以优化；而2D轨迹是一种更"宽容"的约束，隐含地引导物体的位置和朝向，但不过度限制求解空间。

四、"视觉HOI对齐"：让重建的手正好接触到物体

然而，把GVHMR和HaMeR的输出简单拼合在一起，还远远不够。研究团队发现，这两个工具是分别独立工作的，它们对"人的手在哪里"的估计并不总是一致，而且更关键的问题是，重建出来的3D人体动作，手的位置可能根本没有碰到物体——在2D视频里看起来在接触，但映射回3D之后两者之间有明显的空间距离。这样的参考动作显然无法引导虚拟人学会真正地抓住物体。

为了解决这个问题，研究团队设计了一个叫做"视觉HOI对齐"（Visual HOI Alignment）的优化步骤。它的本质是一个精细调整过程：固定GVHMR给出的身体根节点位置和朝向，对身体上半部分（特别是手、手腕、肘关节、肩关节和脊柱）的姿态参数进行迭代优化，使得重建出来的3D人体满足四个条件。

第一个条件是"2D投影吻合"——把优化后的3D人体投影回2D图像，应该和GVHMR、HaMeR各自给出的2D关键点位置尽量吻合，保证优化后的人体姿态和视频中看到的样子一致。这对应了两个损失函数：身体2D投影损失和手部2D投影损失。

第二个条件是"时序平滑"——相邻帧之间的姿态变化不应该过于剧烈，用测地距离（geodesic distance）来衡量旋转的变化量，确保动作连贯自然。

第三个条件是"至少有一帧真正接触物体"——这是最关键的HOI损失（HOI loss）。它要求在整个动作序列中，至少存在某一帧，使得指定的手部关节到物体顶点的Chamfer距离最小化。换句话说，它要求手在某个时刻真正"碰到"了物体，而不是永远悬在空中。这个信息来自文字提示词——"用左手拿起"就意味着左手会接触物体，研究团队直接从文字提示词里解析出哪只手应该接触物体。

通过这个优化过程，最终得到的3D人体参考动作既和视频画面在视觉上对齐，又在3D空间里真正触碰到了物体的表面，为后续的强化学习训练提供了高质量的参考。

五、"混合追踪奖励"：教会虚拟人同时模仿人和物体

现在万事俱备，可以开始训练物理仿真里的虚拟人了。训练采用强化学习（RL）方法，具体使用PPO（近端策略优化，一种经典的强化学习算法）。虚拟人每一步做出一个动作，然后收到一个"奖励分数"，告诉它这个动作做得好不好。奖励越高，这个动作越可能在未来被重复，最终虚拟人就学会了高奖励的行为模式。

DeVI的奖励函数由三部分相乘组成，称为"混合追踪奖励"（hybrid tracking reward）。

第一部分是人体追踪奖励，衡量虚拟人的动作和3D人体参考之间的差距，包括全身关节的3D位置误差、速度误差、旋转误差，以及专门针对手部关节的局部位置和旋转误差（以手腕为中心坐标系来计算，避免全局位置误差的影响），还有一个"功率惩罚"防止虚拟人施加过大的力矩。

第二部分是物体追踪奖励，衡量物体在画面中的2D投影位置与参考2D轨迹之间的差距。每一帧，研究团队把仿真里的物体顶点投影到和视频相同的摄像机视角下，计算投影坐标和参考2D坐标之间的欧氏距离，用指数函数转换成奖励分数。

第三部分是接触奖励，引导虚拟人在正确的时机让手和物体产生接触。这里有一个聪明的设计：研究团队从视频中自动估计"接触时机"——当2D追踪显示物体开始运动时，意味着接触已经发生；当物体静止而手也静止时，则根据前后帧的状态推断。这个自动估计的二值接触标签（接触/不接触）用来调节接触奖励：在没有接触的帧，奖励直接设为满分，不做约束；在应该有接触的帧，奖励由"手上的力传感器有多少比例超过阈值"来衡量，鼓励虚拟人真正用力握住物体。同时还有一个接触距离奖励，鼓励手部关节在接触帧尽量靠近物体表面。

在训练的具体设置上，研究团队使用了4096个并行仿真环境（通过Isaac Gym实现），每次收集32步的轨迹数据后更新网络参数，批量大小为1024。控制策略网络采用演员-评论家（actor-critic）架构，演员网络是一个基于Transformer编码器的序列模型，评论家网络是一个多层感知机（MLP）。演员网络的输入包括当前人体状态、物体状态，以及未来k帧的3D人体参考姿态作为目标。训练在单块NVIDIA A6000 GPU上进行，针对一段250帧的视频大约需要20小时完成训练。

训练时还有两个工程细节值得一提。一是初始化策略：因为没有物体的6D位姿参考，无法像以往方法那样随机从序列中某一帧开始仿真。研究团队改为以50%的概率从"接触前帧"（物体还没有开始运动的最后一帧）开始仿真，这样增加了在接触关键时刻的训练样本比例，显著加速了学习效率。二是早停机制：当仿真状态和参考目标偏差过大时（比如身体关节误差超过200mm、手指尖误差超过40mm、物体2D轨迹像素误差超过94像素）提前终止当前回合，避免在没有希望的状态下浪费训练时间。

六、实验结果：和"有3D数据"的方法比，DeVI赢了

研究团队用两种方式评估了DeVI的效果：和已有方法的对比实验，以及各设计组件的消融研究。

对比实验使用了GRAB数据集，这是一个包含精确3D动作捕捉数据的手部抓握数据集。研究团队选取了16段时长不超过7秒的单手抓握序列，把这些3D动作数据的2D投影作为DeVI的输入信号，然后比较DeVI和三个依赖完整3D数据的基准方法——PhysHOI、SkillMimic、InterMimic——在同样的物理仿真环境里把这些动作重现得有多准确。

评估指标包括两类：人体方面，分别计算身体关节、手部关节、所有关节的MPJPE（平均每关节位置误差，单位毫米），以及根节点的位移误差；物体方面，计算物体中心的位移误差和朝向误差。成功的标准定义为MPJPE（全部关节）小于200毫米且物体位移误差小于200毫米。

结果非常清晰地显示了DeVI的优势。在与PhysHOI的对比中，DeVI的全关节MPJPE从142.6毫米降到了25.35毫米，物体位移误差从94.28毫米降到了21.36毫米，朝向误差从1.396降到了0.6163。在与SkillMimic的对比中，全关节MPJPE从136.1毫米降到了25.42毫米，物体位移误差从103.4毫米降到了24.32毫米。在与InterMimic（三个基准方法中性能最好的）的对比中，DeVI的全关节MPJPE从91.14毫米降到了41.56毫米，物体位移误差从91.47毫米降到了32.36毫米。

从成功率来看，在最严格的标准下（全关节MPJPE小于100毫米、物体位移小于100毫米、物体朝向误差小于0.9），DeVI的成功率达到了50%，而InterMimic是18.8%，PhysHOI和SkillMimic则更低。

更关键的是，DeVI使用的是比基准方法"信息量更少"的参考信号——只有2D轨迹而非6D位姿——却取得了更好的结果。研究团队认为，2D轨迹作为奖励信号的好处在于它是一种"软约束"：它通过物体在画面中的投影形状隐含地约束了物体的位置和朝向，但不像精确的6D位姿那样过度约束求解空间，反而让策略优化更容易找到好的解。

消融研究从另一个角度验证了各设计组件的必要性。当去掉2D物体追踪奖励时，全关节MPJPE从25.92毫米上升到116.2毫米，物体位移误差从20.96毫米上升到103.0毫米，成功率从50%下降到18.8%——说明2D物体追踪奖励是实现物体操控的关键。

视觉HOI对齐的消融研究则从不同角度衡量。研究团队比较了直接使用GVHMR输出、去掉视觉HOI对齐但合并手部估计、以及完整DeVI三种情况下的参考动作质量。在手部关节的2D投影误差上，去掉视觉HOI对齐的版本为25.6像素，而DeVI优化后降到了3.74像素。在接触精度上（测量手部关节距离物体表面最近时有多近），DeVI将手到物体的平均距离从101毫米降到了18.7毫米，接触精度（以2.5厘米为阈值）从0.100提升到0.864。这说明视觉HOI对齐对于重建出能够真正接触物体的手部动作至关重要。

七、多物体场景和文字驱动的动作多样性

除了基准对比实验，研究团队还展示了DeVI在更广泛场景下的能力。

在多物体场景中，他们设置了同时包含两个相关物体的场景，比如"一口煎锅和一个电磁炉"、"一个西红柿和一个棕色篮子"。DeVI只需要一段文字描述，比如"用右手把煎锅放到电磁炉上"，视频生成模型会自动理解两个物体的空间关系和交互逻辑，生成合理的交互视频，DeVI随后让虚拟人在物理仿真里复现这个交互。这展示了视频生成模型作为"场景理解器"的价值——它不需要用户手动指定物体之间的关系，自然语言描述就足够了。

在文字驱动的动作多样性上，研究团队对同一个场景（一个虚拟人站在桌旁，桌上放着某个物体）输入不同的文字提示，得到了截然不同的动作结果。同样的场景，"用左手捡起苹果放进棕色篮子"和"用右手捡起西红柿放进棕色篮子"会生成完全不同的动作路径，虚拟人选择不同的手、采取不同的姿态、把物体放到不同的地方。这种灵活性是依赖固定动作捕捉数据的传统方法无法提供的。

在针对20种不同物体（包括奖杯、相机、草帽、可乐罐、垃圾袋、锅、炒锅等各种形状和重量差异很大的物体）的定性展示中，DeVI生成了与物体特性相符的交互动作：拿起垃圾袋时用的是较为轻松的单手抓握，举起沉重的锅时则是双手从两侧把持，拿起相机时手指自然地包裹住机身并摆出拍照姿势，用草帽时的动作则是把帽子戴到头上。这些都说明视频生成模型确实把对物体的"常识理解"编码进了生成的视频里，DeVI成功地把这些知识转化为了物理上可执行的动作。

八、这项研究还有什么局限

研究团队也坦率地指出了DeVI当前版本存在的两个主要局限。

第一个局限是视频生成模型对透视关系的处理不够完美。研究团队在场景里渲染了一个棋盘格地板来提供透视线索，但视频生成模型有时仍然会产生透视畸变——比如当人把手向摄像机方向伸出时，手在画面里可能显得比实际应有的更大或更小。这种"深度方向的误差"会导致视觉HOI对齐计算出的手部位置在深度维度上不准确，进而影响最终动作的自然度。对于需要精确放置到小空间内的动作（比如把棒球放进小杯子），这个问题尤为明显。未来可以通过引入多视角视频生成来缓解这个问题。

第二个局限是自动接触估计的精度有限。DeVI使用的接触标签估计方法（根据物体和手的像素速度判断是否接触）只考虑了画面内的2D运动，忽略了深度方向的运动。这意味着当手在深度方向接近物体但2D投影变化不明显时，算法可能错误地判断为没有接触。这类估计错误不会让整个学习失败，但会导致虚拟人在某些情况下表现出"突然猛地抓住物体"这类不够自然的动作。未来可以引入专门的接触可供性估计方法来改善这一点。

说到底，DeVI做的事情可以用一个直觉来概括：不要强求计算机拥有完美的3D理解能力，而是巧妙地把"3D好做的事情"和"2D好做的事情"各自放在最合适的地方。人体姿态的3D重建技术已经很成熟，用就是了；物体的3D位姿估计太难，干脆放弃，改用更容易获取的2D轨迹。这种"扬长避短"的设计哲学，让整个系统在没有高质量3D数据的情况下，反而比依赖3D数据的方法表现得更好。

更有趣的地方在于，这项研究实际上为机器人学习开辟了一条新路。以往，机器人要学习"如何用手操作物体"，要么需要大量的人工示范，要么需要昂贵的传感器和数据采集设备。而DeVI说明，互联网上浩如烟海的文字描述，通过视频生成模型，就可以转化为机器人可以学习的动作示范——只要我们能把视频里的"看起来合理"转化为物理仿真里的"实际可执行"。这个方向如果继续发展，未来机器人学习新技能的成本可能会大幅下降。

当然，目前DeVI还只能处理相对简单的桌面操控场景，而且每个动作的训练需要20小时，距离实际应用还有相当的距离。但作为一个概念验证，它展示的可能性是令人期待的：也许有一天，你只需要对家用机器人说"帮我把苹果放进果篮"，它就能自己去"看一段视频"，然后真的把这件事做好。

感兴趣的读者可以通过arXiv:2604.20841查阅完整论文，研究团队也承诺会公开代码和演示结果，可以访问项目主页snuvclab.github.io/devi/查看可视化结果。

Q&A

Q1：DeVI框架需要准备哪些输入才能运行？

A：DeVI需要三样东西：一个包含3D人体（用SMPL-X格式表示）和目标物体（3D网格模型）的初始场景，一个描述动作的文字提示词（比如"用左手拿起可乐罐喝一口"），以及一个预训练好的视频生成模型。不需要任何动作捕捉数据或手工标注的3D演示数据。整个流程从渲染初始图像开始，视频生成约需10分钟，随后策略训练约需20小时。

Q2：DeVI的"混合模仿目标"为什么要把人体用3D信号、物体用2D信号这样分开处理？

A：因为两者的重建难度差距悬殊。人体3D姿态估计技术已经相当成熟，从单目视频中提取准确的3D人体动作完全可行。但物体的6D位姿估计在视频中非常困难，视频生成模型本身也会产生透视畸变，强行估计3D物体位姿会引入大量噪声。研究发现2D物体轨迹作为奖励信号比精确的6D位姿更"宽容"，反而更容易让强化学习收敛到好的策略，最终效果超过了使用6D位姿的传统方法。

Q3：DeVI和让机器人直接模仿人手视频的方法有什么本质区别？

A：核心区别在于DeVI是在"物理仿真"里训练虚拟人，受到真实物理规律的约束，学到的是实际可执行的动作策略，而不是简单的轨迹回放。直接模仿视频的方法（如开环轨迹复现）无法应对物理扰动，物体稍微偏移就会失败。DeVI通过强化学习训练出来的策略在仿真器里是"闭环"的，虚拟人能根据当前物理状态实时调整动作。此外，DeVI专门针对灵巧的多指手部操控设计，而非依赖简单的平行夹爪。

人工智能强化学习物理仿真

分享至