微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 首尔大学研究团队用"看视频学动作"让虚拟人类学会了灵巧的手部操控

首尔大学研究团队用"看视频学动作"让虚拟人类学会了灵巧的手部操控

2026-04-30 16:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-30 16:49 科技行者

这项由首尔大学视觉计算实验室与RLWRLD联合完成的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.20841。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。

一个机器人要学会"开瓶盖",你会怎么教它?最直接的方法,是手把手地带着它做一遍,精确记录每一个关节的角度、每一帧的力道变化,生成一套完美的3D动作数据,然后让它照着练。这个方法很有效,但贵得离谱——专业的动作捕捉设备、大量的人工标注、有限的物体种类,让这套方案很难规模化推广。

那有没有更省力的办法?首尔大学的研究团队给出了一个脑洞大开的答案:给它看一段视频就够了。不是真人示范的视频,而是用人工智能"凭空生成"的视频。

这项研究提出了一个名为DeVI(Dexterous Video Imitation,灵巧视频模仿)的框架。它的核心思路是:先用文字描述告诉一个视频生成模型"我想要一个人拿起可乐罐并喝一口",让模型生成一段看起来真实的2D动画视频,然后从这段视频里提取出人体动作信息和物体运动轨迹,最后用强化学习的方式,训练一个在物理仿真环境里运行的虚拟人类角色,让它真正在物理规律约束下完整地重现这个动作。

这项研究的价值不仅在于它的新颖性,更在于它打破了一个长期存在的瓶颈——以前的方法要么需要昂贵的3D动作捕捉数据,要么只能处理简单的全身动作,完全绕开了"手部与物体如何精确交互"这个最关键也最难的问题。DeVI则专门针对这种灵巧的手部操控场景设计,并且只需要一段生成的2D视频就能工作,理论上可以泛化到任何你能用文字描述的物体和动作。

一、为什么"让虚拟人学动作"是一件难事

要理解这项研究的突破点,得先聊聊研究团队面对的是怎样一座大山。

在物理仿真世界里训练虚拟人类做动作,本质上是一个"控制问题"。这个虚拟人拥有身体(用一个叫SMPL-X的人体模型来表示,涵盖21个身体关节和30个手部关节,左右手各15个),每一帧它都需要决定每个关节转多少度,这些角度指令会驱动物理引擎计算出实际的力矩,最终让虚拟人做出动作。要让它做出"抓起苹果咬一口"这个动作,研究团队需要给它一个"参考目标"——一套告诉它"在第1秒你的手应该在哪、第2秒手指应该弯曲多少"的指导数据,然后通过反复试错(强化学习)让虚拟人学会如何实际达到这些目标。

问题就出在这个"参考目标"上。以往最好的方案是用动作捕捉系统录下真人动作,得到精确的3D坐标数据。这套数据质量高,虚拟人跟着学效果好。但动作捕捉系统非常昂贵,而且对于"手部抓握"这类精细动作,现有的捕捉设备经常力不从心,手指关节的数据往往噪声很大。更重要的是,捕捉数据只覆盖了少数几种物体和场景,遇到新物体就得重新捕捉一遍。

另一条路是用大型语言模型或动作生成模型直接生成3D动作序列。这条路规避了捕捉成本,但生成的动作往往在物理上站不住脚,尤其是手部和物体的接触关系几乎总是错的——手可能悬在物体外面,或者穿透物体而过,完全无法作为物理仿真的参考。

研究团队在这里发现了一个新的可能性:视频生成模型虽然生成的是2D画面,在物理精度上远不如3D动作捕捉数据,但它对"人应该怎样与物体互动"有着相当准确的视觉直觉。当你告诉它"一个人拿起咖啡杯喝一口",它生成的视频里,手的形状、抓握位置、物体的运动方式,看起来都非常自然合理。这种"视觉合理性"能不能被提取出来,转化为物理仿真的有效信号?DeVI的整个框架都是围绕这个问题展开的。

二、从"一张图"到"一段视频":视频生成这一步

DeVI的工作流程从一个具体的3D场景开始。研究团队首先搭建一个桌面场景:虚拟人站在桌子旁边,桌上放着目标物体。这个虚拟人用SMPL-X模型表示,物体的3D网格模型则来自互联网上下载的资产。

不过,直接把这个灰色的3D模型渲染成图片送进视频生成模型,效果并不理想。原因在于视频生成模型是在大量真实的人类视频上训练的,它对真实人体外观有更好的理解。为此,研究团队给这个虚拟人"穿上了衣服"——从一个叫THuman2.0的数据集里取来带有真实外观纹理的人体3D模型,通过一个自动绑定(rigging)过程,让这个纹理模型的骨架和动作与原本的SMPL-X模型对齐,实现"同一个姿势,真实人体外观"。

场景布置好之后,研究团队还要选择一个合适的摄像机角度。他们在场景周围预设了16个候选摄像机位置,分布在不同的水平方向和仰角上,然后从中挑选那些能同时清晰看到人的双手和目标物体的摄像机。这个选择至关重要,因为后续的手部姿态估计算法需要清晰的手部视图才能工作良好。

选好摄像机后,把场景渲染成一张图片,连同文字提示词一起送进视频生成模型Wan(一个开源的大规模视频生成模型,同时使用了LightX2V这个加速推理工具)。文字提示词按照"一个人用[哪只手][如何操作][什么物体]"的格式构建,比如"一个人用左手拿起可乐瓶并喝一口,双手都在画面中,摄像机固定不动"。这个图片加文字的组合告诉视频生成模型:画面里应该有这些东西,它们应该按照这个方式运动。

视频生成大约需要10分钟(在NVIDIA A6000 GPU上),最终得到一段逐帧的2D视频。在这段视频里,虚拟人做出了文字描述的动作,物体也随之运动。这段视频就是整个DeVI流程的"原始素材"。

三、"混合模仿目标":分别处理人体和物体的聪明设计

有了2D视频之后,下一步是从中提取"参考目标"——告诉物理仿真里的虚拟人应该往哪个方向学。这是DeVI最核心的技术贡献之一,研究团队称之为"混合模仿目标"(hybrid imitation target)。

为什么要"混合"?因为从2D视频里提取人体的3D姿态,和提取物体的3D位置姿态,难度完全不在一个量级上。

对于人体来说,已经有了相当成熟的算法。研究团队使用了两个工具:GVHMR负责估计全身的3D姿态(包括身体在世界坐标中的位置和朝向),HaMeR专门负责估计手部的精细姿态。把两个工具的输出拼合在一起,就得到了一个完整的3D人体动作序列。

对于物体来说,情况则完全不同。估计物体在3D空间中的完整6自由度位姿(位置+朝向,即6D pose)是一个公认的难题,在视频中尤其困难——物体可能被遮挡、光照变化会影响外观、而且视频生成模型本身对物理透视关系的处理并不总是完美的,经常出现物体大小和位置与实际3D物理不符的情况。

面对这个困境,研究团队做了一个简单但非常有效的选择:放弃提取物体的3D位姿,改为直接追踪物体在2D画面中的运动轨迹。他们首先通过光线投射(ray casting)技术,找出物体3D网格上哪些顶点在第一帧里是可见的,然后把这些顶点投影到2D图像上,得到一系列2D点。接着用视频追踪工具CoTracker3把这些点在后续每一帧中的位置追踪出来,过滤掉被严重遮挡的点,最终得到一组2D轨迹。这些轨迹告诉我们:这个物体在画面里向哪个方向移动了、移动了多大距离。虽然丢失了深度信息,但这个2D信号已经足以提供关键的运动约束。

至此,"混合模仿目标"就形成了:人体用3D信号(关节位置、旋转、速度),物体用2D信号(画面中的轨迹)。这种组合看似粗糙,但后面的实验结果表明,它的效果甚至超越了使用精确6D位姿的传统方法——原因在于精确的6D位姿约束太强,对于有噪声的仿真环境反而难以优化;而2D轨迹是一种更"宽容"的约束,隐含地引导物体的位置和朝向,但不过度限制求解空间。

四、"视觉HOI对齐":让重建的手正好接触到物体

然而,把GVHMR和HaMeR的输出简单拼合在一起,还远远不够。研究团队发现,这两个工具是分别独立工作的,它们对"人的手在哪里"的估计并不总是一致,而且更关键的问题是,重建出来的3D人体动作,手的位置可能根本没有碰到物体——在2D视频里看起来在接触,但映射回3D之后两者之间有明显的空间距离。这样的参考动作显然无法引导虚拟人学会真正地抓住物体。

为了解决这个问题,研究团队设计了一个叫做"视觉HOI对齐"(Visual HOI Alignment)的优化步骤。它的本质是一个精细调整过程:固定GVHMR给出的身体根节点位置和朝向,对身体上半部分(特别是手、手腕、肘关节、肩关节和脊柱)的姿态参数进行迭代优化,使得重建出来的3D人体满足四个条件。

第一个条件是"2D投影吻合"——把优化后的3D人体投影回2D图像,应该和GVHMR、HaMeR各自给出的2D关键点位置尽量吻合,保证优化后的人体姿态和视频中看到的样子一致。这对应了两个损失函数:身体2D投影损失和手部2D投影损失。

第二个条件是"时序平滑"——相邻帧之间的姿态变化不应该过于剧烈,用测地距离(geodesic distance)来衡量旋转的变化量,确保动作连贯自然。

第三个条件是"至少有一帧真正接触物体"——这是最关键的HOI损失(HOI loss)。它要求在整个动作序列中,至少存在某一帧,使得指定的手部关节到物体顶点的Chamfer距离最小化。换句话说,它要求手在某个时刻真正"碰到"了物体,而不是永远悬在空中。这个信息来自文字提示词——"用左手拿起"就意味着左手会接触物体,研究团队直接从文字提示词里解析出哪只手应该接触物体。

通过这个优化过程,最终得到的3D人体参考动作既和视频画面在视觉上对齐,又在3D空间里真正触碰到了物体的表面,为后续的强化学习训练提供了高质量的参考。

五、"混合追踪奖励":教会虚拟人同时模仿人和物体

现在万事俱备,可以开始训练物理仿真里的虚拟人了。训练采用强化学习(RL)方法,具体使用PPO(近端策略优化,一种经典的强化学习算法)。虚拟人每一步做出一个动作,然后收到一个"奖励分数",告诉它这个动作做得好不好。奖励越高,这个动作越可能在未来被重复,最终虚拟人就学会了高奖励的行为模式。

DeVI的奖励函数由三部分相乘组成,称为"混合追踪奖励"(hybrid tracking reward)。

第一部分是人体追踪奖励,衡量虚拟人的动作和3D人体参考之间的差距,包括全身关节的3D位置误差、速度误差、旋转误差,以及专门针对手部关节的局部位置和旋转误差(以手腕为中心坐标系来计算,避免全局位置误差的影响),还有一个"功率惩罚"防止虚拟人施加过大的力矩。

第二部分是物体追踪奖励,衡量物体在画面中的2D投影位置与参考2D轨迹之间的差距。每一帧,研究团队把仿真里的物体顶点投影到和视频相同的摄像机视角下,计算投影坐标和参考2D坐标之间的欧氏距离,用指数函数转换成奖励分数。

第三部分是接触奖励,引导虚拟人在正确的时机让手和物体产生接触。这里有一个聪明的设计:研究团队从视频中自动估计"接触时机"——当2D追踪显示物体开始运动时,意味着接触已经发生;当物体静止而手也静止时,则根据前后帧的状态推断。这个自动估计的二值接触标签(接触/不接触)用来调节接触奖励:在没有接触的帧,奖励直接设为满分,不做约束;在应该有接触的帧,奖励由"手上的力传感器有多少比例超过阈值"来衡量,鼓励虚拟人真正用力握住物体。同时还有一个接触距离奖励,鼓励手部关节在接触帧尽量靠近物体表面。

在训练的具体设置上,研究团队使用了4096个并行仿真环境(通过Isaac Gym实现),每次收集32步的轨迹数据后更新网络参数,批量大小为1024。控制策略网络采用演员-评论家(actor-critic)架构,演员网络是一个基于Transformer编码器的序列模型,评论家网络是一个多层感知机(MLP)。演员网络的输入包括当前人体状态、物体状态,以及未来k帧的3D人体参考姿态作为目标。训练在单块NVIDIA A6000 GPU上进行,针对一段250帧的视频大约需要20小时完成训练。

训练时还有两个工程细节值得一提。一是初始化策略:因为没有物体的6D位姿参考,无法像以往方法那样随机从序列中某一帧开始仿真。研究团队改为以50%的概率从"接触前帧"(物体还没有开始运动的最后一帧)开始仿真,这样增加了在接触关键时刻的训练样本比例,显著加速了学习效率。二是早停机制:当仿真状态和参考目标偏差过大时(比如身体关节误差超过200mm、手指尖误差超过40mm、物体2D轨迹像素误差超过94像素)提前终止当前回合,避免在没有希望的状态下浪费训练时间。

六、实验结果:和"有3D数据"的方法比,DeVI赢了

研究团队用两种方式评估了DeVI的效果:和已有方法的对比实验,以及各设计组件的消融研究。

对比实验使用了GRAB数据集,这是一个包含精确3D动作捕捉数据的手部抓握数据集。研究团队选取了16段时长不超过7秒的单手抓握序列,把这些3D动作数据的2D投影作为DeVI的输入信号,然后比较DeVI和三个依赖完整3D数据的基准方法——PhysHOI、SkillMimic、InterMimic——在同样的物理仿真环境里把这些动作重现得有多准确。

评估指标包括两类:人体方面,分别计算身体关节、手部关节、所有关节的MPJPE(平均每关节位置误差,单位毫米),以及根节点的位移误差;物体方面,计算物体中心的位移误差和朝向误差。成功的标准定义为MPJPE(全部关节)小于200毫米且物体位移误差小于200毫米。

结果非常清晰地显示了DeVI的优势。在与PhysHOI的对比中,DeVI的全关节MPJPE从142.6毫米降到了25.35毫米,物体位移误差从94.28毫米降到了21.36毫米,朝向误差从1.396降到了0.6163。在与SkillMimic的对比中,全关节MPJPE从136.1毫米降到了25.42毫米,物体位移误差从103.4毫米降到了24.32毫米。在与InterMimic(三个基准方法中性能最好的)的对比中,DeVI的全关节MPJPE从91.14毫米降到了41.56毫米,物体位移误差从91.47毫米降到了32.36毫米。

从成功率来看,在最严格的标准下(全关节MPJPE小于100毫米、物体位移小于100毫米、物体朝向误差小于0.9),DeVI的成功率达到了50%,而InterMimic是18.8%,PhysHOI和SkillMimic则更低。

更关键的是,DeVI使用的是比基准方法"信息量更少"的参考信号——只有2D轨迹而非6D位姿——却取得了更好的结果。研究团队认为,2D轨迹作为奖励信号的好处在于它是一种"软约束":它通过物体在画面中的投影形状隐含地约束了物体的位置和朝向,但不像精确的6D位姿那样过度约束求解空间,反而让策略优化更容易找到好的解。

消融研究从另一个角度验证了各设计组件的必要性。当去掉2D物体追踪奖励时,全关节MPJPE从25.92毫米上升到116.2毫米,物体位移误差从20.96毫米上升到103.0毫米,成功率从50%下降到18.8%——说明2D物体追踪奖励是实现物体操控的关键。

视觉HOI对齐的消融研究则从不同角度衡量。研究团队比较了直接使用GVHMR输出、去掉视觉HOI对齐但合并手部估计、以及完整DeVI三种情况下的参考动作质量。在手部关节的2D投影误差上,去掉视觉HOI对齐的版本为25.6像素,而DeVI优化后降到了3.74像素。在接触精度上(测量手部关节距离物体表面最近时有多近),DeVI将手到物体的平均距离从101毫米降到了18.7毫米,接触精度(以2.5厘米为阈值)从0.100提升到0.864。这说明视觉HOI对齐对于重建出能够真正接触物体的手部动作至关重要。

七、多物体场景和文字驱动的动作多样性

除了基准对比实验,研究团队还展示了DeVI在更广泛场景下的能力。

在多物体场景中,他们设置了同时包含两个相关物体的场景,比如"一口煎锅和一个电磁炉"、"一个西红柿和一个棕色篮子"。DeVI只需要一段文字描述,比如"用右手把煎锅放到电磁炉上",视频生成模型会自动理解两个物体的空间关系和交互逻辑,生成合理的交互视频,DeVI随后让虚拟人在物理仿真里复现这个交互。这展示了视频生成模型作为"场景理解器"的价值——它不需要用户手动指定物体之间的关系,自然语言描述就足够了。

在文字驱动的动作多样性上,研究团队对同一个场景(一个虚拟人站在桌旁,桌上放着某个物体)输入不同的文字提示,得到了截然不同的动作结果。同样的场景,"用左手捡起苹果放进棕色篮子"和"用右手捡起西红柿放进棕色篮子"会生成完全不同的动作路径,虚拟人选择不同的手、采取不同的姿态、把物体放到不同的地方。这种灵活性是依赖固定动作捕捉数据的传统方法无法提供的。

在针对20种不同物体(包括奖杯、相机、草帽、可乐罐、垃圾袋、锅、炒锅等各种形状和重量差异很大的物体)的定性展示中,DeVI生成了与物体特性相符的交互动作:拿起垃圾袋时用的是较为轻松的单手抓握,举起沉重的锅时则是双手从两侧把持,拿起相机时手指自然地包裹住机身并摆出拍照姿势,用草帽时的动作则是把帽子戴到头上。这些都说明视频生成模型确实把对物体的"常识理解"编码进了生成的视频里,DeVI成功地把这些知识转化为了物理上可执行的动作。

八、这项研究还有什么局限

研究团队也坦率地指出了DeVI当前版本存在的两个主要局限。

第一个局限是视频生成模型对透视关系的处理不够完美。研究团队在场景里渲染了一个棋盘格地板来提供透视线索,但视频生成模型有时仍然会产生透视畸变——比如当人把手向摄像机方向伸出时,手在画面里可能显得比实际应有的更大或更小。这种"深度方向的误差"会导致视觉HOI对齐计算出的手部位置在深度维度上不准确,进而影响最终动作的自然度。对于需要精确放置到小空间内的动作(比如把棒球放进小杯子),这个问题尤为明显。未来可以通过引入多视角视频生成来缓解这个问题。

第二个局限是自动接触估计的精度有限。DeVI使用的接触标签估计方法(根据物体和手的像素速度判断是否接触)只考虑了画面内的2D运动,忽略了深度方向的运动。这意味着当手在深度方向接近物体但2D投影变化不明显时,算法可能错误地判断为没有接触。这类估计错误不会让整个学习失败,但会导致虚拟人在某些情况下表现出"突然猛地抓住物体"这类不够自然的动作。未来可以引入专门的接触可供性估计方法来改善这一点。

说到底,DeVI做的事情可以用一个直觉来概括:不要强求计算机拥有完美的3D理解能力,而是巧妙地把"3D好做的事情"和"2D好做的事情"各自放在最合适的地方。人体姿态的3D重建技术已经很成熟,用就是了;物体的3D位姿估计太难,干脆放弃,改用更容易获取的2D轨迹。这种"扬长避短"的设计哲学,让整个系统在没有高质量3D数据的情况下,反而比依赖3D数据的方法表现得更好。

更有趣的地方在于,这项研究实际上为机器人学习开辟了一条新路。以往,机器人要学习"如何用手操作物体",要么需要大量的人工示范,要么需要昂贵的传感器和数据采集设备。而DeVI说明,互联网上浩如烟海的文字描述,通过视频生成模型,就可以转化为机器人可以学习的动作示范——只要我们能把视频里的"看起来合理"转化为物理仿真里的"实际可执行"。这个方向如果继续发展,未来机器人学习新技能的成本可能会大幅下降。

当然,目前DeVI还只能处理相对简单的桌面操控场景,而且每个动作的训练需要20小时,距离实际应用还有相当的距离。但作为一个概念验证,它展示的可能性是令人期待的:也许有一天,你只需要对家用机器人说"帮我把苹果放进果篮",它就能自己去"看一段视频",然后真的把这件事做好。

感兴趣的读者可以通过arXiv:2604.20841查阅完整论文,研究团队也承诺会公开代码和演示结果,可以访问项目主页snuvclab.github.io/devi/查看可视化结果。

Q&A

Q1:DeVI框架需要准备哪些输入才能运行?

A:DeVI需要三样东西:一个包含3D人体(用SMPL-X格式表示)和目标物体(3D网格模型)的初始场景,一个描述动作的文字提示词(比如"用左手拿起可乐罐喝一口"),以及一个预训练好的视频生成模型。不需要任何动作捕捉数据或手工标注的3D演示数据。整个流程从渲染初始图像开始,视频生成约需10分钟,随后策略训练约需20小时。

Q2:DeVI的"混合模仿目标"为什么要把人体用3D信号、物体用2D信号这样分开处理?

A:因为两者的重建难度差距悬殊。人体3D姿态估计技术已经相当成熟,从单目视频中提取准确的3D人体动作完全可行。但物体的6D位姿估计在视频中非常困难,视频生成模型本身也会产生透视畸变,强行估计3D物体位姿会引入大量噪声。研究发现2D物体轨迹作为奖励信号比精确的6D位姿更"宽容",反而更容易让强化学习收敛到好的策略,最终效果超过了使用6D位姿的传统方法。

Q3:DeVI和让机器人直接模仿人手视频的方法有什么本质区别?

A:核心区别在于DeVI是在"物理仿真"里训练虚拟人,受到真实物理规律的约束,学到的是实际可执行的动作策略,而不是简单的轨迹回放。直接模仿视频的方法(如开环轨迹复现)无法应对物理扰动,物体稍微偏移就会失败。DeVI通过强化学习训练出来的策略在仿真器里是"闭环"的,虚拟人能根据当前物理状态实时调整动作。此外,DeVI专门针对灵巧的多指手部操控设计,而非依赖简单的平行夹爪。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-