微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 DexUMI:斯坦福大学和哥伦比亚大学联合开发的以人手为灵巧操作通用接口的突破性研究

DexUMI:斯坦福大学和哥伦比亚大学联合开发的以人手为灵巧操作通用接口的突破性研究

2025-06-04 17:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 17:12 科技行者

在灵巧机器人领域,一项重大突破正在改变机器人如何学习复杂的手部操作技能。来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡内基梅隆大学和英伟达的研究团队,由Mengda Xu、Han Zhang、Yifan Hou、Zhenjia Xu、Linxi Fan、Manuela Veloso和Shuran Song共同合作,于2025年5月发表了题为《DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation》的研究论文。这项研究提出了一个创新框架,允许机器人直接从人类手部动作中学习复杂的灵巧操作技能。有兴趣深入了解的读者可以通过项目网站https://dex-umi.github.io/获取更多信息。

人类的手部具有令人难以置信的灵巧性,能够完成各种复杂任务。然而,将这些技能传递给机器人一直面临着巨大挑战,主要是因为人手与机器人手之间存在显著的"身体差异鸿沟"。想象一下,如果你试图教一个有六只手指、关节结构完全不同的外星人如何系鞋带,你就能理解研究人员面临的挑战了。这种差异表现在多个方面:关节结构不同、接触表面形状差异、触觉信息获取方式不同,以及视觉外观迥异。

更复杂的是,当今市场上存在各种各样的灵巧机器人手设计,每种都有不同的工程权衡,如自由度、电机范围、驱动机制和整体尺寸。这就像是要为十几种不同品牌、形状各异的吉他设计一套通用的弹奏方法一样困难。

传统上,研究人员使用远程操作来控制灵巧机器人手。然而,远程操作面临着空间观察不匹配和缺乏直接触觉反馈的问题。想象你站在房间一角,通过望远镜观察并用特殊手套控制房间另一端的机械手,这种方式显然不如直接用自己的手来得直观和有效。

研究团队提出了一个核心问题:如何最小化这种"身体差异鸿沟",使人类手部可以成为各种不同机器人手的通用操作接口?为了回答这个问题,他们开发了DexUMI框架,这个框架包含硬件和软件两层适配组件,旨在缩小行动和观察之间的差距。

硬件适配层采用了一种可穿戴的手部外骨骼设计。这就像是一种特殊的手套,但不仅仅是手套那么简单。用户可以直接佩戴它来收集操作数据。这个外骨骼是通过一个硬件优化框架为每个目标机器人手专门设计的,该框架会优化外骨骼参数(如连杆长度)以紧密匹配机器人手指轨迹,同时保持对人类手部的舒适穿戴性。

这种硬件适配方案带来了几个关键优势:首先,它提供了直观的示范和直接触觉反馈。不像远程操作系统,可穿戴外骨骼没有空间不匹配问题,允许用户在操作过程中直接接触物体,使示范变得直观且无需实际机器人也能完成。其次,它记录了对机器人手可行的动作。外骨骼会约束人类手部动作以匹配目标手的运动学特性,确保记录的动作是可转移的。第三,它能捕获精确的关节动作。不像基于重定向的方法,我们的外骨骼直接从编码器读取精确的关节角度,消除了由于视觉指尖跟踪导致的不准确性。最后,它还能匹配用于学习的触觉信息。大多数用于数据收集的手持夹具不记录触觉信息,而我们的设计在指尖上包含了额外的触觉传感器,记录与机器人手相同的触觉信息。

软件适配层则以数据处理管道的形式出现,它弥合了人类示范和机器人部署之间的视觉观察差距。想象你在看一段教学视频,但视频中的人手和你的机器人手完全不同,这会导致学习困难。软件处理管道首先使用视频分割技术从示范视频中移除人手和外骨骼,然后用对应的机器人手和环境背景重新绘制视频,使其与目标动作相匹配。这种适配确保了训练和机器人部署之间的视觉输入一致性,尽管人手和机器人手在视觉上存在差异。

通过硬件和软件两层适配,DexUMI允许研究团队在各种任务上收集数据,同时最小化运动学和视觉差距,然后将技能转移到机器人上。综合实际实验证明了DexUMI在两种不同类型的灵巧手上的能力:6自由度的Inspire手和12自由度的XHand。与远程操作相比,该方法实现了3.2倍的数据收集效率,并在四项任务中达到了平均86%的成功率,包括长期任务和需要多指接触的复杂任务。

一、硬件适配:弥合身体差异鸿沟

现代机器人手通常在解剖学上模仿人类手部,这意味着手部外骨骼设计会与佩戴者的人类手部争夺空间。最大的挑战在于拇指,其旋前-旋后运动可以扫过一个很大的空间,容易导致人类拇指与简单设计的外骨骼之间发生严重碰撞。想象一下,如果你要在手上戴一个机械装置,而这个装置的拇指部分和你自己的拇指总是撞在一起,使用起来会非常困难。

研究团队的外骨骼设计有两个主要目标:首先是共享关节动作映射,即外骨骼和目标机器人手必须共享相同的关节到指尖位置映射,包括它们的限制,这样动作才能转移;其次是可穿戴性,外骨骼必须允许用户的手进行足够的自然运动。

虽然第一个目标可以用数学方式定义,但可穿戴性目标很难具体写下来。研究团队的解决方案是参数化外骨骼设计,并将可穿戴性要求作为设计参数的约束条件,然后通过求解优化问题找到一个能够适应可穿戴性同时保持运动学关系的解决方案。为了使优化变得可行,他们优先考虑指尖链接的精确运动学,同时对不太可能接触物体的链接的运动学给予更大的灵活性。

举个例子,对于难以直接表示的欠驱动手(如Inspire Hand),他们使用运动捕捉系统记录指尖在SE(3)空间中的姿态。他们为每个手指和法兰3D打印了标记安装组件并安装在Inspire Hand上。对于只有单个自由度的食指、中指、无名指和小指,他们均匀采样了16个电机命令值,并记录相应的指尖姿态。对于拇指,由于它有两个自由度(摆动和弯曲),他们首先固定摆动值,然后均匀采样弯曲电机值,并重复不同摆动值的这一过程。

获得指尖姿态后,他们应用双层优化公式来确定每个手指的设计参数。对于所有五个手指,他们使用四杆连杆作为连杆设计。对于每个采样的设计参数,他们使用PlaCo模拟指尖姿态。对于拇指,他们最小化了所有摆动电机值的总体损失,因为拇指的结构配置应该保持一致,无论摆动电机值如何。

而对于有详细URDF文件的XHand,他们可以直接从URDF结构中提取连杆长度。关节限制也在URDF文件中指定,并通过物理约束连杆运动来防止超出指定范围的旋转在外骨骼设计中实现。类似于Inspire Hand外骨骼设计,他们采用保守策略,对每个关节设置稍微更紧的约束。例如,如果实际关节旋转范围是-110°到20°,相应的外骨骼限制设为-105°到15°。这种预防措施考虑到了3D打印外骨骼连杆在人类施加的扭矩下可能的变形,这可能导致意外的关节偏转。

二、传感器集成:捕捉完整的交互信息

外骨骼上的传感器需要满足以下设计目标:捕获足够的信息和最小化身体差异鸿沟。

为了精确捕获关节动作,研究团队在每个驱动关节上集成了关节编码器,使用阻性位置编码器同时适用于XHand和Inspire手。他们选择了Alps编码器,因为其尺寸和精度适合要求。由于关节摩擦和电机反冲,外骨骼关节编码器与机器人手电机值之间的映射通常是非线性的,因此他们为每个关节训练了一个简单的回归模型来获取这种映射。

为了捕获6自由度腕部姿态,他们使用iPhone ARKit,因为智能手机代表了能够提供精确空间跟踪的最容易获取的设备。这个跟踪设备只在数据收集时需要,不需要用于机器人部署。

在视觉观察方面,他们在腕部下方安装了一个150°对角视场的广角摄像头OAK-1,同时用于外骨骼和目标机器人灵巧手。这个位置的选择是为了有效捕获手与物体的交互。重要的是,外骨骼和机器人手腕部框架中的摄像头姿态是相同的,这保持了训练和部署之间的视觉一致性。

触觉感知方面,可穿戴外骨骼允许用户直接接触物体并接收触觉反馈。然而,这种人类触觉反馈不能直接转移到机器人灵巧手上。因此,他们在外骨骼上安装触觉传感器来捕获和转换这些触觉交互。为确保传感器读数一致,他们在外骨骼上安装了与目标机器人手相同类型的触觉传感器。对于XHand,他们使用了手上自带的电磁触觉传感器。对于Inspire-Hand,他们为外骨骼和机器人手都安装了相同的阻性触觉传感器Force Sensitive Resistor。

三、软件适配:弥合视觉差距

研究中的一个关键挑战是人类示范和机器人执行之间的视觉差距。想象一下,如果你通过观看一个使用完全不同工具的人来学习一项技能,这会增加学习难度。为了弥合这一差距,研究团队开发了一个数据处理管道,将示范图像转换为机器人将看到的样子,就好像机器人手在收集数据一样。

该适配过程包括四个步骤:首先,使用SAM2分割观察视频中的人手和外骨骼。研究团队建立了一个协议,人类操作者总是以相同的手势开始,这样他们可以为所有示范重复使用相同的提示点。第二步是修复环境背景,使用ProPainter这一基于流的修复方法来完全填充缺失区域。第三步是记录相应的机器人手视频,通过在机器人手上重放记录的关节动作,并录制只有机器人手的另一个视频。然后再次使用SAM2提取机器人手像素并丢弃背景。

最后一步是组合机器人示范。重要的是要保持适当的遮挡关系:机器人手并不总是出现在顶部。研究团队开发了一种考虑遮挡的合成方法,利用一致的腕下摄像头设置,以及外骨骼与机器人手之间的运动学和形状相似性。他们通过取外骨骼掩码与机器人手掩码的交集来计算可见掩码。不是简单地覆盖像素,而是只在那些像素存在于可见掩码中时,才用机器人手像素有选择地替换修复后观察中的像素。这保留了从腕下摄像头视角看到的手与物体之间的自然遮挡关系。

四、评估与实验结果

为了验证DexUMI的有效性,研究团队在两种不同的机器人手上进行了测试:Inspire Hand(IHand)和XHand。Inspire Hand是一种十二自由度(六个主动自由度)的欠驱动手,拇指有两个主动和两个被动自由度,而其余每个手指有一个主动和一个被动自由度。XHand则是一种完全驱动的手,有十二个主动自由度,拇指包含三个自由度,食指有三个自由度,其余每个手指有两个自由度。

研究团队设计了四项不同的实际任务来测试系统:首先是立方体拾取任务,要求从桌子上拿起一个2.5厘米宽的立方体并放入杯中,这评估了DexUMI系统的基本能力和精度。第二项是蛋盒开启任务,需要多指协调:手需要食指、中指、无名指和小指对蛋盒顶部施加向下压力,同时使用拇指抬起前闩锁。第三项是使用工具的茶叶拾取任务,主要挑战是稳定操作可变形的镊子,需要多指接触。最后是厨房任务,包括四个连续步骤:关闭炉灶旋钮、将平底锅从炉灶移到台面、从容器中拿盐、最后在锅中的食物上撒盐。这项任务测试了DexUMI在长期任务中的能力,需要精确动作、触觉感知和超越使用指尖的技能。

实验比较了政策行动空间选择、触觉感知和软件适配对系统性能的影响。研究团队比较了手指动作轨迹的形式(绝对位置或相对轨迹)、有无触觉传感器输入的政策,以及有无软件适配的变体,包括掩码(用绿色掩码替换外骨骼或机器人手占据的像素)和原始版本(简单传递包含外骨骼的未修改图像作为政策输入)。

研究发现,DexUMI框架能够实现高效的灵巧政策学习。如表1所示,DexUMI系统在两种机器人手的所有四项任务中都达到了高成功率。系统能够处理精确操作、长期任务和协调多指接触,同时有效地泛化到各种操作场景。

相对手指轨迹对噪声和硬件缺陷更具鲁棒性。表1显示相对手指轨迹在所有任务中一致地取得更好的成功率。研究表明,相对轨迹可以使关键接触事件更可靠。这种差异可能有两个原因:首先,相对动作具有比绝对动作更简单的分布,因此更容易学习;其次,相对动作学习了一种反应性行为,即增量动作会不断累积直到达到关键事件(如手指在接触时闭合)。然而,绝对动作学习的是静态映射,如果映射有错误就会停滞。

有趣的是,只有相对手指轨迹能从嘈杂的触觉反馈中受益。XHand上的触觉传感器在承受高压后会漂移并变得不一致。因此,在大多数情况下,有触觉会使结果变差。研究团队观察到,只有相对轨迹的政策才能从这种触觉感知中受益。对于手动安装触觉传感器更嘈杂的Inspire手,添加触觉传感器作为输入后,所有方法的性能都变差。然而,与使用绝对轨迹的方法相比,相对轨迹的政策仍然受到的性能下降较小。

触觉反馈可以改善具有清晰力量配置文件的任务性能。研究团队试图了解什么类型的任务会从触觉感知中受益。他们关注XHand,因为其触觉传感器提供更清晰的读数。他们观察到,触觉反馈显著提高了拾取盐的性能。这项任务突出了触觉的效果,因为触觉传感器在手指接触盐碗时会给出清晰、较大的读数,而且由于相机视图大部分被碗挡住,抓取时几乎没有有用的视觉信息。在这种情况下,触觉反馈完全改变了政策行为。有触觉传感器时,手指总是先插入盐中然后闭合手指。没有触觉反馈时,手指有时试图在空中抓取盐。相反,触觉信息对镊子操作没有帮助,因为手部运动与力反馈之间缺乏强相关性。握住镊子只会触发最小的触觉传感器读数。

最后,DexUMI框架能够高效收集灵巧手数据。研究团队比较了三种方式的数据收集效率:DexUMI、裸人手和远程操作,都是在茶叶拾取工具任务上进行。同一人类操作者使用每种方法在15分钟内收集数据。他们根据获得的成功示范数量计算了收集吞吐量(CT)。如图7所示,虽然DexUMI仍然比直接人类手部操作慢,但它实现了比传统远程操作方法高3.2倍的效率,显著减少了灵巧操作数据收集所需的时间。

五、局限性与未来工作

尽管DexUMI展示了出色的性能,研究团队也坦承系统存在一些局限性。在硬件适配方面,虽然DexUMI展示了跨欠驱动和完全驱动手的泛化能力,但优化框架仍需要针对特定硬件进行调整,特别是在可穿戴性方面。未来工作方向之一是完全自动化的优化公式,给定机器人手模型和人手的描述。此外,当前的公式只关注匹配指尖工作空间,未来工作可以考虑模拟其他潜在的接触几何形状,如掌部。

在可穿戴性方面,硬件优化流程使外骨骼可穿戴,允许人类相对轻松地长时间操作。然而,可穿戴性可以通过集成软材料进一步改善,例如用于接触人手部分的TPU。此外,由于目标手的设计和3D打印材料强度的限制,用户可能仍会在完全伸展某些手指时遇到限制。

触觉传感器的可靠性是另一个关键问题。研究团队发现,可靠的触觉传感器对于维持外骨骼和相应机器人手之间的一致触觉观察至关重要,从而减少身体差异鸿沟。在他们的实现中,添加到Inspire手及其外骨骼上的阻性触觉传感器对它们在手指上的附着方式非常敏感。同时,XHand及其外骨骼上的电磁触觉传感器在暴露于高压后容易漂移。由于人手产生的力比机器人手大,当人类操作外骨骼时,触觉传感器读数经常漂移。未来工作可以考虑其他类型的触觉传感器,如基于视觉的触觉传感器和电容式F/T传感器。

在材料限制方面,实验表明DexUMI能够捕获精细的指尖动作,如闭合镊子。然而,研究团队有时发现编码器由于3D打印材料强度限制而无法精确捕获人类运动;有时,人手会在操作物体时稍微扭曲外骨骼连杆。在这种情况下,编码器无法捕获这种扭曲。

软件适配方面,目前仍需要实际机器人硬件来获取机器人手图像。然而,这一要求可以通过实现一个图像生成模型来消除,该模型接收电机值作为输入并生成相应的手部姿态图像作为输出。尽管当前的软件适配管道已经能够产生高保真的机器人手图像,但研究团队观察到,由于修复过程的限制,机器人手上的照明效果无法完全复制,并且图像中的某些区域可能会模糊。此外,DexUMI目前要求摄像头牢固地附着在机器人手/外骨骼上,不支持移动摄像头。

最后,现有机器人手硬件也存在一些限制。研究团队发现,由于反冲和摩擦,Inspire Hand和XHand都缺乏足够的精度。例如,Inspire Hand的指尖位置在从1000到500电机单位移动时与从0到500电机单位移动时不同。虽然在这两种情况下期望的电机值相同,但最终的指尖位置却有所不同。这种现象在两种机器人手中都被观察到。此外,机器人手与人手之间的尺寸差异可能导致可穿戴性问题。例如,如果机器人手是人手的两倍大,人手和外骨骼都难以达到机器人手所需的关节配置。

许多这些可穿戴性问题源于现有商业硬件的设计约束。一个有趣的方向是探索反向设计范式:首先设计一个对人类舒适且完全可操作的外骨骼,然后使用该外骨骼作为设计机器人手的基础。

总结来说,DexUMI代表了一个可扩展且高效的数据收集和政策学习框架,使用人手作为接口将人手运动转换为精确的机器人手动作,同时提供自然的触觉反馈。通过广泛的具有挑战性的实际实验,研究团队展示了DexUMI在学习精确、接触丰富和长期任务的灵巧操作政策方面的能力。这项工作建立了一种超越传统远程操作的新方法,能够高效且大规模地收集实际灵巧手数据。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-