微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 机器人手臂学会"人性化"抓取:阿里达摩院团队让机械手既聪明又优雅

机器人手臂学会"人性化"抓取:阿里达摩院团队让机械手既聪明又优雅

2025-08-15 08:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-15 08:29 科技行者

这项由武汉大学、阿里巴巴达摩院、湖畔实验室、浙江大学和清华大学联合完成的研究发表于2025年8月,论文标题为《Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors》。感兴趣的读者可以通过GitHub链接https://github.com/Maxwell-Zhao/AffordDex/获取完整代码和详细信息。

机器人要学会像人类一样灵巧地抓取物品,听起来简单,实际上却是个极其复杂的挑战。就好比教一个完全没有触觉和直觉的学生学习用筷子夹菜,不仅要让他学会基本的夹取动作,还要让他知道哪些地方能碰、哪些地方不能碰,以及如何做出优雅自然的动作。

现有的机器人抓取技术虽然能够完成基本的拿取任务,但往往存在两个关键问题。一是动作僵硬机械,看起来完全不像人类的自然动作;二是缺乏安全意识,可能会抓住刀子的刀刃部分或者触碰其他不应该接触的区域。这就像是一个力大无穷但缺乏常识的巨人,虽然能举起重物,却不知道该如何温柔地处理易碎品。

为了解决这些问题,研究团队开发了一个名为AffordDex的创新框架。这个系统的核心理念是让机器人同时学会两件事:首先是模仿人类手部动作的自然性和流畅性,其次是理解物体的"负担能力"概念,也就是知道哪些部位不适合接触。

AffordDex的工作原理可以用学习弹钢琴来比喻。第一阶段,系统通过观察大量人类手部运动数据来学习基本的"手指技法",就像钢琴学生先要练习基本的手型和指法一样。这个阶段确保了机器人的动作看起来自然而优雅,避免了机械化的僵硬感。研究团队使用了包含约2200个人类右手操作序列的OakiInk2数据集来训练这个基础策略。

第二阶段则是学习"乐曲表达",也就是针对不同的物体学会适当的抓取策略。这里的关键创新是"负面功能感知分割"模块,它能够自动识别物体上不应该接触的区域。比如看到一把刀时,系统会自动将刀刃部分标记为"禁区",确保机器人只会抓住刀柄。这个过程就像教孩子认识"危险"标志一样,让机器人具备基本的安全常识。

具体来说,这个负面功能感知模块的工作方式颇为巧妙。研究团队首先使用程序化纹理技术为原本光秃秃的3D物体模型添加逼真的表面纹理,让视觉AI模型能够更好地理解物体。然后从六个不同角度渲染物体图像,创建全方位的视觉表示。接下来,系统会询问GPT-4V这样的大型视觉语言模型:"这个物体的哪些部分不应该被触碰?"得到描述后,再使用SAM分割模型和CLIP视觉模型的组合来精确定位这些危险区域。

整个训练过程采用了"师生传授"的策略。首先训练一个"老师"策略,这个老师能够访问环境的完整信息,包括物体的精确状态和位置。一旦老师学会了如何安全有效地抓取物体,系统就会将这些知识传授给"学生"策略,而学生只能依靠摄像头提供的视觉信息来工作,这更接近真实世界的应用场景。

在实际测试中,AffordDex展现出了令人印象深刻的性能。在包含3165个不同物体实例的UniDexGrasp数据集上,该系统在已见物体上达到了89.2%的成功率,在未见物体上达到了87.7%的成功率,甚至在全新类别的物体上也能达到85.2%的成功率。更重要的是,生成的抓取动作在人类相似度评分上达到了8.6分(满分10分),而功能适当性评分仅为4分(越低越好,表示很少触碰不当区域)。

与现有的最先进方法相比,AffordDex在多个关键指标上都取得了显著提升。例如,相比于UniDexGrasp++方法,新系统不仅保持了相近的成功率,还将人类相似度评分从5.4提升到8.6,将功能适当性从28改善到4。这意味着机器人不仅能够成功抓取物体,而且动作更加自然,接触位置更加合理。

研究团队还进行了详细的消融实验来验证各个组件的重要性。结果显示,如果移除人类轨迹模仿组件,虽然机器人仍能完成抓取任务,但动作会变得非常机械和不自然。如果去掉负面功能感知模块,机器人就可能做出危险的抓取行为,比如抓住刀子的刀刃或者触碰其他不合适的区域。而师生传授框架的缺失则会导致视觉感知策略的性能大幅下降,因为缺乏了有效的指导信息。

特别值得注意的是,AffordDex框架具有很强的通用性。研究团队证明了他们的核心模块可以轻松集成到其他现有的机器人抓取方法中,显著提升这些方法的表现。比如将人类轨迹模仿模块和负面功能感知模块添加到UniDexGrasp++中,就能让原本的系统变得更加人性化和安全。

从技术实现角度来看,整个系统在NVIDIA RTX 4090 GPU上运行,使用IssacGym物理仿真环境进行训练。机器人手臂采用具有24个自由度的Shadow Hand,其中手腕有6个自由度,手指有18个活动自由度。系统使用五个RGBD摄像头从不同角度捕捉场景信息,就像给机器人安装了多只"眼睛"来全方位观察环境。

在奖励函数设计方面,研究团队精心设计了多个互补的奖励信号。人类轨迹模仿阶段的奖励函数包括手指模仿奖励和平滑度奖励,前者鼓励机器人准确跟踪人类手部关键点的位置,后者则惩罚过度用力的动作,促使系统学会节能高效的运动模式。功能感知学习阶段的奖励函数则更加复杂,包括抓取奖励、目标奖励、成功奖励和负面功能惩罚四个组成部分。

抓取奖励根据机器人手部与物体中心的距离给出反馈,鼓励手部接近并保持与物体表面的接触。目标奖励则引导物体向预定目标位置移动。成功奖励在物体成功到达目标区域时给予额外加分。最关键的负面功能惩罚会在机器人手指接近危险区域时给予负分,有效防止不当接触行为。

系统的评估标准也经过了精心设计。除了传统的成功率指标外,研究团队还引入了人类相似度评分和功能适当性评分两个创新指标。人类相似度评分通过让Gemini 2.5 Pro这样的大型语言模型分析机器人抓取动作的视频序列来给出,评估动作轨迹、速度平滑度和关节协调性等方面的人类相似程度。功能适当性评分则通过计算有多少手指远离了负面功能区域来量化,分数越低表示抓取行为越安全合理。

实验结果不仅在数量上令人满意,在质量上也展现了系统的优越性。从生成的抓取动作可以看出,AffordDex不仅能够产生多样化的抓取姿态,还能始终识别出功能上合适的抓取位置,形成自然的手部姿态。无论是处理熟悉的物体还是全新的物体类别,系统都能保持这种高质量的表现。

研究团队还测试了系统在不同参数设置下的表现。他们发现,平滑度奖励的权重λsmooth设置为0.05时效果最佳,太小会导致动作不够平滑,太大则可能影响抓取精度。手指模仿奖励的权重λfinger在0.8时表现最好,这个数值在保证模仿精度和任务完成之间取得了良好平衡。负面功能惩罚的权重也需要仔细调节,太强的惩罚可能让机器人过于保守而不敢接近目标物体,太弱则无法有效阻止不当接触。

值得强调的是,这项研究不仅在技术层面取得了突破,更在实用性方面展现了巨大潜力。现在的机器人抓取系统往往需要针对特定物体进行专门训练,而AffordDex提供了一个通用的解决方案,能够处理各种不同形状、大小和功能的物体。这种通用性对于未来的家用机器人和工业机器人都具有重要意义。

当然,这项研究也有其局限性。目前系统依赖于从六个固定角度渲染的图像来进行负面功能预测,这种方法可能无法捕获几何结构复杂或具有深度凹陷的物体的所有功能相关部位。研究团队建议未来的工作可以采用基于体积的功能学习方法,使用隐式3D表示来克服视角特定遮挡的问题。

尽管存在这些局限,AffordDex仍然代表了机器人灵巧抓取领域的一个重要进步。它成功地将人类运动的自然性与功能感知的安全性结合在一起,为未来更加智能和人性化的机器人系统奠定了基础。这项研究不仅推进了学术界对机器人操作的理解,也为实际应用提供了切实可行的解决方案。

说到底,让机器人学会像人类一样抓取物品,不仅仅是一个技术挑战,更是让机器人真正融入人类生活的关键一步。AffordDex通过巧妙地结合模仿学习和安全感知,展示了一条通向更加智能、自然和安全的机器人操作系统的道路。随着这类技术的不断发展和完善,我们有理由期待未来的机器人助手能够以更加优雅和安全的方式帮助人类处理各种日常任务。

Q&A

Q1:AffordDex是什么?它解决了机器人抓取的哪些问题?

A:AffordDex是由武汉大学、阿里达摩院等机构联合开发的机器人灵巧抓取框架。它主要解决了两个问题:一是让机器人的抓取动作更像人类,避免机械僵硬的动作;二是让机器人具备安全意识,知道哪些部位不能触碰,比如不会抓住刀子的刀刃部分。

Q2:AffordDex的"负面功能感知"是如何工作的?

A:这个功能就像教机器人识别"危险标志"一样。系统首先给3D物体添加纹理,然后从多个角度拍照,接着询问GPT-4V哪些部分不应该接触,最后使用AI视觉模型精确定位这些危险区域。这样机器人就知道该避开刀刃、尖锐部分等不安全区域。

Q3:这项技术的实际效果如何?普通人什么时候能用上?

A:在测试中,AffordDex的抓取成功率超过85%,人类相似度评分达到8.6分(满分10分),动作既自然又安全。不过目前还在研究阶段,主要用于实验室环境。要真正应用到家用机器人或工业机器人中,还需要进一步的工程化开发和安全验证。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-