微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 新加坡国立大学研究突破:让机器人通过看人类视频就能学会精巧操作

新加坡国立大学研究突破:让机器人通过看人类视频就能学会精巧操作

2025-12-30 09:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-30 09:53 科技行者

这项开创性研究由新加坡国立大学Show Lab的研究团队完成,论文第一作者是慈海,通讯作者是周正神教授,团队成员还包括刘晓康、杨佩和宋怡人。该研究于2024年12月发表在计算机科学机器人学领域的顶级期刊上,论文编号为arXiv:2512.09406v1。

机器人学习一直面临着一个令人头疼的问题:如何让机器人像人类一样灵巧地操作物品。传统方法需要大量的机器人演示数据,这就像让一个新手学厨师,不仅需要无数次的实际操作练习,还需要专业的厨房设备和昂贵的食材。更麻烦的是,收集这些机器人数据既费时又费钱,而且往往局限在实验室环境中,难以应对现实世界的复杂情况。

然而,网络上却有着海量的人类操作视频——从做饭、修理到各种手工制作,这些视频展示着人类丰富多样的操作技巧。问题是,人类的手臂和机器人的机械臂在外观和运动方式上存在巨大差异,就像试图让一只鸟学习游泳一样困难。以往的解决方案通常需要精确的摄像头校准和复杂的手势识别,这在处理网络上随意拍摄的视频时往往失效。

研究团队提出了一个巧妙的解决方案——H2R-Grounder框架。这个系统的核心思想是创建一种"通用语言",既能描述人类的动作,也能指导机器人的行为。就像翻译官能够在不同语言之间架起沟通桥梁一样,这个系统能够将人类的操作视频转换成机器人可以理解和执行的指令。

一、创建机器人和人类之间的通用表达

研究团队的第一个突破是发明了一种叫做H2Rep的表达方式。这种表达方式就像是一种简化的手语,用简单的符号来表示复杂的动作。具体来说,他们把任何操作动作分解成两个基本要素:一个是操作者(无论是人手还是机器人夹爪)的位置和方向,另一个是周围环境和物品的状态。

在处理机器人训练视频时,研究团队采用了一种类似"抠图"的技术。他们使用Grounded-SAM2这样的先进视觉分割工具,精确地将机器人手臂从视频中移除,就像用魔法橡皮擦一样干净利落。同时,他们将机器人夹爪的六维位置信息(包括三维坐标和三维旋转角度)投影到二维画面上,用一个简单的红点表示位置,用蓝色箭头表示方向。

这个过程就像制作动画片时的分层技术。底层是干净的背景环境,上面叠加着简单的位置指示符号。通过半透明的混合技术,最终得到的H2Rep既保留了环境信息,又清晰地标示了操作轨迹。这种表达方式的巧妙之处在于,它抽象掉了具体是人手还是机器人夹爪的外观差异,只关注动作的本质。

二、训练机器人视频生成模型

有了H2Rep表达方式后,研究团队开始训练一个能够根据这种表达生成真实机器人操作视频的模型。他们选择了Wan 2.2这个强大的视频扩散模型作为基础,这就像选择了一个已经很有绘画天赋的艺术家来进行专门训练。

训练过程采用了一种叫做"情境学习"的策略。与传统的从头训练不同,这种方法只需要调整模型的一小部分参数(使用LoRA技术),就像给一个经验丰富的画家提供新的画笔技巧,而不是让他重新学习绘画。这样做的好处是既能快速适应新任务,又能保持模型原有的强大能力。

在训练数据的构建上,团队使用了Droid数据集,这是一个包含约76000个第三人称视角Franka机械臂操作视频的大型数据库。每个视频都被标准化处理成1280×720分辨率,并且帧率调整为每秒10帧,确保训练的一致性和效果。

模型的学习目标很明确:给定H2Rep表达(包含环境背景和动作轨迹),生成对应的真实机器人操作视频。这个过程使用了流匹配目标函数,通过不断优化来提高生成视频的质量和真实性。

三、从人类视频到机器人动作的转换

当面对一个新的人类操作视频时,系统首先需要提取出对应的H2Rep表达。这个过程包括几个关键步骤,每一步都经过精心设计以确保准确性和鲁棒性。

人物分割和姿态估计是第一步。系统使用Grounded-SAM 2.1来精确识别和分割视频中的人物,同时运用ViT-Pose来估计人体姿态,定位手部区域。接着,HaMeR模型被用来精确估计手部姿态,确定手指和拇指的位置。研究团队将食指指尖和拇指指尖的中点作为手部位置的代表,将拇指的方向作为手部朝向的指示。

这种手部姿态的提取方法经过了大量实验验证,能够很好地对应机器人夹爪在操作任务中的位置和方向。虽然人手和机器人夹爪在结构上有很大差异,但在执行抓取、移动等基本操作时,它们的运动轨迹和空间关系具有相似性。

人物移除环节使用了Minimax-Remover这一先进的视频修复工具。经过对比实验,研究团队发现这个工具在保持背景一致性和移除人物完整性方面都优于其他选择,如E2FGVI等。移除人物后的背景视频为机器人的出现提供了干净的舞台。

最后,系统将提取的手部轨迹渲染成与训练时相同的红点和蓝箭头形式,并使用相同的半透明混合技术叠加到背景视频上,形成完整的H2Rep表达。

四、实验验证和性能对比

为了验证H2R-Grounder的有效性,研究团队进行了全面的实验评估,涵盖了定量指标、人类主观评价和与现有方法的详细对比。

在定量评估方面,团队使用Droid数据集的50个保留视频作为验证集,采用SSIM(结构相似性指标)和LPIPS(感知图像补丁相似性)来衡量生成视频与真实视频之间的相似度。结果显示,H2R-Grounder在5B参数配置下达到了0.82的SSIM分数和0.22的LPIPS分数,表明生成的视频在视觉质量和时序一致性方面都表现优秀。

为了测试系统在实际应用中的表现,研究团队选择了DexYCB数据集进行跨域评估。这个数据集包含了在受控实验室环境中拍摄的人机交互视频,但在背景和动作分布上与训练数据存在明显差异。团队选择了来自01号受试者在932122062010摄像头顶视角度下的100个视频作为测试集,并采用完全自动化的处理流程,不使用任何人工标注的掩码或姿态信息。

人类主观评价是验证系统实用性的重要指标。研究团队邀请了22名具有计算机科学背景的评估者,要求他们从动作一致性、背景一致性、视觉质量和物理合理性四个维度对不同方法的结果进行排序。评估结果显示,H2R-Grounder在所有四个维度上都获得了最高的首选率:动作一致性54.5%、背景一致性56.8%、视觉质量61.4%、物理合理性63.6%。

与现有方法的对比显示了H2R-Grounder的显著优势。商业化视频编辑工具如Kling和Runway Aleph虽然在视觉效果上有一定表现,但在动作一致性和物理合理性方面表现较差,生成的机器人手臂经常出现结构变形或与环境物体的不合理交互。RoboMaster作为基于动画的方法,需要大量人工标注,在自然度和背景一致性方面都存在明显不足。

五、技术细节和创新突破

H2R-Grounder的技术创新主要体现在几个关键方面。首先是无配对数据训练范式的建立。传统方法通常需要同时收集人类和机器人执行相同任务的配对视频,这在实际中极其困难且成本高昂。H2R-Grounder完全避免了这一需求,仅使用现有的机器人数据集和网络上的人类视频,大大降低了数据收集的门槛。

情境学习策略是另一个重要创新。通过只训练轻量级的LoRA适配器而保持主干模型冻结,系统既能快速适应机器人视频生成任务,又能保持强大的泛化能力。这种方法使得模型能够处理训练时未见过的场景和动作,在面对网络视频的多样性时表现出良好的鲁棒性。

H2Rep表达方式的设计兼顾了信息保留和计算效率。相比于使用两路分离视频流(一路背景,一路轨迹),混合表达方式将计算和内存需求降低了四倍,同时保持了足够的表达能力。这种设计选择在实际部署中具有重要意义。

在视频修复技术的应用上,团队通过详细的对比实验选择了最适合的工具。Minimax-Remover在机器人手臂移除任务上的表现明显优于E2FGVI等其他选择,能够更好地保持背景的完整性和一致性。

六、系统局限性和未来发展方向

尽管H2R-Grounder取得了显著成果,但研究团队也坦诚地指出了当前系统的局限性。最主要的限制是目前只支持单手到单臂的转换。在实际应用中,许多复杂的操作任务需要双手协调完成,比如拧开瓶盖、折叠衣物等。扩展到双手操作场景需要相应的双臂机器人数据和更复杂的协调机制。

另一个重要限制是机器人类型的特定性。由于训练主要基于Droid数据集中的Franka机械臂,系统目前只能生成这种特定类型的机器人操作视频。要适应其他类型的机器人(如不同的夹爪设计、不同的臂长比例等),需要针对每种机器人类型训练特定的LoRA适配器或重新进行微调。

在性能方面,当前的5B参数模型在单个H200 GPU上生成49帧704×1280视频需要约648秒,平均每帧13秒。虽然生成质量较高,但对于实时应用来说仍有优化空间。研究团队尝试了14B参数的更大模型,但发现性能提升有限,反而带来了更高的计算成本和更短的序列长度限制。

未来的发展方向包括几个重要方面。首先是扩展到更多机器人类型和操作场景,建立更通用的跨机器人转换能力。其次是提升计算效率,通过模型压缩、并行化等技术降低生成时间。第三是增强对复杂场景的处理能力,包括多物体交互、遮挡处理等挑战性情况。

七、实际应用前景和影响意义

H2R-Grounder的成功为机器人学习开辟了新的可能性。传统的机器人技能学习往往局限于实验室环境中的特定任务,而这项研究展示了利用互联网丰富视频资源的巨大潜力。从厨师切菜、木工制作到艺术创作,人类在各个领域的精巧操作技能都可能成为机器人学习的源泉。

在工业自动化领域,这项技术有望加速机器人在复杂装配、精密制造等场景中的应用。传统的机器人编程需要大量的专业知识和时间投入,而基于视频的学习方法可能让更多的工人参与到机器人技能传授中来,形成更加民主化的自动化发展模式。

在服务机器人领域,H2R-Grounder可以帮助家用机器人学习更多样化的家务技能。通过观看烹饪视频学习做饭、通过清洁视频学习整理房间,机器人的能力边界将大大拓展。这种学习方式更贴近人类的认知模式,也更容易被普通用户理解和接受。

教育和培训是另一个重要的应用领域。通过将专家的操作技能转换为机器人演示,可以创建标准化的训练环境,让学习者在安全、可重复的条件下练习复杂技能。这对于医疗手术、精密制造等高风险领域尤为重要。

从更广阔的视角来看,这项研究体现了人工智能发展的一个重要趋势:从需要大量标注数据的监督学习,向能够利用现有丰富媒体资源的自监督学习转变。随着视频生成技术的不断进步,我们有理由期待一个机器人能够通过观察人类行为快速学习新技能的未来。

说到底,H2R-Grounder不仅仅是一项技术突破,更代表了一种新的思维方式:将人类的丰富经验转化为机器可以理解和执行的知识。这种转化不是简单的模仿,而是在保持动作本质的同时适应不同的物理形态。就像一个优秀的翻译家不仅要懂两种语言,还要理解两种文化的精髓一样,H2R-Grounder在人类智慧和机器能力之间建立了一座真正的桥梁。这座桥梁的意义远远超出了技术本身,它预示着一个人机协作更加紧密、机器学习更加高效的未来世界。

Q&A

Q1:H2R-Grounder是什么技术?

A:H2R-Grounder是新加坡国立大学开发的一项突破性技术,能够让机器人通过观看普通的人类操作视频来学习各种精巧的操作技能,比如抓取、移动物品等,而不需要专门收集昂贵的机器人演示数据。

Q2:这项技术如何解决人类手臂和机器人手臂差异很大的问题?

A:研究团队发明了一种叫H2Rep的通用表达方式,将复杂的操作动作简化为位置点和方向箭头的组合,就像创造了一种机器人和人类都能理解的"手语",巧妙地跨越了外观差异,专注于动作的本质。

Q3:H2R-Grounder生成的机器人视频效果如何?

A:根据22名专业评估者的测试,H2R-Grounder在动作一致性、背景一致性、视觉质量和物理合理性四个方面都获得了最高分,生成的机器人操作视频不仅外观逼真,而且能够准确模仿人类的操作轨迹,实现合理的物体抓取和移动。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-