微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 机器人学会3D"变身术":南华理工大学让机器人像人类一样理解物体运动

机器人学会3D"变身术":南华理工大学让机器人像人类一样理解物体运动

2025-06-10 14:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 14:21 科技行者

想象一下,如果机器人能够像人类一样,在执行任务之前就能预见物体应该如何移动,那会是怎样的场景?这不再是科幻小说中的情节。来自南华理工大学、腾讯机器人X实验室、香港科技大学以及鹏城实验室的研究团队,在2025年6月发表了一项突破性研究成果,题为"3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model"。这项研究发表在机器人学领域的顶级会议上,研究代码和数据将在https://github.com/Hoyyyaard/3DFlowAction/公开发布,感兴趣的读者可以通过这个链接获取完整的研究资料。

这项研究就像是给机器人装上了"预知眼",让它们能够预测物体在三维空间中的运动轨迹,从而更智能地执行各种操作任务。研究团队由南华理工大学的支宏岩(第一作者)、董瑜博、吴全熙和谭明奎教授,腾讯机器人X实验室的陈培豪和韩雷,以及香港科技大学的周思源共同完成。通过这项研究,机器人不再需要针对每种特定硬件进行专门训练,而是能够像人类一样,通过理解物体应该如何运动来指导自己的行动。

要理解这项研究的重要性,我们可以想象一个简单的场景:当你想要把一个杯子挂到杯架上时,你的大脑会自动预演这个过程——杯子应该从当前位置移动到杯架附近,然后旋转到合适的角度,最后精确地挂在钩子上。整个过程中,你不需要思考具体的肌肉动作,而是专注于物体的运动轨迹。研究团队发现,这种思维方式不仅适用于人类,也是机器人学习操作技能的理想方式。

传统的机器人训练就像是为每个品牌的汽车单独培训司机,既费时又费力。不同的机器人使用不同的动作空间,比如有些用关节角度控制,有些用末端执行器位置控制,这就导致为一种机器人训练的技能很难转移到另一种机器人上。更糟糕的是,现有的机器人数据集往往场景简单,缺乏统一的表示方法,这进一步限制了机器人学习通用操作技能的能力。

研究团队的解决方案非常巧妙,他们提出了一个叫做"3D流世界模型"的概念。如果把传统的机器人训练比作教学生背诵标准答案,那么这个新方法就像是教学生理解题目的本质。这个模型能够预测物体在三维空间中的未来运动轨迹,就像一个能够看穿时间的水晶球,告诉机器人"这个物体接下来应该怎么移动"。

为了构建这个"水晶球",研究团队首先创建了一个名为ManiFlow-110k的大规模数据集。这个数据集包含了11万个三维光流实例,涵盖了从人类操作视频到各种机器人操作视频的丰富内容。就像收集烹饪食谱一样,他们从BridgeV2、RT1、Libero、AgiWorld、RH20t-Human、HOI4D和DROID等多个数据源中提取了操作数据,确保模型能够学习到各种不同的物体运动模式。

创建这个数据集的过程就像是在拥挤的人群中追踪特定的人。现有的检测模型在复杂背景和相似物体的环境中往往表现不佳,无法准确识别被操作的目标物体。为了解决这个问题,研究团队开发了一个巧妙的"移动物体自动检测管道"。这个系统首先使用Grounding-SAM2识别机器人夹具的位置,然后在整个视频帧中分布大量追踪点,排除落在夹具区域内的点。接着,系统使用Co-tracker3模型追踪这些点的运动,识别出那些显著移动的点,最终确定被操作物体的位置。这种方法在BridgeV2数据集上达到了超过80%的检测准确率。

一旦识别出目标物体,系统就会提取二维光流信息,然后使用DepthAnythingV2进行深度预测,将二维光流投影到三维空间中,得到最终的三维光流数据。这就像是从平面照片中还原出立体的运动轨迹,让机器人能够真正理解物体在空间中的完整运动。

接下来,研究团队构建了基于视频扩散模型的流世界模型。这个模型以AnimateDiff为基础,能够根据初始RGB观察、任务提示和初始点位置生成随时间变化的三维流。与传统方法不同的是,他们没有将三维流压缩到潜在空间中,因为他们发现StableDiffusion的图像编码器在处理深度信息时效果不佳。相反,他们直接将三维流输入到U-Net网络中,其中前两个通道表示图像空间中的二维坐标,第三个通道表示深度,第四个通道表示可见性。

这个模型的训练过程就像是教一个艺术家画连环画。研究团队使用CLIP编码器处理RGB观察和任务提示,使用正弦位置编码处理初始点位置。他们遵循AnimateDiff的做法,注入运动模块来建模三维流的时间动态,从零开始训练运动模块层,但只在稳定扩散模型中插入LoRA层,以保持预训练期间获得的生成能力。

基于这个流世界模型,研究团队设计了一套完整的流引导动作规划系统。这个系统就像是一个经验丰富的指挥家,能够将预测的物体运动轨迹转化为具体的机器人动作。整个系统包含三个核心组件:闭环运动规划、任务感知抓取姿态生成和基于流的动作生成。

闭环运动规划机制解决了预测可能不准确的问题。想象你在玩投篮游戏,即使你瞄准了篮筐,球也可能偏离目标。为了提高成功率,研究团队开发了一个"流引导渲染机制"。这个机制能够根据预测的光流轨迹渲染出任务完成后的最终状态图像,然后使用GPT-4o来评估这个预测结果是否符合任务要求。如果不符合,系统会自动重新生成预测,直到得到满意的结果。

具体来说,系统会从光流的第一个时间步获取点集P1,从最后一个时间步获取点集P2,然后使用奇异值分解计算这两组点之间的变换矩阵T。这个变换矩阵描述了物体从初始位置到最终位置的完整变换过程。系统将这个变换应用到被操作物体的初始点云上,得到预测的目标状态,然后将变换后的点云添加到当前三维场景中,重新投影为二维图像作为预测输出。

任务感知抓取姿态生成解决了如何选择合适抓取方式的问题。传统的抓取生成方法往往是任务无关的,就像是闭着眼睛抓东西,可能会导致目标位置不可达或任务无法完成。研究团队的方法更加智能,首先通过GPT-4o分析任务指令,确定应该抓取物体的哪个部分,然后使用AnyGrasp在该部分周围生成一系列候选抓取姿态。

为了确保选择的抓取姿态是可行的,系统会将之前计算的变换矩阵T应用到所有候选抓取姿态上,得到对应于预测目标物体位置的目标夹具姿态。然后,系统使用机器人的逆运动学检查这些目标姿态是否可达,从而选择出既符合任务要求又在机器人能力范围内的抓取姿态。这就像是在选择工具时,不仅要考虑工具本身的适用性,还要确保你能够轻松使用它。

基于流的动作生成是整个系统的最后一步,它将预测的三维光流转化为具体的机器人动作序列。由于三维流能够捕获物体在每个时间步的三维空间位置,研究团队将操作任务表示为一系列物体姿态序列。这种表示方法使得他们能够使用优化程序来确定相应的机器人动作,这些动作以SE(3)空间中的末端执行器姿态序列表示。

优化过程首先使用最远点采样在物体表面选择N个关键点,并获得对应的三维光流。然后,系统最小化选定初始关键点与时间步t时预测流对应关键点之间的三维欧氏距离,得到该时间步的末端执行器姿态。通过这种方式,系统能够生成一系列末端执行器姿态作为最终执行动作。

为了验证这项研究的有效性,研究团队设计了四个具有挑战性的基础任务:从茶壶向杯子倒茶、将笔插入笔筒、将杯子挂到杯架上,以及打开顶层抽屉。这些任务都需要复杂的三维运动和精确的空间控制。倒茶任务要求机器人保持茶壶水平并将壶嘴对准杯口。插笔任务需要将笔垂直定位并执行复杂的旋转动作。挂杯子任务需要精确控制杯柄与挂钩的相对位置。开抽屉任务必须沿着抽屉的方向移动以避免卡住。

实验结果令人印象深刻。在与现有世界模型的比较中,3DFlowAction在所有四个任务上都表现出色,总体成功率达到70%,远超其他方法的20-25%。与基于视频的世界模型AVDC相比,3DFlowAction在所有任务上都有显著提升。这主要是因为视频模型的低分辨率和非物体中心的未来状态生成限制了其效果。高分辨率视频生成需要大量计算资源,而低分辨率输出往往导致物体意外消失和重现等不一致现象,严重影响动作策略的效果。

相比之下,3DFlowAction生成以物体为中心的三维运动轨迹,能够精确描述物体运动和姿态,最大限度地减少了无关因素对下游动作策略的影响。与基于VLM代码的世界模型Rekep相比,3DFlowAction也表现更佳。VLM模型依赖基于代码的约束,限制了其表示复杂物体运动的能力,因为它主要通过关键点之间的距离关系来描述运动。而3DFlowAction使用光流更有效、更自然地描述物体的未来空间位置。

在跨机器人平台的测试中,3DFlowAction展现了出色的通用性。研究团队在Franka和XTrainer两个不同的机器人平台上直接部署了3DFlowAction,无需任何机器人相关的微调。结果显示,两个平台的性能基本一致,分别达到67.5%和70.0%的成功率。这证明了该方法具有真正的跨机器人能力,三维光流作为不同机器人之间的统一动作表示非常有效。

与模仿学习方法的比较也证实了优化策略在良好动作特征引导下的竞争优势。为了确保公平比较,研究团队为两种模仿学习方法通过遥操作收集了每个任务30个演示数据集进行微调。结果显示,3DFlowAction持续表现良好,总成功率达到70%,而PI0和Im2Flow2Act分别只有50%和27.5%。这得益于优化策略的输入是三维光流,它在三维空间中提供了轨迹相关指令的全面而有效的描述。

在泛化能力测试中,3DFlowAction在处理领域外物体和背景方面表现出色。与训练域内任务相比,视频世界模型AVDC在面对分布外数据时表现急剧下降,成功率从20%降至几乎为零。这是因为AVDC在模拟未来状态时必须考虑与特定任务无关的背景元素,当面对未见输入时,生成的视频质量恶化,难以有效指导机器人运动。模仿学习方法PI0在面对领域外场景时也出现一定的性能下降。而以物体为中心的3DFlowAction框架在不同的未见物体和背景下继续表现出竞争性的性能。

消融研究进一步验证了系统各组件的重要性。闭环规划机制的作用非常显著,当禁用该功能时,四个操作任务的平均成功率下降了20%,这证明了闭环规划方法的有效性。大规模预训练的影响更加明显,没有大规模预训练的系统在四个操作任务上的平均成功率下降了40%,难以学习下游任务所需的技能,也缺乏泛化能力。这表明在大规模数据集ManiFlow-110k上预训练流世界模型对于学习物体运动的物理动力学至关重要。

研究团队还测试了3DFlowAction在不同目标物体和背景下的零样本泛化能力。在物体泛化测试中,系统对从茶壶倒茶、插笔、挂杯子和开抽屉四个任务分别达到了4/10、6/10、4/10和8/10的成功率,总体成功率为55%。在背景泛化测试中,相应的成功率为4/10、4/10、4/10和8/10,总体成功率为50%。这些结果证明了3DFlowAction能够有效处理领域外输入的泛化问题,这得益于其以物体为中心的动作表示和大规模预训练。

值得注意的是,这项研究的一个重要优势是数据效率。对于新的复杂下游任务,研究团队只需要在10分钟内收集10到30个人手演示数据点(具体数量取决于任务复杂性),无需机器人遥操作。这大大降低了系统部署的成本和复杂性,使得该技术更容易在实际应用中推广。

研究团队在论文中坦诚地讨论了当前方法的局限性。3DFlowAction在处理柔性物体运动时面临挑战,因为严重的遮挡和复杂的运动模式使得三维光流建模变得困难。此外,物体的非刚性变形可能导致下游动作策略无法输出有效动作。这些局限性为未来的研究指明了方向,也提醒我们这项技术仍有改进空间。

从技术实现的角度来看,研究团队提供了详细的实现细节。他们使用SciPy库解决优化问题,遵循Rekep的做法。对于单臂机器人,决策变量包含单个末端执行器姿态,用位置和欧拉角表示。位置项受预定义工作空间限制约束,旋转项限制在下半球,因为末端执行器通常面向下方。决策变量根据这些边界标准化到[-1,1]范围。在解决的第一次迭代中,初始猜测设置为当前末端执行器姿态,系统采用基于采样的全局优化方法双重退火,高效探索整个解空间,然后使用基于梯度的局部优化器SLSQP细化解决方案。

这项研究的影响远不止于技术本身。它为机器人操作任务提供了一种全新的思路,从关注具体的动作指令转向理解物体应该如何运动。这种范式转换不仅提高了机器人的操作能力,还为实现真正通用的机器人系统铺平了道路。想象一下,未来的机器人可能不再需要针对每种特定任务进行专门训练,而是能够像人类一样,通过理解任务的本质来自动学会执行各种复杂操作。

研究团队在ManiFlow-110k数据集的构建上也投入了大量心血。这个数据集涵盖了多个来源的丰富操作数据,包括BridgeV2占27%、DROID占13%、RT1占18%、AgiWorld占8%、Libero占4%、RH20t-Human占27%以及HOI4D占3%。这种多样性确保了模型能够学习到各种不同的操作模式和物体运动规律。

值得一提的是,研究团队在模型训练方面也做了大量优化工作。他们使用学习率为0.0001、批量大小为512、训练500个epochs,采用AdamW优化器,权重衰减为0.01,epsilon为1e-8。模型在8×8 V100 GPU配置上训练了大约2天时间。这些技术细节对于想要复现或改进该研究的其他研究者来说非常有价值。

从更广泛的角度来看,这项研究代表了机器人学习领域的一个重要进展。传统的机器人训练往往需要大量特定于硬件的数据和调优,这限制了机器人技术的快速发展和广泛应用。而3DFlowAction提出的跨机器人学习范式,有望打破这些壁垒,让机器人技能能够在不同平台之间自由迁移。

这种技术的潜在应用场景非常广泛。在制造业中,机器人可能需要处理各种不同形状和材质的零件,传统方法需要为每种零件单独编程,而3DFlowAction可能让机器人通过理解零件应该如何移动来自动学会处理方法。在家庭服务机器人领域,这种技术可能让机器人更好地理解如何整理房间、准备食物或照顾老人。在医疗手术机器人方面,精确的三维运动预测能力可能提高手术的准确性和安全性。

研究团队还在论文中展示了系统在实际操作中的可视化结果。通过观察这些可视化图像,我们可以看到3DFlowAction不仅能够准确预测物体的运动轨迹,还能生成平滑、自然的机器人动作序列。这种视觉证据进一步证实了该方法的实用性和可靠性。

这项研究的另一个重要贡献是提出了一种评估机器人操作能力的新方法。通过使用GPT-4o来验证预测结果是否符合任务要求,研究团队创造了一种更加智能和灵活的评估机制。这种方法不仅能够检测明显的失败案例,还能识别细微的偏差,从而提高整个系统的可靠性。

值得注意的是,这项研究在开源社区的贡献也不容忽视。研究团队承诺将代码和数据公开发布,这将极大地促进相关领域的研究发展。其他研究者可以基于这些资源进行进一步的改进和扩展,形成良性的学术生态循环。

从学术价值的角度来看,这项研究在多个方面都有重要贡献。首先,它提出了一种新的机器人学习范式,从动作模仿转向运动理解。其次,它解决了跨机器人平台的技能迁移问题,这是机器人学领域长期面临的挑战。再次,它展示了大规模预训练在机器人学习中的重要作用,为未来的研究提供了新的思路。

研究团队在实验设计方面也非常严谨。他们不仅与现有方法进行了全面比较,还进行了详细的消融研究来验证各个组件的作用。这种严谨的实验方法学确保了研究结果的可信度和可重复性。同时,他们选择的四个基础任务具有很好的代表性,涵盖了不同类型的操作挑战,为评估系统性能提供了全面的测试基准。

在技术创新方面,这项研究的移动物体检测管道也值得特别关注。这个管道能够在复杂背景中准确识别被操作的物体,解决了现有检测模型在机器人操作场景中表现不佳的问题。这种技术创新不仅对当前研究有重要意义,也可能在其他需要物体追踪的应用场景中发挥作用。

展望未来,这项研究为机器人操作技术的发展开辟了新的道路。随着三维感知技术的不断进步和计算能力的提升,我们有理由相信,基于三维流的机器人学习方法将会变得更加高效和可靠。同时,随着更多研究者的参与和贡献,这种方法可能会扩展到更多类型的操作任务和应用场景。

总的来说,南华理工大学等机构的这项研究不仅在技术上取得了重要突破,也为整个机器人学领域提供了新的思考方向。它证明了通过理解物体运动规律来指导机器人行为的可行性和有效性,为实现更加智能和通用的机器人系统奠定了坚实基础。这种从模仿到理解的转变,可能会成为机器人技术发展的一个重要里程碑。随着这项技术的进一步完善和推广,我们可能会看到机器人在各个领域发挥更大的作用,真正成为人类生活和工作的得力助手。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-