微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ENERVERSE-AC:通过动作条件打造身临其境的机器人仿真环境

ENERVERSE-AC:通过动作条件打造身临其境的机器人仿真环境

2025-05-19 14:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-19 14:59 科技行者

在机器人模仿学习领域,一项突破性的创新正在改变我们评估机器人能力的方式。来自AgiBot、上海交通大学和香港中文大学多媒体实验室的研究团队于2025年5月14日在arXiv上发布了名为"ENERVERSE-AC: Envisioning Embodied Environments with Action Condition"的研究论文,提出了一种全新的动作条件世界模型,这一模型能够根据机器人的预测动作生成未来的视觉观察结果,从而使机器人仿真变得既真实又可控。

想象一下,如果你想测试一个新开发的机器人是否能成功抓取一个物体,传统方法需要你拥有实体机器人或构建复杂的3D模拟环境,这不仅昂贵,而且耗时。ENERVERSE-AC(简称EVAC)则提供了一种全新的解决方案:它就像一个"数字孪生"环境,可以在虚拟世界中准确地模拟机器人与环境的交互,让我们无需实体设备就能评估机器人的表现。

这项研究的主要贡献在于,研究团队不仅开发了一个能够生成视频的世界模型,更重要的是,这个模型可以根据机器人的动作实时调整生成的视频内容。就像玩电子游戏时,游戏会根据你按下的按键改变画面一样,EVAC会根据机器人的动作指令改变生成的视觉场景。

论文的主要作者江宇欣、陈胜聪和黄思远,在资深研究员陈礼良的带领下,基于前期的EnerVerse架构,为这一模型增加了多层动作条件注入机制和射线图编码,使其能够生成多视角图像,同时还通过收集更多样化的失败轨迹来提升模型的泛化能力。

那么,EVAC具体有什么用呢?首先,它可以作为"数据引擎",通过对有限的人类收集轨迹进行分割、增强和重新组合,生成丰富多样的训练数据集;其次,它可以作为机器人策略的"评估器",生成基于动作条件的视频观察结果,让研究人员无需依赖实体机器人就能迭代测试机器人策略。这大大降低了开发成本,同时保持了高度的评估保真度。

在本文中,我们将深入浅出地解析EVAC的工作原理、技术创新和实际应用价值,让你在不接触专业术语的情况下,也能理解这项面向未来的机器人仿真技术。

一、打造机器人的"数字沙盒":研究背景与挑战

机器人学习就像孩子学习一样,需要不断尝试、失败和改进。想象一下,当父母教孩子骑自行车时,孩子需要反复练习才能掌握平衡。同样地,机器人需要通过大量的实践来学习完成任务。但与孩子学习相比,机器人学习面临一个大问题:每次"练习"都需要使用实体机器人或复杂的仿真环境,这既昂贵又耗时。

近年来,机器人模仿学习已经从解决静态环境中的简单任务,发展到处理复杂多变的交互场景。例如,机器人不再仅仅学习如何将物体从A点移动到B点,而是开始学习如何在厨房环境中烹饪食物、如何整理混乱的桌面,甚至如何与人类协作完成复杂任务。这种进步令人振奋,但同时也带来了巨大挑战:如何有效评估这些复杂任务中的机器人表现?

传统的人工智能领域,如计算机视觉或自然语言处理,可以使用静态数据集进行评估。例如,一个图像识别模型可以在大量图片上测试其准确率,而无需与环境实时交互。但机器人操作本质上是交互性的,机器人需要根据环境变化实时调整行动。这就像测试一个厨师的烹饪技能,不能只看他的食谱,而是要观察他如何根据食材状态、火候变化实时调整烹饪手法。

随着任务多样性的增加,直接在实体机器人上评估或创建大规模3D仿真环境变得越来越困难。想象你要测试一个机器人在100种不同厨房场景中的表现,这意味着你需要构建100个不同的厨房环境,或者在实体机器人上进行100次不同的测试设置——这在成本和时间上都是不可行的。

鉴于这些挑战,研究者们开始探索使用视频生成模型作为世界模拟器的可能性。这些模型能让机器人通过学习的视觉动态观察和交互虚拟世界,避免了对物理仿真的依赖。就像电影特效一样,这些模型可以创建逼真的视觉场景,让机器人"身临其境"。

然而,现有的世界建模技术主要集中于从语言指令生成视频,然后基于生成的视频预测动作。这就像给机器人看一部教学视频,然后让它模仿视频中的动作。但这种方法无法创建真正的世界模拟器,因为它们缺少对机器人动作的反馈——真正的世界模拟器应该能够根据机器人的动作来模拟环境动态,就像现实世界会对我们的行为做出反应一样。

这正是ENERVERSE-AC(EVAC)试图解决的核心问题:如何创建一个能够根据机器人动作实时生成视觉观察结果的模型,使机器人训练和评估变得更加高效、经济且可扩展?

二、EVAC的技术核心:动作条件视频生成

EVAC的核心思想是创建一个"动作条件"的世界模型,就像一个对话系统根据用户输入生成回应一样,EVAC根据机器人的动作生成相应的视觉场景。想象一下,如果你告诉朋友"我要拿起桌上的杯子",然后描述你的动作,你的朋友能在脑海中想象出你拿杯子的样子。EVAC就像这样的朋友,能根据机器人描述的动作"想象"出相应的视觉场景。

从技术上看,EVAC建立在UNet视频生成模型的基础上,这是一种扩散模型(Diffusion Model)。如果把视频画面比作一幅油画,扩散模型的工作方式就像是先把画布上的颜料完全搅乱,然后一步步地恢复出清晰的画面。EVAC的创新之处在于,它在这个过程中加入了"动作条件",也就是说,画面的恢复过程会受到预设动作序列的指导。

具体来说,当EVAC接收到一组RGB视频帧和相应的机器人动作轨迹时,它首先通过编码器将视频转换为潜在表示(latent representation),这就像将复杂的画面提炼为简化的草图。然后,使用扩散模型来预测未来的潜在表示,这个过程受到机器人动作轨迹的条件引导。最后,将预测的潜在表示转换回可视的视频帧。

为了有效地将动作信息融入视频生成过程,研究团队设计了两种创新的条件注入机制:

首先是"空间感知姿态注入"。想象你在用手机拍摄视频时,手机屏幕上会叠加显示一些信息,比如拍摄时间、位置等。类似地,EVAC将机器人末端执行器(就像机器人的"手")的6D位姿信息(位置和方向)投影到图像上,形成"动作地图"。这些动作地图使模型能够准确地理解机器人在空间中的位置和方向,从而生成相应的视觉场景。

例如,当机器人的手向左移动时,动作地图会显示一个指向左侧的箭头;当机器人的夹爪闭合时,动作地图会用颜色深浅来表示夹爪的开闭程度。这些视觉提示让模型能够直观地理解机器人的动作意图。

其次是"增量动作注意力模块"。如果说空间感知姿态注入关注的是"机器人在哪里",那么增量动作注意力模块则关注"机器人如何移动"。它计算连续帧之间末端执行器位置和方向的变化,捕捉动作的速度和加速度信息。这些变化通过线性投影器编码成固定长度的潜在表示,然后通过交叉注意力机制注入到UNet阶段。

这就像我们观察舞者的表演,不仅要看舞者站在哪个位置,还要关注舞者是急速旋转还是缓慢伸展,这些动作的节奏和力度同样重要。通过捕捉这些时间变化,比如速度和加速度,模块增强了模型对运动动态的物理理解,使其能够生成更真实、更多样的视频输出。

三、多视角条件注入:立体感知机器人环境

在真实的机器人操作中,多角度的视觉输入对于准确判断物体位置和完成任务至关重要。想象一下厨师在厨房工作:他不仅需要看到正前方的案板,还需要通过余光察觉周围的炉灶和食材。同样,机器人也需要多角度的视觉输入来全面感知环境。

EVAC扩展了世界模型,支持多视角视频生成。想象一个摄影棚,多个摄像机从不同角度拍摄同一个场景,每个摄像机都能捕捉到场景的不同方面。在EVAC中,多视角特征通过空间交叉注意力模块进行交互,就像多个摄影师相互交流所看到的内容,形成对场景的完整理解。

但EVAC面临一个特殊挑战:动态的腕部摄像头。在机器人系统中,通常会有固定的头部摄像头和跟随机械臂移动的腕部摄像头。固定摄像头就像餐厅的监控摄像头,始终从一个固定位置观察全局;而腕部摄像头则像厨师戴在头上的摄像机,随着厨师的移动而变换视角。

当使用前面提到的方法将末端执行器姿态投影到腕部摄像头图像上时,会出现一个问题:投影圆始终保持静态,无法传达手部的移动信息。这就像你戴着摄像头看自己的手时,无论你的手怎么移动,它在摄像头画面中的相对位置几乎不变,这无法反映真实的空间移动。

为了解决这个问题,研究团队引入了"射线图"编码技术。射线图记录了每个摄像头相对于其位置的光线起点和方向。对于每个摄像头,团队计算了其在所有时间点的射线图。由于腕部摄像头随机械臂移动,腕部摄像头的射线图能隐式编码末端执行器位姿的运动信息。

这就像给摄像头增加了一种"空间感知"能力,让它知道自己在空间中的位置和视角。射线图被连同轨迹图一起输入到模型中,提供丰富的轨迹信息,改善了跨视图的一致性。

通过这种方式,EVAC能够处理固定的头部摄像头视图和动态的腕部摄像头视图,为机器人提供全面的环境表示。这种多视角生成能力使EVAC在处理需要精确空间理解的任务时表现出色。

四、数据驱动的真实性:不只成功,也学习失败

在机器人学习中,失败的经验与成功的经验同样重要。想象一个初学烹饪的人,不仅需要知道如何正确炒菜,还需要知道火太大会导致食物烧焦,油放太多会溅出等失败情况。同样,机器人也需要学习各种可能的失败场景,以便在实际操作中避免这些错误。

EVAC世界模型的一个关键特点是,它被设计用来处理成功和失败场景。研究团队不仅利用了AgiBot-World数据集中的成功轨迹,还精心收集了多样化的失败轨迹,显著扩展了训练数据的覆盖范围。

他们与AgiBot-Data团队合作,获取了原始数据的完整访问权限,从中挖掘了大量失败案例。例如,当机器人尝试抓取物体但抓空了,或者物体从夹爪中滑落的情况。此外,研究团队还开发了一个自动化数据收集管道,在远程操作和真实机器人推理期间捕捉真实世界的失败案例。

这种全面的数据收集策略,就像为学习驾驶的人提供各种道路和天气条件下的驾驶经验,不仅包括顺利行驶的情况,还包括如何应对打滑、急刹车等紧急情况。这大大增强了模型在不同场景下的泛化能力,确保它能适应各种真实世界的机器人任务。

通过整合这些多样化的数据,EVAC能够更准确地模拟现实世界中的各种情况,包括那些不太理想的结果。这种全面性使得EVAC在作为政策学习的数据引擎和政策模型的评估器时,都能提供更可靠的结果。

五、EVAC的双重应用:数据引擎与政策评估器

EVAC不仅仅是一个视频生成模型,它在机器人学习领域有两个关键应用,解决了机器人操作中的核心挑战。

首先,EVAC可以作为"数据引擎",为机器人策略学习提供丰富的训练数据。想象你需要教机器人完成一个新任务,比如从纸箱中取出水瓶放到桌上。传统方法需要人类操作员收集大量示范数据,这既耗时又昂贵。EVAC提供了一种解决方案:只需要少量的人类收集轨迹,就能生成大量多样化的训练数据。

具体来说,对于每条收集的轨迹,研究人员首先通过分析夹爪开合度的变化来标识物体接触阶段的开始和结束时间点。然后,将轨迹分割为三个不同阶段:抓取前的接近(fetching)、抓取(grasping)和抓取后的运输(homing)。

以抓取前阶段为例,研究人员提取观察图像和相应的动作序列,对早期动作进行空间增强以生成新的动作起点,然后通过插值创建新的动作轨迹。随后,将观察图像和反转的动作序列输入EVAC世界模型,生成相应的视频帧。生成的帧经过重新排序,创建一个正确的数据集。通过这个过程,原始的少量轨迹可以被增强成更加多样化的轨迹集,提高策略学习的鲁棒性和泛化能力。

其次,EVAC可以作为"政策评估器",为已训练的机器人策略模型提供仿真测试环境。给定初始视觉观察和相应指令,策略模型生成动作序列。这些动作序列与初始观察一起输入EVAC,生成新的观察结果。这个过程不断重复,直到策略模型生成的动作低于预定阈值。随后,人类评估员观看EVAC生成的视频来评估任务是否成功完成。

这种评估方法有两个主要优势:首先,它无需创建复杂的仿真资产,因为EVAC能够更好地表现某些物理方面,例如流体动力学;其次,视频回放可以加速以节省时间,或者可以与视频多模态大语言模型(Video-MLLMs)集成,减少人工评估的需求。

通过这种方式,EVAC可以在初始开发阶段基本替代真实机器人硬件的使用,显著减少了部署成本。研究实验表明,通过EVAC获得的评估结果与真实世界场景中观察到的结果高度相关,证明了这种方法的可靠性。

六、实验验证:EVAC的性能表现

为了验证EVAC的有效性,研究团队进行了一系列全面的实验。实验数据主要来源于AgiBot World数据集,该数据集包含超过210种任务和100万条轨迹。为确保数据全面覆盖各种情况,研究团队还精心收集了大量失败案例,丰富了训练数据的多样性。

在模型实现上,EVAC基于UNet视频扩散模型构建。训练过程中,CLIP视觉编码器和VAE编码器被冻结,而其他组件如UNet、重采样器和线性层则进行了微调。单视图版本的训练需要约32台A100 GPU运行2天,而多视图版本则需要约32台A100 GPU运行8天。研究团队通过实验确定,将内存大小设置为4、分块大小设置为16可以在生成质量和资源成本之间取得平衡。

实验结果展示了EVAC在生成可控制的机器人操作视频方面的卓越能力。即使在复杂场景下,EVAC也能合成真实的机器人-物体交互视频,同时保持高视觉保真度和准确地跟随输入动作轨迹。

EVAC的分块式自回归扩散架构和稀疏内存机制使其能够在连续分块推理过程中保持视觉稳定性和场景一致性。实验结果表明,在单视图场景下,生成的视频最多可保持30个连续分块的清晰度和可靠性;在多视图设置下,则可保持10个分块的质量。然而,在更长序列中会开始出现伪影和模糊,这表明在序列长度和视觉质量之间存在权衡。

作为政策评估器,EVAC与真实世界环境表现出高度一致性。研究团队选择了四个操作任务进行评估,包括拿起水瓶、拿起吐司、拿起培根和拿起生菜叶。对于每项任务,首先在真实世界中进行评估,并将这些测试的初始帧记录作为EVAC评估的图像条件。三名独立评估员通过观察真实世界执行或EVAC生成的序列来判断成功或失败。

尽管EVAC和真实世界评估在绝对成功率上存在微小差异,但跨任务的相对性能趋势是一致的。这些发现证明了EVAC在跨任务策略性能分析和真实世界动态复制方面的可靠性。

为了评估EVAC作为数据引擎的能力,研究团队进行了一项实验,展示EVAC生成的新动作轨迹可以增强策略训练数据,提高任务性能。实验任务是从纸箱中拿起水瓶并放在桌子上,这是一项挑战性任务,需要精确的力度和操作技巧来从紧packed箱子中提取水瓶。

比较了两种训练设置:一种仅使用20个专家示范作为训练数据,另一种使用相同的20个专家示范,并额外增加30%由EVAC世界模型生成的轨迹。结果显示,当包含增强轨迹时,成功率从0.28显著提高到0.36,这凸显了EVAC世界模型通过提供多样化和有效的训练样本来增强策略学习的能力,即使专家示范数量有限。

此外,研究团队还进行了失败数据影响的分析。他们训练了两个模型:一个包含失败轨迹,另一个不包含。在测试场景中,机器人假装抓取一个不存在的水瓶。不包含失败数据的模型往往过拟合成功示例,导致它"幻觉"出水瓶被成功抓取,尽管实际上没有物理交互。相比之下,包含失败数据的EVAC能够准确识别并区分失败的抓取尝试,展示了它对过拟合的鲁棒性和处理边缘情况的能力。

七、局限性与未来展望

尽管EVAC在机器人视频生成方面取得了显著成就,但研究团队也坦诚指出了当前工作的几个局限性,这些问题也指明了未来研究的方向。

首先,EVAC使用单位圆表示夹爪开合度的方法,虽然对简单的夹爪有效,但可能无法有效推广到更复杂的末端执行器,例如灵巧手(dexterous hands)。这就像用简单的笑脸表情符号可以表达基本情绪,但难以传达复杂的情感细微差别。未来,随着机器人硬件配置的多样化,需要开发更灵活的表示方法以适应不同类型的机器人手部。

其次,腕部摄像头经常捕捉到无关的背景噪声,比如在机器人工作区域周围走动的人。这增加了视频生成的复杂性,限制了多视图推理的效率。在实验中,这一限制将多视图版本的分块数量限制在10个,而单视图版本则可以达到30个。这种情况就像在拍摄电影时,除了主角外还有许多背景人物不断走动,使得场景控制变得更加困难。未来的研究可能需要引入更强大的背景抑制或前景强化技术。

此外,动作条件世界模型的多个潜在应用尚未被充分探索,例如与actor-critic方法结合用于强化学习。想象一下,EVAC不仅能模拟机器人动作的视觉结果,还能预测这些动作的潜在奖励,从而指导机器人学习更优的行为策略。未来的研究可以扩展EVAC的应用范围,探索这些方向,并从先前的相关工作中汲取灵感。

研究团队希望这项工作能为推进具身世界模型的发展奠定基础,并启发该领域的进一步发展。就像早期的飞行模拟器为飞行员培训铺平了道路,EVAC这样的世界模型可能最终彻底改变机器人学习和评估的方式,使其更加高效、经济且可扩展。

总结来说,EVAC为机器人学习领域提供了一个强大的工具,通过动作条件视频生成,它使得机器人策略的测试和训练变得更加高效和经济。尽管还存在一些局限性,但这项研究无疑向着更加真实、多样化的机器人仿真环境迈出了重要一步。随着技术的不断完善,我们可以期待在不久的将来,像EVAC这样的技术将成为机器人学习过程中不可或缺的组成部分,加速机器人技术在各个领域的应用和发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-