2025年5月,香港大学、OpenDriveLab和AgiBot的研究团队发表了一项突破性研究《Learning to Act Anywhere with Task-centric Latent Actions》(基于任务中心潜在动作的广域行动学习)。这篇发表在arXiv(arXiv:2505.06111v1)的论文介绍了UniVLA,一种统一的视觉-语言-动作框架,该框架能够让机器人在各种不同环境中学习行动。想了解更多细节的读者可以访问项目的官方GitHub代码库:https://github.com/OpenDriveLab/UniVLA。
一、机器人的"万能翻译器":UniVLA如何让不同机器人说同一种"动作语言"
想象一下,你去到一个陌生的国家,那里的人们说着你完全不懂的语言。你会感到无所适从,对吧?在机器人世界中也存在类似的问题。不同种类的机器人就像来自不同国家的人,它们有自己特定的"语言"(动作方式)和"视角"(观察环境的方式)。一个操控机械臂的系统可能完全无法理解如何控制一个移动机器人,就像一个只会说英语的人无法直接理解中文一样。
UniVLA就像是一个超级翻译器,它创造了一种所有机器人都能理解的"通用语言"。这种语言不依赖于机器人的具体形态(像是机械臂、移动平台或其他形式),也不需要详细的动作标签或特定的视角。通过这种统一的语言,研究人员可以让机器人从互联网上的大量视频中学习,然后将这些知识应用到各种不同的机器人上,只需极少的调整即可。
这就好比一个人先学会了世界语,之后无论去到哪个国家,只需要学习一点点当地特色表达,就能与当地人顺畅交流。对机器人来说,这意味着它们可以共享学习经验,大大提高学习效率和适应能力。
与之前的方法相比,UniVLA展现出了显著的性能提升。例如,在LIBERO操作任务上,UniVLA的成功率比OpenVLA高出18.5%;在Room2Room导航任务上,提升了29.6%;在真实世界的部署中,性能提升了36.7%。更令人印象深刻的是,UniVLA只需要前代模型1/20的预训练计算资源和1/10的下游数据量就能实现这些提升。
二、如何打造机器人的"通用语言"?UniVLA的三步式学习方法
UniVLA的工作原理可以比作如何教授一个孩子掌握一门全新的语言,只不过这里的"孩子"是机器人,而"语言"是各种动作。研究团队开发了一个三步走的方法:
首先是"任务中心潜在动作学习"。想象你在教孩子学习一门新语言,你会先让他看很多使用这种语言的视频,从中理解核心词汇和表达方式。UniVLA也是这样做的:它观察大量来自不同机器人和人类的视频,从中提取出关键的动作表示。这些动作表示不需要人工标注,系统能够自动从视频帧的变化中学习。具体来说,系统使用了一种叫做VQ-VAE的技术,将连续的视频帧之间的变化转化为离散的"动作代码",就像将复杂的动作分解为基本的"动作单词"。
接下来是"潜在动作预测"。当孩子掌握了基本词汇后,他需要学习如何根据上下文正确使用这些词汇。同样,UniVLA也会训练一个自回归视觉-语言模型,该模型接收视觉观察和语言指令作为输入,然后预测应该执行的潜在动作序列。这个过程让系统学会了如何在不考虑具体机器人形态的情况下规划动作。
最后是"潜在动作解码"。当孩子能够理解和表达基本思想后,他还需要学习当地特定的表达方式和发音。对UniVLA来说,这一步是将学习到的通用潜在动作翻译成特定机器人能够执行的物理控制信号。研究团队设计了一个轻量级的解码器,只有约1080万参数,这个解码器可以高效地将潜在动作转换为实际控制信号,让不同类型的机器人执行所需任务。
这种方法的独特之处在于,即使机器人从未见过某种任务或环境,它也能利用从其他机器人或人类视频中学到的知识,快速适应新情况。就像一个精通世界语的人可以在陌生国家通过观察和少量交流迅速学会必要的当地表达一样。
三、从噪声中提取信号:UniVLA如何专注于任务相关动作
现实世界的视频充满了各种"噪声"。想象你在观看一段做饭的视频:主厨在切菜,同时厨房里其他人在走动,摄像机可能在晃动,窗外可能有车辆经过。当我们人类观看时,我们自然会专注于与做饭相关的动作(切菜、搅拌等),而忽略其他不相关的变化。但对于机器学习系统来说,区分哪些变化是任务相关的,哪些是无关的,这是一个巨大挑战。
之前的研究方法如LAPA和IGOR在学习潜在动作时面临一个关键问题:它们无法有效区分任务相关和任务无关的动态变化。这就像让一个学生同时听几个人说话,而不告诉他应该专注于哪一个声音一样,导致学习效率低下。
UniVLA通过两个关键创新解决了这个问题。首先,它使用了预先训练好的DINOv2特征提取器,这个工具能够从视频像素中提取出具有空间意识和物体中心性的表示,更好地捕捉任务相关信息。其次,UniVLA将语言指令作为条件输入,帮助系统将动作分解为两种互补的表示:一种明确表示任务中心动作,另一种捕捉任务无关的变化。
这种方法就像给学生配备了一副特殊眼镜和耳机,眼镜能帮助学生专注于视觉场景中的重要物体,而耳机则过滤掉周围的噪音,只让学生听到重要的指令。通过这种方式,UniVLA能够从混杂的视频中提取出真正重要的动作信息,而忽略那些与任务无关的变化。
在实验中,研究人员发现,这种任务中心的潜在动作空间不仅减少了计算开销,还能随着数据集规模的增长实现更有效的扩展。当研究人员增加训练数据时,UniVLA的性能持续提升,有效利用了跨机身、跨视角的机器人数据集,甚至能从无标签的人类视频中提取可转移的知识。
更令人印象深刻的是,当仅使用Bridge-V2数据集进行预训练时,UniVLA就已经超越了在更大规模Open X-Embodiment数据集上训练的OpenVLA和LAPA,这凸显了其从有限数据中提炼可转移知识的能力。
四、UniVLA的广泛适用性:从机械臂到室内导航的全面评估
机器人学习的一个主要挑战是,大多数方法只能在特定类型的任务或环境中表现良好。这就像一个人可能非常擅长打篮球,但放到足球场上就完全不知所措。UniVLA的目标是成为一个"全能运动员",能够在各种不同的任务中表现出色。
为了证明UniVLA的广泛适用性,研究团队在多个基准测试上进行了评估,包括机器人操作(LIBERO、CALVIN、SimplerEnv)和导航任务(Room2Room),以及真实世界的部署测试。
在LIBERO基准测试中,UniVLA在四个评估套件(空间关系、物体泛化、目标适应和长期操作)上都取得了卓越的性能。特别是在最具挑战性的长期操作任务上,UniVLA实现了92.0%的成功率,比OpenVLA高出38.3个百分点。即使仅使用Bridge-V2数据集进行预训练,UniVLA也能达到87.5%的成功率,远高于使用其他数据集训练的对比方法。
在导航任务上,UniVLA同样表现出色。在Room2Room基准测试中,UniVLA将预言成功率从OpenVLA的17.5%提升到47.1%,提高了近30个百分点。值得注意的是,UniVLA仅使用单帧RGB输入就能实现与NaVid(一个使用完整历史观察的导航模型)相当的性能。
在真实世界的机器人部署中,研究团队设计了四项涵盖不同能力的任务:空间感知(存放螺丝刀)、工具使用与非抓取操作(清洁切菜板)、可变形物体操作(折叠毛巾)和语义理解(汉诺塔堆叠)。UniVLA在这些任务上的平均成功率达到了81.7%,比第二好的方法LAPA高出36.7个百分点。
更重要的是,当面对未见过的场景时,如光照变化、视觉干扰物或新物体,UniVLA展现出了卓越的泛化能力。在光照变化条件下,UniVLA实现了66.7%的成功率,远高于对比方法;在有视觉干扰物的情况下,成功率为53.3%;在需要处理新物体时,成功率高达86.7%。这种强大的泛化能力使UniVLA成为真实世界应用的理想选择。
五、数据效率与扩展性:少即是多的UniVLA
在机器学习领域,数据往往就是王道—通常来说,模型训练使用的数据越多,性能就越好。但是,收集高质量的机器人数据非常耗时且昂贵,特别是当需要人类来远程操作机器人示范任务时。因此,一个理想的系统应该能够高效利用有限的数据,并且能够从不同来源的数据中学习。
UniVLA在这两方面都表现出色。首先,在数据效率方面,研究表明,UniVLA只需要使用10%的LIBERO-Goal训练数据就能达到86.3%的成功率,这已经超过了OpenVLA使用全部数据训练后的79.2%。同样,在LIBERO-Long上,UniVLA只需使用50%的训练数据就能达到71.4%的成功率,超过了OpenVLA的53.7%。这种高效率源于UniVLA在统一潜在动作空间中进行规划的能力,充分利用了预训练知识,使其能够以最小的数据量高效适应新环境。
其次,在扩展性方面,UniVLA能够有效地利用来自不同领域的数据。当研究人员将训练数据从Bridge-V2扩展到包含OpenX中的跨机身数据时,UniVLA在真实世界测试中的平均分数提高了0.3分。进一步引入人类视频数据后,平均分数再提高0.28分。这种持续改进的趋势同样在R2R导航基准测试中观察到,凸显了UniVLA随着数据多样性增加而扩展能力的提升。
更令人印象深刻的是,UniVLA能够从完全没有动作标签的人类视频中学习。这就像一个人通过观看专业厨师的烹饪视频来学习烹饪技巧,即使视频中没有明确指出每一个动作的名称。这种能力大大扩展了可用于训练的数据源,使UniVLA能够利用网络上丰富的视频资源。
在实时性能方面,UniVLA也表现出色。通过在紧凑的潜在动作空间中进行规划,并采用高效的动作块预测,UniVLA能够在NVIDIA RTX 4090 GPU上实现10Hz的实时、闭环推理频率。这意味着机器人可以快速响应环境变化,实现流畅的控制。
六、未来展望:UniVLA的局限与发展方向
尽管UniVLA在各种任务上展现出了卓越的性能,但研究团队也坦率地指出了当前系统的局限性和未来可能的改进方向。
首先,在潜在动作设计方面,UniVLA使用固定粒度的潜在动作和预定义的码本大小,这可能并非对所有任务或机身都是最优的。未来的研究可以探索基于环境条件动态调整这些参数的自适应机制,进一步提高系统性能。此外,当前的UniVLA主要在单臂操作任务上进行了评估,将框架扩展到双臂人形系统或灵巧手可能需要更复杂、更精细的动作空间建模。
其次,关于语言注释的要求,UniVLA的任务相关潜在动作被设计为编码完成任务所必需的自我代理运动,同时排除非自我动态(如水壶烧水时上升的蒸汽)。研究团队使用的大部分数据集包含细粒度的指令,描述短期动作而非高级目标。虽然更具表达力的语言指令可能有助于减少潜在动作学习中的歧义,但研究人员强调,他们的方法能够从不同粒度的指令中进行可扩展学习,无需特殊处理就能超越朴素的潜在动作学习方法。
第三,关于与世界模型的集成,UniVLA潜在动作模型的解码器本质上是一个世界模型,能够根据潜在动作预测未来观察。这个解码器可以接收由策略实时采样的潜在动作,生成多个相应的视觉计划。这为通过强化学习实现参考对齐和通过规划树进行测试时扩展打开了大门,其中视觉语言模型或启发式函数可以作为奖励模型。
最后,上下文学习能力对于提高视觉-语言-动作模型的性能上限至关重要。鉴于研究发现,所提出的潜在动作模型能够提取连接人类和机器人操作的可转移运动表示,研究团队提出了一个未来方向:将人类示范视频编码为紧凑的潜在动作嵌入序列,作为上下文样本(概念上,潜在动作模型充当视频标记器)。这种方法可以实现零次技能获取,无需额外微调。
七、结语:迈向通用机器人的重要一步
归根结底,UniVLA代表了机器人学习领域的一个重要里程碑。通过创建一个统一的、基于任务的潜在动作空间,研究团队使机器人能够从各种来源的视频中学习,并将这些知识转移到不同的机身和环境中。这种方法不仅在性能上超越了现有的最先进方法,还大大减少了所需的计算资源和训练数据。
对于普通人来说,UniVLA的出现意味着未来的家用、工业和服务机器人可能会变得更加聪明和适应能力更强。它们将能够从互联网上的视频中学习新技能,快速适应新环境,甚至可能通过观察人类的动作来学习完成任务的方法。这种能力将使机器人在我们的日常生活和工作中变得更加有用和无处不在。
随着UniVLA等技术的不断发展,我们可以期待看到更多能够在多种场景中高效工作的通用机器人系统的出现。这不仅将推动机器人技术的进步,还将为解决现实世界中的各种复杂问题提供新的可能性。
如果你对UniVLA感兴趣,可以访问项目的GitHub页面(https://github.com/OpenDriveLab/UniVLA)了解更多详情,或者阅读完整的研究论文。无论你是机器人研究人员、学生还是对技术发展感兴趣的普通人,UniVLA都代表了机器人学习领域的一个令人兴奋的新方向。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。