这项由香港大学OpenDriveLab实验室的卜庆雯、杨彦廷等研究人员领导的突破性研究发表于2025年5月,论文代码已在GitHub开源(https://github.com/OpenDriveLab/UniVLA)。有兴趣深入了解的读者可以通过arXiv:2505.06111v2访问完整论文。
当你看到一个孩子学会用筷子吃饭后,很快就能学会用叉子、勺子甚至用手抓食物时,你是否想过这种"举一反三"的能力对机器人来说有多么困难?现在,香港大学的研究团队找到了让机器人也具备这种能力的方法。
目前的机器人就像只会背诵一本菜谱的厨师,只能在特定厨房用特定工具做特定的菜。一旦换了环境或工具,就完全不知所措。这是因为现有的机器人训练方法严重依赖于标注好的动作数据,就像必须有人在旁边手把手教每一个动作细节。更糟糕的是,不同品牌、不同型号的机器人就像说着不同"方言"的人,彼此之间无法共享学到的技能。
研究团队提出的UniVLA框架就像为机器人世界创造了一种"通用语言"。这种语言不是基于具体的机械动作,而是基于任务的本质意图。就好比当人类说"拿起那个杯子"时,不管你用左手还是右手,不管杯子在桌子的哪个位置,你都能理解并完成这个动作的核心目标。
一、破解机器人学习的"巴别塔"难题
传统的机器人训练方式面临着一个根本问题:动作标注的稀缺性。每个机器人的动作都需要人工仔细标注,这就像要为每种语言重新编写整本字典一样费时费力。更关键的是,网络上虽然有海量的视频资源——从专业的机器人演示到日常的人类活动录像,但这些宝贵的学习材料却无法被现有方法有效利用,因为它们缺乏精确的动作标注。
UniVLA的核心创新在于提出了"任务中心潜在动作"的概念。这就像是在混乱的厨房噪音中专门听取烹饪的核心步骤,而忽略锅碗瓢盆的碰撞声。研究团队发现,在任何视频中都存在两类信息:与任务相关的核心动作(比如抓取、放置、转动)和与任务无关的环境噪音(比如背景中其他人的移动、光线变化、摄像头抖动)。
为了实现这种分离,研究团队设计了一个两阶段的训练过程。在第一阶段,系统学习识别与任务无关的环境变化,这些变化虽然在视频中很明显,但对完成任务本身并不重要。第二阶段则专注于提取真正的任务核心动作。这种方法的巧妙之处在于,通过语言指令的引导,系统能够自动区分哪些视觉变化是完成任务必需的,哪些只是环境噪音。
二、从视频中"看懂"动作的本质
UniVLA使用了一种被称为VQ-VAE的技术来将连续的动作压缩成离散的"动作词汇"。这就像是将复杂的音乐旋律转换成简单的音符记号,既保留了核心信息,又大大简化了处理复杂度。这些"动作词汇"就像是机器人世界的通用语言,不同的机器人虽然"口音"(硬件设计)不同,但都能理解这些基本的"词汇"含义。
研究团队还采用了DINOv2特征作为视觉表示的基础。DINOv2是一种能够理解图像中物体和空间关系的视觉模型,它就像是给机器人装上了一双能够理解世界结构的"眼睛"。与传统的像素级预测不同,DINOv2关注的是物体的语义信息和空间关系,这让系统能够更好地理解"拿起红色的杯子"这样的指令,而不是简单地模仿像素的变化。
这种方法的另一个重要优势是它的数据效率。传统方法需要大量的标注数据才能训练出可用的模型,而UniVLA可以从未标注的网络视频中学习。研究显示,即使只使用Bridge-V2数据集进行预训练,UniVLA的表现也超过了使用更大规模Open X-Embodiment数据集训练的其他方法。这就像是一个学生通过看电影学会了外语,而其他学生还在啃厚重的语法书。
三、让机器人学会"举一反三"
UniVLA的训练过程分为三个关键阶段,每个阶段都有其独特的作用。首先是任务中心潜在动作学习阶段,这个过程就像教会系统区分"有用的动作"和"无用的背景噪音"。系统学会从大量视频中提取出真正与任务完成相关的动作模式,而忽略那些虽然在视频中很明显但与任务无关的变化。
第二阶段是下一个潜在动作预测训练,这就像是训练一个能够"预测下一步该做什么"的智能助手。系统基于Prismatic-7B视觉语言模型,学会根据当前的观察和任务指令,预测下一步应该执行的潜在动作。这个过程让机器人具备了跨领域的规划能力,能够在统一的潜在空间中进行思考和决策。
第三阶段是潜在动作解码,这是将通用的"动作意图"转换为具体机器人可执行动作的过程。这就像是一个翻译器,将通用的任务指令翻译成特定机器人能够理解的"方言"。每个机器人只需要训练一个小型的解码器(仅包含1.26万个参数),就能将通用的潜在动作转换为自己的具体控制信号。
四、惊人的实验表现与真实世界验证
在LIBERO基准测试中,UniVLA展现出了令人印象深刻的性能提升。这个基准包含四个不同的任务套件,每个都测试机器人的不同能力。在空间推理任务中,UniVLA的成功率达到96.5%,相比OpenVLA的84.7%有显著提升。在物体泛化任务中,成功率从88.4%提升到96.8%。最令人印象深刻的是在长期任务规划中,UniVLA将成功率从53.7%大幅提升到92.0%,这意味着机器人在处理需要多个步骤的复杂任务时表现更加可靠。
导航任务的测试进一步证明了UniVLA的跨领域泛化能力。在Room2Room导航基准中,UniVLA达到了47.1%的成功率,相比OpenVLA的17.5%实现了近三倍的提升。更重要的是,这种提升是在只使用单帧RGB图像输入的情况下实现的,而其他一些方法需要使用历史观察序列或深度信息。
真实世界的机器人实验可能是最具说服力的验证。研究团队设计了四个不同的任务来测试机器人的各种能力。在"存放螺丝刀"任务中,机器人需要展现空间感知能力,将螺丝刀放入柜子并关门,UniVLA达到了93.3%的成功率。在"清理砧板"任务中,机器人需要使用扫帚将物品扫入畚箕,这测试了工具使用和非握持操作能力,成功率达到100%。"叠毛巾"任务测试了对可变形物体的操作能力,而"汉诺塔堆叠"任务则考验语义理解和多步骤规划能力,UniVLA分别达到了46.7%和86.7%的成功率。
五、数据规模效应与泛化能力的深度分析
UniVLA展现出了优秀的数据扩展性,这意味着随着训练数据的增加,系统性能持续改善。研究团队发现,即使是人类视频这样看似与机器人操作相距甚远的数据,也能为系统带来性能提升。从仅使用Bridge-V2数据集到加入Open X-Embodiment数据,再到最终包含人类活动视频,系统的平均性能稳步提升。在真实世界实验中,数据规模的扩大带来了持续的性能改善,这表明UniVLA能够有效地从多样化的数据源中提取有用信息。
更令人印象深刻的是系统的数据效率。在LIBERO-Goal和LIBERO-Long基准测试中,仅使用10%的训练数据,UniVLA就能达到86.3%和71.4%的成功率,这不仅超过了使用完整数据集训练的OpenVLA,也为实际应用中的快速部署提供了可能性。这种数据效率来源于潜在动作空间的紧凑性和信息密度,相比传统的2567维动作空间,UniVLA使用的16维潜在空间大大降低了学习复杂度。
泛化能力测试显示了UniVLA在面对新环境时的鲁棒性。在光照变化测试中,研究团队调暗环境光线并施加强定向照明,UniVLA仍能保持66.7%的成功率。在视觉干扰测试中,当工作台面添加了碗、笔记本和胶带等额外物品时,系统成功率为53.3%。最具挑战性的是新物体测试,将操作对象从螺丝刀替换为未见过的马克笔,UniVLA达到了86.7%的成功率,这表明系统真正学会了任务的本质而非简单的模式记忆。
六、技术创新的深层机制解析
UniVLA的核心技术创新体现在其任务中心动作分解机制上。传统的潜在动作学习方法往往将所有视觉变化都编码到动作表示中,这导致学到的表示包含了大量与任务无关的噪音。UniVLA通过引入语言条件,巧妙地将动作表示分解为任务相关和任务无关两个部分。在第一阶段训练中,系统在语言指导下学习编码与任务无关的环境变化,第二阶段则专门学习任务核心动作。
这种分解的效果通过定量分析得到了验证。使用任务中心潜在动作训练的策略在LIBERO基准上平均达到88.7%的成功率,而使用传统方法学到的任务无关动作训练的策略仅达到56.5%。特别是在长期任务LIBERO-Long中,差异更加明显:任务中心方法达到79.4%成功率,而任务无关方法几乎完全失败,仅达到0.2%。
动作解码器的设计也体现了系统的优雅性。相比传统的自回归动作生成方式,UniVLA采用基于注意力机制的并行解码,这不仅提高了推理效率,还改善了动作序列的一致性。解码器使用视觉嵌入作为查询来提取潜在动作信息,这种设计减少了多模态分布的歧义性,在LIBERO-Long任务中带来了42.1%的性能提升。
历史动作整合机制进一步增强了系统的序列决策能力。受到大语言模型中思维链推理的启发,UniVLA将历史潜在动作作为输入提示,建立了机器人策略的反馈循环。这种设计在长期任务中特别有效,在LIBERO-Long中带来3.9%的提升,在导航任务中提升更是达到16.5%。
七、与现有方法的系统性比较
UniVLA与现有方法的比较揭示了其独特优势。相比OpenVLA等直接在原始动作空间中操作的方法,UniVLA通过潜在空间规划大大降低了计算复杂度。OpenVLA需要21500个A100 GPU小时进行预训练,而UniVLA仅需960个GPU小时就能达到更好性能,这相当于用二十分之一的计算资源获得了更好的结果。
与LAPA等其他潜在动作方法相比,UniVLA的任务中心设计带来了显著优势。在所有LIBERO任务中,UniVLA都明显超过了LAPA的表现,平均提升达到29.5%。这种提升主要来源于更好的动作表示质量,任务中心的设计让学到的潜在动作更加聚焦于任务核心,减少了环境噪音的干扰。
在导航任务中,UniVLA与专门的导航模型NaVid达到了相当的性能水平,这尤其令人印象深刻,因为NaVid使用了完整的历史观察序列,而UniVLA仅使用当前观察和历史潜在动作。这表明潜在动作空间的紧凑表示能够有效捕获序列决策所需的关键信息。
实时性能分析显示,UniVLA在NVIDIA RTX 4090 GPU上能够达到10Hz的闭环推理频率,通过预测动作块(chunk size为12)实现了平滑控制。相比之下,OpenVLA由于推理延迟问题在实际部署中表现不佳,单步动作预测需要0.18秒,动作块预测需要0.68秒,这种延迟在实际机器人控制中是不可接受的。
八、潜在动作空间的可视化分析
通过可视化分析,研究团队验证了潜在动作空间确实学到了语义一致的动作表示。来自不同数据源和不同机器人的图像对,如果被分配了相同的潜在动作标签,确实展现出了语义上的一致性。比如,标记为"抓取物品"的潜在动作在Bridge数据集、RT-1数据集、LIBERO环境甚至人类视频中都对应着本质相同的抓取动作,尽管具体的执行细节可能不同。
注意力热图分析进一步揭示了任务中心潜在动作的工作机制。热图显示,学到的潜在动作主要关注任务关键区域:机器人的末端执行器和被操作的目标物体,而忽略无关的背景区域。这种空间注意力模式证明了潜在动作确实编码了任务中心的空间先验知识,专注于完成任务所必需的实体。
跨域迁移能力的可视化展示了UniVLA的一个重要特性:即使潜在动作模型从未见过LIBERO数据集,它也能准确地为该领域的图像分配合适的动作标签。这种零样本泛化能力来源于潜在动作空间的语义丰富性,它学会了动作的本质特征而非表面的视觉模式。
九、计算效率与实际部署考量
UniVLA在计算效率方面的优势为实际部署提供了重要保障。相比传统方法需要大量标注数据和长时间训练,UniVLA能够快速适应新的机器人平台。仅需训练包含1.26万参数的小型解码器,就能将预训练的通用策略适配到具体机器人上。这种轻量级适配方案大大降低了部署成本和时间。
LoRA(低秩适应)技术的使用进一步提高了训练效率。在下游任务适配中,只有约123万个参数需要更新,这相比完整模型的70亿参数是微不足道的。这种参数高效的微调方法让UniVLA能够在保持高性能的同时,快速适应新的任务和环境。
动作块预测机制也体现了系统的实用性考量。由于潜在动作设计为表示约一秒钟的动作序列,它们可以自然地解码为动作块,块大小可以根据具体机器人的控制频率灵活调整。这种设计既提高了控制的平滑性,又减少了推理频率要求,使得实时控制成为可能。
内存使用和存储需求的优化也值得关注。潜在动作的离散化表示大大减少了存储需求,16个潜在动作令牌相比原始的高维动作序列占用更少的存储空间。这对于需要存储大量演示数据的实际应用来说是一个重要优势。
十、面向未来的扩展性与局限性
尽管UniVLA取得了显著进展,但研究团队也诚实地指出了当前方法的局限性。潜在动作的固定粒度和预定义码本大小可能不是所有任务或机器人的最优选择。探索自适应机制来根据环境条件动态调整这些参数,将是未来研究的一个重要方向。
当前的评估主要集中在单臂操作任务上,而潜在动作令牌表示的动作粒度在框架内相对固定。将框架扩展到双臂人形系统或灵巧手操作可能需要更复杂和细粒度的动作空间建模。这为未来的研究提供了明确的发展方向。
语言标注的粒度要求也是一个需要考虑的因素。任务相关的潜在动作设计主要编码对任务完成关键的自主体运动,而排除非自主体动态。虽然这种设计在大多数情况下是有效的,但对于某些需要与环境动态密切交互的任务,可能需要更灵活的表示方法。
与世界模型的集成为UniVLA开辟了新的可能性。潜在动作模型的解码器本质上是一个世界模型,能够根据潜在动作预测未来观察。这为强化学习中的参考对齐和通过规划树进行测试时扩展开辟了道路,其中视觉语言模型或启发式函数可以作为奖励模型。
上下文学习能力对于提高视觉语言动作模型的性能上限至关重要。考虑到潜在动作模型能够提取连接人类和机器人操作的可迁移运动表示,将人类演示视频编码为紧凑潜在动作嵌入序列作为上下文样本的方法值得探索。这种方法可能实现零样本技能获取,无需额外的微调。
说到底,UniVLA为机器人学习领域带来了一种全新的思路。它不再执着于让每个机器人从零开始学习,而是建立了一个通用的"技能理解"框架,让不同的机器人都能共享和迁移已学到的能力。这就像是为机器人世界建立了一个通用的"技能图书馆",每个新的机器人都可以从中借阅和学习。
更重要的是,这项研究展示了如何有效利用网络上丰富的视频资源来训练机器人。不再需要昂贵的人工标注过程,也不再受限于特定机器人平台的数据稀缺问题。随着视频数据的不断增长和计算能力的提升,我们有理由相信,未来的机器人将能够更快、更便宜地学会复杂的技能,最终走进千家万户,成为真正有用的智能助手。
当然,从实验室到实际应用还有很长的路要走,但UniVLA已经为我们展示了一个充满希望的方向。也许在不久的将来,当你的家用机器人轻松地从网络视频中学会新技能时,你会想起今天这项来自香港大学的开创性研究。如果你对这项研究的技术细节感兴趣,可以访问他们的GitHub代码库或查阅完整论文来深入了解。
Q&A
Q1:UniVLA是什么?它能做什么? A:UniVLA是由香港大学开发的通用机器人学习框架,它的核心能力是让不同类型的机器人都能共享和迁移技能。通过创建"任务中心潜在动作"这种通用语言,任何机器人都能从网络视频中学习,而不需要昂贵的人工标注数据。
Q2:UniVLA会不会取代现有的机器人训练方法? A:不会完全取代,但会大大改变机器人训练方式。UniVLA主要解决的是跨机器人技能迁移和数据稀缺问题,它能让机器人训练变得更高效、更经济,但仍需要与现有方法结合使用,特别是在具体任务的精细调优方面。
Q3:普通人能使用UniVLA技术吗?有什么要求? A:目前UniVLA主要面向研究人员和机器人开发者,代码已在GitHub开源。普通消费者还无法直接使用,但这项技术为未来家用机器人的普及奠定了基础,有望让机器人更快学会家务技能并降低成本。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。