微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科院与百川智能联手推出机器人"全才":能看会说还会做的统一智能体

中科院与百川智能联手推出机器人"全才":能看会说还会做的统一智能体

2025-06-30 10:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 10:20 科技行者

这项由中科院自动化研究所的王昱奇、李星航、王文轩等研究者联合百川智能、清华大学和香港科学创新研究院的团队完成的突破性研究,发表在2025年6月的arXiv预印本平台上(论文编号:arXiv:2506.19850v1)。有兴趣深入了解技术细节的读者可以通过https://robertwyq.github.io/univla.github.io访问项目主页获取更多信息。

当我们看到科幻电影中那些能够理解人类语言、观察周围环境并执行复杂任务的机器人时,总会好奇现实中的机器人技术发展到了什么程度。如今,这个问题有了令人兴奋的答案。研究团队开发出了一个名为UniVLA的统一视觉-语言-动作模型,它就像一个真正的"全才助手",不仅能够看懂图像、理解语言,还能执行各种复杂的机器人操作任务。

传统的机器人就像专业的工匠,每个都有自己的专长,但很难在不同技能之间灵活切换。有的机器人擅长图像识别,有的精通语言理解,还有的专门负责动作执行。这种分工明确的设计虽然在单项任务上表现出色,但就像让一个只会做面包的师傅去炒菜一样,往往难以胜任跨领域的复杂工作。UniVLA的革命性突破在于,它首次将视觉、语言和动作三种能力完全统一在一个模型中,就像培养出了一个既能看懂食谱、又能识别食材、还能熟练烹饪的全能厨师。

更令人惊叹的是,UniVLA采用了一种全新的"世界模型"训练方法。它就像一个善于观察的学徒,能够通过观看大量的操作视频来学习物理世界的运作规律,理解因果关系和时间序列。这种学习方式让它在面对新任务时能够快速适应,表现出惊人的泛化能力。

一、重新定义机器人智能的统一框架

在机器人技术的发展历程中,研究者们长期面临着一个根本性挑战:如何让机器人同时具备理解视觉信息、处理语言指令和执行物理动作的能力。这就像要求一个人同时精通绘画、写作和体操,而且还要将这三种技能完美融合。

传统的解决方案通常采用"流水线"模式,就像一个分工明确的工厂。首先,视觉系统负责"看",将摄像头捕获的图像转换成计算机能理解的特征;然后,语言处理系统负责"听",解析人类的指令;最后,动作规划系统负责"做",将理解的内容转化为具体的机器人动作。这种方法虽然逻辑清晰,但就像接力赛一样,任何一个环节出现问题都会影响整体表现,而且各个模块之间缺乏深层次的协调配合。

UniVLA团队提出了一个颠覆性的解决方案:将视觉、语言和动作信息全部转换成统一的"数字令牌",就像将不同的语言全部翻译成世界语一样。具体来说,他们将图像通过特殊的编码器转换成一串数字序列,将语言指令分解成词汇令牌,将机器人的动作(比如手臂的位置、角度、抓取器的开合状态)也编码成数字序列。这样,原本完全不同性质的三种信息就能在同一个"对话"中进行交流和处理。

这种统一表示的好处就像让原本说不同语言的三个专家能够无障碍交流。视觉信息可以直接影响动作决策,语言指令可以同时指导视觉注意力和动作规划,而动作的执行结果又能反过来影响对环境的理解。这种深度融合让机器人的行为变得更加智能和协调。

研究团队采用了自回归变换器架构,这是一种在自然语言处理领域已经被证明非常成功的技术。就像一个经验丰富的小说家能够根据前面的情节预测后续的发展一样,这个模型能够根据已有的视觉、语言和动作信息预测下一步应该采取的行动。整个过程就像一场精心编排的对话,每个新的"词汇"都是基于之前所有信息的综合考量。

二、突破性的世界模型学习策略

UniVLA最令人兴奋的创新之一是引入了"世界模型"的概念。这个概念可以用一个生动的比喻来理解:就像一个聪明的孩子通过观察大人做饭来学习烹饪技巧一样,UniVLA能够通过观看大量的机器人操作视频来理解物理世界的运作规律。

传统的机器人学习需要大量的标注数据,就像学习开车需要教练在旁边不断指导一样。但是,收集这种高质量的标注数据成本极高,而且往往受限于特定的场景和任务。世界模型的方法则完全不同,它就像让机器人成为一个善于观察的"无声学徒",仅仅通过观看就能学到很多东西。

具体来说,世界模型的训练过程是这样的:给定当前的观察图像和语言指令,模型需要预测接下来会发生什么。这就像看电影时试图猜测下一个镜头的内容一样。通过这种训练,模型逐渐学会了理解物理世界的因果关系、物体的运动规律以及不同动作可能产生的后果。

这种学习方式的威力在后续的实验中得到了充分验证。研究团队发现,经过世界模型预训练的UniVLA在学习新任务时表现出了惊人的效率。在CALVIN基准测试中,使用了世界模型预训练的版本比没有预训练的版本平均长度从1.46提升到4.61,这意味着它能够完成的连续任务数量增加了两倍多。这就像一个有经验的厨师能够快速掌握新菜谱,而新手则需要从基础开始慢慢学习。

更令人印象深刻的是,世界模型预训练还显著提高了数据效率。在仅使用10%训练数据的情况下,预训练版本的性能(3.19)远超过了未预训练版本使用全量数据的表现(1.46),甚至超过了一些知名的基线方法如GR-1(2.00)和RoboVLMs(2.52)。这就像一个有基础的学生用一半的时间就能掌握其他人需要全部时间才能学会的知识。

三、令人瞩目的多任务表现能力

UniVLA的多任务能力就像一个真正的全能助手,它不仅能够执行机器人操作任务,还能进行视觉推理、空间定位和未来预测等多种任务。这种多功能性源于其统一的令牌表示方法,使得同一个模型能够在不同的任务之间灵活切换。

在机器人操作方面,UniVLA在多个权威基准测试中都取得了突破性的成绩。在LIBERO基准测试中,它达到了95.5%的平均成功率,相比之前最好的方法π0-FAST的85.5%有了显著提升。LIBERO包含四个不同的测试套件,分别考察空间推理、物体泛化、目标条件行为和长时序任务。UniVLA在所有四个维度都表现出色,特别是在长时序任务上,成功率从之前的69.0%大幅提升到94.0%,这表明它具备了处理复杂、多步骤任务的强大能力。

在CALVIN基准测试中,UniVLA同样表现亮眼。这个测试专门评估长时序、语言条件下的机器人操作能力,包含34个不同的操作任务和1000个独特的语言指令。在ABC→D设置下,UniVLA能够连续完成4.41个任务,在ABCD→D设置下能够连续完成4.63个任务,都创下了新的记录。这就像一个熟练的家务助手能够根据主人的指令连续完成多项不同的家务工作,而不会在中途出错或混淆。

在SimplerEnv基准测试中,这个专门评估从真实世界视频数据训练的模型泛化能力的测试集上,UniVLA将平均成功率从42.7%提升到69.8%。特别值得注意的是,它在一些之前被认为非常困难的任务上取得了重大突破,比如"把勺子放在毛巾上"的成功率从16.7%提升到83.3%,"把胡萝卜放在盘子里"的成功率从25.0%提升到66.7%。

除了纯粹的机器人操作,UniVLA还展现出了令人印象深刻的多模态能力。它能够进行空间定位,比如在复杂的厨房场景中准确识别和定位各种物品的位置。它还能进行视觉预测,根据当前的观察和指令预测未来可能发生的场景变化。这些能力的结合使得UniVLA不仅仅是一个执行工具,更像是一个具备空间理解和时序推理能力的智能助手。

四、技术架构的精妙设计

UniVLA的技术架构就像一座精心设计的现代建筑,每个组件都有其独特的功能,同时又完美地融合在整体框架中。整个系统基于85亿参数的自回归变换器架构,这个规模足以处理复杂的多模态任务,同时又不会因为过于庞大而难以训练和部署。

在视觉处理方面,UniVLA采用了向量量化(VQ)编码器将图像转换成离散令牌。这个过程就像将一幅连续的油画转换成由彩色积木拼成的马赛克画一样。虽然看起来是由离散的小块组成,但整体的视觉信息得到了很好的保留。具体来说,图像通过空间压缩因子为8的VQ编码器进行处理,这意味着一张图像被转换成了原尺寸八分之一的令牌网格,每个令牌代表原图像中一个8x8像素区域的抽象表示。

对于动作编码,研究团队采用了FAST(频域动作令牌化)方法,这是一种创新的动作表示技术。传统的动作表示通常直接使用关节角度或末端执行器位置,但FAST方法将动作序列转换到频域,然后进行离散化。这就像将一首复杂的交响乐分解成不同频率的音符一样,能够更好地捕捉动作的时序特性和平滑性。这种编码方式使得动作令牌的词汇表大小为1024,替换了语言令牌器的最后1024个令牌ID。

在序列建模方面,UniVLA采用了因果多模态序列的设计理念。这意味着模型在预测下一个令牌时,只能看到当前时刻之前的信息,就像现实生活中我们只能基于过去和现在的信息来做决策一样。这种设计不仅符合物理世界的时序特性,还使得模型能够进行在线推理,实时响应环境变化。

为了明确区分不同模态的边界,系统引入了特殊的标记令牌。比如使用"boi"(图像开始)和"eoi"(图像结束)来标记图像令牌的边界,使用"boa"(动作开始)和"eoa"(动作结束)来标记动作令牌的边界。这就像在一篇多语言文章中使用不同的标点符号来区分不同语言的段落一样,确保模型能够正确理解不同类型信息的范围和含义。

五、训练策略的层次化设计

UniVLA的训练过程采用了精心设计的两阶段策略,就像培养一个全能型人才需要先打好基础再进行专业化训练一样。这种层次化的训练方法确保了模型既具备广泛的通用能力,又能在特定任务上表现出色。

第一阶段是后训练阶段,重点是世界模型学习。在这个阶段,研究团队收集了总计62.2万个来自各种机器人数据集的视频,涵盖了从真实世界到仿真环境的广泛场景。这就像让一个学徒观看成千上万个不同师傅的工作过程,从中学习各种操作的通用规律。训练过程中,模型需要根据当前观察和语言指令预测接下来的视觉内容,损失函数仅计算视觉令牌上的预测误差。

这个阶段的训练持续3万步,批量大小为64,使用32张A100 GPU进行训练,整个过程大约需要4-5天时间。虽然听起来时间很长,但考虑到模型需要学习的知识量之大,这个时间投入是完全值得的。就像一个医学生需要多年的学习才能掌握基础医学知识一样,世界模型的学习也需要足够的时间来消化和理解大量的视觉-语言-动作关联信息。

第二阶段是精调阶段,专注于策略学习。在这个阶段,模型使用两帧交错的视觉-动作序列进行训练,动作块大小设置为10。这意味着模型每次预测一个包含10个连续动作的序列,这种设计既保证了动作的连贯性,又避免了过于频繁的预测导致的不稳定性。损失函数在这个阶段仅计算动作令牌上的预测误差,确保模型专注于学习高质量的动作生成能力。

训练过程采用余弦退火学习率调度,起始学习率为8×10??。这种学习率调度就像登山时的步伐调整:开始时步子可以大一些快速接近目标,随着接近最优解逐渐减小步长,确保能够稳定地收敛到最佳性能。对于不同的基准测试,精调的具体设置也有所调整:CALVIN基准使用8千步训练,LIBERO基准同样使用8千步,而SimplerEnv基准则使用2万步,批量大小根据具体情况在128到192之间调整。

六、跨领域应用的惊人表现

UniVLA的能力并不局限于传统的机器人操作任务,它还展现出了令人惊叹的跨领域应用潜力。最引人注目的例子是它在自动驾驶领域的应用,这就像一个原本专精于室内家务的管家突然展现出了驾驶汽车的天赋一样令人惊讶。

在NAVSIM自动驾驶基准测试中,UniVLA采用纯粹的自回归、基于令牌的框架来处理驾驶任务,将驾驶问题建模为对离散化多模态令牌的因果序列预测。值得注意的是,这个版本的UniVLA并没有在驾驶视频上进行预训练,仅仅是在下游策略基准上进行了精调。即便如此,它仍然取得了令人印象深刻的成绩。

具体来说,在NAVSIM测试集上,UniVLA仅使用前视摄像头输入就达到了96.9%的无碰撞率(NC)、91.1%的驾驶路径依从率(DAC)、76.8%的进度分数(EP)和91.7%的时间到碰撞分数(TTC)。这些成绩虽然略低于一些专门为自动驾驶设计的方法,但考虑到它没有使用激光雷达、没有采用鸟瞰图表示、也没有进行多传感器融合,这样的表现已经相当令人印象深刻了。这就像一个从未专门学习过驾驶的通用人工智能,仅凭借通用的理解能力就能够在复杂的交通环境中安全行驶。

在真实世界的机器人应用中,研究团队还在ALOHA平台上进行了实验验证。ALOHA是一个双臂机器人平台,配备了三个摄像头视角:左手腕、右手腕和高角度俯视。实验涵盖了8个不同的真实世界任务,包括折叠衣物、清理桌面、收纳眼镜、食物包装、倒水、清洁黑板、插入插头和制作汉堡包。这些任务覆盖了从精细操作到粗略动作的广泛范围,每个任务收集了大约500个轨迹的训练数据。

令人惊喜的是,即使在真实世界的复杂环境中,世界模型预训练依然展现出了显著的效果。这证明了UniVLA学到的不仅仅是仿真环境中的规律,而是更深层次的物理世界理解能力。这种泛化能力就像一个在书本上学习了大量理论知识的学生,能够将这些知识成功应用到实际的操作中。

七、深入的实验分析与发现

研究团队进行了大量的消融实验来深入理解UniVLA各个组件的作用机制,这些实验就像解剖一台精密机器来理解每个零件的功能一样重要。这些分析不仅验证了设计选择的合理性,还为未来的改进方向提供了宝贵的洞察。

在后训练策略的对比实验中,研究团队比较了四种不同的方法:纯动作预测、文本到图像生成、视频预测和世界模型。结果显示,由于不同任务间动作空间的不一致性,纯动作学习表现出较低的可迁移性,甚至对性能产生负面影响。这就像让一个习惯了钢琴键盘布局的钢琴师去弹古筝一样,技能难以直接迁移。

相比之下,大多数后训练方法都显著提升了策略学习效果,突出了视觉学习在可迁移性方面的重要作用。其中,世界模型后训练方法产生了最显著的改进,在泛化能力和长时序规划能力方面都表现出色。与文本到图像训练的对比强调了在视频数据中建模时序动态的重要性,而与仅视频训练的对比则突出了文本指导在状态转换中的关键作用。

在数据效率和训练效率的分析中,后训练的价值得到了进一步验证。在CALVIN基准上,仅使用10%精调数据的UniVLA(3.19)就超过了一些知名方法如GR-1(2.00)和RoboVLMs(2.52)使用全量数据的表现。这种数据效率的提升对于实际应用具有重要意义,因为在真实世界中收集高质量的机器人训练数据往往成本高昂且耗时。

训练效率的提升同样显著。在CALVIN基准上,经过后训练的模型在2千步训练后就能达到4.21的性能,而未经后训练的模型即使训练8千步也只能达到1.46的性能。在SimplerEnv-Bridge测试中,RoboVLMs需要5万步训练才能达到37.5%的成功率,而UniVLA仅需1.2万步就能达到64.6%的成功率。这种效率提升就像有经验的厨师能够快速掌握新菜谱,而新手则需要更多的练习时间。

历史上下文的重要性也得到了验证。研究发现,包含历史观察和动作的上下文窗口显著提升了性能,从没有历史信息的4.26提升到包含历史信息的4.61。然而,延长历史窗口超过一定长度后收益递减,这符合马尔可夫性质的假设,即最近的观察包含了做出决策所需的大部分信息。

视觉预测的作用也得到了独立验证。即使在没有后训练的情况下,在精调阶段加入视觉预测损失仍然能够显著提升性能,这表明自回归建模的统一框架本身就具有将世界模型学习整合到策略学习过程中的能力。这种发现为简化训练流程提供了可能性。

八、技术挑战与未来展望

尽管UniVLA取得了令人瞩目的成果,但研究团队也诚实地指出了当前面临的挑战和限制。这种坦诚的态度体现了严谨的科学精神,也为未来的研究方向提供了明确的指引。

计算资源的限制是当前面临的主要挑战之一。由于计算资源的约束,团队对后训练可扩展性的探索仍处于早期阶段。虽然初步结果显示出了良好的前景,但要充分发挥大规模视频数据的潜力,还需要更多的计算投入和时间投资。这就像探索一个巨大的宝藏库,目前只是看到了冰山一角,还有更多的财富等待发掘。

与强化学习范式的整合是另一个重要的研究方向。当前的UniVLA主要基于监督学习和模仿学习,虽然在已有任务上表现出色,但在处理全新的、没有见过的任务时可能需要额外的探索和试错能力。将统一多模态框架与强化学习相结合,可能会产生更加强大和适应性更强的机器人智能。

模型的泛化能力虽然已经相当不错,但在面对与训练数据分布差异较大的环境时仍然存在挑战。这是所有机器学习系统都面临的根本性问题,需要通过更多样化的训练数据、更好的域适应技术和更强的推理能力来解决。

在实际部署方面,85亿参数的模型规模虽然相比一些大型语言模型来说并不算太大,但对于实时机器人控制来说仍然具有一定的计算挑战。未来需要在保持性能的前提下进行模型压缩和优化,或者开发更高效的推理架构。

数据收集和标注的成本依然是一个实际考虑因素。虽然世界模型的方法减少了对精确动作标注的依赖,但高质量的视频数据收集仍然需要投入大量的时间和资源。开发更加自动化的数据收集方法,以及利用互联网上现有的视频资源,将是降低成本的重要途径。

安全性和可靠性是机器人系统在真实世界应用中必须考虑的关键因素。虽然实验结果显示了良好的性能,但在关键应用场景中,还需要更加严格的安全验证和错误处理机制。这包括对意外情况的处理、对模型预测不确定性的量化,以及在发生错误时的安全停止机制。

说到底,UniVLA代表了机器人人工智能领域的一个重要里程碑。它首次成功地将视觉、语言和动作三种不同的模态统一在一个端到端的框架中,展现出了令人印象深刻的多任务处理能力和跨领域泛化能力。更重要的是,它开创性地引入了世界模型的训练策略,为机器人学习开辟了一条新的道路。

这项研究的意义远不止于技术本身。它为我们描绘了一个未来的图景:机器人不再是只能执行固定程序的机械设备,而是能够理解环境、响应指令、学习新技能的智能助手。这样的机器人可能会在家庭服务、医疗护理、工业生产等各个领域发挥重要作用,真正成为人类的得力伙伴。

当然,从实验室的成功到实际应用的普及还有很长的路要走。技术的成熟、成本的降低、安全性的保障、伦理问题的解决,这些都需要时间和持续的努力。但是,UniVLA已经为我们展示了一个充满希望的开始,让我们看到了通用机器人智能的可能性。

对于普通人来说,这项技术的发展意味着什么?在不远的将来,我们可能会看到更加智能和易用的家用机器人,它们能够理解我们的语言指令,观察我们的需求,并执行各种复杂的家务任务。在工业领域,这种技术可能会让机器人更容易编程和部署,降低自动化的门槛。在医疗和护理领域,智能机器人可能会成为医护人员的重要助手,提供更加精准和个性化的服务。

研究团队的这项工作不仅推动了技术的边界,也为整个人工智能和机器人学领域树立了新的标杆。它证明了统一多模态学习的可行性,验证了世界模型在机器人学习中的价值,并为未来的研究提供了宝贵的经验和洞察。有兴趣了解更多技术细节的读者可以访问项目主页或查阅原论文,相信这项工作会激发更多创新思路和突破性进展。

Q&A

Q1:UniVLA是什么?它与传统机器人有什么不同? A:UniVLA是一个统一的视觉-语言-动作模型,就像一个"全才助手"。与传统机器人不同,它能同时理解图像、处理语言指令和执行动作,而不需要分别的视觉系统、语言系统和动作系统。这让它在处理复杂任务时更加智能和协调。

Q2:世界模型训练有什么特别之处?会不会让机器人更智能? A:世界模型让机器人像"观察学习"的学徒一样,通过观看大量操作视频来理解物理世界的规律,而不需要人工标注每个动作。实验证明,这种方法让机器人学习新任务的效率提高了2-3倍,确实让机器人变得更智能。

Q3:普通人什么时候能用上这种技术?有什么实际应用? A:目前UniVLA还在研究阶段,但已经在真实机器人上验证成功。未来可能应用于家庭服务机器人(做家务、整理物品)、医疗护理助手、工业自动化等领域。预计5-10年内可能会看到基于类似技术的商用产品。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-