
这项由清华大学人工智能产业研究院的郑金亮、李建雄等研究人员联合上海人工智能实验室、北京大学共同完成的突破性研究,于2025年10月发表在arXiv预印本平台上,论文编号为arXiv:2510.10274v1。感兴趣的读者可以通过该编号查询完整论文内容。
在机器人世界里,有一个困扰科学家们很久的问题:就像人类需要学会使用不同的工具一样,每种机器人都有自己独特的"个性"和"习惯"。有的机器人擅长精细操作,有的适合搬运重物,有的专门用于清洁,还有的负责驾驶。更复杂的是,即使是相同功能的机器人,因为制造商不同、摄像头位置不同、控制方式不同,它们之间也无法互相"交流"或共享经验。
这就好比你精心培训了一个厨师,但这个厨师只会在你家的厨房里做菜。一旦换到别人家的厨房,哪怕只是炉灶的位置稍有不同,这个厨师就完全不知所措了。在机器人领域,这种现象被称为"异质性问题",它严重阻碍了机器人技术的发展。
现在,清华大学的研究团队提出了一个令人兴奋的解决方案:X-VLA模型。这个模型的神奇之处在于,它能够像一个经验丰富的万能师傅一样,无论面对什么样的机器人平台,都能快速适应并发挥出色的表现。更令人惊讶的是,这个模型只有0.9B参数(相当于9亿个可调节的"开关"),却在6个仿真环境和3个真实机器人平台上都创造了最佳性能记录。
一、软提示技术:给每台机器人一张专属的"身份证"
传统的机器人训练方法就像是强迫所有不同性格的人都按照同一套行为准则生活。结果自然是一团糟——有些人适应得还不错,有些人则完全无法发挥自己的特长。清华团队意识到,与其强迫所有机器人都变得一样,不如让AI模型学会识别和适应每种机器人的独特性。
他们的解决方案是"软提示"技术。可以把这个技术想象成给每台机器人制作一张详细的身份证。这张身份证不是简单地写着"姓名:扫地机器人",而是包含了这台机器人的所有重要特征:它的摄像头安装在什么位置,它的机械臂可以做哪些动作,它通常在什么环境下工作,甚至它的"脾气"如何。
更妙的是,这些"身份证"不是工程师预先写好的,而是AI模型在学习过程中自动生成的。就像一个经验丰富的管理者,在与不同员工合作的过程中,逐渐摸清每个人的工作习惯和特点,并据此调整管理方式。
在实际运作中,当X-VLA模型遇到一台新的机器人时,它首先会查看这台机器人的"身份证"。然后,模型的主体部分(相当于核心的决策大脑)会根据这些特征信息,微调自己的行为模式。这样,同一个AI大脑就能够同时服务于完全不同的机器人,而每台机器人都能得到最适合自己的指令。
研究团队在多种不同的方法中进行了对比实验。他们尝试了传统的为每种机器人设计专门输出接口的方法,也试验了让AI模型直接从文字描述中理解机器人特征的方法。结果发现,软提示技术不仅效果最好,训练过程也最稳定。这就好比在教学中发现,给每个学生制作个性化学习卡片的效果,远远超过了一刀切的统一教学方法。
二、架构创新:像搭积木一样组装AI大脑
X-VLA模型的整体架构可以比作一个设计精良的多功能工作台。这个工作台需要同时处理三种完全不同类型的信息:高分辨率的视觉信息(相当于看到的画面)、自然语言指令(相当于听到的命令),以及机器人当前的状态信息(相当于身体的感知)。
传统的方法通常是把所有信息都塞给同一个处理器,就像让一个人同时用眼睛看电影、用耳朵听音乐、用手做数学题。结果往往是什么都做不好。清华团队采用了一种更聪明的分流处理策略。
对于高维度的视觉信息,他们使用了预训练的视觉-语言模型作为主要处理器。这个处理器专门负责理解图像内容和语言指令之间的关系,就像一个专门的翻译员,能够准确理解"把红色杯子放到桌子上"这样的复合指令。与此同时,对于那些辅助性的视觉信息(比如机器人手腕上的摄像头画面),他们使用了独立的视觉处理器,避免干扰主要的理解过程。
对于低维度的信息,比如机器人关节的当前角度、预期的动作序列等,研究团队将它们与时间信息结合起来,通过轻量级的线性层进行处理。这种设计的巧妙之处在于,它既保持了信息处理的专业性,又确保了不同类型信息之间能够有效融合。
整个架构的核心是标准的Transformer编码器堆叠。Transformer可以理解为一种特别善于处理序列信息和找出信息间关联的AI结构。通过简单地堆叠这些标准组件,X-VLA模型获得了出色的可扩展性。这意味着如果需要处理更复杂的任务或更大的数据集,只需要增加更多的Transformer层即可,就像搭积木一样简单直接。
三、训练策略:两阶段成长的智慧设计
X-VLA的训练过程可以比作培养一个优秀的实习管理者的过程,分为两个阶段:通用能力培养和专业适应。
第一阶段是预训练阶段,就像让实习生在不同部门轮岗,积累通用的管理经验。在这个阶段,研究团队收集了29万个机器人操作案例,这些案例来自7个不同的硬件平台,涵盖了从单臂机器人到双臂协作机器人的各种配置。更重要的是,这些数据的摄像头设置、控制频率、任务类型都大不相同,为模型提供了极其丰富的学习素材。
在预训练过程中,软提示技术发挥了关键作用。每当模型遇到来自不同平台的数据时,它会自动调用对应的"身份证",并根据这些特征调整自己的理解和决策过程。这样,模型逐渐学会了如何在保持核心决策能力的同时,灵活适应不同硬件平台的特殊要求。
第二阶段是领域适应阶段,类似于让管理者专门负责某个特定部门。当需要将X-VLA部署到一个全新的机器人平台上时,研究团队采用了一个巧妙的两步适应策略。
首先是"提示预热"步骤。此时,模型的主体参数保持冻结,只有新的软提示参数可以更新。这就像让一个有经验的管理者先花时间了解新部门的具体情况,而不急于改变自己的基本管理理念。通过这种方式,新的软提示能够有效编码新平台的特征,为下一步的联合训练打好基础。
接下来是"联合策略适应"步骤。在这个阶段,软提示和主体模型参数都会进行更新,但更新的学习率经过精心设计。对于软提示和视觉-语言模块,研究团队使用了较低的学习率,以避免破坏预训练阶段积累的宝贵知识。这种设计哲学反映了一个重要观察:预训练的视觉-语言模型已经具备了强大的通用理解能力,过度的修改可能适得其反。
四、数据处理的精妙艺术:让机器人说同一种"语言"
在机器人领域,不同平台之间的数据差异就像不同国家的语言差异一样复杂。清华团队在数据处理方面的创新,可以比作设计了一套机器人世界的"世界语"。
首先是动作表示的标准化。不同的机器人制造商往往使用不同的坐标系和控制方式。有些机器人习惯用关节角度来描述动作,有些则使用末端执行器的位置和姿态。研究团队选择了一种统一的表示方法:使用末端执行器的笛卡尔坐标位置、用Rotate6D表示法编码的绝对旋转角度,以及二进制的夹爪状态。
这种选择并非随意。笛卡尔坐标系是人类最直观理解空间位置的方式,而Rotate6D表示法能够避免传统欧拉角和四元数表示中的数学奇点问题。就像选择一种既准确又不容易产生歧义的语言来描述动作一样。
更有趣的是,研究团队发现原始的机器人动作轨迹往往包含太多细节,反而不利于学习。这就像教人开车时,如果过分强调每个细微的方向盘调整,反而会让学习者迷失在技术细节中,忘记了驾驶的基本原理。因此,他们采用了"意图抽象"的策略,通过时间下采样的方式,将详细的动作轨迹压缩为30个关键节点,概括4秒钟内的主要动作意图。
在数据采样策略方面,研究团队也展现了深刻的洞察。传统的轮询采样方法(依次从每个数据源取样)虽然看似公平,但实际效果并不理想。他们设计了一种平衡采样策略,不仅在不同领域之间进行采样,还确保在每个领域内部也能涵盖不同的轨迹。这种方法有效缓解了数据分布偏差,避免了模型过度拟合到占主导地位的数据源。
五、性能表现:碾压式的全面胜利
X-VLA模型的性能表现可以用"碾压式胜利"来形容。在6个仿真基准测试中,该模型不仅全面超越了现有的最佳方法,更在多个任务上创造了新的记录。
在机器人操作的基础能力测试中,X-VLA在Simpler-WidowX任务上达到了96%的成功率,在LIBERO任务集上更是达到了98%的惊人成功率。这些数字意味着什么呢?简单来说,就是X-VLA能够像人类一样,几乎完美地执行各种日常操作任务,从抓取物品到精确放置,从简单搬运到复杂组装。
更令人印象深刻的是,X-VLA在跨环境适应方面的表现。在Calvin基准测试中,该模型需要执行一系列连续的复杂任务,就像完成一个包含多个步骤的烹饪食谱。X-VLA不仅能够完成单个步骤,还能保持整个任务序列的连贯性,这在机器人领域是一个极其困难的挑战。
在自动驾驶仿真测试NAVSIM中,X-VLA同样表现出色,PDMS综合评分达到87.3分,超越了多个专门为自动驾驶设计的算法。这个结果特别令人惊讶,因为X-VLA本质上是一个通用的机器人控制模型,而不是专门的自动驾驶系统。这种跨领域的优秀表现证明了该模型确实学会了某些基础的空间理解和运动规划能力。
在真实世界的机器人测试中,X-VLA的表现同样出色。研究团队在三个不同的硬件平台上进行了测试:WidowX用于基础抓取任务,AgileX用于精细操作任务,AIRBOT用于参数高效微调实验。每个平台都有不同的摄像头配置和控制接口,但X-VLA都能快速适应并达到优秀的性能水平。
六、布料折叠:展现真正的灵巧操作能力
在所有的测试任务中,最令人瞩目的可能是布料折叠任务。布料折叠对机器人来说是一个极其困难的挑战,因为布料是软体,其形状和行为难以预测,需要机器人具备精细的力控制能力和复杂的空间推理能力。
为了训练X-VLA完成这个任务,研究团队创建了一个高质量的布料折叠数据集——Soft-FOLD。这个数据集包含1200个折叠轨迹,涵盖了不同尺寸和颜色的布料。更重要的是,他们将折叠过程分解为两个阶段:首先是将杂乱的布料摊平,然后是将摊平的布料整齐折叠。
这种分阶段的设计体现了深刻的任务理解。摊平阶段需要机器人处理高度随机的布料状态,学习通用的展开策略。只有当布料的关键特征点(如角落和边缘)清晰可见时,机器人才会进入第二阶段的精确折叠过程。
经过训练的X-VLA在布料折叠任务上达到了近乎100%的成功率,每小时能够完成33次完整的折叠操作。这个性能水平与闭源的商业模型相当,而后者很可能使用了规模更大、质量更高的训练数据。
七、参数高效微调:用1%的参数实现完整性能
X-VLA最令人惊喜的特性之一是其参数高效微调能力。通过只调整模型中1%的参数(约900万个),X-VLA就能在新的机器人平台上达到与完整微调相当的性能。
这种能力的价值是巨大的。在传统的机器人训练中,为每个新平台训练一个完整的模型需要大量的计算资源和时间成本。而X-VLA的参数高效微调方法意味着,用户可以用很少的演示数据和计算资源,就能让一个预训练的强大模型快速适应新的硬件平台。
在LIBERO基准测试中,仅调整1%参数的X-VLA达到了93%的成功率,而完整微调的某些商业模型的成功率也不过94%左右。在Simpler-WidowX任务上,参数高效微调的成功率达到54%,这个性能水平在几年前还需要专门为该平台设计和训练的完整模型才能达到。
这种高效的适应能力还体现在数据需求上。在一些实验中,X-VLA仅用10个演示样本就能达到91%的成功率,而用50个演示样本时成功率能达到93%。这意味着即使在数据稀缺的环境中,X-VLA也能快速学会新任务。
八、技术深度剖析:流匹配与注意力机制的巧妙结合
从技术实现角度来看,X-VLA采用了流匹配(Flow Matching)作为动作生成的核心机制。这种方法可以理解为一种特殊的"去噪"过程:模型从随机噪声开始,通过学习到的"流场"逐步将噪声转换为精确的机器人动作序列。
流匹配相比传统的直接预测方法有几个重要优势。首先,它能够处理动作空间中的多模态分布。在现实世界中,完成同一个任务往往有多种可行的动作方案,直接预测方法容易产生多个方案的平均结果,导致所有方案都不可行。而流匹配方法能够保持这种多样性,让模型在执行时选择其中一种可行方案。
其次,流匹配过程本身具有一定的鲁棒性。即使初始噪声略有不同,经过流匹配过程后通常都能收敛到合理的动作序列。这种特性对于机器人控制来说特别重要,因为真实环境中总是存在各种不确定性。
在注意力机制的设计上,X-VLA使用了标准的自注意力Transformer编码器,但在输入处理上做了精心设计。不同模态的信息(视觉、语言、本体感觉、动作)通过专门的编码器处理后,都转换为统一的高维表示,然后通过自注意力机制进行交互融合。
软提示在这个过程中起到了"调味料"的作用。它们不改变基本的信息处理流程,但会影响注意力的分布模式,让模型更关注与当前硬件平台相关的信息特征。这种设计的巧妙之处在于,它既保持了模型的通用性,又实现了平台特异性的优化。
九、扩展性与未来潜力:走向真正的通用机器人智能
X-VLA展现出的扩展性可能是其最令人兴奋的特征。研究团队的实验表明,无论是增加模型规模、增加数据多样性还是增加数据量,模型性能都会持续提升,而且在他们测试的最大配置下仍然没有看到性能饱和的迹象。
这种扩展规律意味着什么呢?它暗示着随着计算资源和数据资源的增长,X-VLA类型的模型有潜力达到更加令人惊叹的性能水平。就像大语言模型通过不断增大规模而展现出涌现能力一样,大规模的视觉-语言-动作模型也可能会出现质的飞跃。
从技术架构的角度看,X-VLA的设计确实为进一步扩展奠定了坚实基础。标准Transformer编码器的堆叠设计意味着增加计算能力就像增加积木块一样简单。软提示机制则为支持更多硬件平台提供了高效的解决方案——每增加一个新平台,只需要添加一组新的软提示参数,而不需要修改庞大的主体模型。
研究团队还展示了X-VLA在多领域联合适应方面的能力。他们发现,同时对多个不同的机器人平台进行微调,不仅能保持各个平台上的性能,有时甚至会因为跨领域知识迁移而获得性能提升。这个发现暗示了一种可能性:未来的通用机器人智能可能不是为每个应用场景训练专门模型,而是训练一个能够灵活适应各种场景的统一模型。
十、深层洞察:重新定义机器人学习范式
X-VLA的成功不仅仅是技术指标上的突破,更代表了机器人学习范式的深刻转变。传统的机器人开发遵循的是"一个平台一个模型"的思路,就像为每种特定用途设计专门工具一样。而X-VLA展示的是"一个模型多个平台"的新范式,更像是培养一个能够学会使用各种工具的通用技能人才。
这种范式转变的深层意义在于,它改变了我们思考机器人智能的方式。与其将机器人智能看作一系列特定技能的集合,X-VLA暗示机器人智能更像是一种可以灵活适应不同体现形式的通用能力。这种观点与认知科学中关于人类智能的理解不谋而合——人类智能的核心不在于掌握特定的技能,而在于快速学习和适应新环境的元认知能力。
从工程实践的角度看,X-VLA的成功也为机器人产业的发展指明了新方向。传统的机器人开发往往需要大量的定制化工程工作,每个新项目都几乎是从零开始。而基于X-VLA这样的通用基础模型,机器人应用开发可能会变得更像软件开发——在统一的基础平台上进行配置和微调,而不是重新发明轮子。
这种转变的经济意义也不容忽视。当机器人智能从定制化转向标准化时,开发成本会大幅降低,部署周期会显著缩短。这可能会加速机器人技术在各行各业的普及,让机器人从高科技实验室走向普通工厂和家庭。
另一个重要的洞察是关于数据的价值。X-VLA的成功表明,异质化的机器人数据并不是训练的障碍,而是宝贵的资源。不同平台、不同任务、不同环境的数据为模型提供了丰富的学习素材,让它能够掌握更加通用和鲁棒的能力。这个发现鼓励整个机器人社区更加开放地分享数据和资源,因为每个人贡献的数据都能让整个生态系统受益。
说到底,X-VLA代表的不仅仅是一个技术突破,更是机器人学习理念的根本性革新。它告诉我们,真正的机器人智能不应该被硬件的限制所束缚,而应该像水一样,能够适应任何容器的形状。这种灵活性和适应性,可能正是通向真正智能机器人的关键所在。
通过将复杂的技术挑战转化为优雅的工程解决方案,清华大学的研究团队不仅推动了学术前沿,更为整个机器人产业的未来发展奠定了重要基础。对于所有关注人工智能和机器人技术发展的人来说,X-VLA都值得持续关注,因为它很可能预示着机器人智能发展的下一个重要阶段。
Q&A
Q1:X-VLA模型相比传统机器人控制方法有什么优势?
A:X-VLA最大的优势是"一个模型统治所有平台"。传统方法需要为每种机器人单独开发控制程序,就像为每个厨房都要重新培训厨师。而X-VLA就像培养了一个万能厨师,无论换到什么厨房都能快速适应并做出好菜。它只用0.9B参数就在6个仿真环境和3个真实机器人上都创造了最佳成绩。
Q2:软提示技术是如何让X-VLA适应不同机器人的?
A:软提示技术就像给每台机器人制作专属的"身份证"。这张身份证记录了机器人的所有特征:摄像头位置、机械臂能力、工作环境等。当X-VLA遇到新机器人时,会先查看身份证,然后调整自己的行为模式。关键是这些身份证不是人工编写的,而是AI在学习过程中自动生成的,就像经验丰富的管理者逐渐摸清每个员工的特点一样。
Q3:X-VLA在布料折叠任务上表现如何?
A:X-VLA在布料折叠这个极具挑战性的任务上达到了近100%的成功率,每小时可完成33次完整折叠。布料折叠对机器人来说特别困难,因为布料是软体且形状难以预测。研究团队将任务分为两阶段:先摊平杂乱布料,再进行精确折叠。X-VLA仅用1200个训练样本就达到了与商业闭源模型相当的性能水平。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。