微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿里Qwen团队打造的"机器人大脑"：一个模型，让机器人学会搬东西、找路、理解世界

机器人技术视觉-语言-动作模型统一具身智能框架

阿里Qwen团队打造的"机器人大脑"：一个模型，让机器人学会搬东西、找路、理解世界

作者：科技行者

2026-06-03 12:46

分享至：

阿里Qwen团队发布Qwen-VLA，一套模型同时驾驭机器人抓取、室内导航与视觉理解，通过具身感知提示词统一多平台控制，多项基准超越专科模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 12:46 • 科技行者

这项由阿里巴巴Qwen团队主导的研究成果发表于2026年5月，论文编号为arXiv:2605.30280v1，归属计算机科学机器人学方向，有兴趣深入了解的读者可以通过该编号查询完整论文。

**机器人的"通才困境"**

假设你家里有一个机器人管家。你让它去厨房把桌上的红色杯子拿来，它麻利地完成了。接着你让它去隔壁房间找你的钥匙，它却一动不动——因为它根本不知道该怎么"走路"去找。你再让它看看桌上摆的什么东西，它又懵了，因为它只会"拿东西"，不会"看东西"。

这就是今天机器人技术面临的核心尴尬：大多数机器人系统都是高度专门化的"专科生"。专门做桌面抓取的模型不会导航，专门负责在室内找路的模型不会动手操作物体，能理解图片和文字的视觉语言模型又无法转化为实际的肢体动作。这种碎片化格局导致机器人的能力极为局限，难以在真实生活环境中灵活应对各种突发状况。

Qwen团队提出的Qwen-VLA，正是针对这个根本性问题给出的一种系统性回答。他们的思路是：与其让每种能力分别由一个独立的系统负责，不如把所有能力——手部动作控制、室内导航行走、对图像和语言的理解推理——全部装进同一个模型里，让它成为一个真正意义上的"通才"。

**统一的感知与行动框架**

要理解Qwen-VLA的核心设计思想，可以用人类学习驾驶的过程来类比。一个新手司机需要同时掌握多件事：看懂路况（视觉理解），听懂导航指令（语言理解），然后协调手脚完成方向盘转动、踏板踩踏等具体动作（连续动作生成）。这三件事在人类大脑里并不是三个完全独立的模块，而是高度整合、相互配合的。Qwen-VLA的设计哲学正是如此。

从技术架构上讲，Qwen-VLA由两大核心部件构成。第一部件是Qwen3.5这个视觉语言模型主干，它负责"看"和"理解"：接收来自摄像头的图像帧，读入人类用自然语言写成的任务指令，再结合当前机器人平台的具体描述，形成对整个情境的综合理解。这个主干模型的工作方式，类似于人类大脑的高级认知区域，负责把来自眼睛和耳朵的信息整合成"我现在在哪里、要做什么、环境是什么样的"这样的整体认知。

第二部件是一个基于扩散变换器（DiT）架构的动作解码器，负责把理解结果转化为具体的机器人动作序列。如果说第一部件是大脑，这个部件就是小脑和脊髓——负责把高层意图翻译成精确的肌肉（电机）指令。这个动作解码器采用流匹配（flow matching）技术来生成连续动作，简单来说，就是它通过一个从随机噪声逐步精炼的过程，最终输出平滑、连贯的动作轨迹，而不是粗糙的离散步骤。

**一套描述，驾驭所有机器人**

不同的机器人平台在物理结构上差异极大。有的机器人只有一条手臂，有的是双臂协作，有的还有移动底盘；有的关节角度精确到度数，有的靠末端执行器的位置和姿态来控制；有的每秒钟执行50个动作指令，有的执行频率要低得多。这就好比让同一个驾驶教练，既要教人开手动挡轿车，又要教人开自动挡越野车，还要教人驾驶摩托车。每种车辆的操控逻辑都不同，但基本的道路规则、判断路况的方法却是共通的。

Qwen-VLA用一种极为简洁的方式解决了这个跨平台适配难题，研究团队称之为"具身感知提示词"（embodiment-aware prompt conditioning）。具体来说，每次给模型喂入任务时，都会在任务指令前面加上一段机器人自我介绍的文字，内容大致如下："这台机器人是XX型号，配备双臂，带有腰部关节，控制频率为每秒25帧，请预测接下来16步的控制动作以执行以下任务：把红色杯子放进箱子里。"

通过这段文字，模型就知道了当前要控制的是什么样的机器人、用什么样的动作格式来输出。这意味着整个模型的架构完全不需要为不同机器人设计不同的"输出头"，一套参数走天下，只需要换一段文字描述就能切换平台。在训练时，Qwen团队覆盖了包括WidowX、谷歌机器人、Franka Panda、ARX5、Fourier GR-1、Mobile ALOHA、AgiBot A2-D、Galaxea R1、AIRBOT MMK2、TienKung等十余种代表性机器人平台，以及真实人手的动作轨迹。

与此同时，不同机器人输出的动作维度也各不相同。比如一只单臂机器人可能只需要7个数字来描述每个时刻的动作，而一个复杂的双臂人形机器人可能需要几十个数字。Qwen-VLA的处理方式是设定一个统一的最大维度框架，不够长的动作向量用零来填充，同时用一个掩码记录哪些位置是真实动作数据、哪些是填充数据，训练时只对真实数据位置计算损失，这样所有平台都能在同一个动作空间里共存而不互相干扰。

**四阶段训练：从读谱到演奏再到登台**

把一个视觉语言模型改造成能控制真实机器人手臂的策略模型，绝非简单地把两件工具拼在一起。Qwen团队面临的核心挑战在于：语言模型已经经过了海量数据的充分预训练，有着成熟的表征体系，而动作解码器是从零开始的随机初始化状态。如果直接把两者扔进一个锅里一起煮，就像让一位经验丰富的厨师和一个厨房小白同时炒同一道菜——小白的混乱操作很可能会把整道菜搞砸，而且厨师原本积累的好手艺也可能在混乱中退化。

为了避免这个问题，研究团队设计了一套四阶段渐进式训练方案。

第一阶段叫"文本到动作预训练"（T2A）。在这个阶段，语言模型主干被完全冻住不动，只训练动作解码器。而且，训练时刻意不给模型看任何图片——只提供任务指令文字和机器人描述文字，让动作解码器学会"仅凭文字就能猜出大概需要什么样的动作"。这背后有一个深刻的洞察：一句"把红色杯子放进箱子里"已经包含了大量的动作先验信息——需要抓取、需要移动、需要释放，这套基本逻辑不依赖于视觉。通过这个阶段，动作解码器建立起了语言-动作的基本对应关系，就像一个学音乐的人先学会了读乐谱，再去摸琴键。

值得一提的是，研究团队在这一阶段还发现了一个有趣的细节：在流匹配训练中，噪声时间步的采样分布对性能影响显著。T2A阶段最适合用"Sigmoid-Normal"分布，让模型更多地关注中等噪声水平的时间步，因为在没有图像辅助的情况下，中间噪声水平携带了最丰富的语言-动作映射信号；而到了后续有图像参与的阶段，改用"Beta"分布效果更好。这两个阶段组合起来，最终任务成功率比两个阶段都用同一种分布高出了约8个百分点。

第二阶段叫"持续预训练"（CPT）。有了初步的动作先验之后，两个模块同时解冻，开始接受包含图像的完整多模态数据训练。这个阶段的目标是让动作解码器学会"看图说话式"的动作生成——根据当前摄像头拍到的画面来修正和精化之前仅凭语言推断出的动作。与此同时，视觉语言主干也开始逐渐适应机器人操控、室内导航等具身任务的视觉感知需求。

第三阶段是"监督微调"（SFT），分两条并行的赛道进行。一条赛道面向仿真环境，在多种任务和多种机器人平台的演示数据上联合微调，兼顾操控能力、导航能力和视觉理解能力；另一条赛道面向真实机器人部署，在实验室采集的遥操作演示数据上微调，把仿真中习得的能力迁移到真实硬件上。

第四阶段是"强化学习"（RL）。模仿学习只能让模型学会"模仿示范者的操作"，但真正重要的是"任务是否最终完成"。为此，研究团队在SimplerEnv仿真环境中，让模型自己不断尝试、接受来自环境的二值成功/失败信号反馈，用近端策略优化（PPO）算法调整模型参数，使策略朝着"真正完成任务"的方向优化。有趣的是，这个强化学习阶段只在一个仿真环境中进行，但带来的性能提升却能迁移到其他没见过的评测环境，说明模型学到的不是单纯的"在这个环境里怎么操作"，而是更通用的"怎样果断、有效地执行任务"的能力。

**海量、多样的训练"食材"**

一个通才模型的养成，离不开种类繁多的训练数据，就像培养一个知识面广的人需要大量不同领域的阅读和实践。Qwen团队为Qwen-VLA配备了精心设计的数据配方。

机器人操控轨迹数据占到了训练数据总量的74.2%，是绝对主力。这部分数据来源极为广泛，涵盖RobotSet、AgiBot World、RoboMIND、DROID、BridgeData V2、RH20T、RT-1、BC-Z等十余个公开大型机器人数据集，合计超过一万小时的真实机器人交互记录。这些数据涉及桌面操控、移动操控、双臂协作、灵巧手控制等各种形态，覆盖了不同的摄像头视角、物体类别、场景背景和语言指令。此外，研究团队还补充了超过一千小时的内部采集遥操作数据，约占总量的20%。

人类第一视角（egocentric）的演示数据占6%。这类数据来自普通人在日常生活中进行各种手部操作的录像，比Ego4D、EPIC-KITCHENS、EgoDex（苹果Vision Pro采集的829小时灵巧手操作数据）、EgoVerse（超过1300小时的协作演示数据）等。人类的手部操作远比机器人遥操作数据更丰富、更多样，涵盖了生活中几乎所有常见的物体操作方式。训练这类数据时，模型需要预测手腕的SE(3)变换（即三维空间中的位置和朝向变化）以及手部关节的运动，后者通过主成分分析降维到10个"本征抓握"系数来表示，大大降低了计算复杂度。

导航轨迹数据占7.5%，分为指令跟随导航、目标物体搜索和目标跟踪三个子类。这部分数据让模型学会在室内空间中根据语言描述进行移动导航，理解"向左转"、"走过第二个门"等方向性语言指令，并在大型室内场景中搜寻目标。

研究团队自主构建的合成仿真数据占3.7%，约800万条轨迹。这部分数据分为两种：一种是有图像配合的视觉-语言-动作数据，利用一个名为ROBOINF的内部仿真数据引擎，在20种桌面场景、10种初始位置配置的组合下，生成450种操控任务的成功轨迹，同时进行了光照、摄像头位姿、背景贴图、桌面纹理、机器人初始状态等多维度的随机化增强；另一种是纯语言-动作数据，刻意不使用图像，仅用语言指令加上机器人状态来生成轨迹，覆盖Franka Panda、UR10e、UR5e、Kinova Gen3、TM12、xArm7六种单臂机器人，每种机器人生成约20万条轨迹，总计720万条。这批纯语言数据主要用于第一阶段的T2A预训练，帮助动作解码器在不依赖视觉的情况下建立动作先验。

辅助视觉语言数据占8.5%，包括精细化机器人动作描述文字（0.2%）、自动驾驶视觉问答（2.4%）、二维目标定位数据（2.5%）和通用视觉语言数据（3.4%）。其中精细化动作描述是一个特别有趣的设计：大多数机器人数据集只有粗糙的任务标签（如"拿起陶瓷碗"），这对精确动作预测帮助有限，因为同一个任务可以有很多不同的执行方式。研究团队用两阶段流水线，首先用视觉语言模型粗略提取动作序列，再密集采样视频帧进行精细化标注，最终生成约4.8万个包含13个维度（动作类型、操作者身份、物体识别、接触区域、起点终点位置、轨迹方向、抓夹状态、身体运动等）的细粒度视频-文字对，并经过人工审核修正。

**在多种机器人和多种任务上的表现**

Qwen-VLA-Instruct，也就是经过完整四阶段训练后的最终版本，在一系列权威评测基准上展现出了全面优秀的表现。

在LIBERO单臂桌面操控基准测试上，Qwen-VLA-Instruct达到了97.9%的成功率，与专门为该任务设计的专科模型性能相当，如π0（94.4%）、GR00T N1.6（97.2%）、π0.5（97.6%）等。在Simpler-WidowX真实到仿真评测套件上，Qwen-VLA-Instruct达到73.7%，明显高于StarVLA-OFT（64.6%）和GR00T N1.6（63.2%）。在需要双臂协作完成复杂厨房任务的RoboCasa-GR1基准上，达到56.7%，超过π0.5（37.0%）、GR00T N1.6（49.9%）和Being-H0.5（53.3%）。在50项双臂任务的RoboTwin 2.0基准的简单和困难版本上，分别达到86.1%和87.2%，超越了此前专科模型的最佳成绩ABot-M0（86.0%/85.0%）。

在室内视觉-语言导航基准（VLN-CE）的两个主要评测集（R2R和RxR）上，Qwen-VLA-Instruct在R2R的验证集上，Oracle成功率达到69.0%（高于StreamVLN的64.2%），成功率达到57.5%；在更具挑战性的RxR验证集上，成功率达到59.6%，路径长度归一化成功率（SPL）达到47.8%，均为所有开源基准方法中最高水平。这意味着同一个模型在操控机械臂和控制移动机器人导航这两种截然不同的任务上，同时达到了行业领先水平。

**在真实机器人上的"认知迁移"实验**

仿真中的数字漂亮，但真实世界才是检验机器人的终极考场。研究团队在ALOHA双臂机器人平台上进行了系统的真实世界评测，覆盖六类任务：拾取放置、桌面清理、碗叠放、碗取放与物品摆放、毛巾折叠、精细操控（如抽屉开关、插槽对接、积木堆叠）。

为了严格评估大规模预训练的价值，研究团队同时训练了两个版本：一个从零开始训练（Qwen-VLA-alohaw/o pretrain），另一个从Qwen-VLA-Base出发继续微调（Qwen-VLA-alohaw/ pretrain）。在相同的任务和相同的演示数据量下，从预训练模型出发的版本平均成功率达到83.6%，而从零开始训练的版本只有48.5%。这35个百分点的差距，是大规模跨任务预训练带来的"知识储备"的直接体现。

更令人印象深刻的是在分布外（OOD）泛化测试上。研究团队设计了五种不在训练数据中出现的变化情形：看到从未出现过的颜色（如未见过的蓝色笔、蓝色碗）、看到从未出现过的物体实例（如未见过的柠檬、葡萄）、碗和物体出现在未见过的空间位置、出现未见过的背景或光照条件、接到措辞不同的指令（如未见过的叠放顺序）。在这五种OOD情形的综合评测中，从预训练出发的版本平均成功率达76.9%，而π0.5只有41.5%，从零开始训练的版本只有36.2%。预训练赋予了模型强大的视觉语义泛化能力，让它面对没见过的颜色、物体和场景时也能正确理解并行动。

**零样本动态操控：面对运动中的物体**

Qwen团队还在一个更具挑战性的场景中测试了Qwen-VLA的极限能力：DOMINO基准，专门考察在物体本身处于运动状态时的操控能力。现实生活中，机器人经常需要抓取传送带上移动的物品、接住被人扔过来的物体，或者处理被风吹动的轻质物体。这对于只见过静态物体的机器人来说，是完全陌生的动态情境。

Qwen-VLA-Instruct在完全没有任何动态操控训练数据的情况下（零样本），在DOMINO基准的35个测试套件上达到了26.6%的成功率和39.5的操控质量分，不仅全面超越了同样零样本的对比方法（π0.5为7.5%，OpenVLA-OFT为6.7%），甚至超过了专门在DOMINO动态数据上微调过的最强基准方法PUMA（17.2%成功率，35.0操控质量分）。研究团队分析认为，这种跨情境迁移能力来自两方面的协同：流匹配动作解码器生成的连贯动作块减少了执行时的犹豫和中断，而大规模联合预训练建立的视觉定位与空间推理能力让模型能够更准确地判断运动物体的位置。

**"我的大脑不需要一直提醒脚怎么走"：关于本体感知的发现**

很多机器人学习系统都把机器人当前的关节角度等本体感知信息作为额外输入，认为"知道自己现在是什么姿态"有助于预测下一步怎么动。Qwen团队专门做了一组对照实验来验证这个假设是否成立。

他们比较了三种策略：完全不提供关节角度信息；把关节角度离散化后编码进语言提示词；把关节角度作为连续数值直接输入给动作解码器。结果出乎意料——三种策略在RoboTwin 2.0测试集上的成功率差异极小，最多只差1.3个百分点。

这个发现有两层解释。首先，多摄像头的视觉观测（一个正面视角加两个腕部摄像头）已经为模型提供了足够的机器人当前状态信息，因为从图像里就能大致判断手臂弯曲到什么程度、末端执行器处于什么位置。其次，模型输出的是相对位移动作（"从现在的位置往哪个方向动多少"）而非绝对坐标，这进一步降低了对精确当前状态信息的依赖。基于这一发现，Qwen-VLA的最终版本没有加入本体感知输入，只用摄像头图像和文字提示词，架构更简洁，也更易于跨平台迁移。

说到底，Qwen-VLA这项研究传递的核心信息是：让一个机器人系统在多种不同场景和不同平台上都能有效工作，不一定需要为每种场景单独打造一套专门的系统，也不一定需要把当前机器人状态的每一个细节都喂给模型。通过精心设计的统一架构、渐进式训练方案和多样化的大规模数据，一个"通才"模型完全可以在多项任务上同时媲美甚至超越那些"专科"模型。

这对机器人技术的未来发展意味着什么？或许在不远的将来，家用机器人不再需要针对不同任务安装不同的软件模块，一套通用的"机器人大脑"就能处理从厨房操作到室内导航再到理解口语指令的全部需求。当然，目前Qwen-VLA仍面临一些局限：真实机器人数据的规模和多样性与视觉语言预训练数据相比仍有巨大差距，长时间连续执行复杂任务的稳定性仍需提升，力觉、触觉等丰富物理反馈信号的整合也还是未来的课题。但这项研究至少证明了，通往真正通用机器人智能的道路，在技术路线上是可行的。如果你对这个方向感兴趣，可以通过arXiv编号2605.30280v1查阅完整论文。

Q&A

Q1：Qwen-VLA模型是什么，能做什么？

A：Qwen-VLA是阿里巴巴Qwen团队推出的统一视觉-语言-动作模型，能同时控制机器人进行物体抓取和摆放操作、在室内环境中导航行走、以及理解图像和自然语言指令。一个模型可以跨越多种不同机器人平台使用，不需要为每种机器人单独开发专属系统。

Q2：Qwen-VLA是怎么让一个模型适配不同机器人的？

A：Qwen-VLA通过"具身感知提示词"来解决这个问题。每次给模型分配任务时，都会在指令前附上一段描述当前机器人平台型号、手臂配置、控制频率和预测动作数量的文字说明，模型读到这段描述后就知道该以什么格式输出动作，因此不需要为不同机器人设计不同的网络模块，只需更换文字描述即可切换平台。

Q3：Qwen-VLA的训练数据有哪些？

A：训练数据涵盖五大类：机器人操控轨迹数据（占74.2%，包括十余个公开数据集和超过一千小时内部数据）、人类第一视角演示数据（6%）、室内导航轨迹（7.5%）、自主构建的合成仿真数据（3.7%）以及辅助视觉语言数据（8.5%，含精细化动作描述、自动驾驶视觉问答和通用视觉语言数据）。

机器人技术视觉-语言-动作模型统一具身智能框架

分享至