
这项由香港中文大学、香港理工大学、北京大学与ACE Robotics联合开展的研究,以预印本形式于2026年5月25日发布在arXiv平台,编号为arXiv:2605.25802。感兴趣的读者可通过该编号查阅完整论文。
**一个被忽视的根本问题**
教一个机器人完成任务,本质上像是在培养一个刚入职的新员工。你希望他能看懂环境、听懂指令、然后做出正确的动作。现在的主流做法是:先让他读几年大学,积累丰富的视觉和语言理解能力,再把他送到工厂车间接受操作训练。这个"大学阶段"对应的就是预训练的视觉语言模型(Vision-Language Model,简称VLM),而"工厂训练"就是后续的机器人动作学习。
近年来,这种方法催生了一大类叫做视觉-语言-动作模型(Vision-Language-Action Model,简称VLA)的系统。你可以把VLA理解为一个能看图、听指令、做动作的机器人大脑。研究人员普遍认为,让机器人先"读大学"再"进工厂"是一个好主意——但问题在于,大学里学什么、怎么学,对最终在工厂里的表现究竟有多大影响,以及影响的方向是什么,长期以来没有人系统地研究过。
这支来自多所顶尖机构的研究团队决定填补这个空白。他们把"给机器人装大脑"这件事,拆解成一个精心设计的受控实验,沿着三条主线展开探究:在大学里应该重点学哪些科目、学习时应该动多大劲去改变原有知识结构、以及要不要在正式上岗前再去工厂实习一段时间。实验的结论既有直觉上能理解的部分,也有几个出乎意料的发现。
**一、大学里那些课,真的都有用吗?**
研究团队首先关注的问题是:机器人在"大学阶段"修习的不同课程,对它将来在工厂里的表现是否有帮助?他们把所谓的"课程"具体化为七类与具身场景(也就是机器人所处的真实物理环境)相关的视觉问答任务,每类任务训练模型理解世界的一个特定侧面。
第一类叫做空间理解,训练模型判断物体之间的相对位置、朝向和距离——比如"红色杯子在蓝色盘子的左边还是右边"。第二类是物体定位,让模型在图像中找到语言描述所指的目标——比如"找到我要拿起来的那个篮子的把手在哪里"。第三类是规划与推理,训练模型将一个大目标拆解成步骤——比如"要整理客厅,第一步应该做什么"。第四类是相机参数预测,让模型从画面中估算拍摄角度和镜头参数。第五类是第一人称视角理解,专门训练模型理解机器人自身的状态——比如"我的手现在抓着什么"、"哪些东西在我的可及范围内"。第六类是时序理解,训练模型理解视频中事件的先后顺序和因果关系。第七类叫做动作下一步预测,直接把机器人的动作序列当作一种"语言"来学,训练模型自回归地预测下一步该怎么动。
研究团队用一个叫做Qwen3-VL-4B的视觉语言模型作为基础,分别只让它学其中一门课,然后送去"工厂"接受标准化的机器人操作训练,再到三个不同的测试场地比较表现。这三个场地的侧重点各有不同:Libero-10是单臂桌面操作,考验的是长序列任务的执行能力;SimplerBridge是从真实机器人场景复刻到仿真环境的测试,挑战的是视觉和控制的迁移能力;RoboCasa GR1是最复杂的双臂人形机器人操作,涉及24种家务任务,场景多样、动作维度高达29维。
结论第一条:不学大学、直接进工厂的代价是惨重的。与直接从零训练相比,有VLM初始化的机器人在所有测试场地的成功率都高出20%以上。这说明,那段"大学积累"确实是有价值的,不是白费时间。
结论第二条:不同的课程对不同场地的作用截然不同。在Libero-10这个相对简单的场地,几乎所有七门课都能提升表现,最高提升了4个百分点。但在SimplerBridge,情况反了过来——大多数课程反而拖累了表现,只有物体定位课几乎没有造成损害。在RoboCasa,效果则不明显,提升和下降都很有限。
在七门课中,物体定位是最稳定的"优等生":它在三个场地、两种动作头架构下的表现都是最一致的正向结果。第一人称视角理解和动作下一步预测也比较可靠,大多数情况下不会造成负面影响。而规划推理和时序理解在Libero-10上表现亮眼,但在SimplerBridge上会导致成功率大幅下滑,最多掉了8个百分点。相机参数预测的帮助则十分有限。
这背后的逻辑在于:不同的测试场地有不同的"瓶颈"。Libero-10的主要挑战是完成长序列任务,任何能帮助模型理解场景和规划步骤的能力都会有所帮助。SimplerBridge的核心挑战是视觉域的迁移,也就是在虚拟环境里模仿真实机器人的操作,这时候那些脱离操作本身的高层推理能力反而成了干扰。
**二、修同一门课,能不能一起上?**
既然物体定位、第一人称视角理解和动作下一步预测是三门相对靠谱的课,那么让机器人同时学这三门,成绩会不会叠加?
研究团队做了一个精心设计的实验。为了排除数据总量的干扰,他们固定了总学习样本量为80万条,然后按照不同的课程组合均分这些样本,比较"只学定位"、"定位加第一人称"、"三课齐上"等不同搭配的结果。
结论有些出乎意料。两门课的组合里,只有"物体定位加第一人称视角理解"这个搭配表现明显优于单科成绩,在Libero-10和RoboCasa上都是所有组合中的最佳。另外两个两门课搭配——"定位加动作预测"和"第一人称加动作预测"——并没有比单科更好,成绩几乎停在单科水准上。
更反直觉的是,加课并不等于加分。把这三门课合在一起上,反而不如只学"定位加第一人称"。继续把空间理解也加进去,成绩进一步下滑。把所有七门课平均地学一遍,成绩甚至低于最佳两科组合。这种现象用一个直觉类比来说:就像准备一道菜,盐和糖搭配得当会提升味道,但你把盐、糖、辣椒、花椒、醋、生抽全部一锅倒进去,味道大概率会变得混乱难以入口。
为什么物体定位和第一人称视角理解这对搭配特别有效?研究团队的推测是,这两类能力之间存在某种相互支撑的关系:一个帮助机器人找到要操作的目标,另一个帮助机器人理解自己当前的状态和位置,两者恰好是完成操作任务时最直接需要的信息。
**三、学习时该动多大劲?**
确定了"学什么"之后,下一个问题是"怎么学"——更准确地说,是在大学阶段学习这些新知识时,应该允许大脑被改变多少?
研究团队对比了两种学习方式。一种叫做全参数微调,相当于允许大脑的每一个神经连接都可以被重新调整,新知识会深度重塑原有的认知结构。另一种叫做LoRA(低秩适配),这是一种更节制的方式——它只在原有大脑结构上附加一个小型的"补丁模块",核心的神经连接保持不动,只让补丁模块来处理新任务。学完之后,再把这个补丁的效果融合进大脑,但融合的程度相对温和。
实验结果清晰而有力:在所有课程组合、所有测试场地、两种动作头架构下,LoRA方式都持续优于全参数微调。更值得注意的是,全参数微调不只是"没有帮助",它在许多情况下会让机器人表现低于完全没有上过额外课的基准水平。也就是说,强行用专业课程重塑整个大脑,反而比什么都不做还糟糕。
研究团队做了一个辅助实验来验证这个现象的根源。他们用标准评测工具(MMBench和MMStar)检测了不同学习方式之后模型的通用视觉语言能力保留情况。结果显示,全参数微调后,模型的通用能力大约下降了18%,而LoRA方式几乎没有造成损失。与此同时,全参数微调后的模型在回答专业领域的视觉问答时得分反而更高——它确实"学会"了那些专业知识,但代价是忘掉了太多原有的通用知识,而这些通用知识对于后续的机器人操作训练恰恰是有价值的。
这个现象背后有一个深刻的含义:预训练VLM积累的视觉语言表示,本身就包含着对机器人操作学习有帮助的信息,而这些信息不是那么直观可见的,也不完全等同于"能做物体定位"或"能理解视频顺序"。全参数微调在专注学习新知识的同时,把这些潜藏的有用信息覆盖掉了。LoRA则因为保留了大部分原有结构,得以在注入新能力的同时,让那些隐性的有价值信息保持完好。
研究团队还用一个细化实验进一步验证了这个逻辑。他们测试了LoRA融合强度对结果的影响——把LoRA的融合比例从0(完全不融合,相当于只用原始大脑)逐步调到2.0(把补丁效果放大一倍)。结果呈现出一个倒U形曲线:在标准融合比例1.0时成绩最好,融合比例过低(新知识太少)和过高(改变太剧烈)都会导致表现下降。这和全参数微调的问题本质上是一样的——过度改变原有表示,就会削弱初始化的质量。
**四、VLM的底子越好,LoRA越有效**
研究团队还探究了一个实际问题:这种"LoRA优于全参数微调"的规律,是否在所有VLM上都成立?
他们测试了三个不同强度的VLM:较强的Qwen3-VL-4B、同系列较弱的Qwen3-VL-2B,以及来自不同家族的PaliGemma2-3B。结果显示,LoRA在所有三个模型上都优于全参数微调,这个规律是普遍成立的。但是,LoRA带来的提升幅度随着模型底子变弱而缩小,在最弱的PaliGemma2-3B上,LoRA甚至没能显著超过什么都不做的基准水平。
这个规律的解读很直接:LoRA的价值在于"保留有用的东西再加一点新东西"。如果原来的底子本身就强,那么值得保留的有用信息就多,LoRA的保留策略就越能发挥作用。如果底子本来就薄,那么原有表示中可供迁移的信息本就有限,LoRA带来的好处自然也就有限。这个发现对于实践中选择VLA基础模型提供了一个明确的建议:应该尽可能从高质量、能力强的VLM出发。
**五、让机器人在上岗前先去工厂实习**
前面的研究都集中在"大学阶段",也就是纯粹的感知和理解能力培训。研究团队还探索了另一条路:在正式的机器人操作训练之前,先让模型接触真实的机器人轨迹数据,相当于在大学毕业后先安排一段"预实习"。
他们使用了一个名为AgiBot-World-Beta的大规模机器人操作数据集作为实习素材,设计了三种实习方案:只进行机器人轨迹实习、同时进行机器人实习和视觉问答课程、以及先上完大学课程再去实习(也就是序列化的两阶段方式)。每种方案都在LoRA和全参数微调两种模式下分别测试,评估在RoboCasa这个双臂人形机器人测试场地上的成功率。
从基准的49.5%出发,结果如下:只进行全参数机器人实习能提升到52%;同时加上视觉问答课程进行全参数联合训练,能达到53.2%——这说明在全参数更新的情况下,视觉问答课程能起到一定的"稳定剂"作用,帮助模型在学习操作动作时不要把感知能力全部遗忘。
切换到LoRA模式后,只进行机器人实习就能达到54%,超过全参数联合训练的53.2%——再次证明了LoRA在保留有用表示方面的优势。然而,用LoRA同时学机器人实习和视觉问答,成绩反而下降到52.4%。研究团队进一步测试了不同的LoRA容量(秩从64降到16),发现容量越小,联合训练的成绩越差(从52.4%降到51.5%)。这说明问题的根源在于:一个LoRA模块同时要处理感知侧的视觉问答和动作侧的轨迹学习,两种信号会在有限容量内产生竞争,互相干扰。
最好的方案是序列化的两阶段路线:先用LoRA完成大学阶段的"物体定位加第一人称视角理解"课程,把学到的知识融合进模型,再用LoRA进行机器人轨迹实习。这个方案最终达到了55.2%的成功率,是所有方案中最高的。两件事分开做,各自在自己的LoRA模块里完成学习,避免了信号竞争,同时保留了最多的原始表示。
**六、整个研究告诉我们什么**
说到底,这支研究团队做的事情,是把一个长期被当作"默认设置"的问题——用哪个VLM来初始化机器人大脑——重新定义为一个可以被系统设计和优化的问题。
他们的发现归结为几个核心洞察。原始的预训练VLM表示本身就是机器人操作能力的重要来源,不是可以随意丢弃的起点。专业课程的加入是有条件的好事,不是无条件的提升;哪门课有用,取决于机器人最终面对的场景瓶颈是什么,而不是"越多越好"。改变大脑结构的幅度应该保持克制,过度重塑会损坏那些对动作学习有隐性价值的表示。机器人轨迹实习可以进一步提升初始化质量,但最佳方式是先完成感知课程再进行实习,并且全程使用LoRA方式保持克制的更新。
这个研究的意义不止于机器人领域本身。它揭示了一个更普遍的道理:当我们把一个通用的、经过大规模预训练的智能系统改造为专用工具时,专业化和原始能力保留之间存在真实的张力,盲目追求专业化可能适得其反。找到正确的改造方式,比简单地堆砌更多数据或更复杂的方法更为关键。
当然,这项研究也坦诚地承认了自身的局限。所有实验都在仿真环境中进行,真实机器人硬件上的验证还有待完成。七类视觉问答领域的划分也只是一种组织方式,更细粒度的数据质量筛选和领域定义可能带来不同的结论。机器人轨迹实习部分目前只用了单一数据源,在更大规模、更多样化的数据条件下是否依然成立,还需要进一步研究。此外,为什么某些表示对动作学习有隐性价值、这些表示到底是什么,目前仍然是经验性的观察,背后的机制还需要更深入的分析工具来揭示。
对于这一领域感兴趣的读者,可以通过arXiv编号2605.25802查阅完整论文,代码也已在GitHub上开源,项目地址可通过论文首页找到。
---
Q&A
Q1:给机器人做VLM预训练时,学更多类型的任务是不是效果更好?
A:不是。研究发现,让机器人学的知识种类越多,反而不一定带来更好的操作能力。最好的结果来自"物体定位"和"第一人称视角理解"这两类任务的组合,把更多类别的任务加进去之后,成功率反而开始下降。这说明不同类型的训练信号之间存在干扰,兼容性比覆盖面更重要。
Q2:VLA模型初始化为什么用LoRA比全参数微调效果更好?
A:因为预训练VLM积累的原始表示里包含对机器人动作学习有用的隐性信息。全参数微调在学习新能力的同时会大幅覆盖这些信息,导致通用能力下降约18%,最终让机器人初始化质量反而不如没做任何额外训练的基准。LoRA只附加小型补丁模块,保留了原始表示的大部分,在注入新能力的同时不破坏那些有价值的基础。
Q3:机器人轨迹预训练和视觉问答课程能不能同时进行?
A:同时用一个LoRA模块进行两种训练效果反而更差,因为两种信号会在有限容量内竞争干扰。最佳方案是先用LoRA完成视觉问答课程,融合后再用另一个LoRA进行机器人轨迹预训练,序列化分开进行,最终成功率达到55.2%,是所有方案中最高的。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。