微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

卡内基梅隆大学联合博世研究院出手：让机器人大脑在"上岗前"先经历针对性训练

机器人控制视觉语言动作模型数据选择优化

卡内基梅隆大学联合博世研究院出手：让机器人大脑在"上岗前"先经历针对性训练

作者：科技行者

2026-05-04 15:05

分享至：

这项由卡内基梅隆大学与博世研究院联合完成的研究（arXiv:2604.20012）提出了EmbodiedMidtrain框架，旨在弥合视觉语言模型（VLM）与机器人视觉语言动作模型（VLA）之间的训练数据分布鸿沟。研究首先通过最大均值差异和t-SNE可视化证实了两类数据分布的显著差异，继而设计了一个轻量级邻近性估计器，从海量VLM数据中精选与机器人领域最接近的子集用于中间训练。实验表明，仅1.1B参数的中间训练模型在三个机器人操作基准上超越多个参数量大3至8倍的对比模型，且精选数据可跨架构迁移使用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 15:05 • 科技行者

这项由卡内基梅隆大学语言技术研究所与博世北美研究院及博世人工智能中心联合完成的研究，以预印本形式于2026年4月发布于arXiv平台，编号为arXiv:2604.20012v1，尚在同行评审阶段。感兴趣的读者可通过该编号查阅完整论文。

**一个让机器人"上岗"更顺畅的关键难题**

教会机器人做事，听起来应该和教人差不多——先打好基础，再专门训练。现代机器人系统的设计思路确实如此：研究者先训练一个具备视觉理解和语言理解能力的"通用大脑"，也就是视觉语言模型（VLM，可以理解图片内容并根据语言指令做出回应的AI模型），再在此基础上叠加"动作生成"能力，让机器人不只能看、能说，还能动手操作，这类系统被称为视觉语言动作模型（VLA）。

然而，现实中存在一个尴尬的裂缝：负责打基础的"通用大脑"是用网络上大量图片说明、问答对话、文档理解等内容训练出来的，而机器人实际要做的事——拿起杯子、移动积木、操作机械臂——所需要的那种理解方式，跟"看图说话"或者"回答问题"完全不是一个路数。这就好比一个人读了大量文学、历史、艺术，突然要去做一名外科医生——通识教育很有价值，但手术室里需要的那种精准空间感知和操作判断，和读书积累的那些能力之间，隔着一道并不小的鸿沟。

正因如此，直接把一个"通用大脑"接上机器人，让它去完成精细操作任务，效果往往大打折扣。更麻烦的是，研究者们此前也尝试过专门把VLM在"具身场景"（即机器人所处的真实物理环境类数据）上再做一轮微调，期望让它更理解机器人世界——但实验证明，这样做在VLM的理解能力测试上可能有提升，却未必能让机器人真正做得更好。

这项来自卡内基梅隆大学和博世研究院的研究，正是为了填补这道裂缝而来。研究团队提出了一套名为EmbodiedMidtrain的中间训练框架，核心思路是：在"通用大脑"和"机器人专项训练"之间，加入一个经过精心挑选数据的"过渡期"，让大脑在正式上岗前，先经历一段与机器人世界更接近的热身，从而成为一个更好的起点。

**一、两个世界之间的"文化冲击"有多严重**

研究的第一步，是弄清楚这道裂缝到底有多宽。研究团队把VLM的训练数据和VLA的训练数据放在同一个"坐标系"里，用数学方法衡量它们之间的距离。

具体来说，他们让VLM读取每一个数据样本，提取出模型对这个样本的内部理解表示（可以理解为模型对这段内容的"印象"），然后用一种叫做最大均值差异（MMD）的工具来量化不同数据集之间的分布距离——距离越大，说明两组数据的"世界观"差异越大。

结果相当清晰。VLM常用的训练数据，包括大规模图文匹配数据（如LAION-400M、CC-12M）、视觉问答数据（如LLaVA-Instruct-665k）、视觉常识推理数据（VCR）等，它们彼此之间的距离普遍较小，属于同一个大家庭。而机器人操作轨迹数据——比如LIBERO（一个机器人长时程任务数据集）、Bridge-V2（真实机器人桌面操作数据）和Calvin（一个机器人语言条件操作基准测试）——则形成了一片紧凑的"小岛"，与VLM那片广阔的大陆之间隔着相当大的距离。

用t-SNE可视化（一种把高维数据压缩成二维图来直观展示的技术）来看，机器人数据形成的那几个簇，与VLM数据的主要区域几乎不重叠，只有极少数VLM样本漂浮在靠近机器人数据的边缘地带。这验证了一个直觉：大多数VLM训练数据的"口味"，和机器人任务需要的"口味"，根本不是一回事。

不过，研究者还发现了一个更细腻的现象：这种差距并不是铁板一块的二元对立。某些VLM数据源——比如专注于空间指代推理的RefSpatial数据集——与机器人数据的距离，明显比纯图文描述数据更近。而即使在同一个数据集内部，不同的样本与机器人世界的相关程度也大相径庭。换句话说，这不是一道非此即彼的墙，而是一个从"完全不相关"到"高度相关"的连续谱。

这个发现至关重要，它意味着：与其抛弃所有VLM数据重来，不如在VLM那片广阔的数据大陆上，精准地挑选出那些与机器人世界更接近的"边境地带"样本，用它们来做针对性的过渡训练。

**二、如何从海量数据里"选出好学员"**

弄清楚了问题所在，研究团队设计了一套数据筛选引擎，核心是一个他们称之为"邻近性估计器"的轻量级工具。

这个工具的设计思路，借鉴了一个来自统计学和机器学习的经典结论：如果你训练一个分类器，让它区分"属于A类"和"属于B类"的样本，当这个分类器训练得足够好时，它给每个样本打的"属于A类的概率"，恰好与这个样本在A类分布下出现的概率与在B类分布下出现的概率之比成单调关系。换句话说，分类器的输出分数可以作为衡量"这个样本更像哪个世界的人"的连续尺度。

具体实现上，研究团队把VLM模型对每个数据样本的内部表示（也就是模型最后一层的隐藏状态，可以理解为模型对该内容的"内心印象"）提取出来，冻结不动，再在上面接一个非常简单的线性分类层，用VLA训练数据作为正样本、VLM训练数据作为负样本，训练这个分类器区分两类数据。为了防止过拟合，训练在验证集准确率达到90%时就提前停止，整个训练过程通常在75到100步内完成。

训练完成后，这个分类器就成了一个"靠近机器人世界的程度评分员"——对海量VLM数据的每一个样本打一个0到1之间的分数，分数越高，说明这个样本与机器人操作数据的"世界观"越接近。研究团队从这些分数中筛选出得分最高的约120万个样本，构成中间训练用的精选数据集。

这个设计有几个值得注意的特点。其一，邻近性估计器完全建立在冻结的VLM特征之上，无需对VLM本身做任何改动，计算代价极低。其二，选择的逻辑不是简单地"保留某些数据集、扔掉另一些数据集"，而是在每个数据集内部做样本级别的精细筛选，因为即便是总体上与机器人数据相距较远的大规模图文数据集，其中也有相当数量的样本恰好与空间理解、物体定位等机器人任务高度相关。其三，筛选的结果在覆盖范围上保持了高度多样性，并没有退化成一堆雷同的机器人风格数据。

**三、热身训练的实际效果：小模型逆袭大模型**

有了精选数据集，研究团队就用它对VLM进行中间训练（全参数微调，批量大小256，训练5000步），然后再把这个经过热身的VLM作为起点，按照标准流程训练成VLA，在三个机器人操作基准测试上进行评估。

三个测试场景各有侧重。Calvin ABC-D测试的是机器人在ABC三个场景训练后能否泛化到没见过的D场景，评估指标是连续完成五个子任务的平均长度（满分5）。SimplerEnv Bridge是一个真实到仿真的测试，包含四种桌面操作任务各24次试验，报告平均成功率。LIBERO-10是该基准中最具挑战性的套件，包含10个长时程任务，每个任务50次试验。

实验结果相当显著。以1.1B参数量的InternVL3.5-1B为基础做中间训练后，该模型在Calvin上的平均完成任务长度从3.173提升到3.714，在SimplerEnv上的成功率从36.5%提升到56.3%，在LIBERO上的成功率从39.0%提升到54.2%。

更引人注目的是横向比较的结果。在参数量上，这个经过中间训练的1.1B模型，面对的竞争对手包括7.7B参数的OpenVLA、3.1B参数的π0（基于PaliGemma-1的流匹配模型）、3.8B参数的Qwen2.5VL-3B、8.3B参数的Qwen2.5VL-7B，以及规模从2B到30B的多个Qwen3VL系列模型。这些基线模型全都使用了远多于中间训练模型的训练样本——在每个基准上，基线模型使用的训练数据量约为中间训练模型的6到25倍。

在Calvin上，中间训练后的1.1B模型以3.714的平均得分超越了OpenVLA（2.548）和π0（3.509），与1.7B的KosMos-2（3.096）、2.9B的Paligemma-1（3.506）、3.0B的Paligemma-2（3.406）形成显著优势，与2.1B的Qwen3VL-2B（在全量训练数据下达到4.142）的差距也大幅缩小。在SimplerEnv上，56.3%的成功率达到了Qwen3VL-4B（56.3%）的水平，超过了Qwen3VL-2B（49.0%）。在LIBERO上，54.2%的成功率超越了KosMos-2（55.0%除外的大多数基线）和多个Paligemma系列模型。

研究团队还做了一个"跨身体"的迁移实验：用InternVL3.5-1B的特征空间筛选出的精选数据集，不做任何调整，直接用来对另一个架构不同的模型Qwen3VL-2B进行中间训练。结果同样在三个基准上都有提升——Calvin从3.205到3.584，SimplerEnv从38.5%到45.8%，LIBERO从33.8%到40.2%。这说明邻近性估计器捕捉到的"与机器人世界接近"这一特性，并不是某个特定VLM的个性偏好，而是一种更普遍的、跨模型适用的分布对齐信号。

**四、为什么不乱选一批数据凑数？消融实验揭示选择质量的重要性**

为了验证精挑细选这个步骤到底有多关键，研究团队做了一系列消融实验，把学习得到的邻近性估计器和几种替代方案进行对比。

第一种替代方案是随机选择：从候选数据池里随机抽取相同数量的样本做中间训练，不做任何基于内容的筛选。结果表明，随机选择在三个基准上均不如学习得到的邻近性估计器——Calvin得分3.398对比3.714，SimplerEnv 43.8%对比56.3%，LIBERO 48.4%对比54.2%。这直接说明了中间训练的收益不是来自"更多数据"本身，而是来自数据内容与机器人领域的对齐程度。

第二种替代方案是特征空间平均距离：对每个候选VLM样本，计算它的VLM内部表示与所有VLA样本内部表示之间的平均欧氏距离，距离越小的样本优先入选。这种方法在Calvin上得分3.126，SimplerEnv 53.1%，LIBERO 51.2%——比随机选择有所提升，但整体不如学习得到的估计器稳定。

第三种替代方案是VLA条件困惑度：先把VLM在文本形式的VLA数据上微调一遍，然后用这个微调后的模型对候选VLM样本评估困惑度（困惑度可以理解为模型对这段内容的"意外程度"，越低说明越符合模型预期），困惑度越低的样本优先入选。这种方法在Calvin上得分3.159，SimplerEnv 55.2%，LIBERO 48.0%。

第四种替代方案是困惑度差值（Delta Perplexity）：计算VLA微调前后对每个样本困惑度的变化量，差值越负（即微调后困惑度下降越多）说明该样本越符合VLA的"学习方向"。然而这种方法表现最差，Calvin仅有1.527，说明这个指标捕捉的信号与实际有效性之间存在严重脱节。

这些对比共同揭示了一个道理：VLM样本与VLA领域的对齐程度，是一个需要从数据中学习的复杂信号，而不是可以靠直觉构造的简单距离或困惑度度量。

**五、热身训练的效果从第一步就开始体现**

研究团队还仔细分析了中间训练对VLA学习过程本身的影响，通过记录VLA训练过程中各个检查点（即训练到一半时保存下来的模型状态）在三个基准上的表现，绘制了完整的训练动态曲线。

曲线显示，经过中间训练的VLM在VLA微调的最早阶段就已经表现出更高的任务成功率，并且随着VLA训练的推进，这个优势不但没有消失，反而持续扩大。这说明中间训练带来的不是一个一次性的"开局优势"，而是对模型内部表示的根本性改善，这种改善在整个后续学习过程中都在发挥作用。

有趣的是，对比两种初始化方式下的VLA训练损失曲线，两者几乎没有差异——损失值的下降速度和最终水平高度相似。这意味着，如果只盯着训练损失来判断模型质量，你根本看不出中间训练带来的那些差别。换句话说，在机器人任务上真正重要的模型能力改进，并不必然反映在训练损失的变化上，这也解释了为什么单纯在具身场景数据上微调VLM（那样做同样会降低训练损失）却未必能改善机器人任务表现。

**六、估计器究竟"认为"哪些数据更有价值**

研究团队还仔细检查了邻近性估计器对不同数据的评分结果，从中读出估计器到底学到了什么样的"品味"。

从数据集层面看，RefSpatial（专注于空间指代推理的数据集）获得了最高的平均分，而VCR（视觉常识推理数据集，主要涉及对图片中人物行为意图的理解）获得了最低的平均分。这与直觉吻合：机器人操作需要的是知道"桌子右边那个白色杯子在哪里"这类空间定位能力，而理解"图中男人为什么皱眉头"这类社交心理推断则与机器人任务几乎无关。

从样本层面看，即便是得分最高的数据集，内部样本的得分分布也相当宽，说明估计器在同一个数据集内部也做了细粒度的分层。一个典型的高分样本来自RefSpatial，内容是这样的："你站在坐标（0.878, 0.780）这个点上，正前方是什么？答：右下角那辆白色哑光卡车。"以及"请指出右上角那台黄色金属起重机上的一个点：答：[(0.976, 0.244)]。"——这类样本要求模型同时完成空间定位和物体指代，恰好是机器人感知和操作所需的核心能力。而一个典型的低分样本则是一张书籍封面的图片，配上"这本书是谁写的？答：Charles P. McKeague。这本书的书名是什么？答：三角学。"——纯文字识别和书目信息检索，与机器人任务几乎没有关联。

最终筛选出的120万样本中，LAION-400M贡献了最大的绝对数量（占比32.0%），但这不是因为LAION整体上与机器人数据接近，而是因为这个数据集总体规模极大，哪怕只有很小比例的样本够格，绝对数量依然可观。LLaVA-Instruct-665k贡献了20.2%，RoboPoint贡献了19.9%，RefSpatial贡献了14.7%，Robo2VLM贡献了9.2%，CC-12M贡献了3.7%，而EmbSpatial-Bench和VCR则几乎被完全淘汰（分别仅占0.1%和0.0%）。这种组成结构体现了估计器自然形成的平衡：来自专业数据集的空间推理样本有较高的"命中率"，来自大规模通用数据的样本则贡献了绝对数量，两者共同构成一个既对齐机器人领域又保持广泛多样性的中间训练集。

关于多样性的保持，研究团队用一个叫做均匀性指标的工具（基于特征空间中样本对之间距离的统计，分数越高表示数据分布越均匀、越多样）进行了量化。结果显示，精选后的VLM数据多样性得分为1.93，与通用VLM数据的1.96非常接近，远高于具身导向VLM数据的1.62和VLA数据的1.26。换句话说，这次筛选并没有把数据范围压缩到只剩机器人风格内容，而是在整体向机器人领域靠拢的同时，保留了广泛的视觉和语言覆盖面。

**七、中间训练之后，VLM本身还好吗**

除了在机器人任务上的提升，研究团队也关心：这番针对性的热身训练，会不会削弱VLM原本在其他视觉语言任务上的能力？毕竟，一个变成了"机器人专家"却忘记了如何看图说话的模型，应用范围会大打折扣。

研究团队在五个VLM标准基准测试上评估了中间训练前后的变化。结果显示，在POPE（物体幻觉评估）上几乎没有变化（86.33 vs 86.29），在VisuLogic（视觉逻辑推理）和3DSRBench（三维空间推理）上略有提升（21.00→24.90和47.87→49.51），而在BLINK（多模态感知基准）和SpatialEval（空间推理基准）上有中等程度的下降（43.45→40.45和49.82→48.00）。

这个结果表明，中间训练对VLM的原有能力并非无损保留，而是带来了一种有选择性的调整：它强化了与机器人任务相关的能力（如三维空间推理），同时对某些更偏向通用感知或特定类型空间理解的能力有所削弱。这种权衡是可以接受的，因为中间训练的目标本来就不是让VLM在所有任务上变得更好，而是让它成为VLA学习的一个更好的起点。

---

归根结底，这项研究回答了一个非常实际的问题：当我们想让AI控制机器人做事时，AI的"通识教育"和"专业训练"之间应该怎么衔接？研究团队的答案是：不需要抛弃通识教育，也不需要无休止地增加专业数据，只需要在两者之间加入一段精挑细选的"过渡课程"，让大脑在上岗前先调整好状态。

这个思路的意义或许不止于机器人领域。当人们把一个通用AI系统改造为某个垂直领域的专家系统时——无论是医疗诊断、工业检测还是自动驾驶——"如何让通用大脑向专业领域平稳过渡"都是同一类问题。EmbodiedMidtrain提供的解法——用一个轻量级分类器来衡量数据的领域对齐程度，然后用筛选出的样本做中间训练——是一个计算代价低、无需改变模型架构、具有跨架构迁移性的方案。

当然，这项研究也留下了一些开放的问题。邻近性估计器的有效性依赖于VLA训练数据作为"靶点"，如果目标领域的数据本身很稀缺，这套方法的可行性就需要重新评估。此外，中间训练对部分通用VLM能力的削弱，在某些需要VLM同时兼顾多类任务的场景下可能是个需要权衡的问题。

感兴趣深入了解这项研究的读者，可以通过arXiv编号2604.20012查阅完整论文，研究团队也承诺将开放全部代码、数据和模型，供后续研究使用。

---

Q&A

Q1：EmbodiedMidtrain和普通的机器人VLM微调有什么区别？

A：普通微调通常是直接在机器人场景数据上继续训练VLM，但实验表明这种做法在VLM理解能力测试上可能有提升，却未必改善机器人实际操作表现。EmbodiedMidtrain不使用机器人场景数据微调VLM，而是从VLM原有的海量训练数据中筛选出与机器人任务"世界观"更接近的子集，用这个精选子集对VLM进行过渡训练，让它在进入机器人专项训练前就具备更好的基础状态。

Q2：邻近性估计器训练起来复杂吗，成本高不高？

A：邻近性估计器非常轻量。它是一个简单的线性层，建立在冻结的VLM特征之上，不需要对VLM本身做任何改动。训练时批量大小128，通常在75到100步内就完成（提前停止条件是验证集准确率达到90%），计算代价极低。训练完成后对所有候选数据打分筛选，整个流程与后续的中间训练本身相互独立，不增加中间训练阶段的额外开销。

Q3：用InternVL3.5-1B筛出的数据，能不能直接拿去训练其他VLM？

A：可以，而且实验验证了这一点。研究团队将用InternVL3.5-1B特征空间筛选出的精选数据，直接用于对架构不同的Qwen3VL-2B进行中间训练，结果在Calvin、SimplerEnv和LIBERO三个基准上均有提升。这说明邻近性估计器捕捉到的数据对齐特性具有跨模型迁移性，不依赖于特定的VLM架构，反映的是数据内容本身与机器人领域的相关程度。

机器人控制视觉语言动作模型数据选择优化

分享至