微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

机器人"听懂"指令却不知道该抓哪个——哈工大等机构联合揭示VLA模型的致命短板

机器人控制语义接地视觉-语言-动作模型

机器人"听懂"指令却不知道该抓哪个——哈工大等机构联合揭示VLA模型的致命短板

作者：科技行者

2026-06-04 17:35

分享至：

多所高校与研究机构联合构建机器人语义接地测试平台RSB，发现主流VLA模型普遍存在"能抓但抓错"的致命缺陷，语义理解与动作生成之间存在严重断层。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 17:35 • 科技行者

这项由哈尔滨工业大学、中关村科学城人工智能研究院、中关村科学城创新研究院、武汉大学、华中科技大学、香港科技大学（广州）、北京航空航天大学、华东师范大学及DeepCybo联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.02277。感兴趣的读者可通过该编号在arXiv平台检索全文。

当你雇来一个助手帮你整理书架，告诉他"把关于烹饪的书放到左边"，他点头称是，然后走过去随手抓了一本放好——但那是本园艺指南。他的动作流畅、姿势标准，甚至还整理得挺整齐，可他根本没听懂你说的是什么意思。这个让人哭笑不得的场景，正是当今最前沿的机器人控制系统所面临的核心困境。

研究团队把这种现象叫做"语义接地失效"——机器人能动，能抓，但抓的不对。为了系统地诊断这个问题，他们构建了一个全新的测试平台，名叫RoboSemanticBench，简称RSB。

一、聪明的大脑和能干的手，为什么不能协同工作？

要理解这项研究在解决什么问题，先得知道现在的机器人控制系统是怎么设计的。当前最先进的一类系统叫做"视觉-语言-动作模型"，英文缩写VLA。顾名思义，它同时处理视觉信息（看）、语言指令（听和理解）以及动作输出（做）。

这类系统在设计上通常被分成两个部分，研究者借用了心理学中的概念，把它们叫做"系统二语义专家"和"系统一动作专家"。系统二就像是一个博学的参谋，负责阅读理解指令、分析场景，搞清楚"应该干什么"；系统一则是一个经验丰富的执行者，专门把参谋的判断转化为实际的手臂动作。

这个架构的底层逻辑听起来非常合理：系统二通常是一个经过海量互联网文本和图片训练的大型语言视觉模型，它本身具备出色的常识、数学推理和语言理解能力；系统一则专注于把这些理解转化为精准的连续运动控制。两个专家各司其职，应该能完美配合。

然而，问题藏在训练过程里。当研究团队开始追问"机器人的动作真的受语义理解指导了吗"，他们发现答案极可能是否定的。原因在于，系统一的训练方式是"模仿学习"——工程师给机器人示范一大堆成功完成任务的动作录像，让它去模仿。在这个过程中，指令当然是配套提供的，但训练的损失函数（也就是系统评判自己好不好的标准）只关心动作本身像不像示范，从来不去追问"你有没有真正理解指令的含义才做出这个动作"。

这就像是训练一个学生，每次给他一道题目和一个标准答案，要求他写出同样的答案，但从不检查他是否真的会做题。久而久之，他可能背熟了很多答案模式，甚至能识别题目中的某些关键词，从而猜出该用哪种模式，但真正的推理过程并没有建立起来。

更麻烦的是，在现有的很多机器人测试场景里，指令往往很简单直接，比如"把红色杯子拿过来"或"移动到桌子左边"。在这种情况下，机器人完全可以靠视觉捷径——就是认出红色的东西，或者识别出"左边"对应的位置——来完成任务，根本用不着真正理解指令的深层含义。于是，很多看起来表现不错的系统，实际上只是学会了更复杂的视觉-动作关联规律，而不是真正具备了语义驱动的行动能力。

二、一场专门为机器人设计的"考试"

正是为了把这个问题彻底暴露出来，研究团队设计了RoboSemanticBench这套测试系统。它的核心思路极其精妙：把语义理解能力从运动控制能力中彻底分离出来，分别检验。

测试的场景是这样的：在一张桌子上摆放若干个积木块，每个积木块上有一个字母标识（比如A、B、C、D）。机器人收到一条指令，指令里包含一道题目和一套对应关系说明。机器人需要先解答这道题，然后找到正确答案对应的那个积木块，把它抓起来放进一个专门的灰色"答题区"。

关键设计在于：积木的摆放位置每次都是随机的，字母和具体答案选项之间的对应关系也每次都是随机重新分配的。这意味着机器人不可能靠"每次正确答案都在左边第二个"这样的位置规律来作弊，也不能靠"红色积木就是正确答案"这样的颜色规律来投机取巧。唯一能确定正确目标的途径，就是真正理解指令里的题目，算出答案，再根据指令说明找到对应的积木块。

题目本身也被精心设计成三个难度层次。第一个层次叫RSB-Math，考的是初级算术：两位数加法、两位数减法、一位数乘两位数这三种运算。比如"27减17等于多少"，选项是4、10、11、14，机器人得算出是10，然后找到代表B选项（比如本次随机分配B对应10）的那个积木块。第二个层次叫RSB-HardMath，题目来自一个著名的数学题数据集GSM8K，考的是小学奥数级别的应用题，需要从自然语言描述中提取数量关系，经过多步推理才能得出答案。比如"王阿姨做保姆每小时挣12美元，昨天她做了50分钟，她挣了多少钱"，这就需要计算50/60×12≈10美元，涉及分数转化和乘法，远比直接的加减法复杂。第三个层次叫RSB-General，考的是非数学性的常识和知识，比如"日常生活中，应该去哪里洗脏碗碟"，答案是厨房或水槽，这类问题来自一个叫MMLU的大型多学科知识测试集。

值得一提的是，这些题目对于一个正常运作的AI语言模型来说根本不难。以目前表现中规中矩的Qwen3-4B模型为例，它在GSM8K上的正确率超过85%，在MMLU上超过70%。所以RSB测试的根本不是"语言模型会不会做题"，而是"语言模型做出来的答案，能不能真正指导机器人的动作"。

为了控制选项数量对难度的影响，每个题目类别都分成了"四选一"和"十选一"两个版本。四选一版本的随机猜对概率是25%，十选一版本则只有10%。更多的选项意味着靠运气蒙对的概率更低，对语义理解能力的要求也更高。

三、令人沮丧的测试成绩单

研究团队用这套测试系统评估了九个当前代表性的VLA模型，包括GO1、OpenVLA、DexVLA、TinyVLA、PD-VLA、π0、π0.5、GR00T N1.7和QwenGR00T。每个模型都用同一批专家示范数据训练10万步，然后在500个测试场景中进行评估。训练集和测试集的题目严格分开，防止机器人靠"背题"取巧。

测试结果用三个指标来呈现。抓取成功率（GSR）衡量的是机器人有没有成功抓住任意一个积木块，不管那个积木是不是正确答案。任务成功率（TSR）衡量的是机器人有没有抓住正确答案对应的那个积木块。归一化语义接地得分（nSG）则更进一步：在机器人成功抓到某个积木块的前提下，它选择的是正确目标的概率比随机猜测高出多少，0分代表纯靠运气，1分代表完美，负分代表比随机猜还差。

成绩单令人大跌眼镜。在四选一的套件里，九个模型的平均任务成功率不到25%这条随机线，很多模型的nSG得分接近零甚至为负。也就是说，很多机器人确实能顺利抓起一个积木块，但它抓哪个全凭随缘，语义理解结果根本没能影响它的选择。

具体看数字，GO1在六个测试套件上的平均任务成功率只有2%，nSG平均值是-19.4，也就是说它选择目标的准确度比随机猜测还差得多。OpenVLA的平均任务成功率11.1%，nSG平均值-7.2，表现同样堪忧。DexVLA、TinyVLA、PD-VLA、π0和GR00T N1.7的nSG平均值也都接近零或为负，其中π0的nSG平均值-5.7。QwenGR00T的平均TSR是10.7%，nSG平均-7.1。

从完整的GSR-TSR对比来看，很多模型的GSR其实相当高。以π0为例，它在四选一的RSB-Math测试中GSR高达91%——也就是说，它几乎每次都能成功抓起某个积木块，这说明基本的运动控制能力没问题。但它的TSR只有13%，比随机猜测的25%还低得多。这个巨大的落差清晰地说明：π0学会了"去抓积木"这个动作，但没有学会"根据指令语义决定抓哪个"。

唯一的亮点是π0.5，它的平均TSR达到21.8%，nSG平均值5.2，是九个模型里唯一一个明显高于随机水平的。研究团队分析认为，π0.5在训练时用了一种叫做"子任务标注"的数据，这些标注会把高层指令分解成若干中间步骤，可能因此给模型提供了一些把语义决策和动作生成联系起来的弱监督信号。不过即便如此，它的nSG也只是刚刚爬出零分线，距离真正可靠的语义接地还差得远。

为了确认这个失败不是积木形式造成的人为现象，研究团队还专门做了一个"日常物品"版本的对照实验，把桌上的字母积木换成了玩具车、扑克牌、鞋子等真实生活物品。结果显示，机器人的抓取成功率依然很高（π0.5约96.8%，GR00T N1.7约97%），但任务成功率依然很低（π0.5平均21.2%，GR00T N1.7平均12.4%）。这说明问题的根源确实是语义接地失败，而不是积木太难抓或者场景太特殊。

四、两种"特效药"，都失灵了

发现问题之后，研究团队自然想着去修复它，于是他们尝试了两种听起来很有希望的方法。遗憾的是，这两个探索都以失败告终，但失败本身也带来了重要的洞见。

第一种方法叫ReasoningVLA，思路是让机器人在行动之前，先用语言把推理过程明确地说出来。系统在架构上使用Qwen3-VL-4B作为语言理解核心，外加一个专门生成连续动作的"动作专家"。训练时，每条示范数据都附带一段用谷歌Gemini模型生成的推理注解，格式类似于：分析问题——算出答案——确认对应选项——找到对应颜色的积木块——抓取。这段推理文字被包裹在特殊标记之间，机器人先生成这段文字，然后再生成具体的关节运动序列。

从训练目标上看，系统用90%的权重优化动作生成，用10%的权重优化推理文字生成，二者共享同一个语言模型骨架，通过特殊的"动作查询令牌"把语义信息传递给动作生成模块。

结果显示，ReasoningVLA确实比基线QwenGR00T有所提升，平均TSR从10.7%提升到了16%。但这个提升仍然远低于可靠水平，而且最关键的问题并没有解决。错误分析揭示了一个耐人寻味的现象：在机器人成功抓到积木但抓错了的那些失败案例里，绝大多数——高达89.93%——其实推理文字本身是正确的，也就是说机器人"嘴上说对了"，但手却去抓了别的积木。真正因为推理出错而选错目标的只占6.7%。这说明问题不在于语言模型有没有能力推理出正确答案，而在于即便推理正确，这个正确答案也无法可靠地传导到控制手臂的动作模块里。用个通俗的说法就是：大脑想明白了，但手还是我行我素。

第二种方法叫VLA协同训练，思路是在机器人微调的同时，额外加入一些纯语言问答任务的训练数据，让语言模型骨架在学习控制手臂的同时，不忘保持其原本的语言理解能力。具体操作是从一个叫RoboVQA的机器人视觉问答数据集里抽取样本，混入训练批次，对应的损失权重设为0.1（动作损失权重为1.0）。两路数据共享语言模型骨架，但动作专家只由机器人示范数据来训练。

结果更令人沮丧：协同训练后的模型在六个测试套件上的TSR全部下降，平均从10.7%跌到8.2%。研究团队认为，这可能是因为语言问答和动作预测这两个任务在梯度层面发生了干扰——用来优化语言问答的梯度，扰乱了原本为动作控制而组织的内部表示，导致两头都没做好。这个发现与此前另一篇研究VLM4VLA的结论相吻合，说明这不是偶然现象。

这两次失败探索共同指向一个结论：要真正解决语义接地问题，既不能简单地靠显式推理链条来"桥接"语义和动作，也不能靠加入语言监督来"保鲜"语义能力。问题出在更深层的地方——在架构设计和训练目标层面，必须有专门机制来确保语义决策的结果能稳定地、可靠地流入动作生成过程。

说到底，这项研究揭示的是一个现代AI系统中普遍存在的"能力孤岛"问题。一个系统里的某个模块非常聪明，另一个模块非常能干，但二者之间的接口薄弱，信息在传递时丢失殆尽。机器人"看懂"了题目，"知道"了答案，但这个"知道"并没有转变成"选择正确目标"的行动。就像一个人已经用脑子想清楚了要抓左边第三个苹果，但身体还是按照某种旧习惯伸手去抓了中间那个。

归根结底，RoboSemanticBench的价值不只是揭示了一个令人不安的现象，更重要的是它提供了一把精确的诊断工具。通过GSR-TSR的分解和nSG得分，研究者可以清楚地知道一个系统的运动控制能力和语义接地能力各自处于什么水平，而不是被一个模糊的"任务成功率"数字所迷惑。这对未来VLA系统的设计和评估具有相当实际的参考意义。对于关心机器人能否真正理解人类意图的研究者和开发者来说，这项工作提出了一个清晰的努力方向：在架构和训练目标上，必须建立一条从语义决策到动作生成的稳定通道，而不仅仅是把两个能力强大的模块拼在一起就万事大吉。有兴趣深入了解全部实验细节的读者，可以通过arXiv:2606.02277查阅完整论文。

Q&A

Q1：RoboSemanticBench测试平台是怎么设计的，为什么能测出语义接地能力？

A：RoboSemanticBench的核心设计是让机器人回答多项选择题并用抓积木的方式"作答"。桌上摆放若干字母积木，机器人读题、算出答案，再根据随机分配的字母-答案对应关系找到正确积木块抓起来。由于积木位置和字母对应关系每次都随机变化，机器人无法靠位置或颜色规律投机取巧，唯一的办法是真正理解指令语义，因此能精准测出语义接地能力。

Q2：VLA模型在RoboSemanticBench上表现差的根本原因是什么？

A：根本原因在于训练方式的缺陷。VLA模型的动作模块通过模仿学习训练，损失函数只衡量动作是否像示范，从不追问"是否真正理解了指令才做出这个动作"。这导致动作模块可能学会了抓积木的运动技能，却没有把语言模块的语义判断结果纳入目标选择过程，两个模块之间的信息传递断裂。

Q3：ReasoningVLA让机器人先说出推理过程再行动，为什么还是没能解决问题？

A：错误分析显示，ReasoningVLA失败案例中89.93%的情况是推理文字本身是正确的，机器人"说对了"但手却抓错了积木。说明语言空间里的正确推理结果，无法可靠地传导到连续动作生成模块里。换句话说，大脑想明白了，但负责控制手臂的部分并没有真正"听进去"，显式推理链条并不足以弥合这个接口断裂。

机器人控制语义接地视觉-语言-动作模型

分享至