微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

马里兰大学等机构联手，用不到2000条数据训练出比肩顶级AI的机器人操控系统

具身智能工具调用小模型超越大模型

马里兰大学等机构联手，用不到2000条数据训练出比肩顶级AI的机器人操控系统

作者：科技行者

2026-06-22 14:10

分享至：

Guava是一个机器人操控框架，通过迭代感知推理循环、语义工具调用和多模态观察，用不到2000条仿真轨迹训练出4B小模型，在多任务操控中达到甚至超越GPT-5.4等顶级商业模型的水平，并实现零样本真实世界迁移。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-22 14:10 • 科技行者

这项由马里兰大学帕克分校、伊利诺伊大学厄巴纳-香槟分校、滑铁卢大学、穆罕默德·本·扎耶德人工智能大学以及宾夕法尼亚大学联合开展的研究，于2026年6月发表，论文编号为arXiv:2606.18363v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

假设你雇了一个全能助手来帮你整理厨房。这个助手有两种工作方式：第一种是你把所有指令一次性交给他，他照着做，做到哪里算哪里，碰到问题也不知道灵活应变；第二种是他边做边看，随时观察厨房里发生了什么，发现锅要烧糊了立刻转移，发现碗放错地方立刻调整，整个过程像是一个有眼力见的老手。现实中，大家当然更希望是第二种助手。

这正是这支研究团队想要解决的问题——如何让机器人手臂也成为那种"有眼力见的老手"，不仅能执行指令，还能边观察边思考，出了问题自己想办法修复。他们给自己的研究成果起了一个好记的名字：**Guava**。

一、机器人"听指挥"的老方法，为什么越来越不够用

要理解Guava解决的问题，得先弄清楚机器人领域目前面临的困境。

近年来，随着像ChatGPT、GPT-4这样的大型语言模型和视觉语言模型（简单理解：能同时看图和读文字的AI大脑）变得越来越强大，研究人员自然想到：能不能让这些聪明的AI直接控制机器人？一个直接的思路就是把视觉语言模型改造成"视觉-语言-动作模型"，也就是让AI不仅看懂图、读懂字，还能直接输出机器人的动作指令。这类方法确实有不少成功案例，比如π0、OpenVLA等系统。

然而，这条路有一个根本性的瓶颈：你得喂给它海量的机器人操作示范数据。训练这样一个系统，往往需要收集成千上万甚至更多条真实机器人操作的录像，每一条都要人工示范、标注。这些数据不仅收集成本极高，而且换一个机器人型号、换一个场景就可能要重新来过，很难推广到现实生活中千变万化的情况。

更麻烦的是，当机器人按照"一口气计划好"的脚本执行任务时，一旦中途出了岔子——比如抓取物体失手了，或者物体被碰歪了——系统往往毫无察觉，继续按原计划行事，最终任务失败。这就像一个导航软件，在你已经走错路之后，还在坚持让你"按原路线继续前行"，而不是帮你重新规划。

与此同时，另一种思路也在悄悄兴起：不让AI直接生成底层动作指令，而是给AI配备一套"工具箱"，让AI在工具箱里选择合适的工具来完成任务——比如"抓取某物体"、"移动到某位置"、"查询物体的坐标"等。AI负责高层次的思考和决策，工具负责执行具体的物理动作。这种思路被称为"Harness（框架/驾驭）工程"，有点像给一个聪明的总指挥配备了一批专业的执行团队。

但问题是：什么样的"工具箱设计"才算好？给AI用的工具太底层（比如直接输入每个关节的角度），AI就要花大量精力算细节；工具太粗糙，又可能应对不了复杂情况。而且，整个交互流程是该一次性计划好，还是该边做边思考？这些问题，在Guava这项研究之前，都没有系统性的答案。

二、Guava的核心配方：三种关键"佐料"缺一不可

研究团队把这个问题当成一道需要系统探索的实验题。他们在一个名为Robosuite的机器人仿真环境里，设计了六种需要复杂操作序列的任务，然后系统地测试不同设计方案的效果。最终，他们提炼出了三种对机器人操控效果影响最为显著的"佐料"。

第一种佐料，是"边做边想"的迭代循环，而不是"一次性规划到底"。这个区别有点像下象棋的方式差异：一种是开局就把整盘棋的所有步骤都想好，不管对手怎么走都照着走；另一种是每走一步都观察对手的落子，再决定下一步。显然，后者更接近真正的棋手思维。研究团队把这种"观察-思考-行动-再观察"的循环，借用了学术界一个已有的概念框架，叫做ReAct循环。实验结果清晰地表明，采用这种迭代循环方式的系统，在面对执行失误和环境变化时，鲁棒性（可以理解为"抗干扰能力"）远远超过那些一次性生成计划的系统。

第二种佐料，是"有语义含义的操作工具"，而不是让AI去操心每个细节。举个具体的例子：如果给AI的工具是"grasp（物体名称）"，意思是"抓取某个物体"，那AI只需要告诉系统"去抓那个苹果"，底层的感知、定位、抓取姿态计算都由专门的模块去完成；但如果工具是"move（x, y, z, roll, pitch, yaw, width）"，AI就得自己算出手爪应该在哪个三维坐标、以什么角度、张开多大来抓住苹果——这对一个专注于高层规划的AI来说，负担极重。研究团队对比了这两种工具设计方式，结果显示：给AI提供有语义含义的高层工具，整体任务成功率显著高于低层几何工具。这验证了"让专业的人做专业的事"这一直觉：AI专注于"要做什么"，底层控制器专注于"怎么做"。

第三种佐料，是"多模态的感知输入"，也就是同时给AI看图片和文字描述，而不是只给其中一种。图片能告诉AI各个物体的空间位置、形状和当前状态，文字（比如机械臂的当前坐标、夹爪的开合程度）则提供精确的数值信息，两者结合能显著减少AI的误判。研究团队的实验证明，只给图片或只给文字的系统，都比同时给两者的系统表现差不少。这种结合，类似于一个厨师同时看着锅里的食材（视觉）和计时器上的数字（文字），而不是只凭其中一个来判断火候。

把这三种佐料组合在一起，就是Guava框架的核心设计思想：在每一步操作后，系统会更新对当前场景的图像和文字描述，AI根据这些信息进行推理，然后调用一个有语义意义的工具执行下一步动作，再观察结果，再推理，如此循环，直到任务完成或确认无法完成。

三、Guava的"工具箱"长什么样

为了让读者有更直观的感受，值得详细介绍一下Guava给AI配备的这套工具箱里究竟有哪些工具，以及它们的设计逻辑。

整套工具箱共有九种工具。最核心的是grasp，功能是让机器人抓取一个指定的物体。背后的实现逻辑是：系统首先用一种叫SAM3的视觉分割模型把目标物体从图像中"切"出来，然后估计出合适的抓取姿态，机器人再去抓。这个工具返回的结果只有两种：成功抓住（"grasped"）或者夹爪完全闭合但没抓到东西（"closed"），AI据此判断抓取是否成功。

与grasp配套的是align工具，它的作用是把机械臂的夹爪移到某个物体周围的特定位置。AI可以指定方向（比如"从上方"、"从左侧"、"从正前方"）和距离（"近"、"中"、"远"），而不需要给出具体的三维坐标——这些坐标转换由底层模块自动完成，依据是对物体点云（可以理解为物体在三维空间里的点状轮廓）的几何分析。

get_position和get_position_size两个工具用于"查询"，前者返回某个物体在机器人参考坐标系中的三维位置，后者还额外返回物体的尺寸大小。这对于AI推理空间关系非常有用，比如"这个盒子有多大，苹果能不能放进去"。

move工具允许AI以数值方式直接指定夹爪要移动到的三维坐标，适用于需要精确控制位置的场合。rotate工具则允许AI旋转夹爪，指定旋转角度和轴向。close_gripper和release分别用于主动闭合和张开夹爪，而home_pose工具则让机器人回到一个预设的"安全初始姿态"，这个工具在AI判断当前姿态不适合继续操作时特别有用，相当于"先退一步，重新出发"。

这套工具箱的设计哲学体现了一种刻意的层次感：有些工具高度抽象（比如grasp，AI完全不用操心怎么抓），有些工具允许适度的数值精控（比如move），这种组合既减轻了AI的认知负担，又保留了在精细操作时进行微调的能力。

四、把大模型的能力"压缩"进小模型：一个数据高效的训练流程

Guava框架设计好之后，研究团队面临一个实际问题：直接用GPT-5.4这样的顶级商业大模型来运行Guava，虽然效果很好，但代价极高。在机器人执行任务的过程中，每一步都需要调用一次API，每次都要传输图片和文字、等待模型推理，延迟和成本都难以接受，更别说大规模部署了。

所以团队提出了一个很自然的问题：能不能把这些顶级大模型在Guava框架下展现出来的能力，"蒸馏"进一个小得多的、可以本地运行的开源模型？

蒸馏的第一步是收集数据。研究团队把GPT-5.4部署在Robosuite仿真环境里，让它在Guava框架下执行各种操作任务，把每一条完整的交互轨迹——包括每一步的场景图片、AI的推理过程、调用的工具和工具的执行结果——都记录下来。这些记录就成了训练小模型的"教材"。

为了增加数据多样性，团队在收集过程中随机改变物体的位置、光照条件和摄像机角度。更关键的是，团队特别生成了一类"恢复轨迹"：主动在成功的执行过程中人为引入错误（比如让夹爪在快要抓住物体时偏一偏，模拟抓取失败；或者让物体在运输途中"掉落"），然后让GPT-5.4从这个出错状态开始继续操作，观察它如何应对。这些"出了问题然后自救"的轨迹，是后来小模型能够展现出自主恢复能力的重要原因。

收集完数据后，还需要经过严格的清洗：只保留最终成功完成任务的轨迹；过滤掉工具参数错误、仿真初始化失败等技术问题导致的异常轨迹；人工检查部分轨迹，剔除那些AI说了一堆没用的话却没有推进任务的低质量样本；对高度重复的轨迹进行去重，防止模型死记某些固定模式。

最终整理出来的数据集共有1934条轨迹，对应237个不同的任务描述。其中62%（约1191条）是正常成功执行的轨迹，38%（约743条）是包含错误和恢复过程的轨迹。这个规模，在机器人学习领域里算是相当小的，但效果却出人意料地好。

五、两阶段训练：先学套路，再磨意志

拿到数据之后，团队用一个叫Qwen3.5-4B的开源视觉语言模型作为基础，进行两阶段的训练，最终产出了他们称为Guava-Agent-4B的模型。

第一阶段叫做"监督微调（SFT）"。把刚才收集的1934条轨迹全部喂给Qwen3.5-4B，让它学习"在这种情况下应该这么推理、调用这个工具"。这阶段的目标是让模型掌握各种操作任务的基本套路，包括正常流程和出错后的恢复流程。学习率设为每次调整非常微小的步伐（0.00001），训练3轮，用32条样本的批次更新一次参数，在8块英伟达H100 GPU上进行。

第二阶段叫做"强化学习后训练（GRPO）"。这一阶段只针对最难的两类长序列任务进行——一类是"贝壳游戏"（Shell Game，需要追踪被遮挡的物体），另一类是"把所有红色物体放进篮子"（需要识别颜色、逐一操作多个物体）。之所以只选最难的任务，是因为这类任务对于计算资源的消耗极大，而且简单任务在第一阶段已经学得很好了，在它们上面做强化学习是浪费。

强化学习的激励机制很简单：任务最终成功了就得到奖励，失败了没有。系统每次让模型针对同一个任务生成4条不同的执行方案，然后根据哪条方案最终成功来更新模型参数，让成功的策略得到强化。这个过程有点像让一个学员反复尝试不同的方法来解一道难题，成功的方法被记住并加以强化，失败的方法被淡化。

这两个阶段的组合，使得Guava-Agent-4B既掌握了基本技能，又在面对真正棘手的长序列任务时具备了更强的自我调整能力。

六、实验结果：小模型超越大模型，仿真成果直接迁移现实

研究团队对Guava-Agent-4B进行了全面的评测，分为仿真环境和真实世界两大类，并与三个对照系统进行比较。

第一个对照是Qwen3.5-4B本身——也就是没有经过任何机器人专项训练、只是套上Guava框架直接使用的基础版本，用来衡量"框架本身能带来多少提升"。第二个对照是GPT-5.4，业内顶级的商业多模态大模型，同样套上相同的Guava框架和相同的工具集，代表了当前技术的天花板参考线。第三个对照是CaP-Agent0，一个同期发表的竞争系统，它的特点是让AI一次性写出完整的操作程序然后执行，没有迭代循环的能力。

在仿真环境里，研究团队设计了15个不同任务，分成四类：与训练数据同类但场景不同的"分布内任务"（ID）；涉及从未见过的物体或物体名称的"分布外物体任务"（OOD物体）；要求按照从未见过的指令表述方式完成任务的"分布外指令任务"（OOD指令）；以及需要把多个操作技能串联起来完成的"分布外长序列任务"（OOD长序列）。每个任务都在15个随机生成的场景下重复执行，取成功率。

结果相当惊人。Guava-Agent-4B的总体成功率达到了75.6%，超过了GPT-5.4的70.2%和CaP-Agent0的62.7%。仅靠基础版Qwen3.5-4B（没有机器人专项训练）套上框架，成功率只有23.1%，说明框架确实有用，但光有框架不够，专项训练同样必不可少。

具体来看，在"把罐头放进盒子"和"从托盘里取出方块"这两个任务上，Guava-Agent-4B达到了100%的成功率；在"推篮子"这个对所有系统都有难度的任务上，它以60%的成功率显著领先GPT-5.4的26.7%和CaP-Agent0的20%。在从未见过的物体任务中，它在"捡起胡萝卜"、"把柠檬放进垃圾桶"以及"把方块按相反顺序叠放"上都实现了100%的成功率。在长序列任务中，它在"分开食物和餐具"以及"摆餐桌"上都达到了93.3%的成功率。

唯独在"贝壳游戏"（6.7%）和"把所有红色物体放进篮子"（0%）这两个最难的任务上，基础版（只经过第一阶段SFT训练）的Guava-Agent-4B几乎完全失败。这里就体现出了第二阶段强化学习的价值：加入GRPO强化训练后，这两个任务的成功率分别飙升至60%和93.3%。这两个任务的共同特点是需要执行非常长的操作序列，并且需要在中途多次处理失误——恰恰是强化学习最擅长强化的能力。

在真实世界实验中，研究团队把Guava-Agent-4B部署在了一台法兰卡（Franka Research 3）机械臂上，配合一个固定安装的英特尔RealSense D435 RGB-D摄像头，没有进行任何额外的真实世界训练，直接测试。结果同样令人满意：在5个分布内任务上，整体成功率达到86%；在5个分布外任务上，整体成功率达到92%。在"捡起橘子"、"把罐头放进盒子"和"从托盘里取出方块"三个任务上都实现了100%的成功率，在更难的"推篮子"任务上以60%胜过GPT-5.4的40%。在分布外任务中，"把物体移走"达到100%，"摆餐桌"达到90%。

这种从仿真到真实世界的直接迁移能力，与传统的机器人学习方法形成了鲜明对比。传统方法往往因为仿真和真实世界之间的视觉差异（行话叫"sim-to-real gap"）而大打折扣，需要额外的迁移训练。Guava之所以能避免这个问题，关键在于它把视觉感知和底层控制都外包给了专门的模块，AI只负责语义层面的推理——而语义理解在仿真和真实世界里并没有本质区别。

七、意外惊喜：系统展现出未曾刻意教导的能力

在实验过程中，研究团队还观察到了一些超出预期的行为，值得单独说说。

首先是对训练数据中没有出现过的错误类型的自主应对。在真实世界实验中，机械臂偶尔会因为运动超出关节极限或目标位置不可达而触发错误中断。这类错误在仿真训练数据里是没有的，但系统能够识别这类情况，并自主采取合理的应对策略，比如先让机械臂回到初始安全姿态，然后重新规划路径再试一次。这表明系统的恢复能力来自于对执行反馈的逻辑推理，而不只是记住了某些预设的错误-修复配对。

其次是任务进度的内部跟踪能力。在实验中，当机械臂已经抓住了一个物体（比如白色细棒），然后执行被中断（比如人为停下来），之后再重新用同样的指令启动时，系统会正确判断出"物体已经在手里了，不需要再去抓"，直接进行下一步放置操作。这说明系统能够根据当前的视觉观察推断出任务已经完成了哪些步骤，而不是每次都从头开始盲目执行。

八、系统的边界：哪些地方还做不到

研究团队在论文中坦诚地列出了Guava目前的几个主要局限，这对于全面理解这项研究同样重要。

当前的工具箱设计不支持"灵巧操作"——也就是那些需要手指精细协调、像拧螺丝、穿针这类高精度操作的任务。因为这类任务的关键在于手的精妙动作本身，而现有的工具抽象层级还不足以支持这类操作。

系统在工具层面的错误（比如SAM3分割模型把错误的区域当成目标物体，或者抓取规划器给出了一个不合理的抓取姿态）目前无法被直接纠正。系统能做的是检测到执行失败，然后通过多次重试或者换一种动作策略来间接应对，但不能直接告诉感知模块"你分割错了，再试一次"。

此外，当前系统只使用了一个固定位置的摄像头，这在物体被遮挡或者视角不合适的情况下会造成困难。未来的改进方向包括增加腕部摄像头、使用多视角融合等。

研究团队还注意到，在需要精确空间推理的任务上（比如判断方向、按顺序排列物体、推动物体到特定位置），所有测试的AI模型成功率都偏低。原因在于现有的视觉语言模型对于空间概念（比如"左边"、"顺序"、"相对位置"）的理解还不够扎实，容易走捷径——比如把"向右推"直接映射到某个固定的坐标轴方向，而不是真正从图像中理解空间关系。这是整个视觉语言模型领域共同面临的短板，也是未来研究的重要方向之一。

九、横向对比：Guava与同类系统的区别

为了让读者对Guava的定位有更清晰的认识，值得把它与同期的一些相关系统放在一起比较。

CaP-Agent0（即论文中的Cap-X系统）是与Guava方向最接近的同期系统。两者都采用了"让AI调用工具"的思路，但CaP-Agent0的核心模式是让AI一次性写出完整的操作程序，然后批量执行，执行过程中没有迭代观察和调整的机制。在总体测试中，CaP-Agent0的62.7%与Guava-Agent-4B的75.6%差距明显，尤其在长序列任务中差距更大。

Maestro是另一个采用工具调用思路的系统，它依赖于将强大的前沿商业模型与专门的感知和控制工具结合，但没有系统性地研究框架设计原则，也没有尝试把能力蒸馏进小模型。

与需要大量真实机器人数据训练的端到端VLA系统（如π0、OpenVLA）相比，Guava的数据需求仅仅是不到2000条仿真轨迹，且全部在仿真环境中生成，不需要任何真实机器人示范，部署成本和数据收集难度大幅降低。

还有一个值得关注的对比数字：在每个任务上平均消耗的token数（可以理解为AI需要处理的信息量，也间接反映了推理成本），GPT-5.4平均每个任务需要26237个token，而Guava-Agent-4B只需要19110个，节省了约27%。这意味着即使从推理效率角度来看，经过专项训练的小模型也比直接使用大模型更经济。

说到底，Guava这项研究讲的是一个让人振奋的故事：一个精心设计的"工作框架"，能让一个本来平平无奇的小模型，通过少量有针对性的训练，达到甚至超过那些参数量大得多、使用成本高得多的顶级商业模型的水平。这就好比一个经过严格专业培训的技师，在有了一套设计合理的工具系统之后，完成任务的质量反而超过了一个知识渊博但工具混乱的专家。

这对机器人领域的意义非常实际：它表明，要让机器人真正走进千家万户，解决具体的、现实的操作问题，关键不一定是训练更大的模型、收集更多的数据，而是把已有的AI能力通过合理的框架设计"用对地方"。如果这个思路被更广泛地采纳，未来家用机器人、工厂辅助机器人、医疗护理机器人等领域的开发周期和成本，都有望大幅缩短。

当然，这项研究本身也还有不少未竟之处——比如如何让系统处理需要手指精细协调的操作、如何让AI真正理解三维空间关系而不只是依赖坐标数字、如何在更大规模和更多样化的任务上验证这套框架的普适性。这些都是留给下一批研究者的挑战。有兴趣深入了解这项工作的读者，可以通过论文编号arXiv:2606.18363查阅完整的研究报告，以及访问项目主页 guava-harness.github.io 了解更多细节。

---

Q&A

Q1：Guava机器人操控框架的训练数据量为什么那么少，只用了不到2000条？

A：Guava的核心思路是让AI只负责高层次的推理和工具调用，底层的抓取、定位、运动规划都由专门的模块处理。这种分工大幅降低了AI需要学习的内容复杂度，因此少量结构良好的轨迹数据就足以让模型掌握关键能力。另外，训练数据中特别包含了大量"出错后自救"的恢复轨迹，使模型在遇到突发状况时也有应对能力，进一步提高了数据利用效率。

Q2：Guava中的"ReAct循环"和传统机器人一次性规划有什么具体区别？

A：传统的一次性规划就像出发前把所有路线都想好，途中无论遇到什么情况都按原计划走。ReAct循环则是每走一步就观察一次当前状况，再决定下一步怎么走。在Guava里，机器人每执行完一个动作，就会更新一次对当前场景的图片和状态描述，AI据此推理后才决定下一步操作。这使得系统能够检测到"抓取失败了"、"物体被碰偏了"等情况，并及时调整策略，而不是继续盲目执行原计划。

Q3：Guava训练出的小模型（4B参数）为什么能超过参数量更大的GPT-5.4？

A：这主要有两个原因。首先，Guava-Agent-4B经过了专门针对机器人操控任务的微调训练，而GPT-5.4是一个通用模型，没有针对这类任务做过专项优化；专项训练使小模型在特定领域的表现超过了没有专项优化的大模型。其次，强化学习阶段让模型在最难的长序列任务上反复试错并强化成功策略，进一步提升了它处理复杂任务的能力。这说明在特定应用场景下，"精准的专项训练"往往比"更大的通用模型"更有效。

具身智能工具调用小模型超越大模型

分享至