微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科技大学团队突破机器人智能瓶颈：让机器人像人一样先想后做

机器人技术视觉-语言-动作模型双系统架构

香港科技大学团队突破机器人智能瓶颈：让机器人像人一样先想后做

作者：科技行者

2026-04-02 11:04

分享至：

香港科技大学团队开发了VP-VLA机器人系统，通过"先想后做"的双系统架构解决了现有机器人在复杂任务中的精度和适应性问题。系统分为规划大脑和执行大脑，前者负责任务分解并生成视觉提示标记，后者根据标记精确操作。测试显示，该系统在仿真和真实环境中的成功率分别提升5%和8.3%，在处理新物品和新环境时表现尤为出色，为智能机器人技术发展提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-02 11:04 • 科技行者

这项由香港科技大学、香港中文大学和SmartMore公司联合完成的研究发表于2026年3月的arXiv预印本平台，论文编号为arXiv:2603.22003v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们想让机器人帮忙收拾房间时，你是否想过这样一个问题：为什么机器人总是显得笨手笨脚，明明能看懂我们的指令，却经常抓错东西或者放错位置？答案其实很简单，现在的机器人就像一个急性子的孩子，听到指令就立刻行动，没有经过大脑的仔细思考。

研究团队发现了一个有趣的现象：当前的视觉-语言-动作模型就像是一个试图同时做三件事的人——既要理解主人说的话，又要识别眼前的物体，还要控制手脚动作。这就好比一个厨师在做菜时，需要同时阅读食谱、识别食材、还要精确控制火候，结果往往顾此失彼。更糟糕的是，当遇到从未见过的物品或者摆放位置与平时不同时，这些机器人就像迷路的孩子一样无所适从。

为了解决这个问题，研究团队提出了一个名为VP-VLA的创新框架。这个名字虽然听起来很专业，但其核心思想却很朴素：让机器人学会像人类一样思考，先用"大脑"做计划，再用"手脚"执行动作。

整个系统的工作原理可以用家庭主妇安排家务来比喻。当你告诉机器人"把这些东西收拾到合适的地方"时，VP-VLA首先启动"系统2规划师"——这就像一个经验丰富的管家，会仔细观察现场情况，把复杂的任务分解成一系列简单的小步骤。比如"先拿起瓶子，然后放到绿色盒子里"这样的具体指令。

接下来是最巧妙的部分：规划师不会只是给出文字指令，而是会在机器人看到的画面上直接画出提示。想象一下你在给朋友指路时，不仅用语言描述，还会在地图上用红笔圈出目标位置——这就是VP-VLA的视觉提示功能。对于需要抓取的物品，系统会在上面画一个十字准星，就像狙击手瞄准目标一样精确；对于需要放置的位置，则会画出一个框框，明确标示"就放在这里"。

有了这些直观的视觉提示后，"系统1控制器"就像一个专注的工人，只需要跟着这些标记精确执行动作即可。这种分工合作的方式大大提高了机器人的工作效率和准确性。

研究团队特别关注的一个问题是：如何确保机器人真正理解这些视觉提示，而不是把它们当作画面上的无关杂物。为此，他们设计了一种特殊的训练方法。在训练过程中，当出现视觉提示时，系统不仅要学会正确的动作，还必须准确说出提示所指向的位置坐标。这就像让学生不仅要得出正确答案，还要写出详细的解题过程，确保真正掌握了解题思路。

更有趣的是，系统还引入了"事件驱动"的机制。简单来说，规划师不会一开始就把所有步骤都安排好，而是会根据当前进展动态调整。比如当机器人成功抓起一个物品时（机械手从张开变为握紧），系统会自动判断"第一步完成了"，然后切换到下一个任务目标。这种灵活性让机器人能够应对各种意外情况，就像一个有经验的司机会根据路况随时调整行驶路线。

为了验证这套方法的有效性，研究团队在多个环境中进行了大量测试。在Robocasa-GR1桌面操作测试中，VP-VLA的成功率达到了53.8%，比目前最好的方法提升了5个百分点。这个提升看起来不大，但在机器人领域已经是一个显著的进步了。

在SimplerEnv仿真环境中，VP-VLA的表现更加出色，平均成功率达到58.3%，比基准方法高出8.3个百分点。特别值得注意的是，在一些需要精确识别和放置的任务中，比如"把茄子放进黄色篮子"这样的任务，VP-VLA的成功率从70.8%跃升至95.8%，几乎达到了完美水平。

研究团队还进行了真实世界的测试，这是检验技术实用性的最终考验。他们设计了三种不同的任务场景。第一种是废物分类任务，机器人需要根据物品类型把不同的东西放到相应的回收箱里。在这个测试中，VP-VLA表现出了出色的适应性：当遇到训练时没见过的红色鞋子时，传统方法的成功率只有70%，而VP-VLA依然保持90%的准确率，展现了强大的泛化能力。

第二种是颜色识别任务，要求机器人在一个4×4的网格中准确抓取指定颜色的鸡蛋。这个看似简单的任务其实很有挑战性，因为需要机器人准确理解颜色概念并与视觉信息匹配。结果显示，VP-VLA在处理从未见过的颜色组合时，成功率仍能保持75%，而传统方法只有29.2%。

第三种是空间定位任务，机器人需要根据"第2行第4列"这样的文字描述，把鸡蛋放到正确的位置。在这个需要精确空间推理的任务中，VP-VLA的表现同样令人印象深刻，在全新的位置组合中仍能保持68.8%的成功率。

这些测试结果表明，VP-VLA不仅在实验室环境中表现优秀，在真实世界的复杂情况下也能保持稳定的性能。更重要的是，它展现了很强的举一反三能力，能够处理训练时没有见过的新物品、新颜色和新位置。

研究团队还深入分析了系统各个组成部分的作用。他们发现，如果去掉视觉定位训练，系统性能会明显下降，这证明了让机器人学会"看懂"视觉提示的重要性。同时，如果把十字准星换成简单的点，效果也会变差，说明提示的设计也很关键。

这项研究的意义远远超出了技术本身。它为我们展示了人工智能发展的一个重要方向：不是让机器变得更复杂，而是让它们学会像人类一样合理分工。就像一个优秀的团队，每个成员都有明确的职责，通过有效协作来完成复杂任务。

从更广阔的角度来看，VP-VLA代表了机器人技术向更加智能化和实用化迈进的重要一步。随着这种技术的不断完善，我们可以期待在不久的将来，机器人助手会变得更加可靠和聪明，真正成为我们日常生活中的得力帮手。

当然，这项技术目前还处于研究阶段，距离大规模实际应用还有一定距离。但是，它为解决当前机器人技术面临的关键问题提供了一个很有前景的思路。更重要的是，它告诉我们：有时候最好的解决方案不是让系统变得更复杂，而是让它变得更聪明。

说到底，VP-VLA的核心理念其实很简单：让机器人学会先想后做，就像我们人类一样。这种看似朴素的想法，却可能是通向更智能机器人的关键钥匙。随着这项技术的进一步发展和完善，我们有理由相信，未来的机器人会变得更加智能、可靠，真正成为我们生活中不可或缺的伙伴。

Q&A

Q1：VP-VLA机器人系统是如何工作的？

A：VP-VLA就像一个有两个大脑的机器人。第一个"大脑"负责理解指令和制定计划，会把复杂任务分解成简单步骤，并在机器人看到的画面上画出提示标记，告诉它该抓哪里、该放哪里。第二个"大脑"则专门负责执行动作，跟着这些视觉提示精确操作。这种分工让机器人既能理解复杂指令，又能精确执行动作。

Q2：VP-VLA比传统机器人系统强在哪里？