微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 港大与南科大联手破解机器人"闭眼行动"困局:让机器人学会随时质疑自己的判断

港大与南科大联手破解机器人"闭眼行动"困局:让机器人学会随时质疑自己的判断

2026-05-13 10:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-13 10:36 科技行者

这项由香港大学与南方科技大学联合主导、深圳星尘机器人公司参与的研究,于2026年5月以预印本形式公开发布,论文编号为arXiv:2605.06222。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。

你有没有在黑暗中摸索走路时,突然踩空台阶的经历?那一瞬间的感觉非常奇妙——你的大脑早已"预演"了下一步的落脚感,当脚踩下去的感觉与预期完全不符,身体会立刻发出警报,肌肉迅速调整姿势。这个过程发生在零点几秒之内,你甚至没有时间去思考。

现在的机器人,尤其是用于抓取、搬运、组装等操作任务的机械臂,面临一个类似的根本性困境。研究团队将这个困境命名为"闭眼行动"问题:机器人在做出一系列动作之前,会预先计算好接下来要怎么动,然后把这套动作计划一口气执行完,期间完全不管现实中到底发生了什么。这就好比一个人闭着眼睛弹钢琴,提前把每个手指的动作都规划好,然后不管弹出来的音符对不对,就一直往下弹。

这篇论文要解决的,正是让机器人在执行过程中"睁开眼睛",随时对比自己的预期与现实,从而决定是继续按原计划走,还是中途重新想一想。

一、机器人的"内心戏":为什么它需要预想未来

要理解这项研究,得先认识一类叫做"世界行动模型"的机器人大脑。普通的机器人控制方法是这样的:摄像头看到当前的场景,程序根据当前画面计算出下一步动作,执行,再看画面,再计算,如此循环。这类方法每走一小步就要想一次,反应灵敏但计算量大,而且每次只看眼前,没有"全局观"。

世界行动模型则更进一步。它不仅预测下一步该怎么动,还会同时预测如果按这套动作执行,未来的画面应该长什么样。换句话说,它在内心"排演"了一段未来的视频:机械臂从这个位置出发,经过这些中间动作,最终把杯子放到桌上,与此同时,摄像头视野里应该呈现的是什么景象,它也一并给出了预测。

这种能力来自大规模的视频与动作数据联合训练。模型从海量的操作视频中学会了物理世界的规律:当机械臂从某个角度抓住某个形状的物体时,这个物体通常会怎么移动,画面会怎么变化。这使得世界行动模型在应对新环境、新物体时比普通模型更有底气,因为它不只是在记忆"怎么动",更在理解"动了之后世界会怎样变"。

然而,这类模型有一个没人解决的盲区。每次推理之后,模型会输出一个"动作包",比如接下来要执行的16个动作,或者64个动作。然后机器人就把这些动作一股脑儿地执行完,才会再次调用模型来计算下一批动作。在这整个执行过程中,尽管模型已经预测了未来画面应该是什么样子,但这些预测画面从来没有被用来核对现实——它们只是生成动作的副产品,生成完就被搁置一边了。

研究团队发现,这种"用完就扔"的方式实在太可惜了。模型既然已经预演了未来,为什么不在执行过程中不断把预演的画面和摄像头实际拍到的画面做比对,看看两者是否吻合呢?

二、固定步长的两难困境:要么浪费时间,要么酿成失误

在展开新方案之前,研究团队仔细梳理了现有方案的弊端,因为这个问题本身就很微妙,值得细细道来。

动作包的长度,也就是每次模型推理之后执行多少个预计算动作,是一个需要人为设定的参数。短一些,比如每次只执行16个动作,那么机器人每隔16步就要停下来重新调用模型推理一次,反应比较灵敏,但调用模型的频率高,计算开销大,完成任务需要的时间更长。长一些,比如每次执行64个动作,调用模型的次数减少,效率更高,但如果在执行过程中出了什么差错,机器人会一直往错误的方向走,等到64步全部执行完才有机会纠偏,往往为时已晚。

在现实中,不同任务的不同阶段对这两者的需求完全不同。当机械臂在做一些简单、可预测的动作,比如平稳地把手臂移向目标位置时,模型的预测通常非常准确,可以放心地执行很长一段时间,不需要频繁核查。但当机械臂要完成精细的、接触性强的操作,比如把一个马克杯挂到墙上的挂钩上,或者把物品放进狭窄的空间里,稍有偏差就会失败,这时候就需要高频度地核查与调整。

如果强行给所有任务的所有阶段都设定同一个步长,结果必然是:简单阶段浪费了大量本不必要的模型调用时间,困难阶段又因为执行步骤太长而累积了不可挽回的错误。这不是哪个具体数字选错了的问题,而是"用一个固定数字解决动态问题"这个思路本身就存在先天缺陷。

三、FFDC:给机器人装上一个随时核对预期的内部审计员

研究团队提出的解决方案,名叫"未来前向动态因果注意力机制",简称FFDC。这个名字有点拗口,但背后的逻辑非常直白,就是给机器人配备一个随时核对的"内部审计员"。

每当世界行动模型完成一次推理,它会产出两样东西:一批动作序列,以及这批动作执行完后画面应该长什么样的预测帧序列。在随后执行这批动作的过程中,FFDC会在每个检查节点做一件事——把摄像头当前实际拍到的画面,与模型当初预测的"此时此刻应该是什么画面"做比对,同时结合当前还剩余的待执行动作,以及任务指令的语义信息,综合判断一件事:接下来剩余的这段动作计划,还值得信任吗?

如果值得信任,FFDC输出一个接近1的信心分数,机器人继续执行。如果不值得信任,分数低于0.5,机器人立刻叫停当前动作批次,重新调用世界行动模型,从当前的真实状态重新规划接下来的动作。

这里有一个非常精妙的工程设计。世界行动模型在推理完成后,会把它预测的那批画面帧和语义信息存储在一个叫做"KV缓存"的临时空间里,就像把笔记先抄在草稿纸上。之后每次FFDC核查时,只需要把摄像头新拍到的真实画面编码一下,再拿这个编码去和草稿纸上的预测内容做比对,而不需要重新运行整个大模型。这让FFDC的核查操作非常轻量,不会给系统带来太大的额外负担。

FFDC内部采用了一种有方向感的注意力机制——也就是说,它在分析时遵循时间顺序,先看已经发生的历史画面(包括模型预测的过去帧和真实观测),再看当前的真实状态,最后去评估未来预测帧和待执行动作序列。这种有序的"时间因果"分析方式,确保FFDC不会把未来信息"剧透"给过去时刻的判断,从而保证分析的逻辑严密性。最终,一个专门的[CLS]标记会聚合所有这些信息,通过一个小型神经网络输出那个0到1之间的信心分数。

四、训练这个"审计员":正面案例与反面教材缺一不可

光有FFDC的架构还不够,还需要让它学会什么叫"可信"、什么叫"不可信"。研究团队为此专门构建了一个二分类数据集。

正面样本来自两类数据:一类是人工示范的操作记录,这些都是成功完成任务的标准操作,动作规范、物理合理;另一类是少量机器人成功完成任务的自主执行记录。这些都属于"可以信任、继续执行"的案例。

反面样本同样来自两类数据:一类是机器人执行失败的记录,这些对应的是"应该早点重新规划"的时刻;另一类则是从成功示范中人工制造的"坏动作"。研究团队设计了四种制造坏动作的方法。第一种叫做时间乱序,随机把动作序列中的某两对动作位置互换,制造出时间顺序错乱的动作计划;第二种叫做夹爪翻转,把控制夹爪开合的维度取反,相当于本来应该夹紧的地方反而松开;第三种是后段高斯噪声,在动作序列的后半段加入随机扰动,模拟末端动作偏差;第四种叫做尾部缩放,把序列尾部的一段动作按随机比例缩小,制造出动作幅度不足的效果。通过这些手段,研究团队生成了种类丰富的失败场景,让FFDC有机会从多角度学习什么样的动作计划已经不再可信。

在这个数据集上,FFDC用标准的二分类损失函数训练:当输入对应一段可信任的动作计划时,让分数尽量接近1;当输入对应一段不可信的计划时,让分数尽量接近0。

与此同时,研究团队还对世界行动模型本身的训练方式做了一处改进,称为"混合时域训练"。原来的训练方式倾向于从任务开始阶段进行采样,导致模型对任务末尾阶段的预测能力较弱——毕竟训练时见得少。改进后的方式会在整个任务时间轴上均匀采样起始时刻,确保模型对任务的每个阶段都有充分的学习机会,特别是那些靠近任务结尾、往往也是操作最精细的阶段。

五、在仿真世界里跑50种任务:效率与成功率两头都赢

研究团队在一个名为RoboTwin的机器人操作仿真平台上进行了大规模测试。这个平台包含50种不同的操作任务,涵盖从简单的物体搬运到复杂的精细装配。测试分为两种环境设置:干净环境,就是标准背景、标准光线、没有干扰;随机环境,则额外引入背景变换、桌面杂物、桌子高度变化、光线变化等各种干扰,更接近真实世界的复杂性。每个任务执行100次,取成功率和平均完成时间作为评价指标。

研究团队设置了多个对比基准。基础模型Base-Motus是原始世界行动模型,训练和执行都用16步的固定动作包。LC-16到LC-64则是一组长程基准:都用64步的大动作包进行训练,但执行时分别只取前16、32、48或64步。FFDC-WAM则是研究团队的完整方案,用自适应的动作包长度,由FFDC实时决定何时继续、何时重规划。

结果在多个维度上都很有说服力。在最困难的五类任务上——积木按大小排序、挂马克杯、放置鼠标垫、将物品放入橱柜、扫描物体——FFDC-WAM在随机环境下的平均成功率从Base-Motus的54.20%提升到了76.40%,在干净环境下从57.80%提升到76.00%。这意味着,对于那些本来就有相当失败风险的任务,自适应执行带来了超过18个百分点的成功率提升。

在简单任务上,FFDC-WAM同样表现出色,但体现在另一个维度:效率。随机环境下的简单任务,FFDC-WAM的平均完成时间从Base-Motus的23.5秒降至15.7秒,干净环境下从20.4秒降至12.9秒。这是因为对于这些任务,模型预测的未来与现实高度吻合,FFDC持续给出高信心分数,机器人因此可以一路执行长串动作而不需要频繁打断重算。

从模型推理调用次数来看,在随机环境下,FFDC-WAM比Base-Motus减少了69.10%的模型调用次数。这是一个相当显著的计算节省——意味着机器人在完成同样任务的同时,只花了原来约三分之一的计算资源用于模型推理。尽管固定长步长的LC-64方案调用次数更少,但它在困难任务上的成功率明显低于FFDC-WAM,说明纯粹减少调用次数并不是解决问题的正确思路,关键在于在正确的时机进行调用。

通过具体任务的可视化对比,研究团队呈现了两个颇具代表性的案例。第一个是"移动罐子"任务,这是一个相对简单的搬运操作。Base-Motus需要三次模型推理才能完成,而FFDC-WAM只需要一次——在整个执行过程中,FFDC的信心分数始终维持在0.9997和0.9996这样的极高水平,机器人因此一路执行到底,无需重算。第二个是"挂马克杯"任务,这是最困难的任务之一。Base-Motus虽然成功,但需要七次推理。FFDC-WAM的策略更加精明:在抓取杯子、将杯子移向挂钩的过程中,它的信心分数高达0.9995,大步向前执行;但到了把杯子精确挂上挂钩这个最关键的最后阶段,信心分数骤降,FFDC立刻触发重规划,确保以最新的真实状态为基础来计算最后几步精细动作。相比之下,如果没有FFDC的保护,直接用固定长步长的LC-64执行相同的长串动作,则会因为末段误差积累而最终失败。

六、从实验室走向真实世界:面对真实机械臂的考验

仿真平台上的成功固然重要,但研究团队更关心方法在真实物理环境中的表现。他们在一台名为Astribot S1的机器人上进行了真实世界测试,这是一台拥有34个自由度的高度灵活机械臂系统。

测试包含两个拾取放置任务:拿起香蕉放入盒子,以及拿起胡萝卜放入木箱。每个任务执行10次,记录成功率、完成时间和模型调用次数。对比基准是LC-16,即每次执行16步固定动作包的长程训练模型。

结果相当明显。LC-16的平均成功率只有45%,而FFDC-WAM达到了80%,提升了35个百分点。从具体任务来看,香蕉任务的成功率从50%升至80%,胡萝卜任务从40%升至80%。

真实环境中的提升如此显著,背后有其物理原因。在真实操作中,光线折射、摄像头噪声、机械臂自身的微小机械误差、被抓物体的细微移动,都会让现实偏离模型的预期。LC-16没有核查机制,即使执行过程中已经出现了明显的偏差,它也会继续执行原计划,最终在错误的位置做出错误的动作。FFDC-WAM则能在偏差还不严重的时候就察觉到,及时重规划,把偏差消灭在萌芽状态。

当然,这种能力也有代价。FFDC-WAM在真实世界中的平均完成时间(28.1秒)略高于LC-16(25.6秒),模型调用次数(16次)也略多于LC-16(14次)。这是合理的:真实世界本就比仿真更复杂、更难预测,FFDC自然会更频繁地发现预测与现实的出入,从而触发更多的重规划。但多花这几秒时间换来的是35个百分点的成功率提升,从任务完成的角度来说,这个代价非常划算。

七、逐一拆解每个输入的价值:缺了哪一块会怎样

研究团队还做了一组消融实验,也就是逐一去掉FFDC的某一个输入,观察整体性能的变化,以此量化每个组件的贡献。这组实验仅在困难任务子集上进行,因为这里的差异更容易被放大。

去掉预测的未来视觉帧,平均成功率从76.4%下降到71.6%,这是所有输入中去掉后降幅最大的一项。这说明,未来画面的预测是FFDC做判断时最核心的依据——毕竟,动作计划是否还可信,最直接的检验方式就是看"如果按这套动作走,世界应该变成什么样"与"现在实际上变成了什么样"是否一致。

去掉真实观测帧,成功率降至72.4%。这说明,光有预测的未来画面还不够,必须有当前的真实画面作为参照,才能完成比对。两者缺一不可,就像照镜子时既需要镜子里的像,也需要真实的脸。

去掉预测的动作序列,成功率降至73.4%。动作序列的存在让FFDC不仅能判断"现在的状态对不对",还能判断"接下来要做的这些动作,在当前状态下合不合理"。纯粹看画面有时无法区分一个轻微偏差是无关紧要的还是会导致后续动作全部失效的,而动作序列的信息能补充这部分判断能力。

去掉语言指令,成功率降至74.8%,是四项输入中去掉后影响最小的,但依然是有影响的。任务指令的语义信息帮助FFDC理解当前操作的目标和上下文,从而更准确地判断某种偏差是否真的危险。比如,对于"把杯子放到桌上"这个任务,杯子的轻微旋转可能没关系;但如果任务是"把杯子挂到钩子上",同样的旋转可能就意味着钩挂失败的前兆。

这组实验从另一个角度证明了FFDC设计的合理性:四个输入都有独立的、不可替代的贡献,只有全部组合在一起,才能达到最佳的判断能力。

说到底,这项研究做的事情,用一句话来概括就是:教会机器人随时怀疑自己的计划是否还靠谱。人类之所以能在复杂、动态、充满意外的物理世界里灵活行动,很大程度上是因为我们的大脑在不断地将预期与现实做对比,一旦发现出入就立刻调整。机器人长期以来缺少的,恰恰是这种"自我核查"能力。

这项研究最有意思的地方在于,它没有引入额外的传感器,没有更换更强大的主模型,而是把原本就存在但被白白浪费的信息——世界行动模型预测的未来画面——重新利用起来,变成了核查现实的工具。从某种意义上说,这是在已有系统内挖掘潜力,而不是堆砌更多资源。

对于普通人来说,这项研究最直接的影响可能要在几年之后才会感受到。当家里的服务机器人学会自己判断"我刚才的操作还有没有走偏",并在偏差变得不可收拾之前主动修正,那种因为机器人抓错位置而把一盘菜打翻在地的尴尬场景,就会大幅减少。

当然,这项工作也有研究团队自己承认的局限。FFDC的训练数据主要来自成功示范、失败记录和人工制造的损坏动作,这些覆盖的失败模式还不够丰富,真实世界中的失败方式远不止这几种。如何让FFDC从更多样化的真实失败案例中学习,是接下来需要解决的问题。此外,0.5这个判断阈值目前是人工固定的,如何根据不同任务类型动态调整这个阈值,也是未来值得深入研究的方向。

这项研究的完整论文可通过arXiv编号2605.06222查阅,感兴趣的读者不妨一读。

---

Q&A

Q1:世界行动模型和普通机器人控制方法有什么区别?

A:普通机器人控制方法只根据当前画面计算下一步动作,而世界行动模型同时预测动作和执行这些动作后未来的画面变化。这让机器人不只是"看当下做决定",而是"预演未来再做决定",在面对新环境或复杂操作时更有优势,因为它理解的是"动作之后世界会怎么变",而不只是记忆"这种情况该怎么动"。

Q2:FFDC怎么判断机器人的动作计划是否还值得信任?

A:FFDC会同时看四样东西:世界行动模型预测的未来画面、摄像头当前实际拍到的真实画面、接下来待执行的动作序列,以及任务的语言指令。通过比对预测画面和真实画面是否吻合,结合剩余动作和任务目标综合分析,输出一个0到1的信心分数。分数高于0.5就继续执行,低于0.5就停下来重新规划。

Q3:FFDC-WAM在实际机器人上的测试效果如何?

A:研究团队在Astribot S1机械臂上测试了拾取香蕉和胡萝卜的放置任务,与不带FFDC核查机制的对比方案相比,FFDC-WAM将平均成功率从45%提升到了80%,提升了35个百分点。代价是完成时间稍有增加,平均多花约2.5秒,以及模型调用次数略多2次,但这个代价换来的成功率提升被认为非常值得。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-