这项由北京大学、清华大学、南开大学、南京大学及机器人公司Astribot联合开展的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.18287,有兴趣深入了解的读者可通过该编号查询完整原文。
当一个机器人在实验室里表现得无比出色,成功率高达96%,却在真实世界中因为一片雾气、一阵噪点或者镜头上的一点油污就彻底"瘫痪"——这个场景,正是当前最先进的机器人系统所面临的真实困境。研究团队从这个令人头疼的现实出发,提出了一套名为StableVLA的解决方案。它不需要给机器人额外"补课",不需要收集更多训练数据,只需要在机器人"大脑"的某个关键连接处做一个精妙的架构改造,就能让机器人在视觉受到干扰时依然保持稳定。
这项研究的意义远不止于学术层面。随着机器人逐渐走进工厂、医院、家庭,如何让它们在不完美的真实环境中可靠工作,是一道绕不开的门槛。这支来自多所顶尖高校和产业界的团队,给出了一个轻巧而有力的答案。
一、机器人的"眼睛"为何如此脆弱
要理解这项研究,先得明白一件事:今天的智能机器人,看世界的方式和人类有本质区别。
人类的大脑在演化中积累了极强的抗干扰能力。哪怕隔着一层雾、透过一块脏玻璃,我们依然能认出朋友的脸、看清桌上的杯子。这种鲁棒性是几百万年进化的产物。而机器人依赖的是一套被称为"视觉-语言-动作模型"(VLA)的系统——可以把它理解为机器人的眼睛加大脑加手臂的协调中枢。这套系统先通过摄像头看到画面,再理解指令语言,最后控制机械臂执行动作。
这类系统的核心是一个巨大的神经网络,它在大量精心整理的干净图像和视频上反复训练,学会了如何把"看到的场景"翻译成"该做的动作"。训练数据越干净、越标准,模型在标准测试环境下的表现就越好。然而,这恰恰埋下了一个隐患:真实世界的摄像头画面从来不是干净的。传感器会产生随机噪点,机械臂运动时镜头会模糊,镜头上可能沾了灰尘或油污,光线会忽明忽暗,甚至工厂里的烟雾也会干扰视觉。这些干扰在训练数据里几乎不存在,于是当机器人真正遭遇它们时,整套系统就像突然戴上了一副模糊的眼镜,完全不知所措。
研究团队选取了当时表现最好的VLA模型之一——VLA-Adapter——作为研究对象,系统地测试了它在各种视觉干扰下的表现。结果触目惊心:这个在干净图像下成功率高达96%的模型,在引入视觉干扰后成功率骤降近50%。更极端的情况下,遇到严重的模糊干扰时,成功率可以直接跌至0%。研究团队随后验证了这一脆弱性并非VLA-Adapter的个例问题,OpenVLA、OpenVLA-OFT、OpenPi-0.5等多个主流模型都存在同样的困境。
这就好比一个经过严格训练的厨师,在灯光充足、食材新鲜的标准厨房里能做出完美的菜肴,但一旦厨房灯光昏暗、锅里有水蒸气,他就完全不知道该怎么操作了——不是因为他不懂烹饪,而是因为他的训练从来没有在这种环境下进行过。
二、"打补丁"的老路走不通,问题的根源在哪里
面对这个问题,最直觉的解法是:给机器人喂更多带干扰的训练数据。把噪点图片、模糊图片、雨雾图片全都加进训练集,让模型"见多识广"。这条路确实有效,但研究团队指出它有两个根本性的局限。
其一,真实世界的视觉干扰组合是无穷无尽的。噪点有很多种,模糊有很多种,光线变化有无数种,更不用说各种意想不到的物理遮挡。要把所有可能的干扰都模拟出来,不仅计算成本极高,而且根本不可能穷举。其二,更深层的问题是,当模型在带干扰的数据上训练时,它往往只是记住了"这种噪点对应这种处理方式",而不是真正学会了"在任何干扰下都找到本质信息"。一旦遭遇训练时没见过的新型干扰,模型一样会失败。
既然"喂更多数据"的思路有根本局限,研究团队决定换一个角度:能不能通过改造模型的内部结构,让它天生就具备抗干扰能力?
为了找到问题的根源,研究团队用一个精妙的实验解剖了整个VLA系统。他们在受到干扰的情况下,分别测量了视觉编码器输出的特征、中间投影层输出的特征、以及最终动作层输出的特征,看哪个环节的特征受干扰影响最大。结果非常清晰:干扰对特征的破坏主要发生在视觉投影层,也就是把视觉信息"翻译"给语言模型的那个桥接模块。这个发现为后续的解决方案指明了方向。
把整个VLA系统比作一座工厂流水线:原材料(图像)进来之后,先由质检员(视觉编码器)粗略分类,再由翻译官(投影层)把质检报告翻译成工厂语言,最后由决策层(语言模型)下达指令,机械臂执行。问题在于,这个翻译官太忠实了——他不仅翻译了有用的信息,也把噪音、误报、乱码全都如实翻译进去,导致决策层收到一堆混乱的指令。研究团队的目标,就是改造这个翻译官,让他在翻译的同时具备自动过滤噪音的能力。
三、从信息论中借来的"过滤器":IB-Adapter的设计原理
改造翻译官的灵感,来自信息论中一个叫做"信息瓶颈"的经典理论。
信息瓶颈理论(Information Bottleneck,IB)的核心思想可以用一个简单的比喻来理解:假设你要给一个在海外的朋友发一封关于某次重要会议的邮件,但网络很差,每封邮件只能传输非常有限的信息量。你必须做一个艰难的取舍:保留会议中最重要的决策和结论,丢掉所有无关紧要的细节、寒暄和噪音。这就是信息瓶颈的精髓——在有限的传输容量下,最大化保留对目标任务有用的信息,同时压缩掉无关信息。
研究团队把这个思想数学化,得出了一个关键结论:在特定的数学假设下,这种"压缩有用信息、过滤无关噪音"的操作,在数学形式上等价于一种注意力机制——具体来说,是一种作用于特征"通道"维度的注意力操作。
这里需要解释一下什么是"通道"。神经网络处理图像时,输出的特征不只是一个数字,而是由成百上千个不同的"通道"组成,每个通道捕捉图像的某一类特性,比如边缘、颜色、纹理等等。语义信息和噪声往往分散在不同的通道里。研究团队发现,通过分析这些通道之间的相关性(即"协方差"),可以识别出哪些通道携带的是稳定的语义信息,哪些通道携带的是随机噪声,然后有选择地压制后者。
基于这个原理,他们设计了IB-Adapter这个模块。它的工作方式可以用工厂流水线上的新型翻译官来理解:原来的翻译官每收到一份报告,不管里面写的是关键决策还是随机乱码,都会逐字逐句翻译。新型翻译官则先把所有报告扫描一遍,分析哪些内容在不同时间点都稳定出现(说明是真实信息),哪些内容随机变动(说明是噪声),然后重点翻译稳定的部分,忽略随机的部分。
具体到技术层面,IB-Adapter包含三个协作的组件。第一个组件负责"协方差建模":它把输入特征分成多个头,对每个头计算所有通道之间的协方差矩阵(也叫Gram矩阵),数学上就是把特征矩阵自身转置后相乘,得到一个描述通道间相关性的方阵。这个矩阵揭示了哪些通道"携手共进"(高度相关,说明共同编码某种语义),哪些通道"各自为政"(低相关,可能是独立的噪声)。第二个组件负责"门控过滤":用一个Sigmoid函数(可以理解为一个软开关,输出在0到1之间)对协方差矩阵做门控,相关性低的通道得到接近0的权重(被压制),相关性高的通道保留权重。这里选择Sigmoid而非另一种常用的Softmax,有深刻的理论原因:Sigmoid允许每个通道独立做决定,一个通道被压制不会影响其他通道;而Softmax会让所有通道竞争,压制一个通道会相对"抬高"其他通道,包括另一些噪声通道,这在处理分布式噪声时效果反而更差。第三个组件负责"特征变换":在做完通道过滤后,通过一个非线性变换(两层网络加GELU激活函数)增强特征的表达能力,确保有用信息被充分提取。
这三个组件协同工作,实现了在不需要任何额外训练数据的情况下,在特征传递的关键节点上自动过滤视觉噪声。
四、两条路并行:Fused IB-Adapter的精妙之处
然而,单纯使用IB-Adapter也会带来一个副作用:它太善于过滤了,连一些高频的精细空间信息也会被当成"不稳定信息"压制掉。对于机器人操作来说,这些高频细节非常重要——机械臂要精确地抓取一个小物体,需要精确的位置和形状信息,这些信息往往以高频空间特征的形式存在。
面对这个两难困境,研究团队设计了一个优雅的解决方案:Fused IB-Adapter,即融合版IB-Adapter。
核心思路是让两条路并行工作。第一条路是经典的MLP(多层感知机,可以理解为一个简单但高效的全连接网络),它像原来一样忠实地传递所有特征,包括精细的高频空间信息。第二条路是IB-Adapter,专门负责提取经过噪声过滤的稳健语义特征。最终输出是两条路结果的加权融合:MLP的输出加上经过一个可学习参数调节的IB-Adapter输出。
这就像为工厂配备了两个翻译官:一个是精确型翻译官,逐字翻译所有细节(MLP);另一个是智慧型翻译官,专门提炼核心语义、过滤噪音(IB-Adapter)。决策层同时参考两份翻译结果,兼顾精确性和稳健性。
研究团队还引入了一个叫"随机路径丢弃"(Stochastic Pathway Dropout)的训练技巧。在训练时,有一定概率随机"断开"MLP路径,强迫模型在只有IB-Adapter的情况下也能完成任务,从而让IB-Adapter的稳健特征真正被政策网络所吸收和利用。不同任务需要不同的比例设置:对于需要极高空间精度的任务(比如把东西放进指定位置),MLP路径更重要,丢弃率接近0;对于需要长期语义理解的任务(比如多步骤规划),适当提高丢弃率(约0.3)反而能让模型更好地利用稳健特征。
五、实验:数字背后的真实故事
研究团队在两个标准机器人模拟基准上进行了系统测试,同时还在真实机器人上开展了实体实验。
在模拟环境中,他们使用了LIBERO和CALVIN两个基准。LIBERO包含四个难度递增的任务套件:空间任务(移动到指定位置)、物体任务(操作特定物体)、目标任务(完成特定目标)和长期任务(需要多步骤规划)。每个套件有500个评估回合。CALVIN则专门测试零样本泛化——模型在没有见过的场景中执行一连串任务,每次要连续完成5个子任务。
为了公平地测试抗干扰能力,研究团队采用了计算机视觉领域标准的ImageNet-C干扰协议,涵盖四大类共19种干扰类型:噪声类(高斯噪声、散弹噪声、脉冲噪声、斑点噪声)、模糊类(高斯模糊、玻璃模糊、散焦模糊、运动模糊、缩放模糊)、天气类(雾、霜、雪、散射)以及数字类(对比度变化、亮度变化、饱和度变化、JPEG压缩、像素化、弹性变形)。每种干扰有5个强度等级,测试重点放在3、4、5级这三个高强度区间。
至关重要的是,这些干扰在训练时完全没有出现过——这是一个严格的"零样本"测试,考验的是模型的内在抗干扰能力,而非对特定噪声类型的记忆。
结果上,StableVLA(使用0.5B参数的小模型)在LIBERO四个任务套件上,面对5级最高强度干扰时,相比同等体量的VLA-Adapter基线分别提升了40.2%到139.6%。在没有干扰的干净数据上,StableVLA也略有提升,说明改进没有牺牲基础性能。更令人印象深刻的是,StableVLA在干扰环境下的表现,可以与参数规模大14倍(7B参数)、并且在海量公开数据集上预训练过的OpenVLA-OFT相媲美,甚至在部分任务上与使用了更大规模网络数据协同训练的OpenPi-0.5(3B参数)持平或超越。在CALVIN零样本泛化基准上,StableVLA也在所有干扰等级下稳定超越VLA-Adapter。
研究团队还做了一个非常直观的可视化实验:他们对MLP和Fused IB-Adapter的输出特征分别做了K均值聚类(K=2),观察哪些像素区域被划分为同一类。结果清晰地显示,标准MLP在干净图像下就已经把目标物体和背景混在一起,在高噪声下更是一片混乱;而Fused IB-Adapter的特征,即便在最高强度的噪声下,依然能清晰地把机械臂和操作目标聚为一类,背景聚为另一类。这直观地解释了为什么IB路径能够帮助机器人在干扰下依然"看清"目标。
真实机器人实验在Astribot S1双臂机器人平台上进行,该平台有14个自由度,配备头部固定摄像头和两个手腕摄像头。研究团队设计了四个真实操作任务:拾取放置(5种不同物体,每种测试2次)、投篮(小物体精准投入篮筐)、倒水(需要高精度控制)、以及装箱打包(长期任务,包括拾起娃娃、放入箱子、关闭箱盖)。视觉干扰分为数字模拟和物理实体两类:数字模拟包括高斯噪声和散焦模糊;物理实体干扰则是直接在摄像头镜头上涂油或者覆盖一层半透明塑料遮罩。
实验结果在真实场景下同样令人信服。在"装箱打包"这个最复杂的长期任务中,StableVLA(0.5B)的干净成功率为60%,在所有干扰类型下平均下降14.2个百分点;VLA-Adapter(0.5B)干净成功率50%,平均下降31.7个百分点;OpenPi-0.5(3B)干净成功率80%,但平均下降了41.7个百分点。换言之,StableVLA虽然基础成功率不是最高的,但在受到干扰时跌落幅度最小,抗打击能力最强。特别值得关注的是物理遮挡(油污和塑料遮罩)这两种干扰——这是最贴近真实部署场景的测试,StableVLA在这两种干扰下的跌落幅度明显小于其他模型,展现出对实际物理问题的鲁棒性。
六、消融实验:每个设计选择都有其道理
研究团队还系统地验证了每个设计决策的必要性,通过"消融实验"——即逐一去掉某个组件,看性能如何变化——来证明每个部分都发挥了关键作用。
去掉MLP路径,只保留IB-Adapter,在LIBERO上平均成功率下降3.1个百分点,在CALVIN上平均完成任务数从2.13降至1.44。这说明高频精细信息的保留对于精确操作确实不可或缺,单靠语义过滤是不够的。
把Sigmoid替换成Softmax,性能的下跌则更为剧烈:LIBERO上在干扰数据下跌落16.3个百分点,CALVIN上平均完成任务数从2.13骤降至0.46。这个对比极具说服力,从实验上验证了理论推导的正确性:在通道维度上,噪声通道应该被独立压制(Sigmoid的工作方式),而不是强制所有通道相互竞争(Softmax的工作方式)。Softmax的归一化特性反而会因为压制了一个噪声通道而相对抬高其他噪声通道,产生适得其反的效果。
这些消融结果表明,Fused IB-Adapter的每一个组件都是经过深思熟虑的设计,而非偶然堆砌。
七、轻量级的秘诀:不到一千万个参数的改变
StableVLA的另一个值得关注的特点是它的极度轻量级。整个IB-Adapter模块增加的参数量不超过1000万(10M),而整个模型的LLM主干仅有5亿(0.5B)参数。相比之下,OpenVLA是70亿(7B)参数,规模大14倍,还在规模庞大的Open X-Embodiment数据集上预训练过。
这意味着什么?在不增加任何额外训练数据、不使用大规模预训练的情况下,仅仅通过在一个关键连接处做一个不超过1000万参数的架构改造,就能让一个小模型在鲁棒性上达到甚至超越一个参数量大14倍的大模型的水平。这从另一个角度说明了当前主流VLA模型在架构设计上存在的系统性缺陷,以及针对性架构创新的巨大潜力。
架构的改变也非常外科手术式:只需要把原有VLA-Adapter中的MLP投影层替换为Fused IB-Adapter,重新用相同的设置训练,不需要改动视觉编码器、语言模型、策略模块的任何其他部分。这意味着这个方案原则上可以被移植到其他基于类似架构的VLA系统中。
说到底,StableVLA告诉我们一件很有启发性的事:机器人的脆弱不只是数据问题,更是架构问题。给机器人看更多模糊、噪点图片固然有用,但如果信息传递的关键节点本身就是"全通道"的,那就好比一个耳聪目明的人站在嘈杂的工地上,无论他练了多少年,也很难在轰鸣声中听清一句重要的话。真正的解决方案是给他一副降噪耳机——不是让他的耳朵更灵敏,而是在声音进入大脑之前就过滤掉不必要的噪音。
这项研究为机器人走向真实世界开了一扇小而精准的窗。随着机器人越来越多地进入工厂、手术室乃至普通家庭,视觉鲁棒性将成为比速度和精度更基础的能力需求。架构层面的创新能否在不依赖海量数据的情况下持续提升这种鲁棒性,将是这个领域接下来值得关注的核心问题。
感兴趣的读者可以在arXiv上通过编号2605.18287找到完整论文,项目主页和代码也已开源,技术细节非常完整,对工程实现感兴趣的读者可以进一步深入探索。
---
Q&A
Q1:VLA模型在视觉干扰下为何会大幅失效?
A:VLA模型在整理干净的标准数据上训练,遭遇训练时没见过的噪声、模糊或遮挡时,连接视觉和语言模型的投影层会把干扰信号如实传递给决策层,导致机器人收到混乱指令。研究发现这一投影层是特征受干扰破坏最严重的环节。
Q2:StableVLA为什么不用Softmax而要用Sigmoid做通道过滤?
A:Softmax会强制所有通道相互竞争,压制一个噪声通道会相对抬高其他噪声通道,适得其反。Sigmoid让每个通道独立决策,噪声通道因为与语义通道相关性低而被直接压制到接近0,不影响其他通道,过滤效果更干净。实验中替换Softmax后,CALVIN任务完成数从2.13骤降至0.46,证明了这个选择的关键性。
Q3:StableVLA需要额外的大量训练数据才能获得鲁棒性吗?
A:不需要。StableVLA的鲁棒性来自架构设计,训练时完全不加入任何带干扰的数据,对19种干扰类型的测试都是严格的零样本评估。整个改进只增加了不到1000万个参数,用与原始模型相同的训练设置即可完成,无需收集额外数据。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。