微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

机器人"大脑"的安全防线：新加坡国立大学等机构如何系统梳理视觉-语言-动作模型面临的威胁与应对之道

人工智能安全视觉-语言-动作模型对抗攻击与防御

机器人"大脑"的安全防线：新加坡国立大学等机构如何系统梳理视觉-语言-动作模型面临的威胁与应对之道

作者：科技行者

2026-05-05 10:48

分享至：

这篇由新加坡国立大学、莫纳什大学和北京大学联合发布的综述论文（arXiv:2604.23775），是目前视觉-语言-动作（VLA）模型安全领域最系统的梳理。论文从训练阶段和推理阶段两条时间轴出发，全面梳理了针对VLA机器人的后门攻击、视觉扰动、语言劫持、物理干预等威胁，以及对应的训练阶段对齐防御和推理阶段双环防护机制，并系统总结了现有评估基准的现状与不足，为六大真实部署场景指出了安全挑战，最终提出了认证鲁棒性、安全感知训练、标准化评估、生命周期安全和监管伦理五个亟待突破的研究方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 10:48 • 科技行者

这项由新加坡国立大学、莫纳什大学和北京大学联合完成的综述研究，以arXiv预印本形式于2026年4月发布，论文编号为arXiv:2604.23775。对任何关心未来机器人安全的读者而言，这份超过40页的研究报告是目前该领域最系统、最全面的梳理之作。

**研究概要：当机器人开始"看懂世界"，谁来保护我们的安全？**

在科幻电影里，机器人通常是按照固定程序行动的机器。然而现实中，新一代机器人已经可以听懂人类语言、看清周围环境，然后做出相应动作——比如你说"把桌上的红色杯子放进柜子里"，机器人就能真正理解并执行这个指令。这类机器人背后依赖的技术，被研究者称为"视觉-语言-动作模型"，英文简称VLA（Vision-Language-Action model）。

VLA模型是将视觉感知、语言理解和动作执行整合到一个统一神经网络中的人工智能系统。你可以把它理解为一位同时具备眼睛、耳朵和双手的智能助手——它能看、能听、能动，而且三者之间紧密配合、缺一不可。谷歌的RT-2、Physical Intelligence公司的π0、斯坦福开源的OpenVLA等，都是这类系统的代表。

然而，正是这种强大的整合能力，带来了前所未有的安全隐患。当机器人只是一台执行固定命令的工厂臂时，出错了大不了停下来重新设置。但当机器人开始在医院里协助手术、在家中照顾老人、在马路上驾驶汽车时，任何一次判断错误都可能造成无法挽回的后果。这正是新加坡国立大学等机构的研究团队感到紧迫的原因——他们系统梳理了VLA模型面临的安全威胁、现有防御手段、评估方法以及实际部署中的挑战，为整个领域画出了一张完整的"安全地图"。

---

一、从玩具枪到真枪：为什么VLA的安全问题与以前完全不同

在理解这份研究的价值之前，有必要先弄清楚VLA模型的安全问题为什么特别棘手。

传统的人工智能安全问题，通常发生在"语言世界"里。比如，一个聊天机器人说了些不该说的话，或者一个图像识别系统把猫认成了狗。这些错误令人不快，但通常不会直接伤人——顶多是用户骂一句"这破软件真没用"，然后换个工具。

VLA模型则完全不同。它控制的是真实存在于物理世界的机器人，而机器人的动作是有重量、有力量、有速度的。研究团队在论文中把这种区别概括为几个关键特征。

第一个特征是"不可撤销性"。机器人错误地夹住手指、错误地把化学品混在一起，或者错误地让车辆撞上行人——这些后果无法像删除一条聊天记录那样简单地"撤销"。

第二个特征是"多模态攻击面"。攻击者可以同时从视觉、语言和状态三个通道对机器人发动攻击。就像一个小偷同时蒙住你的眼睛、堵住你的耳朵、捆住你的手，VLA模型在三个感知通道上都可能被欺骗。

第三个特征是"实时约束"。机器人不能为了"想清楚"而暂停动作——汽车在100公里时速下没时间给驾驶系统"多考虑0.5秒"。这意味着任何安全防护措施都必须足够快，慢了反而可能造成危险。

第四个特征是"错误的滚雪球效应"。如果机器人在某个步骤出了小差错，这个差错可能在后续几十个动作中不断被放大，最终酿成完全无法预料的事故，就像多米诺骨牌一样。

第五个特征是"数据供应链的脆弱性"。VLA模型需要大量的机器人操作示范数据来学习技能，而这些数据往往来自各种各样的渠道，如果其中混入了"坏数据"，就可能在模型的"记忆"中埋下定时炸弹。

正是因为这些特殊性，研究团队认为VLA的安全问题不能简单套用以前的经验，必须建立全新的研究框架。

---

二、训练阶段的"暗门"：当机器人在学习时就被悄悄篡改

为了理解接下来的内容，先用一个比喻来构建整体框架：把VLA模型的生命周期想象成一个厨师的成长过程——"训练阶段"就是厨师在学厨艺，"推理阶段"就是厨师正式上岗做菜。针对这两个阶段，攻击者各有不同的手段。

研究团队首先深入分析了"训练阶段"的攻击。这类攻击的核心思路是：在机器人学习技能的过程中，偷偷在课程材料里插入"坏内容"，让机器人在学会正常技能的同时，也悄悄记住了一些危险的行为模式。这类攻击通常被称为"后门攻击"——就像在厨师学校的教材里夹带了一张秘密纸条，写着"当你看到黄色鸭子摆件时，就悄悄往菜里加毒"。

最早被系统研究的VLA后门攻击是BadVLA方法。它采用了一种叫做"目标解耦优化"的技术——通俗地说，就是让恶意行为和正常行为在训练时"互不干扰"地共存，确保机器人在正常情况下表现完好，不引起怀疑，只有当特定触发信号出现时才显示危险行为。

紧接着出现的DropVLA方法更进一步。它要求同时满足两个条件才触发危险——既要看到特定的视觉图案，又要听到特定的语言指令，两者缺一不可。这种"双重锁"机制使得攻击更难被检测到，因为单独出现任何一个条件都不会有异常表现。

更令人担忧的是，攻击者已经把触发器从数字世界搬到了现实世界。GoBA方法证明，一个普通的三维实物——比如工作台上的一只黄色橡皮鸭——就可以作为后门触发器。机器人在训练时被暗中关联了"看到黄鸭子就执行危险动作"的规则，而在实际部署时，攻击者只需把这个玩具摆在场景中即可激活恶意行为，完全不需要任何网络入侵或代码修改。

研究团队还揭示了一类更隐蔽的时间维度攻击。现代VLA系统通常采用"动作块"（Action Chunking）设计——就是机器人先观察一次环境，然后规划好未来若干步的动作，接着闭着眼睛按顺序执行这些动作，执行完再睁眼观察。这段"闭眼执行"的窗口期，成了攻击者的天堂。

SilentDrift方法就是专门针对这个盲区设计的。攻击者注入的偏差遵循一条数学上非常平滑的曲线——在动作块的开头和结尾都几乎察觉不出变化，只在中间悄悄偏转，就像一列火车在隧道里悄悄换了轨道，出隧道时已经驶向了完全不同的方向。这种平滑曲线的设计目的是躲过基于物理规律的异常检测器——因为检测器只看速度和加速度是否异常，而这种攻击在边界处保证了连续性。

另一种叫Clean-Action的攻击则更加狡猾：它根本不需要修改动作标签，而是在训练数据中插入一些看似无害的微小停顿或极小扰动。在单个动作步骤上，这些扰动完全在正常范围内；但当机器人执行几十步甚至上百步的长任务时，这些小偏差会像利滚利一样不断累积，最终导致任务完全失败。

研究团队还发现，攻击面甚至延伸到了机器人的"本体感觉"——也就是机器人对自身关节位置、速度等内部状态的感知。State Backdoor攻击将特定的初始关节配置作为触发器，当机器人摆出某个特定的初始姿势时，就激活隐藏的危险行为，完全不涉及任何视觉或语言层面的触发，因此极难通过常规手段检测。

研究团队整理的数据显示，这些训练阶段攻击的成功率普遍在85%至100%之间，且在主流VLA系统OpenVLA和π0上均得到了验证。这意味着，如果没有专门的防护措施，攻击者几乎可以百分之百地在机器人的训练数据中埋下后门。

---

三、训练阶段的"解药"：如何从源头防住危险

针对上述训练阶段的威胁，研究团队梳理了三大类防御思路。继续用厨师比喻来理解：一是改善厨艺学校的教学方式，二是在厨师执照考试中增加安全测试，三是引入师傅监督纠偏。

第一类防御关注"学习信号的质量"。研究者发现，很多安全问题根源在于机器人学习时接收到的"奖励信号"设计得不够好——就像只看菜做没做完、不看做菜过程是否规范的评价体系，容易让厨师养成走捷径的坏习惯。

EvoVLA方法提出了"阶段对齐奖励"的概念——它把一个长任务分解为若干有意义的中间阶段，分别为每个阶段设计评价标准，用视频驱动的阶段发现技术来确保机器人的学习进度真正对应了有意义的操作节点，而不是表面上的任务完成假象。与此同时，它还引入了基于机器人抓手与目标物体相对位置的探索机制，避免机器人依赖视觉表面特征走捷径。

Safe-Night VLA方法则从另一个角度入手：扩展机器人的感知能力。具体来说，它在原有RGB摄像头的基础上，增加了长波红外热成像传感器和深度传感器，让机器人能看见人眼和普通摄像头看不见的热量分布和三维深度信息。在训练时，研究者故意对RGB图像施加强烈的光照扰动，而对热成像和深度图像保持稳定，强迫模型去依赖那些更可靠的物理信号，而不是容易被欺骗的表面颜色和纹理。

第二类防御关注"优化目标本身"。SafeVLA方法将安全约束直接编码进训练目标里，把整个训练过程建模为一个"约束马尔可夫决策过程"——通俗地说，就是机器人在追求完成任务的同时，必须保证安全成本不超过预设上限，两者必须同时满足，不能为了完成任务而牺牲安全。SORL方法则引入了一个专门的"安全评估器"，实时估计未来发生危险的概率，并用这个概率来调整策略更新方向，引导机器人朝着更安全的探索路径前进。

VLA-Forget方法针对已经训练完成的模型，提出了"选择性遗忘"的思路——它精准地定位并删除模型中与不安全行为相关的参数关联，就像给机器人做一次"记忆手术"，切除危险的神经回路，同时保留正常工作能力。

第三类防御引入了"人类监督"。APO方法把人类干预重新定义为一种"行为偏好信号"——当人类操作员在机器人出错时接管并纠正动作，这个纠正过程就被转化为训练数据，告诉模型"纠正动作是好的，之前的动作是不好的"，从而逐步调整机器人的行为偏好。Hi-ORS方法则采用"拒绝采样"策略——在机器人边工作边学习的过程中，只把表现良好的执行片段纳入训练数据，把失败和危险的片段直接过滤掉，避免机器人从错误中学到更多错误。

---

四、上岗后遭遇的"骗局"：部署阶段的三类攻击

训练阶段之后，机器人进入实际工作，但威胁并没有结束。就像一位厨师即使在厨艺学校学得规规矩矩，上岗后也可能遇到食客故意刁难、食材被掉包、厨房仪器出故障等各种麻烦，机器人在部署阶段面临的攻击同样来自多个方向。

语言层面的"甜言蜜语"是第一类攻击。这类攻击的本质是用精心设计的语言指令绕过机器人的安全约束。黑盒场景下，攻击者不需要了解模型内部构造，只需要不断构造各种听起来无害的语境，就能让机器人做出危险动作。RoboPAIR系统验证了这一点——它改编自语言模型领域著名的"PAIR自动迭代改进"框架，通过反复尝试和修改攻击提示，最终在测试的三个机器人平台上都实现了100%的攻击成功率，成功让机器人做出了堵塞紧急出口、协助寻找武器、故意撞击人员等危险行为。

BadRobot研究揭示了一个更深层的架构漏洞，被称为"输出-动作不匹配"。由于VLA系统用同一套词汇表来生成文字和动作，语言层面的安全守卫可能声称"不好意思，这个要求我无法执行"，而与此同时，动作层面的输出却悄悄超过了执行危险动作的阈值。这就像一个保安口头上说"请止步"，手却已经帮你把门打开了。

白盒场景下，攻击更加精准。研究者用数学方法描述了这一过程：在词汇表的离散空间里搜索一串特定的词汇序列，使得VLA模型在看到这串词汇时，预测的动作尽可能接近攻击者预设的危险目标。由于文字是离散的，不能直接用梯度下降来优化，攻击者通常借助对词嵌入的泰勒一阶近似来绕过这一障碍。

更有创意的是Shawshank框架——它不走语言输入的正面突破，而是通过改变机器人工作环境中的"上下文线索"来间接操控机器人行为。比如在场景中放置某些特定物品，或者改变环境布局，让机器人"自然地"推断出攻击者想要的行为。这种方法的攻击成功率比BadRobot高出2.5倍，因为机器人的语言接口可能有安全守卫，但对环境上下文的解读往往没有同等级别的防护。

视觉层面的"障眼法"是第二类攻击。VLA模型的视觉编码器负责把摄像头看到的图像转换成机器人能理解的"视觉语义"，而这个转换过程对微小的图像扰动极为敏感。VLA-Fool方法证明，对图像施加人眼几乎无法察觉的像素级扰动，就能让机器人的视觉理解和语言理解之间产生严重错位，错误直接传导到动作输出，让机器人的执行轨迹偏离正确方向。更严重的情况则是FreezeVLA描述的"动作冻结"现象——当视觉扰动足够强烈时，会完全切断机器人的感知-行动链路，机器人会忽视所有后续指令，陷入操作瘫痪。

攻击者还利用了VLA系统的"信任混乱"漏洞。由于VLA系统被训练成相信视野中的文字信息，攻击者可以在机器人工作台上放置印有文字的纸张，机器人会把这些纸张上的文字当作合法的工作指令来执行，完全无法分辨这是操作员的真实意图还是陌生人的恶意干扰。

物理层面的"釜底抽薪"是第三类攻击。AARONS框架展示了最直接的物理攻击方式：把机器人依赖的导航地标悄悄移位。机器人在执行导航任务时会参考周围的固定物体作为定位依据，如果攻击者把某个关键参照物从A位置移到B位置，机器人的导航误差就会被最大化，最终走向错误的目标。Phantom Menace框架则更底层——它直接针对硬件传感器，通过特定频率的光学信号干扰摄像头，在图像到达处理软件之前就污染了原始感知数据。

---

五、工作时的"安全阀"：推理阶段的防御体系

面对上述推理阶段的攻击，研究团队梳理了一套被称为"双环架构"的推理阶段防御体系。这个架构的设计哲学是：把安全防护分成两条并行的"流水线"，一条追求速度，一条追求智慧，各司其职，互相配合。

"快速反射环"运行在高频率（约100Hz）下，专注于纯粹的物理安全。它的核心工具是控制屏障函数（CBF）——一种数学工具，把机器人的安全工作空间表示为一个几何边界，当机器人预测的动作要越过这条边界时，快速反射环立刻把这个动作"投影"到最近的安全位置，就像一个弹性防撞墙把车辆弹回安全车道。AEGIS系统就是这种思路的典型实现。ATACOM方法则更进一步，在约60Hz的硬件控制频率上直接做这种正交投影，确保即使上层VLA决策严重滞后，硬件层面的安全也有保障。DroneVLA则为无人机平台实现了类似的高频几何护栏。

CompliantVLA方法解决了更细腻的接触安全问题——对于需要施加精确力量的精细操作任务，它把VLA的意图输出转化为可变阻抗控制器的参数调整，让机器人在遇到意外碰撞时自动产生类似人类肌肉的"柔顺性"，用弹性的方式吸收冲击力，避免伤害人或损坏设备。

"慢速推理环"运行在低频率（约1Hz）下，专注于语义层面的安全监控。这条流水线的核心工具是大语言模型——它把人类用自然语言表达的安全要求，翻译成机器可以精确验证的时序逻辑规则。比如，"保持与笔记本电脑的距离"这句话会被翻译成"在所有时刻，机器人末端执行器与笔记本电脑的距离必须大于安全阈值"的数学表达。RoboGuard和基于模型预测控制的模块化框架就采用这种思路。

REFLECT和FailSafe等框架则把整个执行过程作为一段"视频"交给视觉语言模型审查，让它分析失败原因、识别危险模式，然后给VLA主系统发出停止指令或提供重新规划的建议。HazardArena框架则走了另一条更轻量的路子——直接在动作执行层加一个"安全选项层"，不做复杂的语义推理，而是通过预定义的危险场景库来拦截明显危险的语义指令，兼顾了效率和语义感知能力。

BYOVLA框架在感知边界上部署了启发式遮蔽机制，提前过滤掉视野中可能干扰判断的"视觉噪音"，增强模型对干扰物的鲁棒性，且不引入任何额外推理开销。Safe-VLN则针对导航任务，用基于占用预测的方法快速评估前方路径的碰撞风险，在机器人还没撞上障碍物之前就发出预警。AFI（可供性场域干预）方法则专注于失败后的快速恢复——当机器人陷入"内存陷阱"（即执行过程僵死在某个状态无法继续）时，快速把状态回滚到上一个安全节点，优先保证物理恢复而不是复杂的语义诊断。

这个双环架构有一个优雅之处：慢速推理环的输出（形式化的安全边界定义）恰好成为快速反射环的输入（安全工作空间的几何约束），两者形成了一个有机的闭环，既保证了语义智慧，又保证了响应速度。

---

六、怎么知道机器人到底安不安全：评估体系的现状与缺口

有了攻击方法和防御方法，还需要一把尺子来衡量机器人到底有多安全。研究团队对现有的评估体系进行了全面梳理。

VLA-Risk是目前最系统的对抗鲁棒性评估框架之一，它包含296个场景、3784个测试回合，从目标物体、动作类型和空间配置三个维度设计攻击场景，分别在视觉和语言输入通道上进行测试，结果显示当前先进VLA模型在结构性攻击下性能大幅下滑。VLATest则采用类似"模糊测试"的方式——系统地生成各种干扰场景（干扰物、光照变化、摄像头角度变化、未见过的物体、指令变体等），对七个主流VLA模型的测试结果令人警醒：四个难度递增的任务上，平均成功率仅分别为12.4%、6.0%、1.2%和0.5%。

SafeAgentBench提出了专门评估"安全感知任务规划"的框架，包含750个任务、覆盖10类潜在危险，测试结果发现即使最谨慎的智能体在面对明确危险指令时，拒绝率也只有10%。AgentSafe则以阿西莫夫机器人三定律为框架，构建了包含1350个任务、9900条指令的综合评估体系，其"多级诊断"协议能分别测量感知、规划和执行三个阶段各自的安全表现，结果揭示了一个关键规律：很多系统能感知到危险，但无法在规划层面把这种感知转化为安全决策。

ASIMOV框架关注的是"宪法对齐"——机器人的决策是否符合人类共识提炼出的安全规则集，报告的"对齐率"让我们能横向比较不同VLA模型在规范遵从方面的表现。SAFE-SMART则把评估深入到执行轨迹层面，把自然语言安全要求编译成时序逻辑规范，对比实际轨迹与安全规范之间的差距，能发现那些在任务完成层面看不出问题但在执行过程中违反了安全约束的隐藏失败模式。SAFE框架走得更深——它在模型的内部隐状态中寻找失败的早期预警信号，用潜特征训练一个失败检测器，能在实际事故发生之前就发出警报。

研究团队还特别指出了"不确定性校准"这一容易被忽视的评估维度。一个安全的机器人不仅要能做对，还要知道自己什么时候可能做错。期望校准误差（ECE）是衡量这一能力的标准指标——它检验机器人报告的置信度是否真实反映了它的实际成功概率。一个置信度为90%的预测，如果实际成功率只有50%，说明这个机器人严重高估了自己的能力，这种系统在现实部署中非常危险。理想的校准系统就像一个自知之明的学生——知道自己会的题目和不会的题目，不会把不确定的答案说得信誓旦旦。

研究团队还梳理了一整套评估指标体系。安全违规率（SVR）衡量机器人执行任务过程中有多少次违反了安全约束；拒绝率（RejR）衡量机器人正确识别并拒绝危险指令的比例；碰撞率（CR）统计机器人执行任务时发生意外物理接触的频率；攻击成功率（ASR）从攻击者视角衡量攻击效果；性能下降率（PDR）衡量攻击导致的相对性能损失。CostNav框架则引入了更贴近商业现实的"净价值"指标，把任务收益减去各类代价（碰撞损坏、货物倾洒、时间惩罚等）得到综合评估，比单纯的成功/失败二元指标更能反映真实部署价值。

---

七、六大战场：VLA机器人在现实世界的安全挑战

研究团队把VLA模型的实际部署场景归纳为六个主要领域，每个领域都有其独特的安全特征和挑战。

自动驾驶是最高风险的VLA应用场景之一，因为感知、推理和行动必须在实时物理约束下紧密耦合。DriveVLM、EMMA等系统展示了视觉-语言推理与轨迹预测结合的可能，但核心安全问题不只是视觉识别准不准，而是语言推理在高速高风险条件下是否可信。幻觉（把不存在的物体"看"出来）、延迟（正确决策来得太晚）、规则遵从（交通规则的形式化验证）都是亟待解决的难题。RoboPAIR对NVIDIA自动驾驶系统的成功攻击表明，驾驶VLA系统完全继承了通用VLA的语言接口漏洞，一旦被利用，后果直接关乎生命安全。

家庭和生活服务机器人是VLA技术最贴近普通人日常的场景。π0/π0.5这一系列专门瞄准真实家居环境中的凌乱场景和广泛任务泛化能力。但家庭环境的安全挑战在于无处不在的"非结构化危险"——移动的家具、散落的玩具、锋利的刀具、沸腾的水壶，还有可能随时出现在机器人工作区域的儿童和老人。SafeAgentBench的测试结果显示，即使面对"把面包放在炉子上然后开火"这样明显危险的指令，大多数系统也无法可靠地拒绝执行。

工业制造环境相对结构化，但事故后果更加严峻。工业机器人的力量、速度和载重远超家用机器人，一次错误动作可能导致严重工伤甚至死亡。ISO 10218和ISO/TS 15066等工业安全标准要求机器人系统必须满足严格的力限制、速度监控和安全停止要求，而VLA模型的随机性输出和对视觉语言扰动的敏感性，与工业自动化对可重复性和确定性的要求之间存在根本矛盾。

医疗和辅助机器人领域，错误容忍度趋近于零。RoboNurse-VLA和Surgical-LVLM等系统展示了视觉-语言推理在手术辅助和临床问答中的潜力，但手术错误往往不可逆，医疗器械的认证监管（如FDA 510(k)审批、欧盟MDR框架）要求系统行为必须可追溯和可验证，而VLA模型的不透明性和随机性与这些要求存在深刻冲突。

服务和公共空间机器人面对的挑战是多样化且不可控的人群和环境。这类机器人必须在保证不碰撞行人的同时，还要符合社会规范——不能在拥挤走廊里高速行驶，不能用轮子挡住轮椅通道，不能在端盘子时急转弯。Shawshank框架揭示的"环境劫持"攻击在这个场景中尤为危险，因为公共空间里陌生人可以随意改变环境，机器人无法像在私人工厂里那样对环境做出完全可信的假设。

户外和农业机器人面临的是感知条件的剧烈变化——直射阳光、阴影、雨水、灰尘、地形变化——以及极低的人类监督密度。农业机器人一旦错误识别作物或杂草，可能导致错误施药，引发作物损失或环境污染，而这些后果往往不是立即可见的，可能要等到几周后才会显现。

研究团队还归纳了所有这些场景共同面临的几个横切性挑战：仿真到现实的迁移鸿沟（绝大多数安全评估在仿真环境中进行，而物理世界有大量仿真无法完全复现的噪音和不确定性）；可扩展的运行时验证（随着应用场景越来越多样，穷举预部署测试越来越不现实）；安全与能力的帕累托边界（过于保守的机器人频繁拒绝任务会失去实用价值，而过于激进的机器人则存在安全隐患，寻找最优平衡点是永恒难题）；以及监管和问责的不匹配（现有监管框架假设系统行为是确定性和可验证的，而VLA模型本质上是随机的和不透明的）。

---

八、未来的路：五个最迫切需要突破的研究方向

研究团队在论文的最后部分，明确指出了他们认为最急迫的五个研究方向。

第一个方向是"有证书的鲁棒性"。现有防御措施几乎都是经验性的——在已知的攻击上测试有效，但无法保证对未知攻击也有效。真正的安全保障需要数学上的证明，需要能说清楚"在多大范围内的扰动下，系统的行为不会超出安全边界"。这类"认证鲁棒性"工具在图像分类领域已经有一定发展，但在VLA这种多模态、序列决策的场景下，还面临攻击空间是多通道的、证书必须覆盖完整轨迹而非单帧，以及必须符合实时推理约束等诸多额外困难。研究团队相信，答案可能在于把逐步的界限估计和轨迹级别的稳定性分析结合起来。

第二个方向是"安全感知训练和统一运行时架构"。目前VLA的训练过程以行为克隆为主，安全是隐性的而不是显性的约束。未来需要把安全约束直接编码进训练目标，需要从大语言模型对齐领域借鉴"宪法AI"和"红队测试"的经验，需要课程化的安全场景排序，也需要更高效的人类干预整合机制。在推理端，现有的决策层护栏、运行时监控和物理失效保障被分开研究，缺乏统一的架构框架。未来的统一运行时架构需要能根据延迟预算自适应分配计算资源、在多层防御发出矛盾指令时有明确的仲裁机制，以及在被打断时也能产生有用的安全信号。

第三个方向是"标准化评估和仿真到现实迁移"。当前的评估体系像是一堆各自为政的测试场，不同论文用不同指标、不同场景、不同假设，很难横向比较或追踪领域进展。研究团队呼吁建立一个共享的安全评估工具包，统一场景设计、统一指标定义、统一参考实现。与此同时，如何在数学上建立仿真安全保证与真实世界安全保证之间的可靠联系，是一个根本性的开放问题。

第四个方向是"生命周期安全"。机器人投入使用后通常还会持续更新——接受新数据微调、纳入用户反馈、适应新任务。每一次更新都可能改变机器人的安全行为，而当前没有有效的方法系统地检测这种"安全漂移"。研究团队呼吁开发安全回归测试套件、具备安全保持意识的微调方法，以及能从遥测数据中早期发现新型不安全模式的持续监控系统。

第五个方向是"监管、伦理和社会考量"。技术问题终究要落实到治理层面。现有监管框架（FDA医疗器械审批、ISO工业安全标准、欧盟AI法案）预设了系统行为是可验证和可审计的，而VLA模型既不透明也不确定性。研究团队指出，我们需要能暴露决策追踪链的可审计VLA架构、与监管类别对接的分级评估体系，以及明确划分开发者、集成商和运营者责任的问责框架。常态化感知隐私、辅助机器人公平获取、自主伤害问责等伦理议题也需要在技术设计阶段就纳入考量，而不是等问题出现后再做修补。

---

说到底，这份来自新加坡国立大学、莫纳什大学和北京大学的综述研究，做了一件非常有价值的事：在这个领域还处于野蛮生长阶段时，画出了第一张真正系统完整的"安全地图"。从攻击类型到防御方法，从评估体系到真实部署，从仿真实验到监管框架，几乎覆盖了这个领域所有重要的维度。

这份地图告诉我们，VLA机器人的安全研究已经远不是"会不会被骗做坏事"这么简单的问题了——它牵涉到物理不可逆性、多模态攻击、实时约束、轨迹误差累积、数据供应链完整性等一系列相互交织的挑战，需要机器人学习、对抗机器学习、控制理论和AI对齐等多个领域的研究者打破壁垒、联合攻关。

研究者们在论文中写道，VLA系统带来的承诺——能真正理解并安全执行人类意图的通用具身助手——只有在安全这个前提得到保障的情况下才能真正实现。把安全视为与能力、效率、泛化性并列的第一类设计目标，这不仅是一个科学挑战，也是一份社会责任。想要深入了解这份综述报告的读者，可以通过arXiv编号2604.23775查找完整论文，或访问论文配套的GitHub仓库（地址在论文中有明确说明），研究团队承诺会持续更新这份资源。

Q&A

Q1：什么是视觉-语言-动作模型，它与普通机器人有什么区别？

A：视觉-语言-动作模型是一种把"看"（视觉感知）、"听"（语言理解）和"做"（动作执行）整合在同一个神经网络中的人工智能系统。普通机器人通常按照预先编写的固定程序运行，只能做规定好的动作；而VLA模型可以听懂自然语言指令（比如"把桌上的红杯子放进柜子"），自己看清环境，然后灵活地规划并执行相应动作，不需要提前把每一步都编程进去。代表性系统包括谷歌的RT-2和开源的OpenVLA等。

Q2：VLA机器人的后门攻击是什么意思，普通人需要担心吗？

A：后门攻击是指攻击者在机器人学习技能的数据里偷偷插入"暗号"，让机器人在正常情况下表现完好，但一旦见到特定触发信号（比如场景里出现某个玩具）就执行危险动作。目前研究显示这类攻击成功率高达85%至100%。对于即将进入家庭、医院和工厂的VLA机器人，这确实是一个需要认真对待的安全风险，尤其是当机器人的训练数据来自多方来源时。

Q3：VLA机器人的安全评估目前有多大缺口？

A：缺口相当大。现有评估测试显示，先进VLA模型在面对结构性攻击时成功率大幅下滑，在面对明确危险指令时拒绝率最高只有10%，在四个难度递增的操作任务上平均成功率仅为12.4%至0.5%。更重要的是，绝大多数安全测试在仿真环境中进行，而仿真无法完全复现真实物理世界的噪音、磨损和不确定性，这意味着仿真中通过的安全测试不能直接保证真实部署时的安全。

人工智能安全视觉-语言-动作模型对抗攻击与防御

分享至