微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

韩国RLWRLD与KAIST联手打造的机器人"全能助手"：当机器人学会了"看动作、记历史、感受力道"

机器人操控视觉语言动作模型多模态感知融合

韩国RLWRLD与KAIST联手打造的机器人"全能助手"：当机器人学会了"看动作、记历史、感受力道"

作者：科技行者

2026-05-12 14:17

分享至：

RLDX-1是由韩国RLWRLD与KAIST联合开发的机器人视觉-语言-动作系统，于2026年5月发布（arXiv:2605.03269）。该系统在传统视觉语言理解基础上，新增了运动感知、长期记忆和物理感知三项能力，并通过多流动作变换器架构实现多模态协同，配合三阶段训练和推理加速优化，在多个模拟与真实机器人基准上全面超越π0.5和GR00T N1.6。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-12 14:17 • 科技行者

这项由韩国RLWRLD公司与韩国科学技术院（KAIST）联合发布的研究，于2026年5月以技术报告的形式公开，编号为arXiv:2605.03269v2。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。

当你看着一个熟练的咖啡师工作时，会发现他不仅用眼睛盯着咖啡杯，还会根据壶的重量感知倒了多少液体，记得每位顾客上次的口味偏好，甚至能在嘈杂的咖啡馆里准确捕捉到顾客伸手拿杯子的动作。这种多感官、有记忆、能感知力道的综合能力，恰恰是当前机器人最欠缺的东西。这篇研究报告介绍的RLDX-1，正是一个试图让机器人具备这种"咖啡师级别"综合感知能力的系统。

RLDX-1是一个视觉-语言-动作模型，英文缩写VLA，可以理解为一种将"看懂画面"、"理解语言指令"、"执行动作"三件事融合在一起的机器人大脑。研究团队在这个基础上，进一步让机器人具备了三项此前系统性欠缺的功能：捕捉运动变化的能力（运动感知）、记住过去发生了什么的能力（长期记忆），以及感受物理接触力道的能力（物理感知）。系统在多个模拟测试和真实机器人实验中的表现，全面超越了来自Physical Intelligence公司的π0.5和来自英伟达的GR00T N1.6这两个当前最先进的同类系统。

一、机器人的"眼睛"为什么不够用

一台普通的机器人视觉系统，就像一台只会拍照的相机——它能看到某一刻的画面，但完全感知不到"东西在动"。当传送带上的货物以不同速度移动时，这台机器人只会无助地看着货物从眼皮底下溜走，因为它的"大脑"只处理静止的画面，无法推断出下一刻物体会在哪里。

更复杂的问题还有记忆。普通机器人的视野只有当下几帧画面，就像一个只能看到眼前几秒钟的人——你让它做"杯子换位置"这种需要记住"哪个杯子最初放在哪里"的任务，它就完全懵了。而当涉及物理接触时，问题更棘手：插一根插头进插座，靠眼睛根本看不到插头和插座之间的微小接触状态，只有通过感受力道才能判断是否插好了。

RLDX-1的研究团队正是从这三个真实的痛点出发，设计了一套系统性的解决方案，就像给机器人装上了一套新的"感官套件"：会感知动态的眼睛、能记住历史的大脑，以及能感受力道的手指。

二、机器人大脑的三次感官升级

RLDX-1的核心神经网络架构分为两大部分：一个负责理解视觉和语言的"认知大脑"（视觉-语言模型），以及一个负责将这些理解转化为具体动作的"行动大脑"（动作模型）。这两部分之间的协作方式，正是整个系统的关键所在。

认知大脑的基础是Qwen3-VL 8B，这是一个来自阿里巴巴的强大开源视觉语言模型。不过，研究团队发现，通用视觉语言模型虽然理解图片和语言很厉害，但对机器人的具体工作场景却很陌生——它不懂机器手臂和目标物体的空间关系，不知道完成一个任务需要哪些中间步骤，更不知道一个动作对应的低层次控制指令是什么。为此，研究团队专门构建了一个机器人场景下的视觉问答数据集，对这个模型进行定制化训练，让它能真正"读懂"机器人世界里的视觉信息。

第一次升级是运动感知模块。为了让机器人看到"动"而不只是"静"，团队在视觉编码器的中间层（第9层，共27层）插入了一个特殊的运动提取器，它通过计算视频帧之间各个位置特征的相互关联性，得出一种叫做"时空自相似性"的表示。用更生活化的方式解释：这就像让一个人不仅看一张照片，还要比较前后几张照片里同一个地方有什么变化，从而判断出"东西在往哪个方向移动、速度有多快"。这个运动信息以残差的方式叠加回原来的视觉特征上，使得整个视觉编码器产生了对运动有感知能力的表示。

与此同时，在语言模型处理多帧视频的过程中，团队还设计了一个视频压缩策略：在模型的前4层充分处理完所有历史帧的信息之后，把过去的帧压缩成一个单一的"上下文记忆令牌"，只保留当前帧的完整信息继续处理。这样既保留了时间上下文的信息，又大幅减少了计算量，解决了"看多帧但计算负担太重"的矛盾。

第二次升级是长期记忆模块。运动感知模块处理的是几秒内的短期变化，但有些任务需要记住几分钟前甚至更早发生的事情，比如记住人把东西放进哪个盒子里，或者记住已经把哪个杯子移走了。为此，研究团队设计了一个显式的记忆队列，系统会周期性地将当前的认知状态保存下来，维护一个最近三个时间点的"历史快照"队列。当前时刻的认知特征与这三个历史快照一起，输入一个轻量级的Transformer网络，产生融合了历史记忆的新表示，再传递给动作模型。简单说，这就像给机器人配备了一本"工作日记"，它可以随时翻看最近几条记录来帮助判断当前该怎么做。

第三次升级是物理感知流。这是专门处理触觉和力矩信号的通道，以一种独立但协同的方式与视觉和动作信息交互。研究团队为它设计了一个解耦的架构：当没有物理传感器时，这个通道可以直接关闭；有传感器时，它通过与视觉、动作信息的联合注意力机制交换信息，让整个系统能够感知手指的触感和关节的力矩。更巧妙的是，训练时还加入了一个"预测未来物理信号"的辅助任务，让模型不仅学会利用当前传感器数据，还学会预判接下来会发生什么物理接触，从而产生更精准的物理感知能力。

三、多流动作变换器：让不同感觉"对话"的架构

上面三种感官升级产生了三类性质截然不同的信息：视觉语言认知特征（高维但语义丰富）、机器人本体状态和动作（低维但精确）、以及触觉和力矩信号（数据稀缺但至关重要）。如何让这三类信息有效地协同工作，是架构设计上最有挑战性的部分。

研究团队提出的解决方案叫做"多流动作变换器"（MSAT）。可以用一个管弦乐团的比喻来理解：每种乐器（每类模态）都有自己独立的演奏旋律（独立的处理流），但在演奏的关键时刻，所有乐手都会听着彼此的声音（联合注意力机制），然后再回到自己的旋律线上。具体来说，MSAT分两个阶段工作：在前半段，认知流（视觉语言特征）、动作流（本体状态和带噪声的动作序列）、物理流（触觉力矩信号）各自维护独立的处理通道，同时通过联合自注意力机制相互交换信息；在后半段，认知流和动作流合并成一条通道，与物理流继续进行双流处理，直到最终输出预测的动作序列。

这个架构还有三个精细的设计细节。动作流采用了旋转位置编码，帮助模型更好地感知动作序列中的时间结构。时间步信号（代表去噪过程进行到哪个阶段）被编码成一个特殊的"上下文令牌"加入动作流，而不是通过调制层的方式注入，这样时间信息可以通过联合注意力自然地传播到所有模态。整个变换器采用了现代语言模型里流行的RMSNorm和SwiGLU激活函数，保持了与主流大模型相同的良好训练特性。

动作模型的训练采用了流匹配（flow matching）技术，这是一种生成模型框架——给定一个随机噪声，通过多步去噪逐渐还原出最终的动作序列，就像从一片模糊的草稿逐渐雕刻出清晰的雕塑。整个系统的参数被设计为跨不同机器人机身共享（共用一套核心参数），只在输入输出层为每种机身保留轻量级的专属投影层，以适应不同机器人不同的关节数量和运动空间。

四、数据从哪里来：真实、合成、两手抓

任何机器学习系统的能力都离不开数据的支撑，RLDX-1使用了三类互补的数据来源，共同构建起一个丰富的训练语料库。

第一类是大规模公开机器人数据集，涵盖了单臂抓取机器人、双臂机器人、人形机器人等多种形态。Open-X-Embodiment数据集提供了超过87万条来自20种不同机器人的操作轨迹；DROID数据集贡献了9.2万条在真实场景中采集的Franka机器人演示；Galaxea Open-World提供了11.4万条双臂机器人轨迹；AgiBot World贡献了包含27.5万条来自人形机器人的轨迹（含手部操作数据）；Fourier ActionNet提供了3万条由GR-1和GR-2人形机器人完成的桌面操作轨迹；Humanoid Everyday则提供了约9000条涵盖灵巧操作和人机交互的人形机器人轨迹。

第二类是自主采集的内部数据，分别来自两个配备特殊传感器的机器人平台。ALLEX是一款拥有48个自由度的上身人形机器人，配有双7自由度手臂、双15自由度五指手、2自由度腰部、2自由度颈部和立体自我中心摄像头，以及从电机电流估算出的关节力矩信号。团队使用Meta Quest VR设备控制头部和腰部，Vive追踪器捕捉手腕姿态，并用Manus Pro手套采集手指位置。Franka Research 3（FR3）则是一台单臂夹爪机器人，在标准配置基础上额外加装了AnySkin触觉传感器和关节力矩传感器，通过Meta Quest VR遥控器采集数据。这两个内部数据集是唯一包含力矩和触觉监督信号的数据来源，因此在中期训练阶段扮演了不可替代的角色。

第三类是通过视频生成模型合成的数据。研究团队发现，某些稀缺场景（如ALLEX机器人倒水、拧灯泡）很难通过真实采集获取足够多的多样化数据。于是他们将源视频的第一帧和任务指令输入图生视频模型（分别为Cosmos-Predict2和Cosmos-Transfer2.5），生成新的机器人操作视频，然后用逆动力学模型（IDM）从视频中推断出动作标签。

这个合成数据流程包含两个维度的扩充：任务增强通过大语言模型将任务指令拆解为行为、目标物体、放置位置、使用哪只手等四个维度，并重新组合生成新指令，或者提取操作技能（如抓取、倒水、推动）后替换目标或场景，从而创造出原数据集中不存在的新指令场景；场景增强则用图像编辑模型FLUX.2-dev修改初始帧的桌面外观、目标物体、光照和背景，然后用这张修改后的图片作为视频生成的起点，并用Canny边缘图作为约束保证场景结构的合理性，还可以进一步用视频转视频的方式调整生成视频的纹理颜色。

合成数据的质量把控有两道关卡：视频质量过滤使用Gemini API从"指令是否被执行"和"轨迹是否物理合理"两个维度对视频打分，低于阈值的视频直接丢弃；运动一致性过滤则是更精妙的一道关——把IDM预测出的动作放到模拟器里重放，生成一段回放视频，然后用一个基于V-JEPA2视频编码器训练的轻量级探针比较回放视频和合成视频的动作一致性，只保留高度一致的样本。这种"在模拟器里验证动作是否真能产生视频里的运动"的思路，是这篇论文合成数据流程中最有创意的部分。实验结果表明，这套合成数据流程在GR-1桌面操作基准测试上将成功率提升了9.1个百分点。

五、三段式训练：从泛才到专才再到顶尖

有了丰富的数据，如何训练才能让模型既保持通用能力，又能在特定机身和特定功能上表现出色？研究团队设计了一个三阶段的训练流程，就像一个人的成长历程：先接受宽泛的基础教育，再进入专业院校深造，最后通过实习和岗前培训成为某一岗位的专家。

预训练阶段（第一阶段）使用全量的150万条多机身数据（包括15万条合成GR-1数据），让模型学习跨机身的通用操作能力和时序理解能力。技术上，使用四帧视频输入（相对当前帧的时间偏移为-6、-4、-2、0），冻结视觉编码器的大部分层，只开放语言模型骨干的最顶部四层参与训练。为了支持对未见过机身的快速适应，还专门维护了一个无机身标识的通用投影层，每个批次中有一部分样本会强制走这个通用层。整个预训练在64块NVIDIA H200 GPU上进行了约195小时，累计10万步、全局批大小8192。

中期训练阶段（第二阶段）针对ALLEX和FR3两个具体机身分别进行，同时注入三种新功能。ALLEX的中期训练数据将内部遥控演示和7.2万条合成数据以5:5的比例混合，共25000步，批大小1024；FR3则将DROID公开数据和内部演示以8:2的比例混合。为了平稳地整合新增感知模态，训练开始时有2000步的"对齐预热"阶段，期间冻结所有预训练参数，只更新新增的模态专属参数；之后才开始全参数联合训练。物理感知流的参数（投影层和注意力层）被初始化为接近零输出，确保新功能的引入不会破坏已有能力。

后期训练阶段（第三阶段）针对具体任务进行专项微调，采用了两种互补手段：一是自适应数据采集协议，先按照"一致性因素固定、变化性因素多样化"的原则构建基础数据集，再在此基础上部署模型、识别失败模式、针对性地补充失败场景的演示，迭代改进；二是强化学习增强，基于RECAP框架，先训练一个VLM衍生的评论模型（critic）预测任务进展的价值，再用这个价值信号指导策略优化，并通过多轮滚动采集扩充数据集迭代改进。

这个强化学习中有一个特别有趣的创新：传统的评论模型通常需要新增一个预测头来输出数值估计，但研究团队提出的"文字预测评论模型"直接复用了VLM的文字预测接口——给定当前观测、任务指令和离散化的机器人状态，让VLM直接用文字预测一个未归一化的整数值作为价值估计。这样评论模型就能直接利用VLM内置的知识，在数据稀少的情况下也能可靠地估计价值，而不需要从零学习一个全新的预测头。实验证明，在拧灯泡任务上，经过三轮RECAP强化学习迭代后，机器人完成任务的时间从1056帧减少到了353帧，尝试次数从12.7次减少到4.1次，甚至超过了人类遥控操作的基准。

六、推理速度：快到来得及抓运动中的物体

一个有趣但常被忽视的现实问题是：机器人的"思考"需要时间，而世界却不会为它停下来等待。当机器人看到传送带上的货物，推断该怎么抓取，再把指令发送给手臂，整个过程可能需要几十毫秒。在这段时间里，货物已经移动了，之前的判断就变得过时了。推理延迟越大，这种"看到-决策-执行"之间的错位就越严重，尤其在处理动态场景时。

RLDX-1在NVIDIA RTX 5090 GPU上用PyTorch默认执行模式（Eager模式）运行时，每步推理需要71.2毫秒，这对动态场景来说明显太慢。为此研究团队专门设计了两级优化方案。

第一级是静态计算图转换。PyTorch Eager模式会为每一个算子单独发起GPU调用，这些调用之间存在大量的"启动开销"（launch overhead），就像每次厨师拿一把刀都要先去库房登记一遍才能使用。Torch Compile这个自动编译工具虽然能在一定程度上将计算图捕获为CUDA Graph减少开销，但对RLDX-1而言，旋转位置编码和注意力掩码的构建依赖运行时配置，导致计算图被迫分裂成多段，无法实现端到端的单图捕获。研究团队的解决方案是：把这些依赖运行时配置的计算（旋转位置编码和注意力掩码）全部提前离线计算好，在推理时直接复用，从而消除了导致图分裂的根源，让整个前向传播过程被捕获为一个完整的CUDA Graph，只需一次启动就能完成全部计算。这一步将推理时间降至48.9毫秒，实现1.46倍加速。

第二级是算子融合优化。即使实现了单图执行，在RLDX-1这种"短前缀"执行模式（整个前向传播一次性执行，没有自回归生成）下，计算密集型的矩阵乘法之间夹杂着大量访存密集型的小算子（如RMSNorm归一化、RoPE旋转编码等）。这些小算子每次都需要从GPU显存读入数据、计算完毕再写回显存，反复进行，产生大量的内存往返开销。Torch Compile的图驱动融合策略由于受到FlashAttention等外部算子的"边界隔离"限制，无法跨越这些边界进行融合。研究团队手工设计了8组融合算子，将RMSNorm、RoPE、注意力计算等紧密相连的操作合并在单个kernel中执行，中间的临时张量全程驻留在芯片上的寄存器或共享内存中，不再需要往返显存。最终推理时间降至43.7毫秒，全程加速比达1.63倍，实现了22Hz以上的控制频率。

七、实验结果：从模拟器到真实机器人的全面较量

研究团队在模拟基准测试和真实机器人任务上都做了系统性评估，对手是当前最强的两个开源VLA系统：Physical Intelligence的π0.5和英伟达的GR00T N1.6。

在模拟基准测试方面，RLDX-1在所有测试中均排名第一。在经典的LIBERO基准（40个桌面操作任务）上，RLDX-1平均成功率97.8%，π0.5为96.9%，GR00T N1.6为96.7%。在测试系统鲁棒性的LIBERO-Plus（加入了物体布局、摄像头视角、光照、背景等多种干扰变量）上，RLDX-1达到86.7%，而GR00T N1.6从96.7%骤降至72.6%，说明RLDX-1在干扰条件下具有更强的稳定性。在SIMPLER Google机器人视觉匹配测试上，RLDX-1达81.5%，同时在视觉变体测试上达77.4%，分别高于GR00T N1.6的76.1%和57.1%。在WidowX机器人上的零样本迁移测试，RLDX-1达71.9%，大幅领先所有对手。

在更具挑战性的基准测试上，RLDX-1的优势更为明显。RoboCasa Kitchen（24项厨房操作任务）上，RLDX-1达70.6%，基线对手集中在62%-67%之间；GR-1桌面操作（24项人形机器人任务）上，RLDX-1达58.7%，而GR00T N1.6为47.6%，π0.5仅15.4%；最具难度的RoboCasa365（长序列复合任务）上，RLDX-1整体达32.1%，在已见复合任务上达19.0%、在未见复合任务上达5.6%，而GR00T N1.6在同类测试上分别只有12.6%和2.6%。

在OpenArm人形机器人真实任务上，RLDX-1展现了更强的通用智能。在需要根据语言指令分辨物体方向的"方向性放置"任务上，RLDX-1比π0.5高出14.6个百分点；在需要识别未见过的物体实例的测试中，RLDX-1达54.2%而π0.5只有37.5%；最能体现语言理解和视觉定位能力的"物体定位"任务上（从三个同类物体中找到语言描述的那一个），RLDX-1达87.5%，而GR00T N1.6只有33.3%，几乎等于随机猜测。

在ALLEX人形机器人的功能性任务上，差距扩大到了令人印象深刻的程度。传送带接取任务（要求感知物体运动速度并动态调整抓取时机）中，RLDX-1在已见速度下100%成功、未见速度下75%成功，平均87.5%；而π0.5只有29.2%，GR00T N1.6只有50.0%，两者都表现出"忽略传送带速度、按固定速度行动"的僵化模式。盒子选择任务（需要记住人把物体放进了哪个盒子）中，RLDX-1以91.7%遥遥领先，而π0.5始终重复选择同一个盒子（33.3%），GR00T N1.6则随机选择（29.2%）。卡片滑取任务（需要精确控制接触力道把薄卡片滑到桌边）中，RLDX-1以97.2分（满分100）的近完美进度完成，两个基线均因各种力道控制失误而失败。从壶向杯倒球任务（需要感知杯子重量决定何时停止倒球）中，RLDX-1完成进度为70.8分，两个基线均停留在倒球阶段无法进一步完成——因为它们感知不到杯子里已经装了足够多的球。

在Franka单臂机器人的功能性任务上，运动感知能力的差距同样巨大。判断屏幕上物体转动方向的任务，RLDX-1以97.9%的成功率让π0.5（32.3%）和GR00T N1.6（26.0%）相形见绌；模拟乒乓球游戏中预测球的弹射轨迹的任务，RLDX-1达81.5%；记住哪个杯子在哪里的换杯任务，RLDX-1达45.8%，基线均在25%以下；经典魔术"猜球在哪个杯子下面"任务，RLDX-1达91.7%，基线约50%；插头插入（完全依赖力道感知对准插座）任务，RLDX-1达33.3%，基线均不超过21%；夹鸡蛋放入碗中（需要适度夹力不能把蛋夹碎）任务，RLDX-1达61.1%，基线在37.5%-45.8%之间。

八、消融实验：每个设计选择都经过验证

研究团队还对系统中的关键设计选择逐一进行了消融验证，确保每个组件的贡献是真实的。

在视觉语言模型的特征提取层选择上，从第18层（最终选择）改为第8层会使RoboCasa Kitchen成功率从60.9%降至51.1%，改为第28层也会下降至56.3%。这验证了"中间层特征在语义抽象和细粒度视觉之间取得平衡"的直觉。机器人专属的视觉问答训练也被证明有效：去除这一步后成功率从60.9%降至57.5%，注意力可视化也显示，经过机器人问答训练后模型的注意力会更集中于机器手臂和目标物体，而未经训练的模型则注意力散漫。合成数据的规模效应也得到了清晰验证：在GR-1桌面操作基准上，纯真实数据训练成功率41.0%，加入25%合成数据后升至45.6%，加50%升至46.6%，加入100%合成数据升至50.1%，呈现清晰的单调递增趋势。

说到底，这篇研究的价值不仅在于刷新了各项基准测试的成绩，更在于它系统性地指出了当前机器人VLA系统的三个功能盲区，并为每一个盲区都给出了可行且有效的技术方案。运动感知、长期记忆、物理感知，这三件事人类日常操作时根本不用特意学习，但对机器人来说却长期是无法逾越的壁垒。RLDX-1的工作，是让机器人向"咖啡师级别的综合感知"又迈进了实质性的一步。

当然，从实验室到广泛部署还有很多路要走：86.8%的整体成功率意味着每7次任务中仍有约1次会失败，插头插入任务的成功率也只有33.3%，说明物理感知能力还需要进一步加强。更深层的问题是数据：触觉和力矩数据的采集成本远高于普通视频数据，如何在更广泛的场景中低成本地获取这类数据，仍然是一个待解决的工程挑战。

如果你对其中某个技术细节感兴趣，比如合成数据的运动一致性过滤机制、多流动作变换器的具体架构、或者强化学习阶段文字预测评论模型的工作原理，原论文arXiv:2605.03269v2中都有详尽的数学描述和实现细节，值得深入探索。

Q&A

Q1：RLDX-1是什么类型的机器人系统，它和普通机器人控制系统有什么本质区别？

A：RLDX-1是一种视觉-语言-动作模型（VLA），将视觉理解、语言指令和动作执行整合到同一套神经网络中。与传统机器人控制系统不同的是，它能同时处理动态运动感知、长期历史记忆和物理触觉力矩信号，而不只是响应静态画面和固定指令。这种多感官整合能力让它能完成传统系统束手无策的任务，比如在传送带上抓取移动货物、记住人把物品放进哪个容器、或通过感受力道精确完成插件操作。

Q2：RLDX-1的合成数据生成方法和以往有什么不同，为什么需要"运动一致性过滤"这一步？

A：一般的合成数据方法只管生成视频，不验证从视频中提取出的动作指令是否真的能重现视频里的运动。RLDX-1的合成数据流程加入了"运动一致性过滤"：把从视频中提取出的动作放到模拟器里重放，生成回放视频，再用一个经过训练的轻量级分类器比较合成视频和回放视频的运动是否一致，只保留高度一致的样本。这一步能有效过滤掉"视频生成质量还不错但对应动作根本走不出那个运动"的噪声样本，大幅提升合成数据的可用性。

Q3：RLDX-1的推理速度优化为什么不直接用Torch Compile就能解决，还需要手工设计算子融合？

A：Torch Compile的融合策略受两个限制：其一，旋转位置编码等依赖运行时配置的部分会导致计算图分裂成多段，无法实现端到端单图捕获；其二，FlashAttention等外部融合算子被当作不透明边界处理，编译器无法跨越它们进行相邻算子的融合。RLDX-1的解决方案是先把配置相关的计算预先计算好消除图分裂，再手工针对RMSNorm、RoPE和注意力计算的组合设计融合kernel，让中间结果常驻芯片而不反复写入显存。两步合计实现了1.63倍的加速，将单步推理时间从71.2毫秒降至43.7毫秒。

机器人操控视觉语言动作模型多模态感知融合

分享至