微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

艾伦人工智能研究所打造的全能机器人大脑：让机器人真正读懂世界、动起来

机器人AI视觉语言动作模型流匹配动作生成

艾伦人工智能研究所打造的全能机器人大脑：让机器人真正读懂世界、动起来

作者：科技行者

2026-05-11 12:40

分享至：

MolmoAct2是由艾伦人工智能研究所与华盛顿大学等机构联合开发的全开源机器人视觉-语言-动作模型，发布于2026年5月（arXiv:2605.02881）。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-11 12:40 • 科技行者

这项由艾伦人工智能研究所（Allen Institute for AI）与华盛顿大学联合主导，并联合新加坡国立大学、宾夕法尼亚大学、约翰斯·霍普金斯大学、密歇根大学、北卡罗来纳大学教堂山分校等多所机构共同完成的研究，于2026年5月4日以预印本形式发布，编号为arXiv:2605.02881。这项研究的名字叫做MolmoAct2，是一套专门为机器人设计的"视觉-语言-动作"智能系统，目标是让机器人真正能在现实世界中做事，而不仅仅是在实验室里表演。

**一、机器人为什么还没能走进你的厨房**

你可能早就听说过"家用机器人"的概念，按照科幻电影里的描绘，它们应该早就在帮你洗碗、叠衣服、端茶倒水了。但现实世界里，绝大多数机器人还是被关在工厂流水线上，或者只能在精心布置的实验台上完成固定动作。根本原因在于，让机器人在真实生活场景中灵活行动，是一件极其困难的事情。

现有的机器人智能系统在走向现实应用时，几乎无一例外地卡在了几道"大关"上。第一道关是"闭门造车"：目前最强的机器人AI系统，训练数据、训练方法、模型权重全部保密，其他研究者既无法验证，也无法在此基础上继续开发，更无法把它移植到自己的机器人上。第二道关是"穿越时空的代价"：一些更聪明的系统会让机器人在行动之前先做大量的"推理"——预测未来图像、生成世界模型——这些推理过程消耗的时间太长，机器人还没动手，窗口期就过去了，根本无法实时控制。第三道关是"有钱人的玩具"：少数开放了权重的系统，也只能运行在价格高昂、普通实验室根本买不起的专用硬件上，把绝大多数研究者挡在门外。第四道关是"及格线太低"：即便经过专门训练，在真实任务上的成功率依然不够高，距离"可以放心用"的程度相去甚远。

MolmoAct2这套系统，正是为了同时突破这四道关而生的。研究团队的目标，不是做一个"论文里好看的系统"，而是一个真正可以拿出去用的东西。

**二、把大脑先练聪明：Molmo2-ER的诞生**

在解释MolmoAct2之前，先要讲清楚它的"大脑基础"——Molmo2-ER。

你可以把这个系统想象成一个经过特殊训练的观察员。普通的AI视觉语言模型，就像一个博览群书、见识广博的人，能回答各种图文问题，但对空间感知能力并不擅长——比如，让他估计桌上两个杯子相距多少厘米，他可能给出一个很离谱的答案；让他判断从某个角度看过去，某样东西在左边还是右边，他可能也会混乱。然而机器人要工作，恰恰最需要的就是这种精确的空间感知：这个物体在哪里、有多远、从另一个摄像头看是什么样、手伸过去之后会发生什么。

为了给MolmoAct2装上这样一个"空间感知大脑"，研究团队基于已有的Molmo2模型，构建了一个全新的训练语料库，总计约330万条样本，涵盖六大核心能力方向。

第一个方向是"单张图片的具身问答"。团队融合了多个不同来源的数据集，有来自模拟器的动态推理样本（比如，从某个视角移动后，面前的物体会在哪里），有通用视觉问答数据防止模型"忘记"基础感知能力，还有专门用于空间指代推理的数据——当模型说"把那个红色杯子放在蓝色盒子左边"时，它既要理解语言，又要把语言中的位置关系对应到图像的具体像素坐标上。此外还有一套专门做视角归一化处理的数据，让模型能够从同一虚拟摄像头视角稳定地给出距离、方向、大小等物理量，以及通过3D标注传播得到的真实机器人操作和旅游视频数据。

第二个方向是"视频中的空间理解"。机器人工作时是连续运动的，一段视频而非一张图片才是真实的信息来源。团队使用了模拟器生成的、带有精确标注的问答数据（距离、方向、计数、时序等），以及大量人工标注的长程机器人操作视频，让模型学会从时间维度上理解场景变化。

第三个方向是"精准定位"。机器人抓取物体时，"知道物体在哪里"必须精确到像素级别。为此，研究团队专门使用了大量指向性训练数据，让模型能够输出具体的图像坐标，而不仅仅是说"在左边"。

第四个方向是"多视角对应"。一台机器人身上可能装有多个摄像头，有时是从第一人称视角看（机器人自己的视角），有时是从第三人称外部摄像头看。将这两种视角的信息融合起来，才能准确判断空间关系。研究团队专门引入了强调多图像、第一人称与第三人称视角对应的数据集。

第五个方向是"抽象空间推理"。这类数据专门用来测试模型是否真正理解"相对方向"的概念——比如，某人站在某处向左转90度后，另一件物品会在他的左边还是右边？这类判断涉及参考系的切换，是自然语言数据中极少被明确标注的能力。

训练方法上，团队采取了一种叫做"专项化-再复习"的两阶段策略。第一阶段，从Molmo2的中期训练检查点出发，在这套新的具身推理语料库上训练20000步，同时混入8%的普通文字数据防止遗忘语言能力，让模型快速适应空间推理任务。第二阶段，再训练1500步，把新的具身推理数据和Molmo2原有的通用多模态数据按照1:1的比例混合，在具身能力和通用能力之间找到最佳平衡点（研究团队测试了多种比例，最终发现各占一半时效果最好）。

经过这番训练后的Molmo2-ER，在13项业内公认的具身推理基准测试中，以63.8%的总平均分排在所有模型的最前列，比它的基础版本Molmo2提高了17个百分点，比谷歌的Gemini Robotics ER-1.5 Thinking高出2.5个百分点，甚至超过了OpenAI的GPT-5。

**三、机器人的"行动记忆库"：三套全新数据集**

有了聪明的大脑，还需要大量的"练习素材"。机器人学习动作，靠的是反复观看和模仿人类示范操作的录像——就像学厨师要反复看师傅操作一样。MolmoAct2发布了三套全新的开源机器人操作数据集，覆盖从低成本到中等成本的不同机器人平台。

第一套是MolmoAct2-BimanualYAM数据集，主角是一套叫做"YAM"（Yet Another Manipulator，"又一款机械臂"）的双臂机器人。这套系统的硬件全部由市面上可以买到的现成零件组成，总成本不超过6000美元——对于一套能做各种家务的双臂机器人来说，这个价格极其亲民。整套数据集包含超过34500条机器人示范操作录像，总时长超过720小时，涵盖28种以上的真实任务，包括叠衣服、解开缠绕的电缆、整理餐桌、扫描超市商品、打包药品等等，每种任务都在不同的场景布置、不同的物品实例、不同的摆放位置下多次录制。这是迄今为止全球最大的开源双臂机器人操作数据集，数据收集历时两个月，由Cortex AI公司的专业团队支持完成，过程中有严格的质量控制流程。

第二套是MolmoAct2-SO100/101数据集。SO-100和SO-101是Hugging Face公司推出的低成本机器人平台，在全球开源社区中拥有大量用户。研究团队从1222个公开的社区数据集（来自377位不同用户）中，经过严格的四步筛选流程整理出这套数据。四步筛选包括：检查数据格式完整性、剔除评估类数据集、核查许可证和代码合规性，以及用一套叫做"TOPReward"的质量评分系统进行最终筛选，只保留质量达标的数据。最终数据集包含38059条操作录像、1980万帧图像，总时长约184小时，覆盖了多种相机配置、多种操作任务、多种现实环境。

第三套是MolmoAct2-DROID数据集。DROID原本是一套大规模的真实世界机器人操作数据集，使用统一的Franka机器人在各种现实场景中收集。研究团队利用官方发布的补充标注（每段视频配有三条不同说法的自然语言描述，同时过滤掉机器人空闲不动的片段），从原始数据中筛选出74604条有效录像，共计约1776万帧，每条录像均经过人工重新语言标注以提升语言描述质量。

这三套数据集有一个共同的"质量提升手段"：语言重新标注。很多机器人数据集里的任务描述要么极度重复（一个数据集里几万条录像只有104种不同描述），要么根本无意义（比如"lerobot_test""Test run"之类）。研究团队使用Qwen3.5-27B这个开源大语言模型，对着每段录像的画面帧和原始描述重新生成任务说明，还随机要求生成不同长度的描述，以增加多样性。经过这道处理后，整个数据集中独特的语言描述比例从22%翻倍到了46%。

**四、让机器人把动作变成"词汇"：OpenFAST分词器**

讲到这里，有一个有趣的工程问题需要解释。机器人的动作本质上是一串连续的数字——每一帧，机械臂的每个关节转了多少度、速度是多少，所有这些数字流在一秒钟内可能有几十组。但AI大语言模型的"母语"是离散的词元（token），就像文字是由一个个汉字或字母组成的。如何让机器人的连续动作和语言模型的离散词汇"说上话"，是一个关键技术难题。

研究团队为此训练了一个叫做"OpenFAST分词器"的工具，可以把一秒钟的连续动作轨迹压缩成一小段由2048种"动作词汇"组成的离散序列。具体做法是：先对动作数据做频域变换（类似于把一段音乐从时域波形变成频谱），然后量化频域系数，最后用字节对编码（BPE，就是大语言模型处理文字时常用的技术）进一步压缩成紧凑的离散标记。

这个分词器的训练数据来自五种不同的机器人平台，共计一百万条动作序列，覆盖双臂YAM、SO-100/101、DROID Franka、Google机器人和WidowX机械臂，包含绝对关节控制和相对末端执行器控制两种控制方式。所有动作在输入分词器之前都被归一化到统一的32维空间，不够32维的用零填充，连续维度用1%~99%的百分位数做归一化处理，二元开关类的夹爪命令单独处理。

这个分词器的特别之处在于完全开源——不仅模型权重公开，训练数据和训练方法也全部公开，研究者可以完整复现和改进它，而不像此前同类工具那样只公开权重却不说明训练分布。

**五、大脑和手臂如何协作：MolmoAct2的三阶段成长之路**

现在，聪明的大脑（Molmo2-ER）有了，动作词汇表（OpenFAST分词器）也有了，海量的练习素材（三套数据集）也准备好了。下面要讲的是MolmoAct2这个完整系统是怎样"长大"的。

整个训练分三个阶段，就像一个厨师的成长历程：先学看菜谱（预训练），再练习做菜动作（后训练），最后专门到某个特定厨房去实习上岗（部署微调）。

预训练阶段，也就是"学看菜谱"，目标是让视觉语言模型学会用离散词汇预测机器人动作，同时保留它原有的视觉理解和语言能力。训练数据中，90%是机器人操作录像，10%是普通的多模态数据（图文问答、视频等）。机器人录像部分，YAM、SO-100/101和DROID各占30%，剩余10%分给几个规模较小的补充数据集。这个阶段在64块H100 GPU上训练了20万步，消耗约5760个GPU小时。

后训练阶段，也就是"学做菜动作"，是整个系统最有创意的部分，也是MolmoAct2在架构上最重要的创新所在。

在这个阶段，研究团队给大语言模型配上了一个专门负责连续动作生成的"动作专家"模块。这个模块采用流匹配（flow matching）技术——你可以把它想象成一个从"一团乱码"出发，逐步把乱码整理成精确动作指令的过程。给定目标动作序列和高斯噪声，在任意插值时刻，模型要学会预测"当前状态距离正确动作还差多少、应该往哪个方向调整"，训练结束后，推理时只需从纯随机噪声出发，沿着这个方向积分，就能得到精确的连续动作轨迹。

这个动作专家模块和主干大语言模型之间的连接方式，是MolmoAct2在架构设计上的关键突破。动作专家和大语言模型的层数相同，都是36层。在每一层，大语言模型的"注意力键值缓存"（key-value cache，你可以理解为模型在每一层对输入信息的"提炼版本"）经过一个可学习的投影层之后，直接作为动作专家对应层的交叉注意力输入——也就是说，动作专家的每一层都能直接"读取"大语言模型同一深度层次的视觉语言理解信息。这种"逐层键值连接"让动作专家能够从大语言模型的层次化视觉语义特征中持续获益，而不像以往系统那样只能读取大语言模型最后一层的输出。

训练时，同样的动作数据会同时产生两路监督信号：一路是离散动作词元的预测损失（让大语言模型继续保持用词汇表示动作的能力），另一路是连续流匹配损失（让动作专家学会生成精确的连续轨迹）。为了防止动作专家"作弊"——即在生成连续动作时偷看已知的离散动作词元答案，研究团队在训练时把离散动作词元这段内容从动作专家的输入中遮蔽掉。此外，流匹配损失的梯度不会反向传播到大语言模型主干（这是一种叫做"知识隔离"的技术），以保护主干模型在预训练中学到的视觉语言能力不被破坏，但大语言模型本身仍由离散动作词元的预测损失继续更新。每条机器人示范会同时采样4个不同的噪声时刻来计算流匹配损失，相当于用同一个"情境"产生4倍的训练信号，充分利用已有数据。后训练阶段在64块H100上训练了10万步，消耗约2300个GPU小时。

部署微调阶段是"到特定厨房实习上岗"。从后训练完成的检查点出发，针对具体的机器人平台和任务做专项微调。这个阶段的几个关键调整包括：只用机器人数据、不混入多模态数据；把每个动作块的流匹配采样数从4个增加到8个以获得更密集的监督；不再使用知识隔离，允许流匹配损失更新整个主干；使用8块H100 GPU、5万步训练完成单个任务或平台的适配，选取验证集上表现最好的检查点用于评测。

**六、让机器人"看懂深度"再行动：MolmoAct2-Think的奥秘**

MolmoAct2-Think是这套系统的"思考增强版"，核心思路是在生成动作之前，先让模型明确地"感知"一下当前场景的深度结构。

为什么要感知深度？机器人抓取东西时，纯粹靠RGB图像判断位置其实很不可靠——同样大小的物体，距离近的显得大，距离远的显得小，仅凭颜色纹理很难给出精确的空间判断。如果模型能事先预测出场景的三维深度信息，再以此为基础生成动作，决策质量就会明显提升。

MolmoAct2-Think的做法是把每帧图像的深度信息量化成一个10×10的网格，每个格子的深度值被编码成0到127之间的一个整数。这100个深度码作为普通的自回归词元，插入在视觉语言输入和动作输出之间，让模型先"输出"一个深度描述，再基于这个深度描述生成动作。这100个深度词元的键值缓存同样通过逐层键值连接传递给动作专家，使得连续动作生成能够直接利用模型对深度结构的显式理解。

但这样做的一个问题是：生成100个深度词元需要时间，会拉高每一步的推理延迟。解决方案是"自适应深度预测"——利用机器人操作轨迹中的时间冗余性。在一段连续的机器人工作视频中，场景的大部分区域往往连续多帧都没有明显变化，只有被机器人手部操作涉及的局部区域才会发生变化。MolmoAct2-Think会对每一帧图像进行10×10的网格划分，把每个格子的当前RGB内容和上一帧做余弦相似度比较，只有相似度低于0.996的格子才被标记为"需要更新"。对于标记为需要更新的格子，模型重新预测深度码；对于不需要更新的格子，直接从缓存中取上一帧的深度码。这样一来，每步推理中真正需要新生成的深度词元数量大幅减少，整体延迟与场景变化量成正比，而不是每次都要生成全部100个词元。

为了让模型在推理时能够应对自己预测深度码时可能犯的错误，训练中加入了一个小技巧：有10%的概率随机把输入的深度词元替换成随机采样的深度码，但预测目标保持不变，这样训练出来的模型对深度输入的小误差具备一定的鲁棒性。此外，动作专家中专门为深度词元对应的键值加上了一个可学习的"权重门控"，初始化为接近于零的值，让训练一开始时深度信息对动作生成的影响很小，随着训练推进再逐渐学习到合适的影响程度。

**七、考试成绩单：MolmoAct2在七大测试中的表现**

研究团队对MolmoAct2进行了迄今为止最大规模的开源视觉语言动作模型评测，横跨7个环境下的仿真和真实世界基准测试。

在具身推理能力方面，Molmo2-ER在13个业界标准基准上以63.8%的总平均分位居第一，在其中9个具体基准上单独领先所有模型，比第二名Gemini Robotics ER-1.5 Thinking高出2.5个百分点，同时超越GPT-5。相比基础版本Molmo2，提升幅度高达17个百分点。

在开箱即用的零样本部署方面，研究团队把MolmoAct2-DROID（基于DROID数据集训练的版本）放在两个仿真基准MolmoSpaces和MolmoBot上测试，完全不进行任何额外适配。在MolmoSpaces的取放任务中，MolmoAct2平均成功率37.7%，明显领先第二名π0.5的34.5%，以及π0的23.2%。在更难的MolmoBot基准上，MolmoAct2平均成功率87.1%，比第二名π0.5提高10.6个百分点。在真实世界的DROID机器人上（摄像头位置随机、物体全为训练集中未见过的新物体、场景也是新环境），MolmoAct2达到87.1%的成功率，比第二名高出38.7个百分点。在更低成本的SO-100/101机器人上，MolmoAct2-SO100/101达到56.7%的平均成功率，比经过同样数据微调的π0高出11.4个百分点。

在经过少量数据快速微调后的任务适应方面，在LIBERO仿真基准（包含空间任务、物体任务、目标任务和长程任务四个子集）上，MolmoAct2综合成功率97.2%，创下所有比较方法的最高纪录，在物体子集上达到100%满分，比前作MolmoAct提高10.6个百分点。在RoboEval仿真基准上，MolmoAct2成功率44.3%，比第二名π0.5高3.8个百分点，而且在轨迹效率（完成时间、路径长度）和稳定性（抖动次数、碰撞次数）等更细致的质量指标上也全面优于对比方法。在真实世界的YAM双臂任务（8项涵盖家庭、厨房、实验室、移动操作等场景的任务，每项50次试验）上，MolmoAct2平均成功率50.1%，比第二名OpenVLA-OFT高出15个百分点，在8项任务中有7项领先所有对比方法。

MolmoAct2-Think在LIBERO上进一步达到98.1%，比标准版MolmoAct2高出0.9个百分点，最显著的提升出现在最难的长程任务子集上（从93.2%提升到95.4%），这也是最有提升空间的部分。

**八、推理速度：如何在"思考"和"反应快"之间取得平衡**

机器人控制对实时性有很高要求。理论上成功率再高，如果每一步动作要等几秒钟才能计算出来，机器人根本没法正常工作。研究团队专门测量了推理速度，并开发了两项优化技术。

第一项是缓存复用优化：在同一个动作块内，视觉语言主干产生的键值缓存不变，只有流匹配循环中的噪声状态和时间步在变，因此可以缓存与上下文相关的交叉注意力中间量，在整个流匹配积分过程中复用，避免重复计算。

第二项是CUDA Graph捕获：把固定形状的流匹配循环计算图一次性编译成GPU计算图，后续每次推理直接重放，消除Python调度和GPU核函数启动的额外开销。

经过这两项优化，在单块H100 GPU、动作块长度为10步的条件下，标准版MolmoAct2的控制频率从原始的23.02 Hz提升到55.79 Hz，加速比约2.4倍，完全满足实时控制需求。MolmoAct2-Think由于包含自适应深度预测的自回归解码过程（序列依赖性强，不那么适合图捕获），从原始的8.04 Hz提升到12.71 Hz，加速比约1.6倍。

**九、系统性的"拆零件"实验：哪些设计真正有效**

研究团队还做了一系列系统性的消融实验，把MolmoAct2的各个组件一个一个"摘下来"，看看摘掉之后性能会怎么变。

关于具身推理骨干：在只用离散动作词元预测、不加入连续动作专家的情况下，单独比较Molmo2和Molmo2-ER在LIBERO长程任务上的表现，Molmo2得到77.6%，Molmo2-ER得到83.6%，提升6个百分点。这说明专项空间推理训练对动作预测本身也有直接帮助，不只是在推理基准上有用。

关于键值连接方式：研究团队比较了三种让动作专家从大语言模型获取信息的方式——使用隐层状态（最后一层的输出向量）、逐层键值连接（每层拉平后投影）、以及逐头逐层键值连接（保持注意力头结构分别投影）。在LIBERO四个子集上，标准的逐层键值连接平均成功率95.9%，逐头版本94.8%，隐层状态方式94.0%。逐层键值连接胜出。

关于每次采样的流时刻数量：研究团队测试了K=1、2、4、8四个取值，发现K越大整体效果越好，K=8时平均成功率95.9%，K=1时只有94.15%。

关于微调时的设计选择：去掉离散动作协同训练、去掉LIBERO数据混合中的全模型微调（改用LoRA或只训练动作专家），都会导致性能下降，尤其是只训练动作专家时平均成功率降至93.05%，是所有方案中最差的。

关于MolmoAct2-Think的深度微调设计：同时使用深度词元噪声注入和可学习深度门控的完整方案达到98.10%，去掉这两项后降至97.65%，进一步去掉混合训练（只用深度加动作样本）后降至97.50%。说明深度推理路径在经过适当正则化后，以及在保留一条独立的无深度动作路径时，才能发挥出最大作用。

**归根结底，MolmoAct2意味着什么**

说到底，MolmoAct2是一套野心很大、落地很踏实的系统。它不满足于仅在论文里刷高数字，而是真正把开源落实到每一个环节：模型权重开放、训练代码开放、训练数据开放，连训练分词器用的数据都一并公开。

对于研究者而言，这意味着机器人AI研究的门槛大幅降低。以前只有少数顶级机构才能复现最先进的机器人控制模型，现在任何人都可以从MolmoAct2出发做研究。对于工程师和从业者而言，这套系统在低成本机器人平台（SO-100/101、YAM）上的出色表现，意味着把先进机器人AI部署到实际产品中的门槛也大幅降低。

当然，50%左右的真实世界任务成功率距离"完全可以放心用"仍有差距。场景更复杂、指令更模糊、物体更奇特的时候，这个成功率还会进一步下滑。但MolmoAct2建立的整套开放基础设施——数据、模型、代码——让社区可以在此基础上持续迭代，这才是这项工作最深远的意义。有兴趣深入了解的读者，可以通过arXiv编号2605.02881查阅完整论文，或访问allenai.org/blog/molmoact2了解更多细节，代码和模型权重可在allenai/molmoact2仓库获取。

---

Q&A

Q1：MolmoAct2和普通机器人控制系统有什么本质区别？

A：普通机器人控制系统通常是为特定任务写死的程序，换了场景就不能用。MolmoAct2是基于大型视觉语言模型构建的，本质上让机器人"读懂"图像和语言指令，然后生成对应的动作。它在大量真实机器人操作数据上训练，能适应不同场景、不同任务，而且全部开源，其他人可以在此基础上继续改进，这是和传统机器人控制系统最大的本质差异。

Q2：Molmo2-ER在具身推理上比GPT-5表现更好的原因是什么？

A：Molmo2-ER是在Molmo2基础上，专门针对空间感知和具身推理任务进行了强化训练，加入了约330万条涵盖精准定位、深度估计、多视角对应、时序推理等方向的专项数据，而GPT-5是通用模型，在这些空间推理任务上没有经过专项强化。专项训练带来的针对性提升，让Molmo2-ER在这一垂直领域超过了参数量更大、通用能力更强的GPT-5。

Q3：MolmoAct2-Think的自适应深度推理在推理速度上有多大代价？

A：相比不带深度推理的标准版MolmoAct2（优化后55.79 Hz），MolmoAct2-Think即便经过缓存和CUDA Graph优化也只能达到12.71 Hz，相差约4倍。不过12.71 Hz对许多机器人控制任务而言已经够用，而且自适应机制使得静止场景区域的深度词元可以直接复用，避免每步都生成100个深度词元，已经比非自适应方式快了约1.6倍。

机器人AI视觉语言动作模型流匹配动作生成

分享至