微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

LoHoVLA：一个统一长时序实体任务的视觉-语言-动作模型——复旦大学和上海交通大学联合突破

机器人学习视觉语言模型长时序任务

LoHoVLA：一个统一长时序实体任务的视觉-语言-动作模型——复旦大学和上海交通大学联合突破

作者：科技行者

2025-06-05 11:04

分享至：

这项研究提出了LoHoVLA，一种用于长时序实体任务的统一视觉-语言-动作模型，融合了高层任务规划和低层动作控制功能。与传统方法不同，它利用单一预训练视觉语言模型同时生成语言子任务和机器人动作，并采用分层闭环控制机制增强鲁棒性。研究团队构建了包含20个长时序任务的LoHoSet数据集，实验结果显示LoHoVLA在Ravens模拟器中显著优于现有方法，展现出统一架构在实现可泛化实体智能方面的潜力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-05 11:04 • 科技行者

在人工智能与机器人领域，由复旦大学的杨一和王艺涵，上海交通大学的寇思琪，以及上海科技大学的孙佳轩，在上海交通大学邓志杰教授的指导下，开发了一个名为"LoHoVLA"的创新模型。这项研究于2025年5月31日发表在arXiv预印本平台（arXiv:2506.00411v1），为长时序机器人任务带来了全新的解决方案。

想象一下，你在客厅里指挥一个机器人帮你整理桌子。你说："请把桌子收拾干净。"这对我们人类来说是个简单的指令，但对机器人而言却是一项复杂的长时序任务。它需要识别桌上的所有物品，理解它们应该放在哪里，并规划一系列动作来完成任务。比如先把笔放进笔筒，再合上笔记本电脑，然后把书放到书架上，等等。这种需要多步骤才能完成的任务，在人工智能领域称为"长时序任务"。

目前主流的解决方案有两种：一种是视觉-语言-动作（VLA）模型，直接从视觉和语言输入预测机器人动作；另一种是分层架构，使用一个高层规划器来分解任务，再用低层控制器执行具体动作。但这两种方法各有缺陷：VLA模型在规划能力上欠佳，而分层架构则常因模块间协调不良导致效果不佳。

而LoHoVLA模型则采取了一种创新的统一方法，将高层任务规划和低层动作控制整合在一个模型中。就像一个既能规划旅行路线又能亲自开车的司机，LoHoVLA能在同一个神经网络中既生成子任务描述（如"拿起橙色小方块并放在橙色大方块上"），又生成精确的机器人动作指令。

研究团队还构建了一个名为"LoHoSet"的数据集，基于Ravens机器人模拟器，包含20个长时序任务，每个任务有1,000个专家示范，涵盖视觉观察、语言目标、子任务和机器人动作。实验结果表明，LoHoVLA在Ravens模拟器的长时序任务上显著优于现有方法，展现出统一架构在实现可泛化的实体智能方面的巨大潜力。

接下来，让我们深入了解这项研究的细节，看看这种统一的视觉-语言-动作模型如何改变机器人完成复杂任务的方式。

一、长时序任务的挑战

现实世界中的机器人面临着各种长时序、组合性和动态变化的任务。与简单的短时序任务不同，长时序任务涉及无法通过单一动作实现的高层目标。想象一下，如果你让机器人"整理厨房"，它需要做出一系列决策和动作：先把餐具放进洗碗机，再把食物放回冰箱，然后擦拭台面等。这就像是完成一个复杂的乐高积木项目，需要按照特定顺序完成多个步骤，而非简单地拼接一两块积木。

完成这类任务需要两种关键能力：高层任务规划（将总体目标分解为原子任务）和低层动作控制（生成精确的机器人动作）。这就像一个厨师既需要规划一道复杂菜肴的烹饪步骤，又需要精确控制每一步的操作细节。

目前的视觉语言动作（VLA）模型利用预训练的视觉语言模型（VLM）作为骨干，在机器人演示数据上进行微调，以将视觉和语言输入映射到可执行的机器人动作。这些模型善于从观察和指令中提取关键信息，但在长时序任务中的规划和推理能力却相对不足。就像一个只会按照食谱一步步操作但不理解整体烹饪逻辑的新手厨师，容易在面对复杂菜肴时迷失方向。

另一方面，针对长时序任务的研究通常采用分层架构，包括基于VLM的高层规划器（来推理子任务指令）和基于VLA的低层控制器（将这些指令转换为机器人动作）。这种模块化结构虽然提供了灵活性，但经常导致次优协调和有限的泛化能力。就像餐厅中的主厨和帮厨之间沟通不畅，即使各自能力出色，整体效率也会大打折扣。

二、LoHoVLA：统一的视觉-语言-动作模型

为了解决这些挑战，研究团队提出了LoHoVLA，一个用于长时序实体任务的统一视觉-语言-动作模型，将高层任务规划和低层动作控制整合在一起。这就像训练一个既能策划旅行路线又能驾驶汽车的全能向导，能够从宏观到微观无缝处理整个任务流程。

LoHoVLA的工作流程是这样的：首先，它根据输入观察和指定的高层目标推断出语言子任务，然后将这些推断出的子任务作为上下文指导来预测行动。机器人执行预测的动作与环境交互并修改环境。随后捕获新的观察结果，用于推断下一个子任务和后续动作。

举个例子，假设高层目标是"将所有小块叠在同色的大块上，放在相同颜色的区域中"。LoHoVLA会先推断出子任务，如"拿起小橙色块并将其放在大橙色块上"。然后，它会根据这个子任务和当前环境状态生成具体的机器人动作参数。机器人执行这些动作后，系统会捕获新的环境状态，继续推断下一个子任务（如"拿起小蓝色块并将其放在大蓝色块上"）以及相应的动作。

研究团队以大型预训练视觉语言模型作为LoHoVLA的骨干，利用其丰富的世界知识和推理能力。他们扩展了原始语言生成头，使其能够生成语言子任务和离散动作标记。这种共享骨干使模型能够学习在规划和控制之间可泛化的表示。

为了进一步增强鲁棒性，研究团队引入了一种分层闭环控制机制：如果子任务执行失败次数超过预定阈值，系统会重新规划子任务；否则，它只会根据新的环境状态更新动作。这就像导航系统遇到小障碍时会尝试调整前进路线，只有在连续多次失败后才会重新规划整个路线。

三、LoHoSet：长时序实体任务的合成数据集

训练LoHoVLA需要包含细粒度子任务和动作标注的长时序演示数据，但这类数据在现实世界中很难大规模获取。因此，研究团队合成了LoHoSet数据集来训练LoHoVLA。

LoHoSet基于Ravens机器人模拟器开发，包含20个长时序实体任务。每个任务包含1,000个专家演示，特征是视觉观察、语言目标、子任务和机器人动作。这些任务包括三类物体：方块、碗和区域，有11种不同的颜色。方块有大小两种尺寸。

模拟环境包括一个UR5e机器人手臂，配有吸盘抓手和放置在桌子上的几个物体。环境只在预测动作既语义正确又成功执行时提供奖励信号。为模拟现实世界的不确定性，模拟器添加了观察噪声，并引入了抓取物体每秒掉落的概率。视觉观察包括RGB和深度俯视图重建。

任务的语言指令主要关注将物体重新排列成所需配置，例如"在绿色区域上以交替颜色堆叠方块"。研究团队基于手动设计的规则收集分解的子任务，利用模拟器提供的场景完整信息。每个物体都被分配一个文本标签，插入到子任务模板中生成子任务描述，如"拿起绿色方块并将其放在绿色区域中"。

最终的LoHoSet包括3个拾取和放置原始任务和20个长时序任务。其中10个长时序任务和所有3个原始任务来自LoHoRavens基准，以便与基线进行比较。另外10个长时序任务是研究团队设计的，用于提高训练模型的泛化能力。

四、模型架构与训练策略

LoHoVLA使用大型预训练视觉语言模型作为骨干，生成下一个标记，通过专门的解标记器将其转换为语言子任务和动作。为解决高层规划和低层控制中的错误，它结合了分层闭环控制机制。

具体来说，研究团队选择PaliGemma作为模型骨干，这是一个多模态基础模型，处理图像和文本提示以生成文本。它集成了基于SigLIP的图像编码器、Gemma-2B解码器型语言模型，以及将视觉特征映射到语言模型标记空间的线性投影层。

对于机器人动作，研究团队将其表示为离散标记，以便与视觉-语言数据集联合训练。具体而言，他们将归一化的动作值离散化为1,024个均匀区间。在推理过程中，通过解标记和反归一化恢复机器人动作。

与原子任务的闭环控制相比，管理长时序任务更加复杂。执行失败可能来自子任务规划错误、不准确的动作预测或外部干扰。LoHoVLA采用分层闭环控制策略，比重新规划子任务更频繁地重新预测动作。具体来说，如果当前子任务失败次数超过预定阈值K，系统会触发子任务重新规划；否则，它只会重新预测动作。

在训练LoHoVLA时，研究团队优化语言模型骨干，同时保持图像编码器和线性投影层固定。训练目标包括两个组件：子任务生成和动作预测，两者都由语言模型头产生并使用交叉熵损失优化。

研究团队采用两阶段训练策略。在第一阶段，他们在长时序任务上微调PaliGemma，仅优化文本损失以改进高层任务规划。在第二阶段，他们用拾取和放置原始任务增强数据集，同时优化文本和动作损失以增强动作预测能力。

五、实验结果与分析

研究团队评估了LoHoVLA在高层任务规划、低层动作控制以及对训练期间未见任务的泛化能力方面的表现。实验结果显示，LoHoVLA在几乎所有任务上都达到了最高的平均分数和成功率。

在"将方块放入匹配碗中"任务上，LoHoVLA达到了接近完美的准确率。在最具挑战性的推理任务"将偶数方块放入同色区域"上，这个任务需要整合颜色识别、计数、空间推理和逻辑，LoHoVLA获得了85.1的分数和81.0的成功率，而所有基线表现都很差。值得注意的是，尽管没有接触过这些任务，LoHoVLA在未见任务上表现出强大的泛化能力，始终优于所有基线。

有趣的是，LoHoVLA在长时序任务上的表现有时比在拾取和放置原始任务上更好。这主要是由于评估标准的差异：区域匹配任务（如涉及碗或彩色区域的任务）允许轻微的空间不准确性，而LoHoVLA能有效处理这些任务。相比之下，姿态匹配任务（如方块堆叠）需要精确对齐，而偶尔次优的运动轨迹可能会稍微降低性能。尽管如此，LoHoVLA在两种任务类型上都保持稳健。

普通VLA模型在所有模型中表现最差，在几项任务上成功率为零。研究团队的定性分析揭示，这主要是由于缺乏子任务监督，导致模型过度拟合训练数据中的频繁模式。例如，在"将方块放入匹配碗中"任务中，它经常将方块放入错误的碗中，无视目标条件。

为了评估专门闭环控制机制在解决任务执行失败方面的有效性，研究团队比较了三种控制策略： 1. 策略(a)：失败时，系统仅重新预测动作，不重新规划子任务。 2. 策略(b)：系统在每次失败后重新规划子任务，然后重新预测动作。 3. 策略(c)：分层闭环控制策略：如果当前子任务内的失败次数超过预定阈值K，系统启动子任务重新规划；否则，它只重新预测动作。

如预期的那样，策略(a)表现最差。当失败源于错误的子任务规划时，这种方法继续执行有缺陷的计划，可能导致死锁。策略(b)和(c)在整体指标上表现相当；然而，策略(c)需要更少的高层子任务规划步骤。这是因为许多失败源于低层预测错误或外部干扰，此时重新规划子任务是不必要的。

研究团队还研究了训练集扩展和两阶段训练方法对模型性能的影响。结果表明，没有额外数据训练的模型泛化能力较差，由于对已见任务的严重过拟合。例如，"将方块放入不匹配碗中"任务的成功率为0，因为其场景与"将方块放入匹配碗中"相似，导致模型过拟合后者而忽视语言目标，将方块放入匹配颜色的碗中。扩展的数据集缓解了这种过拟合问题。

一阶段训练设置产生了较低的子任务规划成功率，进而导致任务成功率降低。这表明过早引入动作标签和原始任务会阻碍高层任务规划的有效优化。

六、总结与未来展望

对于需要高层规划和低层控制的长时序实体任务，现有的VLA模型和分层方法在规划和协调方面存在困难。为解决这个问题，研究团队提出了LoHoVLA，一个统一的VLA框架，利用大型预训练视觉语言模型联合生成子任务和机器人动作。它结合了分层闭环控制机制，在两个层面纠正错误。实验结果表明，LoHoVLA通过可观的优势优于先前的VLA和分层方法，并展示出强大的泛化能力。

研究的局限性主要来源于机器人动作由于其离散结构而精度有限。此外，假设子任务可以在单个时间步内完成可能在实时应用中不切实际。未来的研究方向可能包括提高动作表示的精度，以及开发能够处理跨越多个时间步的子任务的框架。

归根结底，LoHoVLA展示了统一架构在推进可泛化的实体智能方面的巨大潜力，为未来的机器人系统在复杂任务中的表现提供了新的可能性。就像一个既能规划又能执行的全能助手，这种统一模型可能是未来机器人系统处理复杂、长时序任务的关键。

如果您对这项研究感兴趣，可以通过arXiv平台（arXiv:2506.00411v1）查阅原论文，深入了解技术细节和实验结果。

机器人学习视觉语言模型长时序任务

分享至