微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 美团LongCat团队发布LARY:机器人"看懂动作"究竟难在哪里?

美团LongCat团队发布LARY:机器人"看懂动作"究竟难在哪里?

2026-04-23 09:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-23 09:02 科技行者

这项由美团北京研究团队(LongCat团队)完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.11689,有兴趣深入了解的读者可通过该编号查询完整论文。

每当我们看到机器人在工厂流水线上娴熟地抓取零件、在家里帮忙叠衣服,或者在餐厅里熟练地切菜,背后总有一个让工程师们头疼的核心问题:怎样让机器人"看懂"人类在做什么,然后自己也学会做?这个问题说起来简单,做起来却像教一个从未见过厨房的孩子仅靠看视频就学会炒菜——光靠眼睛盯着看,不亲手尝试,真正掌握火候和手感非常困难。

美团的研究团队正是在这个背景下展开了工作。现代机器人学习领域有一个热门方向叫做"视觉-语言-动作"模型(简称VLA),它的目标是让机器人能够像人一样理解视觉画面,接收语言指令,然后执行动作。然而,训练这类模型需要大量"有标注的动作数据"——也就是既有视频画面、又有精确记录机器人每一步怎么动的数据。这类数据极其稀缺,因为每一条都需要人工操控机器人来采集,成本极高。

相比之下,互联网上有海量的人类活动视频:做饭、打球、修东西……这些视频几乎是免费的"宝藏",但它们只有画面,没有任何关于"动作指令"的标注。研究者们于是想出了一个方法:能否从纯粹的视频中,自动提取出某种"动作信号",哪怕它不是机器人能直接执行的格式,但至少能代表"从这一帧到下一帧,发生了什么动作"?这种从视频中提炼出来的动作信号,就被称为"潜在动作"(Latent Action)。把视频变成潜在动作,再用潜在动作去训练机器人,理论上能让机器人从人类积累的海量经验中受益。

但这里有一个关键的漏洞:研究者们提出了各种各样提取潜在动作的方法,却始终没有一套严格、统一的标准来衡量"提取出来的潜在动作到底好不好"。现有的评测方式要么是看机器人最终能不能完成某个任务,要么只是定性地画几张图看看聚类效果漂不漂亮。这就好比你研发出了一种新的食材加工方法,但衡量标准只有"最后这道菜好不好吃"或者"加工出来的食材颜色好不好看"——根本无法精确知道加工方法本身哪里好、哪里差。

正是为了填补这个空白,美团的研究团队构建了一套名为LARY(Latent Action Representation Yielding)的基准测试体系。这套体系的目标是:提供一把精准的"尺子",专门用来测量潜在动作表示的质量,而不是绕道去看机器人最终任务表现。

一、一把衡量"动作理解力"的新尺子

要理解LARY这套测评体系是什么,可以把它比作一场综合考试。如果你想评价一名厨师的厨艺,你可以从两个维度来考察:第一,他能不能叫出食材的名字、知道每道菜该怎么做(知识层面);第二,他能不能真正把菜炒出来、火候掌握得准不准(执行层面)。LARY的思路完全相同:评测分为两大方向,一是"高层语义理解",二是"低层控制映射"。

高层语义理解考察的是:一段视频所对应的潜在动作,能不能告诉我们"这里在做什么"。比如看一段机器人把杯子往左移的视频,提取出来的潜在动作信号,是否包含足够的信息让我们判断出"这是向左移动"而不是"向右移动"?这叫做"动作分类"任务。

低层控制映射考察的是:从视频中提取的潜在动作,是否保留了足够细致的物理信息,让我们能推算出机器人手臂实际移动了多少、朝哪个方向、幅度是多少?这叫做"动作回归"任务。

这两个维度形成了一个互补的考察框架,就像同时考察厨师的理论知识和实际操作能力,缺一不可。

为了支撑这套考试,研究团队花费大量精力构建了一个规模巨大的数据集。整个数据集包含超过120万个短视频片段,总时长超过1000小时;62万张图像对;以及59.5万条运动轨迹数据。这些数据横跨151种不同的动作类别,涵盖11种机器人形态以及人类动作,场景从模拟环境到真实厨房、商业空间、工业现场,视角既有从第一人称(类似GoPro拍摄视角)的画面,也有从旁观者角度拍摄的画面。

在动作分类这个维度里,研究团队进一步分成了两个层次。第一层是"原子动作"——也就是最基础的动作单元,比如"向左移动"、"向前移动"、"张开夹爪"、"闭合夹爪",一共定义了28种,数据来自一个叫LIBERO的机器人仿真平台,共提取了约2.6万张图像对。第二层是"复合动作"——也就是更完整、更复杂的行为,比如"拿起"、"放下"、"倒水"、"折叠",一共定义了123种人类动作类别和54种机器人动作类别。这部分数据来源极其丰富:EgoDex、Something-Somethingv2、Ego4D、HoloAssist、EPIC-KITCHENS、TACO等多个公开数据集,以及专门的双臂机器人数据集AgiBotWorld-Beta,合计提取出约69.2万段人类视频和53.8万段机器人视频。

在动作回归这个维度里,数据集覆盖了不同复杂程度的机器人平台。CALVIN和VLABench提供了单臂机器人(7个自由度)的数据,RoboCOIN和AgiBotWorld-Beta则提供了双臂机器人数据,其中RoboCOIN涉及12个自由度,AgiBotWorld-Beta涉及16个自由度。所谓"自由度",就是机器人手臂能以多少种方式移动——自由度越高,手臂越灵活,控制起来也越复杂。

数据从哪里来、质量怎么保证,这是整个项目的核心挑战之一。现有的公开数据集普遍存在时间边界不准确(视频裁剪不干净)、动作标注不一致的问题。为了解决这个问题,研究团队开发了一套自动化数据处理流程,核心是利用大型视觉语言模型(doubao-1.5-pro-vision API)来完成视频的精确时间分割和语义对齐。具体来说,整个流程包括四个环节:首先用模型自动把长视频切割成一个个独立的动作片段,每个片段附带一句描述性文字;然后用模型再次检查每个片段,确认视频内容和描述文字完全匹配,并且片段时长在0.5到20秒之间,只保留第一人称视角的视频;接着做第二轮验证,确认提取出的动作词汇与视频内容严格一致;最后人工检查,过滤掉那些动作含义过于模糊或者动作边界不清晰的类别,比如"整理"、"清洁"这类词,因为它们很难界定准确的动作范围。

二、被测试的四类"翻译官"

有了这把尺子,研究团队接下来要测试的是各种各样"把视频翻译成动作信号"的方法,也就是不同类型的潜在动作模型。这些模型就像四种不同背景的翻译官,各有各的训练经历和翻译策略。

第一类叫做"具身潜在动作模型",简称Embodied LAM。这类模型是专门为机器人设计的,代表是LAPA、UniVLA和villa-X。它们的训练方式是:给模型看大量机器人操作视频,让模型学会从相邻帧之间的视觉变化中提取动作信号。这类模型的设计哲学是"专注即力量",专门针对机器人控制任务来优化。

第二类叫做"通用语义视觉编码器",代表是DINOv3和V-JEPA 2。这些模型从未专门学过"动作"这件事,它们的训练目标是理解图像和视频的整体语义,就像一个广泛阅读各种书籍的博学者。DINOv3是一种对比学习模型,通过看海量图片学会了区分不同的视觉概念;V-JEPA 2则是一种预测式模型,通过预测视频中被遮盖的部分来学习视频的内在规律。

第三类叫做"生成式像素编码器",代表是Wan2.2 VAE和FLUX.2-dev VAE。这类模型本质上是视频生成模型(可以理解为"AI画视频"的模型)的一个组成部分,它们经过训练能够把视频压缩成紧凑的表示,然后再重建出原始视频。这里测试的是它们在压缩过程中是否顺带捕捉了动作信息。

第四类是研究团队自己提出的新组合,叫做"通用潜在动作模型"(General LAM)。核心思路是:把第一类方法(LAPA框架)中原本负责处理图像像素的编码器,替换成第二类或第三类的预训练视觉模型,形成一个混合体。具体包括LAPA-DINOv2、LAPA-DINOv3、LAPA-SigLIP2和LAPA-MAGVIT2四个变体。这类模型在大量互联网视频上训练,视频内容既有人类活动,也有机器人操作,还有各种环境变化。

在评测设置上,所有模型都采用相同的测试流程。对于动作分类任务,研究团队从每段视频中均匀采样9帧画面,调整为224×224像素,然后用一种叫做"注意力探针"(4层注意力机制分类器)的方法来判断潜在动作对应哪个类别,用分类准确率来衡量表现。对于动作回归任务,以5帧为间隔提取图像对,然后用一个两层残差结构的多层感知器(可以理解为一个简单的神经网络)来把潜在动作映射到具体的机器人运动数值,用均方误差(MSE,误差越小越好)来衡量表现。

三、出乎意料的比赛结果

测试结果颠覆了很多人的直觉。如果按照"专门训练过的模型应该表现更好"的朴素逻辑,Embodied LAM理应遥遥领先——毕竟它们是专门为机器人动作学习设计的。然而实验数据呈现了完全相反的排名。

在动作分类准确率上,V-JEPA 2以76.62%的平均准确率高居榜首,DINOv3以68.68%位居第二。而三个专门为机器人设计的Embodied LAM模型——LAPA、UniVLA和villa-X——平均准确率仅分别为20.17%、17.99%和20.90%,甚至连普通视频生成模型中的Wan2.2(49.36%)和FLUX.2-dev(47.48%)都远不如。

在动作回归的均方误差上,同样是通用视觉编码器一骑绝尘。DINOv3平均MSE仅为0.19,V-JEPA 2为0.25,而三个Embodied LAM的MSE分别高达0.97、0.87和0.87,这意味着它们预测出的机器人运动数值和真实值相差甚远。通用潜在动作模型(General LAM)居于两者之间,其中LAPA-DINOv3达到了分类平均49.17%、回归MSE 0.60的水平,显著优于原始的Embodied LAM。

这个结果背后有两条重要的规律。其一,从未专门学过"动作"的大规模视觉预训练模型,天然就编码了大量与动作相关的知识。V-JEPA 2之所以表现突出,很大程度上是因为它在学习预测被遮盖的视频片段时,必须理解画面中物体如何运动,这个过程自然地让它获得了对动作的深刻理解。DINOv3的对比学习训练同样如此,学会区分"相似但不同"的视觉场景,本质上也需要理解物体的状态变化。

其二,Embodied LAM表现糟糕的原因是多方面的。训练数据规模相对有限,而且这些模型的训练策略通常对动作类型做了很强的约束——它们被设计成只关注特定机器人平台上的特定类型动作,泛化能力因此受限。此外,LAPA和UniVLA虽然都用了类似的DINOv2视觉骨干,但LAPA-DINOv2(General LAM变体)的分类准确率达到49.36%,而UniVLA只有17.99%,这说明训练数据的多样性和任务约束的宽松程度对最终表现有决定性影响。

另一个关键发现是"潜在特征空间比像素空间更适合表示动作"。具体来说,像DINOv3和V-JEPA 2这样工作在"语义特征层"(把图像压缩成抽象概念的表示)的模型,在动作回归上显著好于工作在"像素层"的Wan2.2和FLUX.2-dev。FLUX.2-dev在短时间步(stride=5,也就是相邻两帧之间间隔很短)时回归误差极低(MSE仅0.04),但当帧间距加大到30帧时,误差急剧飙升至0.62;而DINOv3在这三个时间距离上的误差分别是0.06、0.20、0.25,保持了相对稳定的水平。

这种对比揭示了一个深层规律:像素级模型本质上是在记忆空间位置,当时间跨度加大、动作变化积累更多时,它就跟不上了;而语义级模型理解的是动作的本质,因此对时间跨度的变化有更强的鲁棒性。

四、如何打造一个好的通用潜在动作模型

既然通用视觉编码器表现优秀,而现有的Embodied LAM又存在明显不足,那么"把通用视觉编码器嫁接到潜在动作模型框架里"的General LAM路线,是否有潜力成为未来的方向?研究团队对这个问题做了详细的消融实验,就像一位厨师在调整食谱,逐一改变每个配料的用量,观察最终口味的变化。

整个调整过程以LAPA-DINOv3(代码本大小cs=8,序列长度sl=16,潜在维度dim=32)为起点,逐步优化,最终目标是向V-JEPA 2的表现靠近。

第一步是选对"食材基础"——也就是视觉骨干的类型。实验表明,基于自监督学习的语义编码器(如DINOv3)构建出的LAM,始终优于基于像素重建的MAGVIT2和基于图文对比学习的SigLIP2。原因在于自监督编码器学会的特征天然包含了更精细的时空对应关系,对于理解"这一帧和下一帧之间发生了什么变化"更有帮助。

第二步是调整"代码本大小"(Codebook Size)。可以把代码本理解为一本"动作词汇表",它决定了模型能描述多少种不同的基础动作片段。实验发现,代码本从8扩展到64时,动作回归MSE从0.88降到0.83,效果有所改善;但继续扩大到256时,代码本利用率(也就是词汇表中被实际用到的比例)从100%下降到89.5%,效果改善停滞,说明扩得太大会导致资源浪费。对于语义分类任务,代码本大小为8时反而略好,人类动作准确率71.31%,机器人动作准确率64.89%,是三个选项中最佳的。最终结论是代码本大小64是在分类和回归之间取得较好平衡的选择。

第三步是调整"序列长度"(Sequence Length)。序列长度决定了模型把一段视觉变化表示成多少个动作"词"。当序列长度只有16时,代码本利用率仅为1.6%——这是一个灾难性的状态,意味着几乎整个词汇表都闲置着,模型压根没学会有效利用代码本来描述动作多样性。当序列长度提升到49时,利用率回升到100%,效果显著改善。进一步提升到64时,利用率有所下降(79.7%),但分类准确率和回归精度都有所提升,而且序列长度64在动作回归MSE上达到了0.72,明显优于序列长度49的0.83。

第四步是调整"潜在维度"(Latent Dimension)。潜在维度决定了每个动作"词"有多少个数字来描述,维度越高,理论上能表达的信息量越大。当维度只有32时,代码本利用率仅3.1%,模型几乎陷入崩溃;维度提升到64,利用率恢复到100%;提升到256,效果进一步改善,达到70.15%的人类动作准确率和0.83的回归MSE;继续扩大到512时,利用率又突然跌落到1.6%,出现了不稳定的量化崩溃;扩大到1024时,利用率恢复到84.4%,但仍然不如256的100%稳定。由此得出结论,维度256是容量与稳定性之间的最佳平衡点。

这一系列调整给出了一个清晰的结论:构建有效的通用潜在动作模型,需要两个核心要素——一是要选用真正强大的自监督视觉预训练骨干,二是代码本量化部分要保持充分的稳定性和高利用率。前者决定了模型"看到什么",后者决定了模型"怎么记住"。

五、模型在哪里看懂了、在哪里又看不懂

除了整体性能排名,研究团队还做了几项更细致的分析,试图理解不同模型"为什么能看懂"或"为什么看不懂"。

在动作类别分布上,所有模型在高频类别(样本数量多的动作,如"pick"和"place")上表现都相对较好,而在低频类别(样本稀少的长尾动作,如"float"气球、"shovel"铲雪)上表现下滑。但强模型(V-JEPA 2、DINOv3)与弱模型(LAPA)的差距在低频类别上更为明显——强模型有更好的泛化能力,即使训练样本很少,也能保持相对合理的识别能力。这说明LARY这套评测体系在衡量泛化能力方面是有效且有区分度的。

还有一个有趣的"语义混淆"现象出现在中等频率的动作类别上。这些动作在语义上彼此接近,比如"pour"(倒)和"mix"(混合),或者"scoop"(舀)和"pick"(拾取),视觉上也很容易混淆。研究发现,这类混淆是所有模型共同的弱点,只是强模型犯错的频率更低。

在注意力可视化分析方面,研究团队把每个模型在观看视频时"眼睛看哪里"的热力图展示了出来。结果再次呈现鲜明对比。V-JEPA 2的注意力非常精准,能够同时锁定左右手和被操作的物体(碗)的接触点,就像一个训练有素的观察者知道该看什么细节。DINOv3同样保持了精准的几何感知,关注活跃的末端执行器(机器人手臂末端)。相比之下,生成模型Wan2.2和FLUX.2-dev的注意力非常分散,像是在漫无目的地扫描整个画面,缺乏对关键交互区域的聚焦——这解释了为什么它们的动作理解能力相对有限。

原始Embodied LAM(LAPA)的注意力则几乎是完全随机的,无法锁定任何有意义的特征,只产生一大片模糊的热区。而LAPA-DINOv2尽管经过了严重的空间量化压缩(只有4×4的粗糙网格),仍然能够将注意力集中到被操作的物体上,说明它从DINOv2骨干继承了良好的空间定位能力。UniVLA和villa-X这两个Embodied LAM同样存在注意力弥散的问题,这从根本上解释了它们为何在理解动作时表现不佳——如果模型连"动作发生在哪里"都无法确定,更不用说理解"发生了什么动作"了。

在跨形态分析方面,研究团队还专门考察了模型对人类动作和机器人动作的表现差异。通用语义编码器(DINOv3)展现出了最平衡的跨形态能力,对同一个动作语义(比如"place",放置),在人类版本和机器人版本上的F1分数非常接近(分别为0.79和0.76)。General LAM则明显偏向人类动作,因为它的预训练骨干主要在人类为主的视觉数据上训练。有趣的例外是"grab"(抓取)和"mix"(混合)这两个动作,几乎所有模型在这两个动作上都表现出对机器人版本更好的识别能力,根本原因是数据集中机器人做这两个动作的样本远多于人类做这两个动作的样本,数据不平衡导致了认知偏差。

六、这一切对机器人学习意味着什么

归根结底,LARY这套研究给出了几个对未来机器人学习方向有实质性指导意义的结论。

第一个结论是:不需要专门的"动作监督",大规模视觉预训练就能自然涌现出动作理解能力。这意味着我们不必依赖昂贵的机器人操作数据来训练基础的动作表示,互联网上已有的海量视觉数据就足以让模型学会理解动作的语义。

第二个结论是:语义级别的特征空间比像素级别的特征空间更适合对接机器人控制。这与目前另一个流行的技术路线——先让模型生成视频像素,再从像素推导控制指令——形成了直接的竞争关系。实验结果表明,直接工作在抽象特征层面可能是一条更高效的路径。

第三个结论是:潜在动作范式(把视觉变化映射到一个紧凑的潜在动作空间)比直接使用原始视觉特征有一个独特优势——时间鲁棒性。即使面对更长时间跨度的预测任务,潜在动作模型的表现下降幅度远小于像素级编码器。这说明在需要长时序控制的场景(比如让机器人完成一个需要多步操作的复杂任务),潜在动作范式有其不可替代的价值。

第四个结论是:现有的Embodied LAM受到数据规模和约束条件的双重限制,表现不如预期。未来的改进方向可能不是"更专门化地针对机器人训练",而是"用更通用、更大规模的视觉预训练作为基础,再在此之上做适当的对齐"。这和大语言模型领域"先预训练大模型,再针对具体任务微调"的成功路线高度相似。

对于希望构建能够跨平台、跨场景工作的通用机器人系统的研究者来说,这些结论指向了一个清晰的设计原则:与其从零开始在稀缺的机器人数据上学习动作表示,不如充分利用通用视觉模型已经积累的丰富视觉理解能力,通过合理的架构设计和量化策略,把这些能力转化为机器人能够使用的控制信号。

说到底,这项研究做的事情有些像一次"摸底考试"——用一套精心设计的题目,把不同背景的"翻译官"挨个考一遍,结果发现博览群书的通才反而比专门学过机器人语言的专才考得更好。这并不意味着专才没有价值,而是提示我们:在专才训练之前,先打好通才基础,可能才是更明智的路线。对于希望让机器人真正"看懂"人类世界的研究者来说,这是一个值得认真对待的提醒。有兴趣深入研究的读者可通过arXiv:2604.11689查阅完整论文及附录中的数据集和代码资源。

Q&A

Q1:LARY基准测试和以前的机器人动作评测有什么不同?

A:以前的评测方式主要看机器人最终能不能完成某个任务,或者只是定性地画图看聚类效果,无法精确衡量动作表示本身的质量。LARY基准直接测试"潜在动作表示"这个中间产物的好坏,分为动作分类(能不能识别这是什么动作)和动作回归(能不能还原出精确的运动轨迹)两个维度,相当于把评测焦点从"最终结果"移到了"中间过程",能更精准地找到模型的薄弱环节。

Q2:为什么没有专门学过机器人动作的通用视觉模型反而比专门训练的模型表现更好?

A:通用视觉模型(如V-JEPA 2、DINOv3)在海量互联网视频和图片上训练,数据规模极大且多样,训练过程中自然地学会了理解物体如何运动、状态如何变化。而专门的Embodied LAM训练数据量相对有限,同时被约束在特定机器人平台的特定动作类型上,泛化能力受限。就像一个广泛阅读各类书籍的人往往比只读一类专业书的人更容易理解新概念一样。

Q3:General LAM(通用潜在动作模型)是怎么构建的,和原始LAPA有什么区别?

A:原始LAPA框架的输入是原始图像像素,General LAM把这个输入替换成了预训练视觉编码器(如DINOv2、DINOv3、SigLIP2)提取的语义特征,其余的VQ-VAE量化结构保持不变。训练时预训练编码器的权重被冻结,只学习如何把语义特征差异转化为离散的潜在动作码。这样做的好处是继承了大规模预训练的视觉理解能力,同时保留了潜在动作范式在时序稳定性方面的优势。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-