近日,一支由AgBot、上海交通大学、香港中文大学和哈尔滨工业大学联合组成的研究团队,发表了一篇关于评估具身世界模型的开创性研究论文。这篇题为《EWMBENCH:评估具身世界模型的场景、动作和语义质量》的研究成果已于2025年5月14日在arXiv预印本平台发布(arXiv:2505.09694v1),论文主要作者包括AgBot的Hu Yue(共同第一作者)、上海交通大学的Siyuan Huang(共同第一作者)、香港中文大学的Yue Liao以及其他多位联合作者,并由AgBot的Liliang Chen担任项目负责人。有兴趣深入了解的读者可以通过该团队的GitHub仓库(https://github.com/AgibotTech/EWMBench)获取完整的数据集和评估工具。
近年来,人工智能领域在创意生成方面取得了显著进步。基于语言指令的高质量图片和视频生成技术已经开始成熟,而在此基础上,文本到视频的扩散模型(text-to-video diffusion models)也逐渐演变成了所谓的"具身世界模型"(Embodied World Models,简称EWMs)。这些模型能够根据语言指令生成物理上合理的场景,有效地在具身AI应用(如机器人操作)中连接视觉与动作。
想象一下,当你告诉你的机器人助手"请帮我拿一下桌上的杯子"时,机器人需要先在"脑海"中规划整个动作过程:从识别杯子的位置,到计算如何移动机械臂,再到实际执行抓取动作。这个"在脑海中规划"的过程,在AI领域就是由具身世界模型来完成的。然而,目前我们缺乏一个专门的评估框架来判断一个视频生成模型是否真正适合作为具身世界模型使用。
与普通视频生成不同,具身视频生成面临着特殊的挑战。就像你看到的普通视频可能包含城市风光、旅游景点或动物特写等多样内容,而具身视频则通常聚焦于特定环境中的结构化场景(如厨房、工厂)、一致的运动模式(如机械臂动作)以及明确的任务逻辑(如抓取物体、操作工具)。这种差异使得评估具身世界模型的标准与普通视频生成有所不同。
研究团队提出的EWMBENCH评估框架主要关注三个核心方面:视觉场景一致性、运动正确性和语义对齐。想象你在看一个机器人手臂抓取物品的视频:场景一致性意味着背景、物体摆放和机器人结构在整个过程中保持不变;运动正确性则要求机器人的动作轨迹连贯且符合物理规律;语义对齐则确保生成的动作与给定的语言指令相符。
为了全面测试现有模型的性能,研究团队基于AgbotWorld(目前最大的真实世界机器人操作数据集)精心构建了一个评估数据集。他们选择了10个具有明确顺序约束的任务,每个任务包含多个样本,涵盖了从家庭到工业环境的多种场景。这些任务要求模型理解逻辑依赖关系和物体功能属性,为具身视频生成提出了显著挑战。
具体的评估过程是这样的:首先提供场景的初始图像(比如厨房环境中的机器人和周围物品)和任务指令(如"将烤面包放在盘子上"),然后要求候选模型自动生成展示机器人完成任务的视频帧序列。生成的视频随后通过场景、动作和语义三个维度的多项指标进行评估。
研究团队评估了七种视频生成模型,包括开源模型(如OpenSora 2.0、LTX和COSMOS-7B)、商业模型(如Kling-1.6和Hailuo I2V-01-live)以及专门针对具身场景理解和动作预测进行微调的模型(如LTX_FT和EnerVerse)。评估结果显示,经过领域适应的模型(EnerVerse和LTX_FT)在捕捉动作动态和任务语义方面表现最佳,而商业模型(如Kling)和开源模型则各有优缺点。
让我们更深入地了解EWMBENCH的设计和评估结果。
一、EWMBENCH评估框架设计
想象你在测试一个厨师的烹饪技能。你会从多个方面进行评价:厨师是否能保持工作台整洁有序(场景一致性)?他的刀工和烹饪动作是否熟练流畅(动作正确性)?最终的菜肴是否符合食谱要求(语义对齐)?EWMBENCH评估框架就像这样,从多个维度全面评估具身世界模型的能力。
该框架始于统一的世界初始化,研究人员提供初始场景图像、任务指令以及可选的动作轨迹。生成模型需要根据这些输入生成预测视频帧,而后通过多维度指标进行评估。整个过程可以分为三个核心组件:
首先是统一的世界初始化。就像给不同厨师提供相同的烹饪环境和食材,研究团队为所有测试模型提供相同的初始条件。每个初始场景包含最多四张初始图像,以及明确的任务指令。对于支持动作条件的模型,还可以提供格式化为6D姿态序列的动作轨迹。所有模型都需要基于这些统一输入生成预测视频。
其次是精心构建的评估数据集。研究团队从开源的Agibot-World数据集中精选了10个具有明确操作目标和顺序依赖性的任务,涵盖了家庭和工业环境。这些任务包括从烤面包机取出面包、倒水、放置餐具、补充冰箱、制冰、包装洗衣剂、清洗瓶子、微波加热食物、安装淋浴头以及在抽屉中存放物品。
这些任务涉及不同类型的物体操作(如刚性物体、可变形物体、铰接物体等)、多样的空间布局和不同复杂度的交互。研究团队将每个高级任务分解为4到10个原子级子动作,每个子动作都配有步骤级别的描述,确保视频片段、子动作标签和语言描述之间的一对一对应。
最后是系统化的评估指标,分为三个维度:
在场景评估方面,研究团队引入了场景一致性度量,用于检查视觉布局、物体持久性和视角一致性。他们使用在具身数据集上微调的DINOv2模型提取帧级表示,然后计算连续帧和初始帧之间的余弦相似度,以量化帧与帧之间的一致性。高分表示视频中的场景结构和视角保持稳定。
在动作评估方面,通过轨迹比较评估生成的动作质量。研究人员使用对称Hausdorff距离(HSD)测量空间对齐程度,计算生成轨迹和真实轨迹之间的最大偏差。标准化动态时间扭曲(NDTW)用于捕捉空间-时间对齐,确保动作序列和时机的正确性。动态一致性(DYN)则评估运动动态,如速度和加速度,使用Wasserstein距离和动作归一化来比较。
在语义评估方面,研究重点放在指令与生成视频的对齐以及任务空间内的多样性上。对于语义对齐,研究团队使用生成视频的语言描述作为中间表示,将其与真实注释进行比较,计算对齐分数。对于语义多样性,他们使用CLIP模型提取全局视频特征,并将多样性分数定义为1减去相似度。
二、多模态大语言模型评估套件设计
想象你请一位专家观看视频并提供专业评价,EWMBENCH中的多模态大语言模型(MLLM)评估套件就扮演了这样的角色。这套评估工具设计得既紧凑又具代表性,从多个语言分析层次评估生成的视频质量。
在全局视频描述层面,视频MLLM会生成一个简洁的描述,总结整个视频内容。就像电影简介一样,这个描述捕捉了视频的核心主题和内容。研究团队将这个描述与原始任务指令进行比较,使用BLEU分数评估总体对齐程度,检验模型是否理解并执行了正确的任务。
机器人任务通常涉及多个关键步骤,而这些细节可能在全局描述中被忽略。因此,评估套件还会生成任务关键步骤的详细描述。想象一下烹饪食谱中的步骤说明,这个描述列出了完成任务所需的每个具体动作。研究人员使用CLIP分数将这些描述与通过MLLM生成的真实步骤描述进行比较,确保模型正确理解任务的组成部分和执行顺序。
逻辑错误惩罚是评估的第三个方面。在机器人应用中,幻觉或空间不一致等逻辑错误可能导致不安全的结果。就像裁判员惩罚比赛中的犯规一样,MLLM会评估生成视频中的常识违背情况,明确惩罚如物体幻觉操作或不合逻辑的空间关系等错误。这确保了模型优先考虑现实和连贯的任务执行。
实验中,研究团队测试了10个任务,每个任务包含10个真实样本。每个模型为每个样本生成3个视频,使用"最佳三选一"策略选择最佳预测,共产生2,100个评估视频。
三、EWMBENCH评估结果分析
研究团队评估的七种视频生成模型可分为三类:开源模型(OpenSora 2.0、LTX和COSMOS-7B)、商业模型(Kling-1.6和Hailuo I2V-01-live)以及领域适应模型(LTX_FT和EnerVerse)。
评估结果显示,领域适应模型(EnerVerse和LTX_FT)在总体性能上显著领先,特别是在捕捉动作动态和任务语义方面。这表明针对具身场景的专门微调能显著提升模型在理解任务逻辑和对齐动作方面的能力。
具体来看,在满分为5分的综合评分中,EnerVerse_FT得分最高,达到4.70分,其次是LTX_FT(4.55分)和Kling(3.87分)。其他模型的得分依次为COSMOS(3.41分)、Hailuo(3.29分)、LTX(3.14分)和OpenSora(2.97分)。
为了验证自动评估与人类判断的一致性,研究团队还进行了人工评估。他们选择了四个代表性模型(LTX_FT、Kling-1.6、Hailuo I2V-01-live和OpenSora-2.0)生成的视频进行评估。评估者根据整体质量对预测进行排名,给最佳的分配3分,第二好的2分,最差的0分。结果表明,EWMBENCH的排名比VBench(一个流行的视频生成评估基准)更接近人类判断,显示出更强的与人类感知的一致性。
研究团队还分析了轨迹一致性指标的互补性。通过涉及序列反转、异常值插入和帧重复的对照实验,他们发现每个指标都有其独特的优势。在序列反转测试中,只有NDTW指标显示出显著下降,这归因于其对时间顺序的敏感性。在异常值测试中,HSD和DYN指标经历了实质性下降,反映了它们对空间准确性和运动完整性的关注。在帧重复测试中,NDTW指标因重复对齐而增加,而DYN指标则下降,凸显了其对运动平滑度的敏感性。这些发现证实了三个指标在提供全面的轨迹质量评估方面的互补作用。
除了定量结果,研究团队还提供了对各模型特点的洞察。领域适应模型虽然总体表现最佳,但有时会表现出空抓取行为,揭示了细粒度动作接地的局限性。Kling在一般商业和开源视频模型中表现最佳,展示了强大而稳健的能力。Hailuo在零样本具身场景中表现相当不错,但其生成的场景通常呈现卡通风格,限制了视觉真实感。COSMOS和LTX表现出对人手表示的偏好,经常无法将语义理解适应机器人环境。LTX尤其容易出现场景转换突兀、任务执行不一致以及在动作序列中生成静态状态的倾向。相比之下,COSMOS则难以维持一致的视角,显示出对相机参数控制不足。OpenSora对任务场景、动作运动和语义对齐展示了部分理解,但机器人手臂的抖动动作和静态视频生成是其主要限制。
与VBench指标的比较显示,VBench在分离前景和背景特征方面存在困难,限制了其主体级指标的有效性。相比之下,EWMBENCH的场景一致性指标利用在具身数据上微调的DINOv2模型,更擅长捕捉布局结构并对视角变化更敏感。这种增强的敏感性能够检测视觉不稳定性,这在具身视频生成中是一个关键因素。
四、研究局限与未来展望
尽管EWMBENCH在评估具身世界模型方面取得了重要进展,但该研究也存在一些局限性。
首先,目前的方法主要关注机器人手臂末端执行器的轨迹,但未来的工作将纳入整个手臂的状态和配置。这就像我们不仅要评价舞者的手部动作,还要考虑整个身体的协调性。
其次,当前的评估在固定视角场景中进行,未来的研究将探索灵活视角,如动态相机设置。这类似于不仅从一个固定角度观察表演,还要从多角度全方位评估动作质量。
最后,研究团队计划扩展具身任务的范围,从当前的操作任务拓展到更多样化的领域,包括导航和移动操作。这意味着评估框架将不仅适用于静态环境中的机械臂操作,还将评估机器人在空间中移动和执行复杂任务的能力。
总体而言,EWMBENCH提供了一个全面的基准套件,用于评估具身世界生成模型。凭借其多维度、与人类一致的指标设计和多场景、动作多样化的数据集,EWMBENCH成为测量具身世界模型发展进程的有力工具。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。