这项由AgiBot公司联合新加坡国立大学视觉学习实验室、北京航空航天大学共同完成的突破性研究于2025年8月发表在预印本平台arXiv上。论文的第一作者包括廖跃、周鹏飞、黄思远等多位研究员,通讯作者为严首成教授和任光辉教授。有兴趣深入了解的读者可以通过https://genie-envisioner.github.io访问完整论文和相关资源。
说起机器人,你可能会想到科幻电影里那些能够完成各种复杂任务的智能伙伴。但现实中的机器人往往只能执行预设的简单动作,就像一个只会按照固定食谱做菜的厨师,无法应对突发情况或者学习新的技能。这个问题的核心在于,传统机器人系统就像是由许多独立部门组成的公司——视觉部门负责"看",规划部门负责"想",执行部门负责"做",但这些部门之间缺乏有效的沟通和协调。
AgiBot团队提出的Genie Envisioner(简称GE)就像是为机器人配备了一个统一的"大脑",能够将看、想、做三个过程完美融合。这个系统最神奇的地方在于,它能够像人类一样,通过观察和想象来预测行动的结果,然后做出最佳决策。
研究团队训练这个系统时使用了一个名为AgiBot-World-Beta的超大规模数据集,包含了大约100万个真实机器人操作的视频片段,总时长达到近3000小时。这就好比让一个新手厨师观看了100万个烹饪视频,从中学会了各种料理技巧和应对方法。
Genie Envisioner的核心创新在于将机器人控制问题转化为了一个视频生成问题。传统的机器人系统需要复杂的物理建模和精确的数学计算,就像建造房子时需要详细的建筑图纸和复杂的结构计算。而GE则采用了一种全新的思路——通过学习大量的操作视频,让机器人能够"想象"出执行某个任务时会发生什么,然后基于这种想象来制定行动计划。
这种方法的巧妙之处在于,它避开了传统方法中最困难的物理建模问题。就像一个经验丰富的司机不需要计算复杂的物理方程就能准确判断如何转弯和刹车一样,GE让机器人能够基于"经验"和"直觉"来执行任务。
一、世界基础模型:机器人的视觉想象力
GE-Base是整个系统的核心,可以把它想象成机器人的"视觉想象中心"。就像人类在执行某个动作之前会在脑海中预演一遍一样,GE-Base能够根据当前看到的情况和接收到的指令,生成一段显示机器人应该如何行动的视频。
这个过程的精妙之处在于它的多视角设计。传统的机器人系统往往只能从一个角度观察环境,就像只用一只眼睛看世界一样,缺乏立体感和全面性。而GE-Base同时处理来自三个摄像头的视频信息——一个装在机器人"头部"的摄像头提供全局视野,两个装在机器臂上的摄像头则专注于精细操作的细节。
更令人惊叹的是它的"记忆机制"。GE-Base不仅关注当前的画面,还会记住之前发生的关键场景。这就像一个有经验的厨师在做菜时不仅看当前锅里的情况,还会记得之前每个步骤的状态,从而做出更好的判断。
训练GE-Base的过程分为两个阶段。第一阶段被称为"多分辨率时间适应",研究团队让系统观看以3Hz到30Hz不同速度拍摄的机器人操作视频。这就像让一个学习者同时观看慢镜头和正常速度的教学视频,既能看清楚精细动作的细节,又能理解整体的节奏和流程。
第二阶段则是"低频率策略对齐",专门针对实际控制需要进行优化。这个阶段的训练让系统学会了在较低的帧率下仍然能够准确理解和预测机器人的行为,就像一个熟练的动画师能够用较少的关键帧就创造出流畅的动画效果。
GE-Base在生成视频时采用了一种巧妙的"分块生成"策略。它不会一次性生成整段视频,而是像连载小说一样,一章一章地生成。每一"章"包含几帧视频,每生成一章后,系统会根据新的情况调整后续的生成计划。这种方法既保证了生成质量,又提高了系统的灵活性。
这种视频生成能力的实际效果令人印象深刻。当你给GE-Base一个指令,比如"拿起桌上的牛奶",它能够生成一段完整的视频,展示机器人应该如何从当前位置出发,精确地抓取牛奶,并将其移动到指定位置。更重要的是,这段生成的视频在空间一致性、时间连贯性和语义准确性方面都表现出色。
二、世界行动模型:从想象到现实的桥梁
如果说GE-Base是机器人的"想象中心",那么GE-Act就是连接想象与现实的"执行翻译器"。它的任务是将GE-Base生成的视觉预测转化为机器人能够实际执行的精确控制指令。
GE-Act的设计理念就像是在原有的视觉系统旁边添加了一个专门的"行动规划部门"。这个部门与视觉系统并行工作,共享相同的"办公楼层"(DiT架构),但专注于不同的任务。视觉系统负责理解和预测画面,而行动系统则专注于制定具体的执行方案。
这种并行设计的巧妙之处在于两个系统之间的信息交流。行动系统会定期向视觉系统"咨询"当前的环境理解,而视觉系统则为行动系统提供丰富的上下文信息。这种协作模式确保了生成的行动计划既符合物理规律,又与当前的环境状况高度匹配。
GE-Act的训练过程采用了一种渐进式的策略。首先是"行动预训练"阶段,系统学习如何将视觉特征转化为基本的控制信号。这就像教会一个新手司机基本的驾驶技能——如何转方向盘、如何踩刹车、如何判断距离。
接下来是"任务特定适应"阶段,包括视频适应和行动专化两个步骤。视频适应阶段让系统学会针对特定任务调整其视觉理解能力,而行动专化阶段则进一步优化控制策略的精确度。这个过程就像一个通用司机学习驾驶特定类型的车辆——先熟悉车辆的视觉特征,然后掌握其独特的操控特性。
GE-Act的一个突出特点是其"异步推理"能力。在实际应用中,视觉处理和动作控制有着不同的时间要求。视觉理解可以相对较慢但要求准确,而动作控制则需要快速响应。GE-Act巧妙地利用了这种差异,让视觉系统以5Hz的频率更新环境理解,而动作系统则以30Hz的频率生成控制指令。
这种设计就像一个经验丰富的乒乓球选手,不需要时刻重新分析对手的整体战术,而是在理解大致策略的基础上,快速调整每一拍的具体动作。这种方法大大提高了系统的实时性能,使得整个54步的控制序列能够在200毫秒内完成计算,满足了实时控制的严格要求。
在实际应用中,GE-Act展现出了令人印象深刻的能力。它不仅能够完成基本的抓取和放置任务,还能处理复杂的多步骤操作,如制作三明治、清理桌面、使用微波炉等。更令人惊叹的是,它还能处理需要记忆的任务。比如在包装任务中,机器人需要根据不同颜色的糖果选择相应的印章,即使糖果被放入盒子后不再可见,系统仍然能够记住之前的观察结果并做出正确的选择。
三、跨平台适应:一套系统适配多种机器人
Genie Envisioner最让人兴奋的特性之一是其出色的跨平台适应能力。就像一个多语言的翻译软件可以在不同的语言之间自由转换一样,GE系统能够快速适应不同类型的机器人平台。
研究团队专门测试了系统在Agilex Cobot Magic和双臂Franka机器人上的表现。这些平台与原始训练平台AgiBot G1在机械结构、控制接口和传感器配置方面都存在显著差异。这就像让一个习惯驾驶轿车的司机去开卡车或摩托车,需要适应完全不同的操控方式。
适应过程采用了一种"两阶段微调"策略。第一阶段专注于视觉适应,让系统学会理解新平台的视觉特征。这包括不同的摄像头位置、视角变化以及机器人外观的差异。这个过程就像一个摄影师在不同的拍摄环境中调整相机设置和构图方式。
第二阶段则是动作适应,针对新平台的控制特性重新训练动作生成模块。不同的机器人有着不同的自由度、运动范围和精度特性,需要相应调整控制策略。令人惊讶的是,这种适应只需要约250个演示样本,相当于仅仅一小时的遥操作数据。
在Agilex Cobot Magic平台上的实验特别引人注目,因为这个平台面临的是极具挑战性的可变形物体操作任务——折叠衣服和组装纸盒。这类任务对传统机器人系统来说是极其困难的,因为可变形物体的状态变化难以预测和建模。
然而,GE系统通过其视觉理解能力,能够实时观察物体的变形过程,并相应调整操作策略。在折叠衣服的任务中,系统需要准确判断布料的褶皱状态,掌握合适的抓取点,并执行复杂的折叠动作序列。在组装纸盒任务中,系统需要理解纸盒的折叠机制,施加适当的力度,并保持各个部分的正确对齐。
实验结果显示,GE-Act在这些复杂任务上的表现明显优于现有的先进方法。在与GR00T N1、π0、UniVLA等知名系统的对比中,GE-Act在折叠任务上取得了显著的成功率优势。特别值得注意的是,一些传统方法在面对这类复杂任务时几乎完全失败,而GE-Act仍能保持相当高的成功率。
在双臂Franka平台上的实验进一步验证了系统的适应性。尽管数据收集条件相对简化,使用的是空间鼠标控制系统而非专业的遥操作设备,GE-Act仍然成功适应了新平台并完成了折叠任务。这种灵活性表明该系统具备了真正的泛化能力,能够应对实际部署中可能遇到的各种硬件约束和环境变化。
四、神经模拟器:虚拟世界中的现实演练
GE-Sim代表了机器人仿真领域的一次重要突破。传统的机器人仿真器需要精确建模物理定律、材料属性和环境约束,就像建造一个完整的虚拟物理实验室。而GE-Sim采用了一种全新的思路——通过学习真实世界的视觉规律来创建仿真环境。
这种方法的核心思想是将仿真问题转化为一个条件视频生成问题。给定机器人的当前状态和预定的动作序列,GE-Sim能够生成展示执行结果的视频。这就像一个经验丰富的象棋大师能够在心中"看到"几步棋后的棋盘局面一样。
GE-Sim的技术架构建立在GE-Base的基础上,但增加了专门的动作条件处理机制。这个机制包含两个关键组件:姿态到图像的条件处理和运动向量条件处理。
姿态到图像的条件处理系统能够将机器人的关节角度和末端执行器位置转换为视觉信息。这个过程就像在视频中叠加一个透明的轨迹线,显示机器人应该移动的路径。系统使用标定的相机参数将三维空间中的位置投影到二维图像平面上,并用不同的颜色和符号表示左右臂的目标位置和姿态方向。
运动向量条件处理则专注于捕捉动作的时间特性。它计算连续时间步之间的位置和姿态变化,形成"运动增量"信息。这种信息帮助系统理解动作的速度、方向和连续性,确保生成的视频在时间维度上保持自然流畅。
训练GE-Sim时,研究团队特别注意包含了各种"失败案例"。这些包括执行错误的动作、不完整的任务执行、以及次优的控制轨迹。这种训练策略就像让一个飞行模拟器不仅包含正常飞行场景,也包含各种紧急情况和异常状况。这样的训练让GE-Sim能够更真实地反映机器人操作的复杂性和不确定性。
在实际应用中,GE-Sim表现出了令人印象深刻的精确度。当给定一个真实的控制轨迹时,生成的视频能够准确反映机器人末端执行器的运动路径。研究团队通过将预测的末端执行器位置与实际轨迹进行对比,发现两者之间的一致性非常高。
GE-Sim的一个重要应用是支持闭环策略评估。在这种模式下,一个策略模型可以在GE-Sim创建的虚拟环境中执行多个回合的任务,就像在一个逼真的训练场中反复练习。每次执行后,系统都会根据生成的视频评估任务完成情况,并为策略模型提供反馈。
这种仿真方式相比传统的物理仿真器具有多个优势。首先是成本效益,不需要昂贵的硬件和复杂的环境设置。其次是扩展性,可以轻松支持大规模并行仿真,在分布式计算集群上同时运行数千个仿真实例。最重要的是真实性,因为GE-Sim是基于真实世界数据训练的,它生成的场景更贴近实际部署环境。
五、综合评估基准:机器人智能的全面体检
EWMBench(具身世界模型基准)的开发反映了研究团队对评估标准化的深刻理解。传统的视频生成评估主要关注视觉质量和人类偏好,但机器人操作视频有着更严格的约束条件。这就像评估一个外科手术视频不能仅仅看画面是否清晰美观,更要看手术步骤是否准确、操作是否规范。
EWMBench的设计理念是建立一个多维度的评估体系。场景一致性维度评估生成视频是否保持了环境布局、物体位置和视角的稳定性。这就像检查一部电影中的场景连续性,确保前后镜头之间没有穿帮错误。
具体来说,场景一致性通过精调的DINOv2视觉编码器来测量。这个编码器专门针对机器人操作场景进行了优化,能够准确识别场景中的关键元素。系统会提取视频帧之间对应区域的特征,计算它们的相似度,从而量化场景的稳定性。
动作轨迹质量评估则更加复杂和精细。这个维度包含空间对齐、时间对齐和动态一致性三个子指标。空间对齐使用对称Hausdorff距离来测量预测轨迹与真实轨迹之间的几何差异,就像比较两条路线图之间的偏差程度。
时间对齐采用归一化动态时间规整技术,这种方法能够处理速度变化带来的时序差异。即使机器人在某些阶段执行得较快或较慢,只要整体的动作序列是正确的,就能得到合理的评分。这就像评价一个音乐演奏,即使节奏有细微变化,只要旋律和结构正确就是好的表演。
动态一致性评估则关注运动的自然性。系统会分析速度和加速度的分布特征,与真实数据进行对比。如果生成的动作轨迹出现突然的速度跳跃或不自然的加减速,就会被相应扣分。
运动语义评估采用了多层次的方法。全局层面的评估使用视觉语言模型生成视频摘要,然后与原始任务指令进行BLEU相似度比较。这就像让一个观察者看完视频后描述发生了什么,然后检查这个描述是否与预期的任务一致。
关键步骤一致性评估更加细致,它会将生成的视频和真实视频都分解为若干个关键步骤,然后比较对应步骤之间的相似性。这种评估方法能够识别出任务执行过程中的具体问题,比如某个中间步骤被遗漏或执行错误。
逻辑正确性评估则专注于识别各种常见错误。研究团队首先使用GPT模型定义了机器人操作中常见的逻辑错误类型,包括物体凭空消失、违反物理定律的动作、以及不符合常识的行为等。然后使用专门训练的视觉语言模型来检测这些错误的出现。
在与其他先进视频生成模型的对比评估中,GE-Base展现出了明显的优势。特别是在时间对齐和动态一致性方面,GE-Base的表现显著优于通用视频生成模型如Kling、Hailuo、OpenSora等。这种优势主要来源于GE-Base专门针对机器人操作场景的训练和优化。
EWMBench还包含了一个重要的人类偏好一致性验证。研究团队收集了人类评估者对不同模型生成视频的排序偏好,并与自动评估指标的结果进行对比。结果显示,EWMBench的评估结果与人类判断高度一致,而传统的通用视频评估基准VBench则存在明显的偏差。
六、实际应用效果:从实验室到现实世界
Genie Envisioner在实际应用中的表现证明了其技术路线的正确性和实用价值。在原始训练平台AgiBot G1上的测试涵盖了五个具有代表性的日常任务场景,每个任务都对机器人的不同能力提出了独特挑战。
制作三明治任务要求机器人具备精确的物体操作能力和正确的步骤序列理解。机器人需要准确抓取面包、培根、生菜等不同质地和形状的食材,并按照正确的顺序进行组装。这个任务特别考验系统对物体属性的理解和多步骤协调能力。
倒茶任务则主要测试精细运动控制和液体操作技能。机器人需要准确控制茶壶的倾斜角度和速度,避免溢出或倒空。这种任务对传统机器人系统来说极具挑战性,因为液体的动态特性难以精确建模。
清洁桌面任务考验机器人的路径规划和力度控制能力。机器人需要抓取抹布或海绵,在桌面上执行覆盖性的擦拭动作,同时施加适当的压力清除污渍。这个任务要求系统能够生成平滑、覆盖完整的运动轨迹。
微波炉加热食物任务涉及复杂的人机交互和设备操作。机器人需要打开微波炉门、放入食物、关闭门、设置时间并启动设备。这个任务测试了系统对机械装置操作的理解和多步骤任务的执行能力。
传送带包装任务代表了工业应用场景,要求机器人能够识别和追踪移动的目标物体。机器人需要在传送带运行过程中准确抓取洗衣液袋,并将其放入包装盒中。这种动态环境下的操作对视觉追踪和运动协调提出了很高要求。
在与先进基准系统的对比中,GE-Act在所有任务上都表现出了明显优势。相比UniVLA和GR00T N1这样的大规模视觉语言动作模型,GE-Act在步骤级成功率和端到端成功率两个指标上都有显著提升。这种提升主要归功于GE-Base提供的强大时空先验知识和精确的视觉语言对齐能力。
特别值得注意的是GE-Act的"快速模式"表现。这种模式利用了视觉处理和动作控制之间的时间不对称性,在保持准确性的同时大幅提升了响应速度。在需要快速反应的动态任务中,如传送带包装,快速模式的优势尤为明显。
最令人印象深刻的是系统处理长序列记忆任务的能力。在复杂的包装场景中,机器人需要根据糖果颜色选择对应的印章,而糖果一旦被放入盒子就不再可见。GE-Act能够在任务执行过程中维持对之前观察结果的记忆,并在需要时正确调用这些信息。这种记忆能力对于复杂的现实世界任务至关重要。
系统的泛化能力在跨平台测试中得到了充分验证。仅用一小时的适应数据,GE-Act就能在全新的机器人平台上达到令人满意的性能水平。这种快速适应能力大大降低了系统部署的成本和复杂度,为实际应用奠定了基础。
在处理可变形物体的任务中,GE-Act展现出了传统方法难以企及的能力。无论是折叠衣物还是组装纸盒,系统都能够实时适应物体的形变,调整抓取点和操作策略。这种能力的获得主要依赖于GE-Base强大的视觉理解能力,它能够准确识别和预测可变形物体的状态变化。
说到底,Genie Envisioner代表了机器人技术发展的一个重要里程碑。它成功地将视频生成、语言理解、动作控制和环境仿真统一到了一个框架中,创造了一种全新的机器人智能实现方式。这个系统不仅在技术上实现了突破,更重要的是它展示了一条通向通用机器人智能的可行路径。
传统的机器人系统往往需要针对特定任务进行专门设计和调优,就像为每道菜都配备专用厨具的厨房。而Genie Envisioner更像是一个技艺高超的多面手厨师,能够凭借深厚的经验和灵活的思维应对各种烹饪挑战。这种通用性和适应性对于机器人技术的产业化应用具有重要意义。
当然,这项研究也还存在一些局限性。目前的系统主要专注于桌面操作任务,使用的是平行爪夹持器。更复杂的全身运动、灵巧手操作以及移动操作等能力还有待进一步开发。此外,评估方法虽然相比传统标准有了很大改进,但仍然依赖于代理指标和部分人工验证。
不过,这些局限性并不能掩盖Genie Envisioner的重要价值。它为机器人智能研究开辟了一个新的方向,证明了基于大规模数据和生成模型的技术路线的可行性。随着数据规模的进一步扩大、算法的持续优化以及硬件性能的提升,我们有理由期待这种技术能够在不远的将来真正走入千家万户,成为人们日常生活的智能助手。
这项研究的意义不仅在于技术本身,更在于它所代表的思路转变——从精确建模到经验学习,从特定任务到通用能力,从独立系统到统一平台。这种转变可能会深刻影响整个机器人产业的发展方向,推动智能机器人技术向更高水平迈进。对于关注人工智能发展的读者来说,Genie Envisioner无疑是一个值得持续关注的重要进展。
Q&A
Q1:Genie Envisioner是什么?它与传统机器人有什么不同?
A:Genie Envisioner是由AgiBot团队开发的机器人操作统一平台,最大的不同在于它能让机器人像人类一样先"想象"再行动。传统机器人需要复杂的物理建模和数学计算,而GE通过学习大量操作视频,让机器人能够预测行动结果并制定最佳策略,就像经验丰富的厨师凭直觉做菜一样。
Q2:这个系统需要多少数据才能训练出来?普通人能使用吗?
A:研究团队使用了包含约100万个机器人操作视频片段的AgiBot-World-Beta数据集,总时长近3000小时。目前这还是一个科研项目,普通消费者暂时无法直接使用。不过研究团队承诺会开源所有代码和模型,这意味着未来可能会有更多公司基于这项技术开发实用产品。
Q3:Genie Envisioner能够适应不同类型的机器人吗?
A:是的,这是它的一大优势。系统能够快速适应不同平台,比如从AgiBot G1转换到Agilex Cobot Magic或双臂Franka机器人,只需要约一小时的适应数据。这种跨平台能力大大降低了系统部署成本,让同一套"大脑"可以控制不同"身体"的机器人。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。