这项由中国电信人工智能研究院(TeleAI)联合复旦大学、华东理工大学与上海交通大学共同开展的研究,于2026年6月以预印本形式发布,编号为arXiv:2606.08548,有兴趣深入了解的读者可以通过该编号查询完整论文。研究的核心成果被命名为OASIS,它试图解决一个机器人领域长期悬而未决的难题:如何让人形机器人学会在真实世界里又走又拿东西,而且还要学得又快又好?
要理解这个问题的分量,不妨先想象一下这样的场景。你正在教一个从未见过厨房的人学做饭,每次他一失手打碎了盘子,你都得亲自跑进厨房收拾残局、重新摆好食材,然后才能继续下一次示范。如果他不小心把炉火点得太猛,烧坏了锅具,你还得另外花钱买新的。更别提每次示范完毕,都要把所有东西精确复位到起始位置,才能继续录制下一段教学视频。这种教学方式不仅费时费力,还极其容易因为意外损失而受阻。
这恰恰是目前主流的人形机器人训练方式——真实机器人远程操控数据采集——所面临的窘境。操作人员通过特殊设备远程操控一台真实的机器人完成任务,系统记录下整个过程作为训练数据。每当机器人失败、摔倒或者把东西弄乱,工作人员就必须亲自走进场地,把机器人扶起来,把道具重新摆好,再从头开始。研究团队甚至在实验过程中因为机器人接触力度控制不当,真实地损坏了一台显示器。
OASIS提出的解决方案,就像是给这位学厨师的学员配备了一个无限重置的虚拟厨房——在里面怎么砸锅都没关系,按一个键就能恢复原状,而且这个虚拟厨房还会在拍摄教学视频时,自动变换出各种不同的灯光环境和背景装饰,让最终拍出来的教学内容涵盖尽可能多的真实情况。
一、为什么要把训练搬进虚拟世界
人形机器人的训练,本质上是一个"喂数据"的过程。机器人需要看大量的示范动作——机器人该怎么走过去、怎么伸手、怎么抓住物体、怎么放下——然后从中学习规律,最终在真实场景中自主执行。数据越多、越多样,机器人学到的能力就越扎实、越能应对各种突发状况。
麻烦就在于,人形机器人同时需要调动双腿走路和双手操作,这种"边走边干活"的能力在机器人领域被称为"运动操控"(loco-manipulation)。示范这样的任务,需要操作人员在真实空间里驱动真实的机器人完成完整的动作序列,复杂程度远超普通的桌面机械臂抓取任务。一旦任务步骤变长,失败的概率就越高,每次失败后的重置成本也越高。研究团队的测量数据清楚地显示了这一点:在最简单的"把杯子放进盒子"任务中,真实机器人采集50条成功轨迹需要17.5分钟,而在最复杂的"跪下擦桌底"任务中,这个数字膨胀到了44.8分钟。
更深层的问题是视觉多样性的缺失。真实环境下的数据采集往往在固定的房间里进行,灯光条件、背景颜色、摄像头角度都相对固定。这就像是一位厨师只在自家厨房练过手艺,一旦换到灯光昏暗的餐厅后厨或者阳光充足的户外野炊,就可能变得手忙脚乱。机器人面临同样的困境:训练时看到的是一种环境,部署时遇到的是另一种环境,这种"视觉落差"会严重削弱实际表现。
OASIS的思路是:把整个示范数据的采集过程完整地搬进仿真器里,但要让仿真器里的物体尽可能真实,让视觉训练数据尽可能多样。
二、虚拟厨房里的食材从哪里来——真实物体的数字复刻
把训练搬进虚拟世界,首先要解决的是食材问题:仿真场景里需要有跟真实物体高度相似的数字孪生体,否则机器人在虚拟厨房里练习的,可能是一种跟真实物体完全不同的奇怪形状,到了真实世界就全部失效。
OASIS为此设计了一套自动化的"物体数字化"流程。给定一张真实物体的照片,系统首先调用腾讯混元3D(Hunyuan3D)这个大规模3D生成模型,自动合成一个带有纹理贴图的三维网格模型。这个过程有点像是扫描仪——你拍一张杯子的照片,系统吐出一个3D杯子模型。
然而,刚生成出来的3D模型只有形状和外观,却没有任何物理属性:它不知道自己有多重,不知道自己摸起来是光滑还是粗糙,也不知道碰到地面会弹多高。为了给这个数字物体赋予真实的物理特性,研究团队引入了Qwen3-VL(一个具有强视觉推理能力的大语言模型)来扮演"物理估算师"的角色。
Qwen3-VL拿到参考图片和物体类别描述后,会通过一套设计好的提示模板输出物体的实际尺寸(长、宽、高)以及材质类别(比如"聚丙烯塑料"或"柳编材料")。研究团队随后把这些信息转化为具体的物理参数:尺寸数据用来把归一化的3D网格缩放到真实大小,材质类别则对应一张预定义的物理属性表格,从中查找相应的密度、摩擦系数和弹性恢复系数,再据此计算出物体的质量和转动惯量。
为了验证这套估算流程的可靠性,研究团队用游标卡尺实际测量了5个真实物体的尺寸,然后与Qwen3-VL的预测值进行对比。结果显示,显示器的平均误差仅1.0厘米,杯子的误差只有0.3厘米,篮子的误差最大也只有3.0厘米——这样的精度对于物理仿真来说完全够用。
值得关注的是,研究团队还在数据采集阶段对这些物理参数进行随机扰动,以应对估算误差。这就像是在练习时故意换用不同重量的杯子,让机器人学会在一定范围内应对物体参数的不确定性,而不是死记硬背只针对某一个特定重量的杯子。
三、在虚拟厨房里示范动作——仿真遥操作的实现
有了虚拟厨房和逼真的数字食材,下一步是如何高效地在仿真环境里采集示范数据。OASIS选择的方式是VR遥操作:操作人员戴上头显,拿起手柄,脚踝上绑好追踪器,实时操控仿真器里的人形机器人完成任务。
具体使用的设备是PICO 4U,这是一款便携式混合现实头显。头显捕捉操作人员的头部朝向,一对手持控制器追踪双手位置和姿态,两个脚踝追踪器记录下肢运动。操作人员的全身动作通过GMR(一套运动重定向算法)转化为人形机器人的参考全身运动指令,再交给Teleopit(一个开源的基于强化学习的全身控制器)驱动仿真机器人执行相应动作。同时,机器人头部摄像头的画面实时传送给VR头显,操作人员就像身临其境地从机器人的视角看世界。
整个遥操作阶段刻意使用了轻量渲染模式,以保证仿真器能以足够高的帧率运行,给操作人员提供流畅的操控体验。这个阶段记录下两类关键数据:其一是机器人和场景中所有可交互刚体的运动学状态序列(位置、姿态等),用于后续轨迹重放;其二是GMR重定向后的参考运动指令,用于训练高层规划器。
在数据采集效率上,仿真遥操作展现出相比真实机器人遥操作的明显优势。研究团队使用相同的低层控制器和相同的操作员,在相同任务上各采集50条成功轨迹,然后比较总耗时。最简单的"把杯子放进盒子"任务,OASIS耗时15.2分钟,真实环境耗时17.5分钟,提速1.15倍;而最复杂的"跪下擦桌底"任务,OASIS耗时28.4分钟,真实环境耗时44.8分钟,提速1.84倍。任务越复杂,仿真的效率优势越明显,因为复杂任务在真实环境中的每次失败都意味着更繁琐的手工重置流程。
四、一条示范变成二十个场景——离线渲染的视觉扩增魔法
OASIS最具创造性的设计在于它对采集好的轨迹数据的后处理方式。拿到一条示范轨迹之后,系统并不直接用它来生成训练图像,而是把它当作一个"剧本",然后在二十个不同的"舞台布景"下重新演一遍,得到二十套视觉截然不同的训练样本。
这个阶段完全在离线状态下运行,不需要操作人员实时参与,因此可以切换到路径追踪渲染模式——这是一种计算密集但图像质量极高的渲染技术,能产生接近真实照片质感的图像。
具体的随机化涉及三大类参数。背景材质方面,墙面纹理从混凝土、木材、水磨石、金属中随机选取,地板纹理从混凝土、木材、水磨石中随机选取,桌面纹理则固定为木材但会随机调整粗糙度(在0.1到0.65之间)和金属感(在0.25到1.0之间),纹理的旋转角度、位移比例也都在一定范围内随机变化。光照方面,穹顶光的强度在1000到3000之间随机,色温在4500到6500K之间随机,RGB三通道颜色各自在0.85到1.0之间独立随机;室内照明的强度更是在20000到200000之间大幅变化。摄像头外参方面,位置在三个轴向各自偏移正负1厘米以内,俯仰滚偏三个旋转角各自在正负1.5度以内随机扰动。
研究团队还系统地测试了渲染数量对效果的影响,发现随着每条轨迹渲染环境数的增加,真实机器人的成功率稳步上升,在15到20个环境附近趋于饱和。因此最终配置选择每条轨迹渲染20个不同环境,在效果和计算开销之间取得平衡。
这套机制的直觉非常清晰:相比之下,真实环境采集的数据就像是同一道菜只在同一家餐厅的同一张桌子上拍照,而OASIS的数据就像是把同一道菜搬到了二十种不同装修风格、不同灯光氛围的场合下各拍一遍。用后者训练出来的"菜品识别系统",自然对各种拍摄条件都更有免疫力。
五、机器人的大脑长什么样——层次化全身策略的设计
有了高质量的训练数据,OASIS还需要一套合适的"大脑架构"来把这些数据转化为实际的操控能力。研究团队设计了一个两层嵌套的层次化策略:上层是一个"规划器",负责看图理解任务并预测接下来该怎么动;下层是一个"执行器",负责把规划器的意图转化成机器人每个关节的具体角度。
规划器接受三类输入信号。第一类是文字指令,比如"把杯子放进盒子",通过CLIP文字编码器转化为数值向量。第二类是视觉信息,来自机器人头部和两个腕部的三路摄像头画面,通过冻结参数的DINOv2视觉编码器提取特征。第三类是机器人自身的"本体感觉",也就是最近两帧的参考运动指令历史,通过一个MLP网络编码。这三类特征拼接成条件序列,输入到一个基于Transformer架构的去噪网络中。
规划器的输出是未来32帧的参考运动指令序列,每帧包含67个数值:身体倾斜角度的三角编码、偏航角变化量、根部在局部坐标系下的平移、根部高度、29个关节的位置,以及这些关节位置相对上一帧的增量。这套运动指令格式直接沿用了研究团队此前在TextOp工作中提出的表示方式。
生成这套运动指令序列的方法是流匹配(Flow Matching)——一种可以把随机噪声逐步"塑造"成有意义运动序列的生成技术。直觉上,可以把它理解成一种"去噪雕刻":从一堆杂乱的大理石碎屑开始,通过学习到的雕刻规律,逐步去除多余的部分,最终显现出想要的动作姿态。推理时用10步欧拉求解器积分完成这个过程,在计算效率和生成质量之间取得良好平衡。
下层执行器直接沿用了Teleopit这个开源全身控制器,把规划器输出的参考运动指令转化为机器人29个身体关节的目标角度,再加上14个手指关节,整个系统合计输出43个关节的控制信号。规划器以25Hz运行,每次预测一个32步的动作块,下层控制器以50Hz执行这些预测动作。
六、让规划器学会应对自己的失误——两个训练技巧的重要性
OASIS在训练层面还引入了两个设计细节,这两个细节看似简单,却对最终的实际表现产生了巨大影响。
第一个细节是关于本体感觉输入的选择。规划器在推理时需要一个"历史状态"作为参考——告诉它自己之前是在什么状态下,这样才能规划接下来的动作。一种直觉的做法是直接使用机器人真实的关节角度状态。但这样做有个问题:真实机器人执行动作时,关节角度会与目标指令之间存在跟踪误差和各种噪声,如果把这种"带噪"的状态历史喂给规划器,规划器在训练时学到的是"基于干净数据做预测",但推理时却接收到充满误差的实际数据,两者之间的分布差异会导致性能下降。
OASIS的解决方案是:不管训练还是推理,始终用参考运动指令序列(而非实际执行后的机器人状态)作为本体感觉输入。参考运动指令是规划器自己产生的,格式固定、无噪声,在训练和推理时保持完全一致,消除了这种分布不匹配问题。
第二个细节是基于课程的展开训练(Curriculum-based Rollout Training)。规划器一次性预测32帧的运动序列,然后实际执行这32帧,再基于执行结果预测下一个32帧,如此循环。问题在于:如果只用真实的历史数据训练规划器,它在训练时从未见过"自己的预测输出当历史"这种情况,但推理时偏偏就是这种情况。这就像是一位导航员平时只练习根据精确地图规划路线,从来没练习过根据自己上一次规划结果(可能有偏差)继续规划,真正上路时就可能越偏越远。
为了解决这个问题,研究团队设计了一套渐进式训练方案。每次训练时抽取同一条轨迹中4个连续片段,第一个片段使用真实历史数据,之后每个片段以一定概率"接着上一个片段规划器自己预测的最后H帧"来代替真实历史,让规划器逐渐习惯在自己的预测输出上继续预测。这个"接续概率"在训练前20%的阶段保持为0(让模型先学会基本的条件分布),之后线性增加到0.8。通过这种课程式的暴露,规划器逐渐学会应对自身预测误差的累积效应,在长时程任务中保持稳定。
研究团队在附录中专门对这一机制做了消融实验,结果触目惊心:不使用展开训练的版本,在"把杯子放进盒子"任务上10次只成功2次,在"抬起篮子并放入杯子"任务上10次全部失败,在"跪下擦桌底"任务上也是10次全部失败;而使用展开训练的完整版本,这三个任务的成功率分别为8/10、8/10和10/10。这组数据清楚地说明,展开训练机制是整个系统能在长时程任务上正常工作的关键保障。
七、在真实机器人上的检验——仿真数据究竟有多管用
所有这些精心设计,最终都要接受一个最朴素的检验:训练出来的策略放到真实机器人身上,到底好不好用?
研究团队在宇树G1人形机器人上进行了实验。G1具备29个身体自由度,配备7自由度三指灵巧手,头部装有Realsense D435i摄像头,每个手腕处各装有一个Realsense D405摄像头。实验涵盖了四个难度递增的任务:把杯子放进盒子(纯桌面操作)、抬起篮子并放入杯子(需要全身协调提起重物)、擦拭显示器(需要精确的接触力控制)、跪下并擦拭桌底(需要腿部的弯曲运动和手臂同时工作)。
核心对比实验是在三种数据来源之间展开的,每种来源都使用相同数量的50条轨迹:纯仿真数据(OASIS)、纯真实机器人遥操作数据、两者各25条的混合数据。
实验结果相当有说服力。在"把杯子放进盒子"任务上,仿真数据训练的策略10次成功8次,真实数据训练的策略10次成功7次;在"抬起篮子并放入杯子"任务上,仿真数据7次,真实数据7次;在"擦拭显示器"任务上,仿真数据9次,真实数据8次;在"跪下擦桌底"任务上,仿真数据10次,真实数据9次。仿真数据在多数任务上不仅追平、甚至小幅超越了真实数据。
研究团队将仿真数据偶尔超越真实数据的现象归因于视觉多样性:真实数据是在一个相对固定的环境中采集的,一旦部署时的灯光或背景稍有不同,策略就容易受到干扰;而OASIS的大规模随机渲染覆盖了丰富得多的视觉条件,使策略对各种视觉变化具备更强的鲁棒性。
混合数据的效果则在每个任务上都超过了任一单一来源:四个任务的成功率分别为9/10、8/10、9/10和10/10,平均成功率0.90,高于纯仿真的0.85和纯真实的0.78。这个结果揭示了一种有意思的互补关系:仿真数据提供视觉多样性和大规模样本,真实数据提供真实物理交互和感知特性,两者结合实现的效果比各自单独使用都要好。
八、哪个环节最重要——消融实验的发现
为了搞清楚OASIS各个组件各自贡献了多少,研究团队还进行了系统的消融实验。
在随机化因素的消融实验中,研究团队比较了四种变体:完全不做随机化、去掉纹理随机化、去掉光照随机化、去掉摄像头外参随机化,以及保留所有随机化的完整版本。结果中最戏剧性的发现是:完全不做任何随机化的版本,在四个任务上的平均成功率只有可怜的0.05——近乎全军覆没。这充分说明,视觉随机化不是可选的锦上添花,而是仿真数据能够迁移到真实世界的根本前提。
在具体的随机化因素中,光照随机化的贡献最为突出,去掉光照随机化后成功率从0.83骤降至0.30;去掉摄像头外参随机化后成功率为0.63;去掉纹理随机化后成功率为0.43。三者的贡献都不可忽视,且相互之间具有互补性——只有全部保留时才能达到最高性能。这说明这三类随机化分别针对了仿真到真实视觉差距的不同方面,不能相互替代。
归根结底,OASIS的实验结果传递了一个对机器人研究界颇具启发性的信号:精心设计的仿真数据,在视觉多样性方面甚至可以超越在固定真实环境中采集的数据。真实场景的数据并非不可替代,关键在于如何让仿真数据覆盖足够丰富的视觉变化,以及如何保证仿真物体的物理特性足够真实。
当然,研究团队也坦诚地指出了现有方法的局限。目前的数据增强只针对视觉外观进行随机化,轨迹本身并未改变——因为人形机器人的全身动作牵一发而动全身,随意扰动运动状态很容易导致机器人失去平衡。运动轨迹的多样化生成是下一步值得探索的方向。此外,自动生成的3D资产在几何形状和物理参数上仍可能存在偏差,对于需要精确接触力控制的任务(比如需要拿捏力度的精细抓取)来说,这种偏差可能造成更大的仿真到真实差距,需要更精准的资产重建和物理参数标定方法来弥补。
说到底,OASIS做了一件听起来有些反直觉的事:它证明了你不需要一台真实的机器人、一个真实的房间和无数次真实的失败重试,就可以给人形机器人提供高质量的全身操控训练数据。你只需要几张真实物体的照片、一套VR设备,以及大量随机化的离线渲染,就能在真实机器人上实现零样本部署——也就是说,机器人在没有任何真实环境预热的情况下,直接上手就能把活儿干好。
这对于未来人形机器人的普及有相当实际的意义。当前的真实数据采集流程需要昂贵的硬件、宽敞的物理空间和大量人工时间,这些成本构成了机器人研究规模化的主要壁垒之一。如果仿真数据能够在效果上与真实数据持平甚至局部超越,那么机器人训练数据的生产效率将得到质的提升,更多的任务类型将变得可以快速扩展覆盖。
当然,目前的结论仍然来自特定的任务集合和特定的硬件平台,能否推广到更广泛的任务场景(比如需要用手指精确旋转旋钮,或者处理柔性材料)还有待验证。研究团队指出的两个主要改进方向——运动轨迹的多样化增强和更精准的物理参数估计——将是检验OASIS能否进一步扩展适用范围的关键。有兴趣深入探究技术细节的读者,可通过arXiv编号2606.08548找到完整论文。
Q&A
Q1:OASIS框架中,仿真数据为何能在某些任务上超过真实机器人采集的数据?
A:这主要是因为OASIS在离线渲染阶段对每条轨迹进行了大规模视觉随机化,每条示范轨迹会被渲染成20种不同灯光、纹理和摄像头角度的版本,覆盖了远比单一真实环境丰富的视觉条件。真实数据往往在固定房间采集,灯光和背景变化有限,一旦部署环境与采集环境有差异,策略就容易受到干扰;而OASIS训练出的策略见过各种光线和背景,因此对视觉变化具备更强的适应能力。
Q2:OASIS中物体的3D模型和物理属性是怎么生成的,精度够用吗?
A:系统用腾讯混元3D模型从单张照片生成3D网格,再用Qwen3-VL语言模型估计物体的实际尺寸和材质类别,然后查表获取密度、摩擦系数等物理参数。研究团队用游标卡尺实测了5个真实物体做验证,杯子的平均误差仅0.3厘米,显示器误差1.0厘米,篮子误差最大也只有3.0厘米,对于仿真中的物理模拟来说精度基本够用,但对于需要精确接触力控制的精细任务可能还存在一定偏差。
Q3:课程式展开训练对OASIS的效果影响有多大,不用行不行?
A:影响非常大,不用几乎等于放弃长时程任务。消融实验显示,不使用课程式展开训练的版本在"抬起篮子并放入杯子"和"跪下擦桌底"两个任务上10次全部失败,在其余任务上也只有个位数成功;而使用该机制的完整版本,四个任务的成功率分别达到8/10、8/10、7/10和10/10。这个机制的作用是让规划器在训练时逐步习惯"在自己的预测结果上继续预测",避免推理时误差不断累积导致任务失败。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。