
这项由清华大学IEI实验室联合加州理工学院、加州大学圣地亚哥分校及英伟达共同完成的研究,于2026年5月18日以预印本形式发布,编号为arXiv:2605.18743v1,有兴趣深入了解的读者可通过该编号查询完整论文。
身处物理世界的我们,每天都在和各种"会动的东西"打交道。机械臂在工厂里伸缩旋转,人的手指在键盘上灵活跳跃,毛绒玩具被捏扁又弹回,桌布被风吹起又落下。这些在人类眼里再寻常不过的场景,对于试图理解和模拟物理世界的人工智能系统而言,却一直是一道高墙。AI可以下围棋、写文章、生成图片,但要让它真正"看懂"一个被手捏住的布娃娃的形状是如何变化的,或者一台机器人手臂关节旋转后各个部件会去到哪个位置,这件事出乎意料地困难。
归根结底,问题在于:现有的AI系统在理解物理世界时,缺少一种能统一描述"各类可动物体"的语言。一个机器人关节的运动方式,和一匹马奔跑时肌肉带动皮毛变形的方式,以及一块布料被风吹动的方式,三者在物理本质上截然不同,但它们都是"会动的物体"。研究团队将这类会随外力或内部驱动而改变形态的物体统称为"可动对象",并提出了一个核心问题:有没有可能用一套统一的神经网络架构,同时理解这三类截然不同的变形逻辑?
这项研究的答案是肯定的,他们将这个统一框架命名为**WorldString**。
---
一、为什么AI"看懂物体运动"这么难?
先用一个生活场景来理解这个问题。假设你是一个刚学会看图说话的孩子,你见过一把椅子,能认出椅子。但有一天,椅子上放了一个可以折叠的躺椅,它的靠背向后倒了45度——你还能认出它是椅子吗?大概可以。但如果让你精确地描述"靠背倒了之后,扶手、坐垫、椅腿分别在哪里",这就需要你真正理解椅子的结构和它的运动规律。
对AI来说,这个问题更加棘手。目前研究界主要有三条路来处理物理世界的建模:其一是"视频生成"路线,也就是让AI直接学会生成看起来像真实物理过程的视频;其二是"神经三维重建"路线,通过相机拍摄的图像重建场景的三维结构;其三是"物理仿真"路线,用物理引擎直接模拟物体运动。
然而这三条路各有缺陷。视频生成的方法可以产生非常逼真的画面,但往往缺乏物理一致性——换句话说,视频看起来挺像那么回事,但如果你深究里面的物理细节,就会发现很多不符合物理规律的地方,也很难精确控制物体的运动。三维重建方法能给出物体在空间中的准确位置,但当物体发生复杂形变或相互接触时就力不从心了。物理仿真引擎在模拟环境里运作良好,但当它们遇到真实世界时,往往会面临"仿真与现实的落差"问题,也就是模型在仿真器里学到的经验,放到真实场景里效果大打折扣。
正是在这个背景下,清华等机构的研究团队提出了WorldString。他们希望构建一种"可动对象的数字孪生体"——用神经网络直接从点云数据或RGB-D视频(即同时包含彩色图像和深度信息的视频)中学习,让AI能够根据物体的当前状态,准确预测它的三维形状。
---
二、物理世界里的三类"会动的东西"
要理解WorldString的设计思路,首先需要了解研究团队如何对可动物体进行分类。他们将现实世界中的可动物体归纳为三大类,每一类都有其独特的变形逻辑。
第一类是"关节式物体",可以理解为机器人手臂或者一扇柜门。这类物体由若干刚性部件通过关节连接而成,每个部件本身不会变形,但关节处可以旋转或平移。理解这类物体的运动,就像拼积木——每个积木块保持原样,只是彼此之间的连接角度发生了变化。在数学上,描述这类运动的工具叫做"正向运动学",它通过一系列矩阵变换,精确计算出每个关节旋转之后各个部件的空间位置。
第二类是"蒙皮式物体",典型例子是人体或动物。这类物体内部有一副骨架,骨架外面包裹着皮肤和肌肉。骨骼运动时,周围的皮肤和肌肉会随之发生平滑的变形。这种变形不像关节式物体那样非此即彼,而是"渐变"的——靠近某块骨骼的皮肤会更多地跟随那块骨骼运动,而远离它的部分则受到的影响较小。这种机制在计算机图形学中被称为"线性混合蒙皮",用于驱动游戏、电影中人物角色的运动,也是处理马、狗等动物姿态变化的核心技术。
第三类是"软体物体",比如布料、绳索、毛绒玩具。这类物体没有骨架,变形高度复杂,某一点的形变可能影响远处的区域,而且不同材质的软体还有各自不同的物理特性。传统上,物理学家用"有限元方法"这类工具来模拟软体变形,但这类方法计算开销极大,且难以从视觉数据中直接推断物理参数。
研究团队发现,这三类物体的变形其实可以用一个统一的数学框架来描述——任意一点的运动,都可以表达为若干"关键点驱动的位移"的加权求和,只不过三种情况下"权重"的来源不同。关节式物体用的是"属于哪个关节就完全跟那个关节走"的硬分配,蒙皮式物体用的是预先计算好的平滑权重,软体物体则可以用关键点的位移来近似插值整个形变场。这个统一视角,正是WorldString架构设计的理论基石。
---
三、WorldString是如何工作的?
理解了这个理论基础,再来看WorldString的具体工作方式就清晰很多了。
研究团队将整个神经网络设计为一个"三阶段的变形流水线",用一个拍照类比来解释:你有一张"基准状态"的物体快照,然后你输入几个关键节点的当前位置,系统就能推算出物体现在应该长什么样子,最终输出一个三维空间占用图(也就是哪些空间被物体占据,哪些是空的)。
整个过程分三步走。第一步叫做"状态变换器"。在神经网络里,物体的基准形态被编码为一组可学习的向量,好比用很多数字来记住物体的"默认样子"。与此同时,输入的关键点(比如机器人手臂各个关节的当前坐标)也被编码为另一组向量。状态变换器通过一种叫做"交叉注意力"的机制,让基准形态向量去"参考"关键点向量,从而把"当前姿态"的信息注入到形态描述中。
第二步叫做"对象变换器"。经过第一步,每个基准向量已经知道了关键点的姿态,但物体各个部分之间的联动关系还没有建立。对象变换器通过"自注意力"机制,让各个形态向量之间相互参考、相互影响,确保整个物体的形变是整体协调一致的,而不是各个部位各自为政。
第三步叫做"体素变换器"。前两步的结果还只是存在于神经网络内部的抽象向量,我们看不到、摸不着。体素变换器的任务是把这些抽象向量"解码"成可见的三维形状。它的做法是:对三维空间中的每一个坐标点,询问"这个点是否被物体占据",通过交叉注意力查询前面生成的形态向量,输出一个0到1之间的概率值。训练时随机采样空间点,测试时则对整个三维网格进行密集查询,从而还原出完整的物体三维形状。整个流程用二元交叉熵损失函数进行端到端训练,完全可微分,这意味着未来可以直接与机器人策略学习等下游任务结合。
这套机制在理论上是对传统物理方法的"神经网络放宽版":传统方法中的精确解析权重,被神经网络学到的、依赖状态的动态权重所取代,从而在保留物理结构先验的同时获得更强的灵活性。
---
四、从真实世界学习:数据从哪里来?
一套再精妙的架构,如果没有高质量的训练数据也是枉然。研究团队为WorldString设计了一套完整的真实世界数据采集流程。
整个过程从多视角RGB-D视频出发。研究人员首先用Grounded-SAM2这个开源工具从视频中分割出目标物体,然后用CoTracker对物体表面的密集像素点进行跨帧追踪,得到物体上大量像素点在时间序列上的二维轨迹。接着,结合深度图和相机内参,将这些二维轨迹"反投影"到三维空间,得到一系列带有时间对应关系的三维点云序列。这意味着研究团队知道物体表面上的每一个点,在每个时刻分别在哪里。
有了这些点云数据,还需要为神经网络提供"填充完整的三维体"作为监督信号。研究团队用TRELLIS这个三维生成工具,根据初始帧的点云生成一个规范化的网格模型,然后通过逐帧的变形插值,将这个网格"变形"到每个时刻的点云状态,最终体素化得到每帧的三维占用目标。
关键点的提取同样有章可循:初始帧用最远点采样算法选取一组稀疏关键点,后续各帧的关键点则直接跟随点云追踪结果传播,保证整个序列中关键点的拓扑结构固定不变。
对于来自多段视频的数据,研究团队还用RoMa这个特征匹配工具,在不同视频的初始帧之间建立像素对应关系,从而将多段视频中的关键点对齐到统一的坐标系中,使得模型能够从多样化的交互轨迹中学习,而不是局限于单一视角或单次操作。
---
五、实验:WordlString在各类物体上表现如何?
研究团队在一系列精心设计的实验中验证了WorldString的有效性,覆盖了从静态几何到复杂软体的广泛范围。
先从最基础的测试开始:静态三维形状重建。研究团队用几个经典的计算机图形学标准模型来测试WorldString的基本几何建模能力,包括犹他茶壶、斯坦福兔子、犰狳模型和露西雕像。这几个模型从简单到复杂不等,其中犰狳和露西被定为"困难"级别,因为它们有大量精细的褶皱、铠甲纹路和翅膀等高曲率区域。结果显示,WorldString在犹他茶壶上达到了92.17的IoU分数(IoU是衡量预测形状与真实形状重叠程度的指标,100分为完美重合),在更复杂的犰狳和露西上也分别达到了67.36和70.20,而且精确率均在99%以上——也就是说,被预测为物体内部的点,几乎全部都确实在物体里面。误差主要集中在极细微的纹路和高曲率凹陷处,这在视觉化误差图中呈现为少量粉色区域,蓝色(接近完美对齐)区域占据绝大部分。
在关节式物体实验中,研究团队测试了四个对象:一只机器人手(Xhand)、一条机器人手臂(Airbot Play)以及两款宜家柜子。WorldString在所有四个类别上都大幅领先两种检索基准方法(最近邻检索和优化最近邻)。以机器人手为例,WorldString的IoU达到90.28,而最近邻方法仅为60.71,优化最近邻为73.41;与专门为机器人设计的Dr.Robot方法相比,WorldString的表现同样更好,Dr.Robot在机器人手上的IoU只有28.53。定性对比图也清晰地展示了差异:WorldString输出的表面干净平滑,能精确还原机械结构的细节;而Dr.Robot由于使用离散高斯核来表示外观,表面充满噪点,细薄的机械结构尤其难以准确表达。
蒙皮式人体和动物实验同样令人印象深刻。研究团队在男性人体、女性人体、马和河马这四类对象上进行了测试,关键点选取的是SMPL(人体参数化模型)和SMAL(动物参数化模型)定义的骨骼关节位置。这意味着WorldString在这里扮演的角色,是用一种"与拓扑无关"的方式替代传统参数化模型的功能。结果显示,WorldString在所有四个类别上都超越了专为此类任务设计的NSDP方法:以河马为例,WorldString的IoU达到92.40,而NSDP为86.82,最近邻方法仅为41.21。
还有一个专门针对人手的对比实验,测试对象是HALO方法——一个专门为人手骨架驱动形状建模设计的神经网络。结果显示,WorldString与HALO几乎不分伯仲:WorldString的IoU为96.24,HALO为96.62;F1分数WorldString为98.08,HALO为98.28;但在召回率上WorldString以98.74略微超过HALO的98.40。两个模型都在手部重建上达到了极高的精度,误差点极少且集中在指尖等精细区域。研究团队特别指出,这个实验最重要的意义不在于WorldString比HALO好多少,而在于:WorldString用完全相同的架构既能处理人手,也能处理机器人、马匹和布料,而HALO只能处理人手。这才是"统一框架"的价值所在。
软体物体的实验在布娃娃、布料和绳子三类对象上进行。布娃娃和布料的结果清晰地展示了WorldString的优越性:布娃娃上WorldString的IoU为82.80,远高于最近邻的44.90和优化最近邻的61.58;布料上WorldString的IoU为68.68,也高于对比方法。值得一提的是绳子实验,这里出现了一个有趣的细节:优化最近邻方法在绳子上的IoU为79.64,反而高于WorldString的78.34。研究团队对此进行了分析:短绳的变形维度相对较低(弯曲方式不算太复杂),检索加插值的方式在这种情况下恰好能近似覆盖主要变形模式。但在更复杂的、形变高度非均匀的软体上,WorldString的隐式表示学习能力就体现出了明显优势。
---
六、面对嘈杂的真实传感器,WorldString能扛住吗?
任何系统要真正落地应用,都必须回答一个关键问题:在理想实验室数据上表现好是一回事,但真实世界中传感器拍出来的数据充满噪声、有遮挡、有孔洞,系统还能用吗?
研究团队专门设计了一套"传感器差距量化"实验。他们在物理仿真器里重建了多视角RGB-D采集流程,生成"仿真传感器"数据,并与仿真器直接输出的"仿真真值"几何进行对比,以此量化真实传感数据与完美数据之间的差距。以机器人手臂为例,用仿真真值训练时IoU为77.00,用仿真传感器数据训练时IoU降至60.20——性能确实有所下降,但并没有崩溃式的失效。F1分数从87.01降至75.15,精确率从79.55降至61.82,而召回率几乎没变(96.01对95.81)。这说明传感器噪声主要影响的是精确率(模型会预测一些实际上没有被传感器看到的区域),而不影响模型对物体整体结构的理解能力。
这个发现引出了一个更为有趣的现象——结构补全能力。由于仿真相机会被物体自身遮挡,某些部分的几何形状根本没有被任何一帧数据观察到。然而WorldString的预测结果中,这些被遮挡的部分竟然能够被正确填补出来。也就是说,模型通过学习物体的整体结构先验,学会了"看不见的地方应该长什么样"。
真实世界的布料实验进一步揭示了第二种补全现象——材质补全。真实RGB-D传感器采集的点云天然是稀疏的,布料这类连续致密材质在点云里往往充满孔洞。WorldString的预测结果中,这些孔洞区域被填补上了,而这些填补位置在误差图中显示为"假阳性"(红色点)。研究团队认为,这些"假阳性"并不是真正的错误,而是模型正确地认识到布料是连续实体材质,主动对传感器稀疏点云的缺失区域进行了物理合理的填充。这种能力与目前大量研究工作中探讨的"物理世界的结构完整性推理"高度吻合。
---
七、模型"看"物体时脑子里在想什么?
研究团队还做了一项很有意思的可解释性分析,试图揭示WorldString内部表示的语义结构。
在推理时,对于三维空间中的每一个预测点,研究人员找出对该点贡献最大的前五个"查询令牌"(也就是体素变换器中负责解码该位置的向量),并给每个查询令牌分配一种固定颜色,用加权平均的方式给预测点上色。这样,一个物体上的每个点就有了颜色,颜色反映了它主要由哪些令牌负责重建。
实验结果展现了一个令人惊叹的模式:在完全没有任何显式监督的情况下,同一物体的同一部位,在不同姿态下始终呈现出相同的颜色。以Xhand机器人手为例,大拇指外侧表面在各种手势下始终是粉色;在人体姿态重建中,双手无论处于何种姿势,始终被同一种紫色所标记。这说明模型内部自发地学到了"部件特化"——每个查询令牌专门负责物体的某一个特定局部区域,而不是模糊地处理整个物体。这种能力来源于关键点驱动的交叉注意力机制,关键点的位置为查询令牌提供了一种隐式的"空间锚点",使得模型能够建立起一套可解释的、与物理结构对应的内部表示。
---
八、调参实验:怎样的设计选择最有效?
研究团队还系统地测试了几个关键超参数对性能的影响,以机器人手臂任务为基准进行了消融实验。
关键点密度方面,将每个部件上的关键点从3个增加到15个,IoU从77.00提升到83.51,F1分数从87.01提升到91.02,召回率从96.01提升到99.46。理论上3个非共线点就足以确定一个刚体的6自由度位姿,但更密集的关键点提供了冗余的几何约束,让模型更容易将形状令牌"锚定"到物体的物理流形上,从而更准确地学习局部细节。
体素分辨率方面,将分辨率从512降到256时,IoU从77.00提升到82.37——这个反直觉的结果说明,更高的分辨率并不总是更好,它增加了占用学习任务的难度,要求模型在更细粒度的边界上做出精确判断。在实际部署中,应根据任务对精度和计算资源的平衡需求选择合适的分辨率。
网络容量方面,结果同样出人意料。将隐藏维度从128增大到192,或者将注意力层数从2增加到3,反而导致IoU和F1分数下降。这说明对于特定的可动物体流形,存在一个"最优容量阈值",超过这个阈值的模型往往走向记忆化训练配置,而非学习可泛化的几何特征。当前的基准配置(2层注意力、128维隐藏层、512分辨率)在表达能力与计算效率之间取得了一个较好的平衡点。
---
说到底,WorldString做到了一件以前没人能以统一方式做到的事:用一套神经网络架构,同时理解机器人关节运动、人体姿态变化和软体形变这三种完全不同的物理现象,并能从真实的RGB-D视频中直接学习,还能在噪声数据下完成遮挡部位和材质缺失的自动补全。
这对普通人意味着什么?距离我们最近的应用场景,是机器人手术辅助、虚拟试衣、游戏和电影中人物动画的自动生成,以及服务机器人对家庭环境中各类可动物体的理解与操作。WorldString的全可微分设计,使其可以直接插入机器人策略学习的训练管线,有望让机器人通过"观看"物体被操作的视频,直接学会如何与物体交互,而不需要人工标注几何模型或手动设定物理参数。
不过,这项研究也有其未来需要继续解决的挑战。目前WorldString针对每类物体分别训练,如何实现跨物体类别的泛化、如何处理物体之间的接触与交互,是摆在研究团队面前的下一道难题。此外,软体物体(尤其是布料)的表现还有提升空间,关键点选取策略对性能有明显影响,如何自动化关键点的确定也值得深入研究。
对WorldString感兴趣的读者,可以通过arXiv编号2605.18743v1查找完整论文,项目主页位于worldstring-iei.github.io,代码和演示资源均在持续更新中。
---
Q&A
Q1:WorldString能处理哪些类型的物体?
A:WorldString可以处理三大类可动物体:关节式物体(如机器人手臂、柜子门)、蒙皮式物体(如人体、马匹等有骨架的生物)以及软体物体(如布料、绳子、毛绒玩具)。它用同一套神经网络架构统一处理这三类性质截然不同的变形方式,这也是WorldString相比以往方法的核心优势。
Q2:WorldString和传统3D高斯泼溅方法有什么区别?
A:传统的3D高斯泼溅方法(如Dr.Robot)用大量离散高斯核来表示物体外观,容易产生噪点表面,对细薄结构的还原能力较弱。WorldString则用连续的神经隐式占用场来表示三维形状,输出的表面更干净、结构更清晰,在IoU等几何指标上也远超高斯泼溅方法,在机器人手实验中两者IoU差距超过60个百分点。
Q3:WorldString的训练数据怎么获取,需要专业设备吗?
A:WorldString的数据采集流程基于普通的多视角RGB-D相机(即同时能拍彩色和深度图的相机),依赖Grounded-SAM2进行物体分割、CoTracker进行像素追踪,再结合深度图反投影得到三维点云。整个流程不需要专业的三维扫描设备,但需要多角度摄像头覆盖和一定的数据处理流程,研究论文中有详细描述。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。