微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

清华大学等机构研究：给机器人装上"真正懂物理"的数字眼睛，WorldString如何让AI理解万物皆可动？

物理世界建模神经隐式表示统一变形架构

清华大学等机构研究：给机器人装上"真正懂物理"的数字眼睛，WorldString如何让AI理解万物皆可动？

作者：科技行者

2026-05-25 11:33

分享至：

清华大学等机构提出WorldString，一种统一的神经网络架构，可同时建模关节、蒙皮和软体三类可动物体的三维形态变化，直接从RGB-D视频学习。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-25 11:33 • 科技行者

这项由清华大学IEI实验室联合加州理工学院、加州大学圣地亚哥分校及英伟达共同完成的研究，于2026年5月18日以预印本形式发布，编号为arXiv:2605.18743v1，有兴趣深入了解的读者可通过该编号查询完整论文。

身处物理世界的我们，每天都在和各种"会动的东西"打交道。机械臂在工厂里伸缩旋转，人的手指在键盘上灵活跳跃，毛绒玩具被捏扁又弹回，桌布被风吹起又落下。这些在人类眼里再寻常不过的场景，对于试图理解和模拟物理世界的人工智能系统而言，却一直是一道高墙。AI可以下围棋、写文章、生成图片，但要让它真正"看懂"一个被手捏住的布娃娃的形状是如何变化的，或者一台机器人手臂关节旋转后各个部件会去到哪个位置，这件事出乎意料地困难。

归根结底，问题在于：现有的AI系统在理解物理世界时，缺少一种能统一描述"各类可动物体"的语言。一个机器人关节的运动方式，和一匹马奔跑时肌肉带动皮毛变形的方式，以及一块布料被风吹动的方式，三者在物理本质上截然不同，但它们都是"会动的物体"。研究团队将这类会随外力或内部驱动而改变形态的物体统称为"可动对象"，并提出了一个核心问题：有没有可能用一套统一的神经网络架构，同时理解这三类截然不同的变形逻辑？

这项研究的答案是肯定的，他们将这个统一框架命名为**WorldString**。

---

一、为什么AI"看懂物体运动"这么难？

先用一个生活场景来理解这个问题。假设你是一个刚学会看图说话的孩子，你见过一把椅子，能认出椅子。但有一天，椅子上放了一个可以折叠的躺椅，它的靠背向后倒了45度——你还能认出它是椅子吗？大概可以。但如果让你精确地描述"靠背倒了之后，扶手、坐垫、椅腿分别在哪里"，这就需要你真正理解椅子的结构和它的运动规律。

对AI来说，这个问题更加棘手。目前研究界主要有三条路来处理物理世界的建模：其一是"视频生成"路线，也就是让AI直接学会生成看起来像真实物理过程的视频；其二是"神经三维重建"路线，通过相机拍摄的图像重建场景的三维结构；其三是"物理仿真"路线，用物理引擎直接模拟物体运动。

然而这三条路各有缺陷。视频生成的方法可以产生非常逼真的画面，但往往缺乏物理一致性——换句话说，视频看起来挺像那么回事，但如果你深究里面的物理细节，就会发现很多不符合物理规律的地方，也很难精确控制物体的运动。三维重建方法能给出物体在空间中的准确位置，但当物体发生复杂形变或相互接触时就力不从心了。物理仿真引擎在模拟环境里运作良好，但当它们遇到真实世界时，往往会面临"仿真与现实的落差"问题，也就是模型在仿真器里学到的经验，放到真实场景里效果大打折扣。

正是在这个背景下，清华等机构的研究团队提出了WorldString。他们希望构建一种"可动对象的数字孪生体"——用神经网络直接从点云数据或RGB-D视频（即同时包含彩色图像和深度信息的视频）中学习，让AI能够根据物体的当前状态，准确预测它的三维形状。

---

二、物理世界里的三类"会动的东西"

要理解WorldString的设计思路，首先需要了解研究团队如何对可动物体进行分类。他们将现实世界中的可动物体归纳为三大类，每一类都有其独特的变形逻辑。

第一类是"关节式物体"，可以理解为机器人手臂或者一扇柜门。这类物体由若干刚性部件通过关节连接而成，每个部件本身不会变形，但关节处可以旋转或平移。理解这类物体的运动，就像拼积木——每个积木块保持原样，只是彼此之间的连接角度发生了变化。在数学上，描述这类运动的工具叫做"正向运动学"，它通过一系列矩阵变换，精确计算出每个关节旋转之后各个部件的空间位置。

第二类是"蒙皮式物体"，典型例子是人体或动物。这类物体内部有一副骨架，骨架外面包裹着皮肤和肌肉。骨骼运动时，周围的皮肤和肌肉会随之发生平滑的变形。这种变形不像关节式物体那样非此即彼，而是"渐变"的——靠近某块骨骼的皮肤会更多地跟随那块骨骼运动，而远离它的部分则受到的影响较小。这种机制在计算机图形学中被称为"线性混合蒙皮"，用于驱动游戏、电影中人物角色的运动，也是处理马、狗等动物姿态变化的核心技术。

第三类是"软体物体"，比如布料、绳索、毛绒玩具。这类物体没有骨架，变形高度复杂，某一点的形变可能影响远处的区域，而且不同材质的软体还有各自不同的物理特性。传统上，物理学家用"有限元方法"这类工具来模拟软体变形，但这类方法计算开销极大，且难以从视觉数据中直接推断物理参数。

研究团队发现，这三类物体的变形其实可以用一个统一的数学框架来描述——任意一点的运动，都可以表达为若干"关键点驱动的位移"的加权求和，只不过三种情况下"权重"的来源不同。关节式物体用的是"属于哪个关节就完全跟那个关节走"的硬分配，蒙皮式物体用的是预先计算好的平滑权重，软体物体则可以用关键点的位移来近似插值整个形变场。这个统一视角，正是WorldString架构设计的理论基石。

---

三、WorldString是如何工作的？

理解了这个理论基础，再来看WorldString的具体工作方式就清晰很多了。

研究团队将整个神经网络设计为一个"三阶段的变形流水线"，用一个拍照类比来解释：你有一张"基准状态"的物体快照，然后你输入几个关键节点的当前位置，系统就能推算出物体现在应该长什么样子，最终输出一个三维空间占用图（也就是哪些空间被物体占据，哪些是空的）。

整个过程分三步走。第一步叫做"状态变换器"。在神经网络里，物体的基准形态被编码为一组可学习的向量，好比用很多数字来记住物体的"默认样子"。与此同时，输入的关键点（比如机器人手臂各个关节的当前坐标）也被编码为另一组向量。状态变换器通过一种叫做"交叉注意力"的机制，让基准形态向量去"参考"关键点向量，从而把"当前姿态"的信息注入到形态描述中。

第二步叫做"对象变换器"。经过第一步，每个基准向量已经知道了关键点的姿态，但物体各个部分之间的联动关系还没有建立。对象变换器通过"自注意力"机制，让各个形态向量之间相互参考、相互影响，确保整个物体的形变是整体协调一致的，而不是各个部位各自为政。

第三步叫做"体素变换器"。前两步的结果还只是存在于神经网络内部的抽象向量，我们看不到、摸不着。体素变换器的任务是把这些抽象向量"解码"成可见的三维形状。它的做法是：对三维空间中的每一个坐标点，询问"这个点是否被物体占据"，通过交叉注意力查询前面生成的形态向量，输出一个0到1之间的概率值。训练时随机采样空间点，测试时则对整个三维网格进行密集查询，从而还原出完整的物体三维形状。整个流程用二元交叉熵损失函数进行端到端训练，完全可微分，这意味着未来可以直接与机器人策略学习等下游任务结合。

这套机制在理论上是对传统物理方法的"神经网络放宽版"：传统方法中的精确解析权重，被神经网络学到的、依赖状态的动态权重所取代，从而在保留物理结构先验的同时获得更强的灵活性。

---

四、从真实世界学习：数据从哪里来？

一套再精妙的架构，如果没有高质量的训练数据也是枉然。研究团队为WorldString设计了一套完整的真实世界数据采集流程。

整个过程从多视角RGB-D视频出发。研究人员首先用Grounded-SAM2这个开源工具从视频中分割出目标物体，然后用CoTracker对物体表面的密集像素点进行跨帧追踪，得到物体上大量像素点在时间序列上的二维轨迹。接着，结合深度图和相机内参，将这些二维轨迹"反投影"到三维空间，得到一系列带有时间对应关系的三维点云序列。这意味着研究团队知道物体表面上的每一个点，在每个时刻分别在哪里。

有了这些点云数据，还需要为神经网络提供"填充完整的三维体"作为监督信号。研究团队用TRELLIS这个三维生成工具，根据初始帧的点云生成一个规范化的网格模型，然后通过逐帧的变形插值，将这个网格"变形"到每个时刻的点云状态，最终体素化得到每帧的三维占用目标。

关键点的提取同样有章可循：初始帧用最远点采样算法选取一组稀疏关键点，后续各帧的关键点则直接跟随点云追踪结果传播，保证整个序列中关键点的拓扑结构固定不变。

对于来自多段视频的数据，研究团队还用RoMa这个特征匹配工具，在不同视频的初始帧之间建立像素对应关系，从而将多段视频中的关键点对齐到统一的坐标系中，使得模型能够从多样化的交互轨迹中学习，而不是局限于单一视角或单次操作。

---

五、实验：WordlString在各类物体上表现如何？

研究团队在一系列精心设计的实验中验证了WorldString的有效性，覆盖了从静态几何到复杂软体的广泛范围。

先从最基础的测试开始：静态三维形状重建。研究团队用几个经典的计算机图形学标准模型来测试WorldString的基本几何建模能力，包括犹他茶壶、斯坦福兔子、犰狳模型和露西雕像。这几个模型从简单到复杂不等，其中犰狳和露西被定为"困难"级别，因为它们有大量精细的褶皱、铠甲纹路和翅膀等高曲率区域。结果显示，WorldString在犹他茶壶上达到了92.17的IoU分数（IoU是衡量预测形状与真实形状重叠程度的指标，100分为完美重合），在更复杂的犰狳和露西上也分别达到了67.36和70.20，而且精确率均在99%以上——也就是说，被预测为物体内部的点，几乎全部都确实在物体里面。误差主要集中在极细微的纹路和高曲率凹陷处，这在视觉化误差图中呈现为少量粉色区域，蓝色（接近完美对齐）区域占据绝大部分。

在关节式物体实验中，研究团队测试了四个对象：一只机器人手（Xhand）、一条机器人手臂（Airbot Play）以及两款宜家柜子。WorldString在所有四个类别上都大幅领先两种检索基准方法（最近邻检索和优化最近邻）。以机器人手为例，WorldString的IoU达到90.28，而最近邻方法仅为60.71，优化最近邻为73.41；与专门为机器人设计的Dr.Robot方法相比，WorldString的表现同样更好，Dr.Robot在机器人手上的IoU只有28.53。定性对比图也清晰地展示了差异：WorldString输出的表面干净平滑，能精确还原机械结构的细节；而Dr.Robot由于使用离散高斯核来表示外观，表面充满噪点，细薄的机械结构尤其难以准确表达。

蒙皮式人体和动物实验同样令人印象深刻。研究团队在男性人体、女性人体、马和河马这四类对象上进行了测试，关键点选取的是SMPL（人体参数化模型）和SMAL（动物参数化模型）定义的骨骼关节位置。这意味着WorldString在这里扮演的角色，是用一种"与拓扑无关"的方式替代传统参数化模型的功能。结果显示，WorldString在所有四个类别上都超越了专为此类任务设计的NSDP方法：以河马为例，WorldString的IoU达到92.40，而NSDP为86.82，最近邻方法仅为41.21。

还有一个专门针对人手的对比实验，测试对象是HALO方法——一个专门为人手骨架驱动形状建模设计的神经网络。结果显示，WorldString与HALO几乎不分伯仲：WorldString的IoU为96.24，HALO为96.62；F1分数WorldString为98.08，HALO为98.28；但在召回率上WorldString以98.74略微超过HALO的98.40。两个模型都在手部重建上达到了极高的精度，误差点极少且集中在指尖等精细区域。研究团队特别指出，这个实验最重要的意义不在于WorldString比HALO好多少，而在于：WorldString用完全相同的架构既能处理人手，也能处理机器人、马匹和布料，而HALO只能处理人手。这才是"统一框架"的价值所在。

软体物体的实验在布娃娃、布料和绳子三类对象上进行。布娃娃和布料的结果清晰地展示了WorldString的优越性：布娃娃上WorldString的IoU为82.80，远高于最近邻的44.90和优化最近邻的61.58；布料上WorldString的IoU为68.68，也高于对比方法。值得一提的是绳子实验，这里出现了一个有趣的细节：优化最近邻方法在绳子上的IoU为79.64，反而高于WorldString的78.34。研究团队对此进行了分析：短绳的变形维度相对较低（弯曲方式不算太复杂），检索加插值的方式在这种情况下恰好能近似覆盖主要变形模式。但在更复杂的、形变高度非均匀的软体上，WorldString的隐式表示学习能力就体现出了明显优势。

---

六、面对嘈杂的真实传感器，WorldString能扛住吗？

任何系统要真正落地应用，都必须回答一个关键问题：在理想实验室数据上表现好是一回事，但真实世界中传感器拍出来的数据充满噪声、有遮挡、有孔洞，系统还能用吗？

研究团队专门设计了一套"传感器差距量化"实验。他们在物理仿真器里重建了多视角RGB-D采集流程，生成"仿真传感器"数据，并与仿真器直接输出的"仿真真值"几何进行对比，以此量化真实传感数据与完美数据之间的差距。以机器人手臂为例，用仿真真值训练时IoU为77.00，用仿真传感器数据训练时IoU降至60.20——性能确实有所下降，但并没有崩溃式的失效。F1分数从87.01降至75.15，精确率从79.55降至61.82，而召回率几乎没变（96.01对95.81）。这说明传感器噪声主要影响的是精确率（模型会预测一些实际上没有被传感器看到的区域），而不影响模型对物体整体结构的理解能力。

这个发现引出了一个更为有趣的现象——结构补全能力。由于仿真相机会被物体自身遮挡，某些部分的几何形状根本没有被任何一帧数据观察到。然而WorldString的预测结果中，这些被遮挡的部分竟然能够被正确填补出来。也就是说，模型通过学习物体的整体结构先验，学会了"看不见的地方应该长什么样"。

真实世界的布料实验进一步揭示了第二种补全现象——材质补全。真实RGB-D传感器采集的点云天然是稀疏的，布料这类连续致密材质在点云里往往充满孔洞。WorldString的预测结果中，这些孔洞区域被填补上了，而这些填补位置在误差图中显示为"假阳性"（红色点）。研究团队认为，这些"假阳性"并不是真正的错误，而是模型正确地认识到布料是连续实体材质，主动对传感器稀疏点云的缺失区域进行了物理合理的填充。这种能力与目前大量研究工作中探讨的"物理世界的结构完整性推理"高度吻合。

---

七、模型"看"物体时脑子里在想什么？

研究团队还做了一项很有意思的可解释性分析，试图揭示WorldString内部表示的语义结构。

在推理时，对于三维空间中的每一个预测点，研究人员找出对该点贡献最大的前五个"查询令牌"（也就是体素变换器中负责解码该位置的向量），并给每个查询令牌分配一种固定颜色，用加权平均的方式给预测点上色。这样，一个物体上的每个点就有了颜色，颜色反映了它主要由哪些令牌负责重建。

实验结果展现了一个令人惊叹的模式：在完全没有任何显式监督的情况下，同一物体的同一部位，在不同姿态下始终呈现出相同的颜色。以Xhand机器人手为例，大拇指外侧表面在各种手势下始终是粉色；在人体姿态重建中，双手无论处于何种姿势，始终被同一种紫色所标记。这说明模型内部自发地学到了"部件特化"——每个查询令牌专门负责物体的某一个特定局部区域，而不是模糊地处理整个物体。这种能力来源于关键点驱动的交叉注意力机制，关键点的位置为查询令牌提供了一种隐式的"空间锚点"，使得模型能够建立起一套可解释的、与物理结构对应的内部表示。

---

八、调参实验：怎样的设计选择最有效？

研究团队还系统地测试了几个关键超参数对性能的影响，以机器人手臂任务为基准进行了消融实验。

关键点密度方面，将每个部件上的关键点从3个增加到15个，IoU从77.00提升到83.51，F1分数从87.01提升到91.02，召回率从96.01提升到99.46。理论上3个非共线点就足以确定一个刚体的6自由度位姿，但更密集的关键点提供了冗余的几何约束，让模型更容易将形状令牌"锚定"到物体的物理流形上，从而更准确地学习局部细节。

体素分辨率方面，将分辨率从512降到256时，IoU从77.00提升到82.37——这个反直觉的结果说明，更高的分辨率并不总是更好，它增加了占用学习任务的难度，要求模型在更细粒度的边界上做出精确判断。在实际部署中，应根据任务对精度和计算资源的平衡需求选择合适的分辨率。

网络容量方面，结果同样出人意料。将隐藏维度从128增大到192，或者将注意力层数从2增加到3，反而导致IoU和F1分数下降。这说明对于特定的可动物体流形，存在一个"最优容量阈值"，超过这个阈值的模型往往走向记忆化训练配置，而非学习可泛化的几何特征。当前的基准配置（2层注意力、128维隐藏层、512分辨率）在表达能力与计算效率之间取得了一个较好的平衡点。

---

说到底，WorldString做到了一件以前没人能以统一方式做到的事：用一套神经网络架构，同时理解机器人关节运动、人体姿态变化和软体形变这三种完全不同的物理现象，并能从真实的RGB-D视频中直接学习，还能在噪声数据下完成遮挡部位和材质缺失的自动补全。

这对普通人意味着什么？距离我们最近的应用场景，是机器人手术辅助、虚拟试衣、游戏和电影中人物动画的自动生成，以及服务机器人对家庭环境中各类可动物体的理解与操作。WorldString的全可微分设计，使其可以直接插入机器人策略学习的训练管线，有望让机器人通过"观看"物体被操作的视频，直接学会如何与物体交互，而不需要人工标注几何模型或手动设定物理参数。

不过，这项研究也有其未来需要继续解决的挑战。目前WorldString针对每类物体分别训练，如何实现跨物体类别的泛化、如何处理物体之间的接触与交互，是摆在研究团队面前的下一道难题。此外，软体物体（尤其是布料）的表现还有提升空间，关键点选取策略对性能有明显影响，如何自动化关键点的确定也值得深入研究。

对WorldString感兴趣的读者，可以通过arXiv编号2605.18743v1查找完整论文，项目主页位于worldstring-iei.github.io，代码和演示资源均在持续更新中。

---

Q&A

Q1：WorldString能处理哪些类型的物体？

A：WorldString可以处理三大类可动物体：关节式物体（如机器人手臂、柜子门）、蒙皮式物体（如人体、马匹等有骨架的生物）以及软体物体（如布料、绳子、毛绒玩具）。它用同一套神经网络架构统一处理这三类性质截然不同的变形方式，这也是WorldString相比以往方法的核心优势。

Q2：WorldString和传统3D高斯泼溅方法有什么区别？

A：传统的3D高斯泼溅方法（如Dr.Robot）用大量离散高斯核来表示物体外观，容易产生噪点表面，对细薄结构的还原能力较弱。WorldString则用连续的神经隐式占用场来表示三维形状，输出的表面更干净、结构更清晰，在IoU等几何指标上也远超高斯泼溅方法，在机器人手实验中两者IoU差距超过60个百分点。

Q3：WorldString的训练数据怎么获取，需要专业设备吗？

A：WorldString的数据采集流程基于普通的多视角RGB-D相机（即同时能拍彩色和深度图的相机），依赖Grounded-SAM2进行物体分割、CoTracker进行像素追踪，再结合深度图反投影得到三维点云。整个流程不需要专业的三维扫描设备，但需要多角度摄像头覆盖和一定的数据处理流程，研究论文中有详细描述。

物理世界建模神经隐式表示统一变形架构

分享至

0赞

好文章，需要你的鼓励

推荐文章

AI智能体评估
自动化评测
评估代码生成

2026-05-20 17:33

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI Labs研究团队发布EvalAgent，这是一套通过"评估技能"自动生成AI智能体评测方案的系统，将首次运行成功率从17.5%提升至65%，并在人类专家评测中获得79.5%的偏好选择。
低光图像增强
多模态融合
跨注意力机制

2026-05-20 17:16

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。
人工智能
联想记忆
新型适配算法

2026-05-20 17:03

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。
重症监护AI
大语言模型
医疗安全评估

2026-05-20 16:46

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学发布RealICU基准，用专家后见之明评测大语言模型在ICU实时决策中的真实能力，发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

2026-05-20 17:33

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

2026-05-20 17:16

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

2026-05-20 17:03

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

2026-05-20 16:46

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn