微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科院自动化所等机构联手突破:一秒钟,让AI从视频中"读懂"物体的物理灵魂

中科院自动化所等机构联手突破:一秒钟,让AI从视频中"读懂"物体的物理灵魂

2026-04-24 12:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-24 12:02 科技行者

这项由中国科学院自动化研究所、清华大学与GigaAI联合开展的研究,于2026年4月发表,论文编号为arXiv:2604.07882。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**研究概要:当AI开始理解"东西是什么做的"**

用手机随手拍一段玩具鸭子从桌上掉落、弹跳、停下来的视频,短短一秒钟之内,一个AI系统就能告诉你:这只鸭子大概有多重、捏下去有多硬、会不会迅速弹回来、放在瓷砖地上滑不滑。不仅如此,它还能帮你在电脑里建出一个可以模拟交互的"数字孪生"鸭子,你可以在虚拟世界里随意拉扯、挤压它,看它如何变形反应。

这听起来像魔法,但研究团队给它起了一个扎实的名字:ReconPhys——从单段视频中同时重建外观与物理属性的系统。在此之前,类似的工作要么需要从多个角度架设多台摄像机,要么需要计算机花上超过一个小时去反复"猜测调整"。而ReconPhys把这个过程压缩到了不足一秒。

这件事为什么值得关注?因为我们生活的世界里充满了软的、会变形的东西——枕头、水果、布娃娃、橡皮泥、食物,甚至人体组织。机器人如果想要抓取这些东西而不把它们捏烂,游戏里的虚拟物体如果想要表现得像真实材料,都需要首先"知道"这个物体是硬是软、有多重、有多弹。过去让计算机获得这些信息极为困难。现在,一段普通的手机视频,也许就够了。

---

一、物理世界的"难题":软软的东西为何让AI头疼

要理解ReconPhys的意义,先得理解这个问题究竟难在哪里。

一块石头掉在地上,轨迹简单,容易预测。但一只充气玩具鸭子掉在地上,情况就复杂多了:它落地时会被压扁一点,然后弹起来,弹起的高度取决于它内部气压和外皮材料的弹性,滑动的距离取决于地面与鸭子材质之间的摩擦力,整个过程中鸭子的形状在不停地变化。这种"非刚性物体"(也就是可以变形的东西)的运动,背后隐藏着物理世界真正的复杂性。

从一段二维视频中恢复这个三维世界的物理信息,就好像你只看到了一幅画的影子,却要猜出画上的颜料是油画还是水彩、画布是粗麻还是细棉。信息严重不足,可能性无穷无尽。

现有的技术大体分两条路。一条路是纯粹做"视觉重建"——把视频里的物体在三维空间里还原出来,画面可以很好看,但重建出的数字物体没有物理意义,你无法在里面模拟"用手指戳一下会怎样"。另一条路是"物理仿真重建"——同时恢复视觉和物理属性,但代价是每换一个新物体,计算机就要重新花上几十分钟甚至几小时反复尝试,慢得让人难以实际使用,而且往往还需要多台摄像机或者人工标注信息。

ReconPhys的研究团队瞄准的,正是这条慢路的症结所在:为什么每个物体都要从头学一遍?

---

二、核心思路:让AI像有经验的工匠一样,一眼看出材质

有经验的木匠走进森林,看一眼树木的纹理和颜色,就能大致判断这是硬木还是软木、适合做家具还是做纸浆。他不需要对每棵树都做破坏性测试,因为他在过去的经验里已经学会了"视觉特征"和"物理属性"之间的关联规律。

ReconPhys想让AI做同样的事。研究团队训练了一个神经网络(可以理解为一种模仿人类神经系统结构的计算程序),让它在大量不同物体、不同材质的视频上反复学习:哪种运动模式对应哪种物理参数。训练结束之后,这个网络就具备了那位老木匠的"眼力"——面对一段新的视频,它能直接输出答案,而不需要再慢慢"摸索"。

这种方式在机器学习领域有个专门的名字叫"前馈推断"(feedforward inference),意思是信息只从输入流向输出,没有来回反复调整的过程。就好像你背下了乘法表之后,算7乘以8不需要再一步一步数,而是直接脱口而出56。

更关键的是,ReconPhys的训练完全不依赖人工标注的"物理标签"——研究团队不需要有人拿着精密仪器去测量每个训练物体的硬度和质量然后标注出来。系统通过一种叫"自监督"的策略自己学习:把预测的物理属性输入物理模拟器,模拟出物体的运动,再把模拟的画面和真实视频做对比,用画面的差距来反向纠正物理参数的预测。这就像一个学生没有老师给标准答案,而是通过"做实验看结果对不对"来自己摸索出规律。

---

三、系统架构:两个专家分工合作的"双脑"设计

ReconPhys的内部结构采用了双分支设计,可以理解为两个各有专长的专家在同时工作,然后把各自的成果合并。

第一个专家负责"看外形"。给定视频的第一帧图像,这位专家会构建出物体的三维外观模型,采用的是当前计算机视觉领域非常流行的3D高斯泼溅技术(3D Gaussian Splatting,简称3DGS)。通俗来说,这个技术把一个三维物体表示成空间中密密麻麻分布的许多小"椭圆气泡",每个气泡记录了它所在位置的颜色、透明度和形状信息。这些气泡组合在一起,就能渲染出非常逼真的物体外观。这位外观专家使用的是已经预先训练好的现成模型,在ReconPhys的训练过程中,它的参数被锁住不动,只负责提供稳定的几何和外观基础。

第二个专家负责"感受动态"。它拿到的是整段视频,逐帧分析物体的运动模式。它的内部使用了一个名为InternViT的视觉编码器来提取每一帧的视觉特征,然后用一个带有自注意力机制的ResNet网络把这些逐帧特征汇聚成一个包含时间变化信息的紧凑表示,最终通过一个多层感知机解码器输出四个物理参数的预测值:质量、刚度(弹簧劲度系数)、阻尼(类似弹簧的减震能力)、摩擦系数。

这两个专家的成果通过一套"绑定机制"连接起来:外观专家生成的三维气泡,会被对应地挂载到一个弹簧-质点系统(spring-mass system)上。弹簧-质点系统是物理仿真领域的经典模型,把一个物体想象成由很多质点(类比物体内部的节点)通过弹簧相互连接而成的网络。当你用手推一个质点,弹簧会传导力,带动其他质点运动,整个网络就产生了像真实弹性物体一样的变形。三维气泡绑定到这些质点上之后,质点的运动就直接驱动了视觉上的变形。

在技术细节上,质点的采样不是直接从物体表面取,而是在整个物体体积内均匀分布,这样能保证模拟更稳定,避免出现物体"从内部塌陷"的奇怪现象。质点数量远少于三维气泡的数量,计算效率更高。三维气泡的位置更新则使用了反距离加权插值,距离某个质点越近的气泡,受到这个质点运动的影响就越大。

---

四、物理模拟的数学引擎:力、弹簧与碰撞

理解ReconPhys不需要深入数学,但了解它背后物理模拟的基本原理,能帮助我们明白为什么它的预测比其他方法更"真实"。

弹簧-质点系统中,每个质点在每个时刻都受到三种力的作用。第一种是弹簧力:当两个质点之间的距离偏离了它们的"自然长度"(初始距离),弹簧就会产生一个把它们拉回原位的力,这个力遵循广义胡克定律,弹得越远,拉力越强。第二种是阻尼力:类似于物体在介质中运动时的阻力,两个相互运动的质点之间会产生一个抵抗相对运动的力,这就解释了为什么真实物体不会永远弹跳下去。第三种是重力:就是地球把物体往下拽的那个力,大小等于质量乘以重力加速度。

这三种力叠加起来,通过半隐式欧拉积分方法(一种数值计算技术)来预测下一时刻质点的位置和速度。这就好比在纸上一步一步推算子弹飞行的轨迹,只是这里的"子弹"是相互连接的弹性网络。当质点运动到地面以下时,还会触发一个碰撞处理机制,模拟物体撞地后的反弹,并根据摩擦系数调整水平方向的速度损耗。

整套模拟过程是完全可微分的,意思是"画面质量对物理参数的梯度"(可以理解为"改变哪个参数能让预测画面更接近真实视频")可以被精确计算出来。这是整个系统能够自我学习、无需人工标注的关键所在。

---

五、"自我强迫"训练策略:不依赖外部拐杖学会走路

训练ReconPhys的过程中,研究团队遇到了一个经典的机器学习困境,并给出了一个巧妙的解决方案。

困境在于:在训练时,如果每一步的物理模拟都使用真实的物体状态作为起点,那网络学出来的预测能力可能只在这种"有真实参照"的理想条件下好用。但实际测试时,你只有视频,没有真实状态,每一步只能用上一步的预测结果作为起点,误差会不断累积,导致预测越来越偏。

解决方案叫做"自我强迫"(Self Forcing):在训练时,也让模拟器从自己上一步的预测状态出发,而不是依赖真实状态。这就迫使网络学会在自己的预测误差存在的情况下依然保持稳定,而不是依赖外部纠正。就好像练习走钢丝,从一开始就不给保护绳,而不是先靠保护绳练习然后突然撤掉,反而能培养出真正的平衡能力。

与此同时,为了防止在长序列模拟时梯度爆炸或消失的问题,训练过程采用了截断反向传播策略:在每个模拟步骤,上一步的状态在传递给下一步之前会被"断开梯度连接",只让当前步骤的渲染误差去更新物理参数,而不是让梯度沿着整个历史链条一路传递。这就像一个接力跑团队,每个人只负责自己这一棒的纠正,而不是要求最后一棒的人对第一棒的所有失误负责。

训练目标非常简单直接:让模拟渲染出来的每一帧图像,和真实视频的每一帧,在像素级别上尽可能相似。这个目标是纯粹可微分的,整个从视频输入到物理参数预测再到渲染输出的链条,都可以用梯度下降来端对端优化。

---

六、合成数据集:为AI创造一个专属的"物理训练场"

训练这样一个系统,需要大量配对好的数据:既要有物体的视频,又要知道这个物体的真实物理参数。现实世界中几乎不存在这样的大规模数据集。研究团队于是自己造了一个。

整个数据制造流程可以分几个环节来理解。第一步是挑选合适的三维物体。团队从一个叫Objaverse-XL的超大型三维物体库中出发,这个库里有超过一千万个三维模型。然后用Qwen3-8B这个语言模型,根据语义标签筛选出适合做非刚性动态仿真的物体,比如玩具、食物、软包等,最终选出500个。对于每个物体,渲染四个正交视角的图像,再用TRELLIS这个三维生成工具把它重建成高质量的3DGS表示。

第二步是为每个物体配置物理参数。研究团队为每个物体随机抽取物理参数:质量在0.2到6.0之间变化,刚度在10到1200之间覆盖从极软到较硬的范围,阻尼在0.1到5.0之间,摩擦系数在0到1之间。每个物体配10组不同的物理参数,这样同一个外形可以呈现完全不同的物理行为,帮助网络学会把形状和物理属性解耦。

第三步是仿真并渲染视频。对每个(物体,物理参数)组合,用弹簧-质点系统模拟一段30帧的自由落体轨迹,包括落地弹跳的过程,然后从四个正交摄像机角度渲染成512×512分辨率的视频。最终形成约5000条视频数据,每条视频都配有精确的物理参数真值。

一个细节值得一提:为了保证每个物体的质点采样结果可复现,研究团队用物体的唯一标识符生成哈希码作为采样随机种子,确保无论训练还是测试,同一个物体总是得到完全相同的质点分布。这保证了物理参数的物理可解释性,而不会因为采样不同而混淆对比。

最终,496个物体中450个用于训练,46个用于测试跨物体泛化能力。

---

七、实验结果:数字说明的差距有多悬殊

实验对比的基准方法有两个。一个是4DGS(4D高斯泼溅),这是目前动态场景重建的主流方法之一,擅长重建过去发生的运动,但没有物理理解,无法预测未来。另一个是Spring-Gaus(弹簧高斯),这是ReconPhys最直接的竞争对手,同样把弹簧-质点系统和3DGS结合在一起,但需要多视角输入和逐场景优化(每个新物体都要单独跑上超过一小时)。

在46个从未见过的测试物体上,结果差距相当显著。在视觉重建质量方面,ReconPhys得到了33.84 dB的PSNR(峰值信噪比,衡量图像清晰度和真实度的指标,越高越好),而Spring-Gaus只有22.26 dB,4DGS有30.33 dB。在三维几何精度方面,ReconPhys的Chamfer Distance(衡量预测三维形状和真实形状差距的指标,越低越好)仅为0.001,而Spring-Gaus是0.466,4DGS是0.593——这意味着ReconPhys的几何重建误差大约是竞争对手的五百分之一到六百分之一。

更能体现物理理解优势的是未来预测任务:给定前20帧视频,预测接下来10帧会发生什么。4DGS完全无法做这个任务(因为它没有物理模型,不知道物体接下来会怎么运动)。Spring-Gaus能做,但预测质量的PSNR只有13.27 dB。ReconPhys的未来预测PSNR达到21.64 dB,高出8.37 dB,相当于图像质量在主观感受上有了明显的跨越式提升。

在物理参数本身的预测精度上,对于刚度这个最难估计的参数,Spring-Gaus的平均绝对误差高达827.67,而ReconPhys降到了297.3。对于阻尼,Spring-Gaus误差2.546,ReconPhys是1.151。质量方面Spring-Gaus是2.276,ReconPhys是1.337。摩擦系数是唯一ReconPhys略逊于Spring-Gaus的指标(1.508对1.082),但差距很小,且在其他所有指标上ReconPhys都更好。

处理速度方面,Spring-Gaus和4DGS处理每个新物体都需要超过1小时,而ReconPhys不足1秒。

---

八、物理解耦实验:同一张脸,不同的"灵魂"

研究团队还专门设计了一组实验来验证一个关键能力:系统能不能把物体的形状和它的物理属性分开来理解?

具体做法是:对同一个物体(比如一个圆柱体、一个汉堡包、一只灯笼),分配两组完全不同的物理参数(一组很软、弹性很强,一组较硬、阻尼很大),生成两段视频,看系统能不能从这两段视频中预测出不同的物理参数,同时在外观和几何重建上保持一致的高质量。

结果表明,ReconPhys在8个不同物体的16组配对测试中,PSNR全部超过30 dB,最高达到36.86 dB,而Spring-Gaus最高只有26.003 dB。在三维几何误差方面,ReconPhys的CD值普遍在0.0002到0.0027之间,Spring-Gaus则在0.4145到0.5324之间。更重要的是,从可视化结果来看,对同一形状分配不同物理参数后,ReconPhys预测出了明显不同的运动轨迹,准确地区分出了"软"和"硬"的行为差异。这说明系统确实在用物理属性而不是在记忆形状来驱动运动预测。

---

九、机器人抓取的实际应用:从视频到可操控的数字孪生

研究团队还展示了一个完整的现实应用链条,把整个系统串联到机器人非刚性物体操控的场景里。

整个流程大致是:拍一段物体自由落体的视频,用SAM(Segment Anything Model,一种通用的图像分割工具)把物体从背景中分离出来,然后把分割好的视频送入ReconPhys,在不到一秒内同时得到3DGS外观模型和绑定的弹簧-质点物理系统。把这套数字孪生导入虚拟仿真环境(基于PhysTwin框架搭建),就可以通过键盘操控"虚拟手"去拉扯、挤压、弯折数字物体,观察它的物理响应。

研究团队演示了四个场景:拉伸一个铅笔袋,挤压一个枕头,拉伸一个汉堡包,以及同时挤压和拉伸一个玩具。在这些场景中,数字物体表现出了与真实材料相符的变形行为——枕头被挤压后会反弹,汉堡包被拉伸后会呈现出类似面团的延展性。

这个应用的意义在于,它提供了一条把现实世界物体快速数字化为可交互物理模型的通道,对于机器人训练数据的自动生成、虚拟现实中的物体交互设计、以及"现实到仿真"(Sim-to-Real)这一机器人学习的核心范式,都有直接的工程价值。过去建立这样一个数字孪生需要专业人员手动建模和参数标定,耗时数小时甚至数天;现在一段手机视频加上不到一秒的处理,就完成了同样的工作。

---

说到底,ReconPhys做的这件事,可以用一句话概括:它让计算机第一次能够在不需要任何专门测量仪器、不需要专业人员标注、不需要漫长等待的前提下,从一段普通视频里同时理解物体"长什么样"和"是什么材质"。

这件事的意义,放在不同的语境下会有不同的解读。对于机器人研究者来说,这意味着机器人可以在见到一个新物体的瞬间,就对如何抓取它有合理的预判。对于游戏和虚拟现实的开发者来说,这意味着现实世界的物体可以几乎无缝地复制进数字世界,带着真实的物理行为。对于更普通的用户来说,这意味着未来的某一天,一个购物应用也许能告诉你"这款沙发摸起来大概是这种手感",或者一个家装软件能让你在手机里感受到"这块地毯踩上去的阻尼感"。

当然,目前的系统也有其边界。实验主要在合成数据上验证,真实世界的视频只有定性展示,还没有大规模定量评估。系统目前假设物体是均匀材质(每个质点和弹簧的参数都相同),对于复合材料物体(比如有硬骨架和软填充的玩偶)的表现还有待探索。训练所依赖的自由落体场景,在现实中也不总是那么容易获得。

这些是这项研究留下的开放问题,也是未来值得继续探索的方向。如果你对其中的技术细节感到好奇,完整的论文可以在arXiv平台通过编号2604.07882查阅,所有公式、数据和实验设置都在其中有详尽的描述。

---

**Q&A**

Q1:ReconPhys预测的物理属性具体是哪几个?

A:ReconPhys会预测四个物理属性:质量(物体有多重)、刚度(弹性有多强,类似弹簧的硬度)、阻尼(弹动后衰减的快慢,类似减震能力)和摩擦系数(物体与地面之间的滑动阻力大小)。这四个参数共同决定了一个弹性物体在受力后会如何运动和变形。

Q2:ReconPhys为什么不需要人工标注物理参数就能训练?

A:ReconPhys采用了"自监督"训练策略。简单来说,系统把自己预测的物理参数输入物理模拟器,模拟出物体运动后渲染成图像,然后直接和真实视频对比像素差异,用这个差异来反向纠正物理参数的预测。整个过程不需要有人告诉系统"这个物体刚度是多少",它通过"预测→模拟→对比→修正"的闭环自己摸索出规律。

Q3:弹簧-质点系统和3D高斯泼溅是怎么结合在一起工作的?

A:两者通过"绑定机制"连接。3D高斯泼溅负责物体的视觉外观,把物体表示为空间中大量小椭圆气泡的集合。弹簧-质点系统负责物理运动,用少量质点和弹簧网络模拟物体的变形。气泡被绑定到质点上,质点运动时,附近的气泡通过距离加权插值跟随移动,使外观跟着产生真实的变形效果。这样就能同时得到高质量的视觉渲染和物理正确的运动预测。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-