这项由斯坦福大学神经AI实验室的拉胡尔·文卡特什、克莱门·科塔尔、莉莉安·陈等研究人员领导的突破性研究发表于2025年7月21日,论文题目为《发现和使用Spelke片段》。有兴趣深入了解的读者可以通过项目网站https://neuroailab.github.io/spelke_net访问完整研究成果。
当一个刚满周岁的婴儿看到桌子上的水杯时,他们本能地知道这个杯子会作为一个整体移动——而不是杯子的把手单独飞走,或者杯子突然分裂成两半。这种看似简单的认知能力,实际上代表了人类对物理世界最基础的理解:哪些东西会一起运动。
现在,斯坦福大学的研究团队开发出了一个名为SpelkeNet的AI系统,它能够像婴儿一样理解物体的物理结构。这个系统以发展心理学家伊丽莎白·斯佩尔克的名字命名,她发现婴儿天生就能识别那些在物理力作用下会一起移动的物体片段。
这项研究的重要性远超学术范畴。在当今的计算机视觉领域,AI系统在识别物体时往往依赖语义信息——比如识别出"这是一辆汽车"、"那是一棵树"。但这种方法存在根本性问题:AI可能会把汽车的车门和车身当作不同的物体,或者把贴在瓶子上的标签误认为是独立的东西。这种错误理解在机器人操作任务中会造成严重问题。
研究团队的创新之处在于,他们让AI不再依赖表面的视觉特征或语义标签,而是通过"虚拟戳一戳"的方式来理解物体。就像一个好奇的孩子用手指戳桌上的东西来探索世界一样,SpelkeNet会在静态图像上模拟各种"戳击"动作,然后观察整个场景会如何响应这些力的作用。
**一、从婴儿认知到AI突破**
伊丽莎白·斯佩尔克的开创性研究表明,即使是几个月大的婴儿也已经掌握了物体识别的基本原则。这些原则包括凝聚性(物体的各部分会粘在一起)、连续性(物体不会突然消失或出现)、实体性(两个物体不能占据同一空间)和接触性(物体只有在接触时才会相互影响)。
当前的计算机视觉系统,包括广受欢迎的SAM(Segment Anything Model),主要基于语义和纹理特征来分割图像。这就好比一个从未接触过物理世界的人,仅凭外观来判断什么是什么。比如,SAM可能会把一个人衣服上的图案、影子、甚至皮肤都识别为不同的"物体",因为它们在视觉上有所区别。
然而,在现实世界中,当你推动一个人时,整个人会作为一个单元移动——包括他的衣服、皮肤和影子。这种基于物理运动的理解,正是斯佩尔克片段概念的核心。
**二、SpelkeNet的工作原理**
SpelkeNet基于一个巧妙的想法:既然物理世界中的力会让相关联的物体一起运动,那么我们可以通过模拟这些力来发现物体的真实边界。
这个过程可以比作一位盲人探索陌生房间的方式。盲人会用手杖轻敲各处,通过声音和振动来判断哪些东西是连在一起的,哪些是分开的。当敲击桌子时,整张桌子都会发出震动,而桌上的杯子则会产生不同的响应。
SpelkeNet采用了类似的策略,但它使用的是"虚拟戳击"。系统首先生成一个"运动可能性地图",标识出图像中哪些区域在受到外力时可能会移动。天空、墙壁这样的背景区域运动可能性很低,而杯子、椅子这样的物体运动可能性就很高。
接下来,系统在这些高可能性区域进行虚拟戳击实验。每次戳击后,SpelkeNet会预测整个场景会如何响应——哪些像素会跟着一起移动,哪些会保持静止。通过成百上千次这样的实验,系统逐渐学会了识别哪些像素总是一起移动,从而发现真正的物体边界。
这种方法的优雅之处在于它的生物合理性。研究表明,人类婴儿也是通过类似的"假设-验证"过程来理解物理世界的。当婴儿看到一个新物体时,他们会在心理上模拟各种可能的相互作用,然后根据这些模拟来判断物体的属性。
**三、技术架构的创新设计**
SpelkeNet建立在LRAS(局部随机访问序列建模)框架之上,这是一个受大型语言模型启发的序列建模方法。与传统的扩散模型不同,LRAS可以处理任意顺序的输入,这使得局部干预成为可能。
这种架构选择至关重要。传统的视频预测模型通常需要密集的全局条件,很难实现精确的局部控制。而LRAS的自回归结构天然支持组合式输入序列,研究团队可以简单地在输入序列中添加一个光流标记来表示虚拟戳击,然后让模型预测其余区域的响应。
模型的训练数据来自大规模互联网视频,包含了约7000小时的多样化内容。这些视频覆盖了从日常生活场景到专业录制内容的广泛范围。通过观察这些视频中的运动模式,SpelkeNet学会了物理世界的基本规律,而无需任何明确的物理规则编程。
在处理静态图像时,SpelkeNet会生成两种关键的中间表示。首先是"运动承受力地图",它标识出场景中哪些区域在受到外力时可能发生运动。其次是"期望位移地图",它预测当某个特定位置受到虚拟戳击时,场景中每个像素的预期运动方向和幅度。
**四、统计反事实探测方法**
SpelkeNet的核心创新在于其"统计反事实探测"方法。这个名称听起来复杂,但其实对应的是一个相当直观的过程。
反事实思维是人类认知的基本能力——我们经常会想"如果当时我做了不同的选择会怎样"。在物理推理中,这表现为"如果我推这个物体会发生什么"的思考。SpelkeNet将这种思维模式系统化,通过大量的虚拟实验来探索物体的行为模式。
统计方面体现在系统不依赖单次预测,而是进行数百次不同的虚拟戳击实验。每次实验都会从略微不同的角度或强度进行戳击,然后观察场景的响应。通过统计分析这些响应的相关性,系统能够识别出哪些像素始终表现出相似的运动模式。
这种方法解决了之前技术的一个重要局限。早期的反事实世界模型(CWM)是确定性的,只能产生单一的预测结果。但现实世界中,同一个力的作用可能产生多种合理的结果。比如,当你轻推一个人的手时,既可能只有手臂移动,也可能整个人都会移动。CWM被迫在这些可能性之间取平均,导致模糊和不准确的预测。
SpelkeNet的概率性设计允许它同时考虑多种可能的结果。系统会生成多个不同的场景响应,然后通过统计方法找出在所有可能情况下都成立的运动相关性。这样得出的物体分割更加稳定和可靠。
**五、SpelkeBench基准测试的建立**
为了评估SpelkeNet的性能,研究团队创建了SpelkeBench,这是第一个专门用于评估"斯佩尔克式"物体分割能力的基准数据集。
构建这个数据集面临着独特的挑战。与传统的语义分割数据集不同,SpelkeBench需要的标注不能简单地基于物体类别或视觉特征,而必须反映物体在物理力作用下的真实行为。
研究团队采用了严格的三阶段筛选流程。首先,他们从现有的EntitySeg数据集中剔除了所有"背景物质"——比如天空、地面、墙壁等在正常情况下不会作为整体移动的区域。其次,他们进一步过滤掉了那些虽然被标记为"物体"但实际上无法移动的区域,比如固定在墙上的交通标志或嵌入式的厨房设备。最后,他们从筛选后的候选池中挑选出500张包含多样化物体类型和场景复杂度的高质量图像。
此外,团队还从OpenX机器人交互数据集中手工标注了50张图像,这些图像反映了机器人实际操作场景中的物体分割需求。这种双重数据来源确保了基准测试既能反映一般的物理推理能力,也能评估在实际机器人应用中的表现。
**六、自动发现场景中的所有物体**
虽然点击提示的分割很有用,但在许多实际应用中,系统需要能够自动发现场景中的所有独立物体。比如,一个负责清理餐桌的机器人需要知道盘子、杯子、餐具都是可以独立移动的物体,而桌布虽然看起来是背景,但实际上也是一个可移动的实体。
为了实现这种自动发现,SpelkeNet采用了一种基于亲和力矩阵的聚类方法。系统首先从运动承受力地图中采样大量的候选戳击点,然后对每个点进行多次多方向的虚拟戳击实验。
这个过程产生了每个像素的"运动描述符"——一个高维向量,编码了该像素在各种虚拟力作用下的典型响应模式。属于同一物体的像素会具有相似的运动描述符,因为它们总是一起移动。而属于不同物体的像素则会表现出不同的响应模式。
通过计算所有像素对之间的运动描述符相似性,系统构建了一个密集的亲和力矩阵。这个矩阵捕获了场景的成对因果结构——哪些区域在运动空间中是因果纠缠的。
随后,系统应用迭代聚类算法来识别独立的运动单元。算法在每次迭代中选择最有信心的探测中心(其亲和力行在所有像素上具有最高平均值),应用阈值处理得到初始掩码,然后通过聚合该掩码内所有点的亲和力来精化边界。
**七、在物体操作任务中的应用**
SpelkeNet的真正价值在其实际应用中得到了验证。研究团队在3DEditBench基准上测试了基于斯佩尔克片段的物体操作效果,结果显示了显著的改进。
传统的物体编辑流程通常依赖SAM等模型来识别需要编辑的区域。然而,这些模型经常产生物理上不合理的分割结果。比如,在编辑一个人的图像时,SAM可能只选择了衣服的一部分,或者把人的脸和身体分开处理。当编辑算法尝试移动或变形这样的片段时,结果往往显得不自然和不一致。
相比之下,SpelkeNet产生的分割结果反映了真实的物理结构。当用户点击一个物体时,系统会自动选择整个会一起移动的区域。这意味着当一个杯子被旋转时,杯身、把手和里面的液体都会作为一个整体进行变换,而不会出现把手单独飞走或液体留在原地的奇怪现象。
实验结果在多个指标上都显示了SpelkeNet的优势. 在编辑一致性(Edit Adherence)指标上,SpelkeNet比SAM提高了14-25个百分点。这个指标衡量的是编辑后的物体是否与预期的变换保持一致。同时,在传统的图像质量指标(如PSNR、SSIM、LPIPS)上,SpelkeNet也普遍优于基线方法。
更重要的是,这种改进是模型无关的。研究团队在四种不同的编辑模型上都观察到了类似的提升,包括LightningDrag、DiffusionHandles、Diffusion-as-Shader和LRAS-3D。这表明问题的关键不在于编辑算法本身,而在于为这些算法提供物理上合理的分割输入。
**八、意外发现:物理属性的涌现理解**
在研究过程中,团队发现SpelkeNet不仅能够分割物体,还意外地学会了理解物体的其他物理属性。这些涌现能力为未来的研究开辟了新的方向。
首先,系统展现出了对支撑关系的理解。当虚拟戳击应用到一个支撑结构的底部时,提取的斯佩尔克片段会包括该物体支撑的所有东西。比如,戳击一个托盘时,片段不仅包括托盘本身,还包括托盘上的所有物品。这种行为表明系统对重力和支撑关系有了隐式的理解。
其次,运动概率地图显示出了对材料属性的敏感性。对于刚性物体如笔记本电脑或纸箱,概率分布相对均匀,因为整个物体都会以相似的方式响应外力。但对于可变形物体如布料或塑料袋,概率分布更加局域化,在虚拟戳击点附近呈现更高的值。这种差异反映了系统对不同材料力学特性的理解。
这些发现暗示着,通过预测性建模学习的世界模型可能自然地获得了对各种物理概念的理解,即使这些概念从未被明确地教授。这与人类儿童的学习过程惊人地相似——通过与环境的交互,儿童逐渐建立起对物理世界复杂而精细的理解。
**九、技术挑战与解决方案**
开发SpelkeNet的过程中遇到了多个技术挑战,每一个都需要创新的解决方案。
首先是如何将摄像机运动从物体运动中分离出来。在自然视频中,像素的运动可能来自两个源头:摄像机的移动或物体本身的移动。对于斯佩尔克片段的发现,研究团队只关心由外力引起的物体运动。
解决方案是在输入序列中明确包含一个零摄像机姿态标记。通过告诉模型假设摄像机是静止的,系统被引导将任何输入运动都归因于物体的移动而非摄像机的位移。这种简单而有效的条件控制确保了虚拟戳击产生的流场真正反映了物体的因果响应。
第二个挑战是如何处理多模态响应。现实世界中,同一个力的作用可能产生多种合理的结果。比如,推动一个人的手臂时,可能只有手臂移动,也可能整个人都会移动。确定性模型必须在这些可能性之间取平均,导致模糊的预测。
SpelkeNet通过概率性的自回归生成来解决这个问题。系统不是产生单一的预测,而是可以采样多个不同的完整流场。通过聚合多次采样的结果,系统能够捕获稳定的运动相关性,同时避免被偶然的变化所误导。
第三个挑战是计算效率。虚拟戳击实验需要大量的前向推理过程,特别是在自动发现模式下,系统需要在每个候选位置进行多次多方向的实验。
研究团队通过两种策略来优化效率。一是利用LRAS框架的并行解码能力,可以同时预测所有空间位置的流分布。二是开发了智能采样策略,优先在运动承受力高的区域进行实验,避免在静态背景上浪费计算资源。
**十、与现有方法的对比优势**
SpelkeNet相比现有方法具有多个根本优势,这些优势源于其独特的设计理念。
与语义分割方法相比,SpelkeNet不依赖于预定义的物体类别或纹理特征。传统方法可能会把汽车的不同部分(如车门、车轮、车身)识别为不同的片段,因为它们在外观上有所差异。但在物理现实中,当你推动汽车时,所有这些部分都会作为一个整体移动。SpelkeNet能够捕获这种物理一致性,而不会被表面的视觉差异所误导。
与基于注意力的自监督方法相比,SpelkeNet避免了对比学习的固有限制。DINO等方法倾向于为同类物体产生相似的表示,这使得它们难以区分场景中同一类别的多个实例。比如,在一个包含多把椅子的房间里,DINO可能会将所有椅子合并为一个大的片段。SpelkeNet通过物理因果关系而非语义相似性来定义片段,自然地避免了这个问题。
与早期的反事实世界模型相比,SpelkeNet的概率性设计提供了更加稳健和准确的预测。CWM的确定性本质迫使它在多种可能的响应之间取平均,导致模糊和不准确的运动场。而SpelkeNet可以显式地建模响应的不确定性,通过多次采样来获得更可靠的统计估计。
此外,SpelkeNet的干预方式更加现实。CWM通过复制RGB补丁到不同位置来模拟物体运动,但这种方法无法考虑光照变化、遮挡关系等真实运动中的复杂因素。SpelkeNet使用稀疏流向量来指定预期运动,这种表示更加抽象但也更加有效,避免了像素级干预的诸多问题。
**十一、实际应用的广阔前景**
SpelkeNet的应用潜力远远超出了计算机视觉的传统边界,它为多个领域提供了新的可能性。
在机器人技术领域,SpelkeNet可以帮助机器人更好地理解和操作复杂环境。一个配备了SpelkeNet的机器人能够自动识别房间中哪些物体是可移动的,哪些是固定的,以及如何安全地抓取和操作这些物体而不会意外地影响到其他物品。这种能力对于家庭服务机器人、仓储自动化和制造业机器人都具有重要价值。
在增强现实和虚拟现实应用中,SpelkeNet可以实现更加真实的物理交互。当用户在AR环境中触碰虚拟物体时,系统能够预测物体的真实物理响应,创造更加沉浸和直观的用户体验。这种技术可以应用于教育软件、设计工具和娱乐应用。
在电影和视频制作行业,SpelkeNet提供的物理准确的物体分割可以大大简化特效制作流程。传统的绿幕技术和手工遮罩制作可能被更加智能和自动化的物体提取方法所替代,特别是在需要复杂物体变形和运动的场景中。
在医学影像领域,虽然应用场景有所不同,但SpelkeNet的核心思想——通过运动相关性来理解结构——可能对分析心脏运动、肌肉收缩等动态生理过程具有价值。系统可能能够识别哪些解剖结构会协调运动,哪些具有独立的动力学特性。
**十二、未来发展方向与挑战**
尽管SpelkeNet取得了显著成功,但仍有许多方向值得进一步探索和改进。
首先,当前的方法主要适用于宏观尺度的日常物体。将其扩展到微观或超大尺度的现象——比如分子动力学或天体物理学——需要对模型架构和训练数据进行根本性的调整。这种扩展可能为科学发现提供新的工具,帮助研究人员在缺乏直观理解的领域中识别因果结构。
其次,目前的虚拟戳击主要模拟简单的点力作用。现实世界中的物理交互要复杂得多,涉及摩擦、弹性变形、流体动力学等多种物理现象。未来的版本可能需要支持更丰富的虚拟交互类型,比如拖拽、扭转、加热等。
第三,计算效率仍然是一个挑战。当前的方法需要大量的前向推理来生成足够的统计样本。开发更高效的采样策略、利用缓存和增量计算,以及探索专门的硬件加速方案,都是重要的工程优化方向。
另一个有趣的方向是探索SpelkeNet在时间维度上的扩展。当前的方法主要关注瞬时的运动响应,但真实的物理系统具有复杂的时间动力学。开发能够预测长期运动轨迹和多步交互的版本,可能会产生更加丰富和有用的物理理解。
最后,如何将SpelkeNet的能力集成到更大的AI系统中仍然是一个开放问题。理想情况下,物理推理应该与语义理解、规划决策等其他认知能力无缝结合,形成真正智能的行为系统。
说到底,SpelkeNet代表了AI系统理解物理世界方式的一个重要转变。它不再依赖于表面特征或预定义类别,而是通过模拟物理交互来发现世界的真实结构。这种方法不仅在技术上更加优雅,在哲学上也更接近人类婴儿学习物理概念的自然过程。
随着这种技术的成熟和普及,我们可能会看到AI系统在处理现实世界任务时表现出更加自然和智能的行为。无论是帮助我们整理房间的机器人,还是协助医生分析医学影像的AI助手,它们都将具备更加深刻和准确的物理直觉。
这项研究提醒我们,有时候最深刻的技术突破来自于回到基础——回到人类认知的起源,回到我们如何理解周围世界的根本原理。通过让AI系统像婴儿一样学习,我们可能最终创造出真正理解并能够在物理世界中有效行动的智能机器。对于那些希望深入了解技术细节和实验结果的读者,完整的研究论文和代码实现都可以通过项目网站https://neuroailab.github.io/spelke_net获取。
Q&A
Q1:什么是Spelke片段?它和普通的图像分割有什么不同? A:Spelke片段是指那些在物理力作用下会一起移动的像素区域,以心理学家Elizabeth Spelke命名。与传统基于外观或语义的分割不同,Spelke片段反映了物体的真实物理结构——比如一个人被推动时,整个身体会作为一个单元移动,而不是头、手、衣服分别移动。
Q2:SpelkeNet会不会取代现有的分割模型如SAM? A:目前不会完全取代,但会在需要物理推理的应用中表现更好。SpelkeNet专门针对需要理解物体物理行为的任务设计,如机器人操作、物体编辑等。SAM在语义分割和快速标注方面仍有优势,两者更可能是互补关系。
Q3:普通用户如何使用这项技术?有什么实际应用? A:目前主要通过研究项目网站体验,但技术已经可以集成到视频编辑软件、AR/VR应用和机器人系统中。未来可能出现在智能手机的照片编辑功能、家用机器人的物体识别,以及虚拟现实游戏的物理交互中,让这些应用更加自然和真实。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。