微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

斯坦福大学的AI模型，只用一个孩子的成长视频就学会了"看懂世界"

人工智能视觉世界模型零样本学习

斯坦福大学的AI模型，只用一个孩子的成长视频就学会了"看懂世界"

作者：科技行者

2026-04-21 15:17

分享至：

这项来自斯坦福大学的研究（arXiv:2604.10333，2026年4月）提出了"零样本视觉世界模型"（ZWM），通过稀疏时间分解预测、近似因果推断和组合式提示三项设计，让AI只需用一个孩子的132小时生活录像，就能在光流估算、深度感知、物体分割和直觉物理推理等多项视觉任务上媲美专业监督系统。模型的能力发展轨迹与儿童认知发育高度平行，内部表示结构也与人脑视觉皮层层级组织一致，为数据高效的通用视觉AI开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 15:17 • 科技行者

这项由斯坦福大学领导的研究发表于2026年4月，论文编号为arXiv:2604.10333，有兴趣深入了解的读者可以通过该编号查询完整论文。

一个两岁的孩子第一次看到玻璃杯从桌边滑落，他不需要有人反复告诉他"玻璃杯会掉下去，然后碎掉"——他就是知道。他能追踪滚动的球，判断哪块积木更近、哪块更远，甚至在妈妈把手放到玩具上时，就能预料到玩具即将被拿走。更惊人的是，这一切认知能力，他只靠着自己短短两年、每天东张西望的"个人视频素材"就学会了。

反观今天最强大的人工智能系统，它们要学会识别一张猫的照片，需要看过数百万张标注好的猫咪图片；要学会分割视频中的物体，需要大量人工打标签的训练数据。孩子学得又快又灵活，AI却又慢又笨拙——这个鲜明的落差，长期困扰着AI研究者。

斯坦福大学的研究团队为这个问题提出了一套全新的解法，他们把它叫做"零样本视觉世界模型"，英文缩写是ZWM（Zero-shot Visual World Model）。所谓"零样本"，就是这个模型在完成各种视觉任务时，完全不需要看任何带标注的例题——它能直接上手，就像一个聪明的孩子拿到新玩具不看说明书也知道怎么玩。研究团队还专门用一个真实儿童的第一视角生活录像来训练这个模型，只用了132小时的视频素材，就让它在多项视觉理解任务上媲美甚至超越了那些用海量数据训练的专门系统。

这不仅仅是一个AI技术的进步。它更像是一扇窗，让我们得以窥见儿童大脑究竟是如何高效学习的——以及机器如何在同样稀薄的信息条件下，做出同样聪明的判断。

一、孩子是怎么学会"看懂世界"的？AI为什么学不了？

要理解这项研究究竟解决了什么问题，先得摸清楚当前AI的软肋在哪里。

现有的主流AI视觉系统大概分两类。第一类叫做"监督学习"模型——顾名思义，就是有人手把手教的。你给它看一百万张猫的图片，每张都贴上"这是猫"的标签，它就学会了识别猫。问题是，这种方式极度依赖人工标注，成本高昂，而且学会了识别猫，不代表它学会了分割猫的轮廓，更不代表它能判断猫到底在桌子的前面还是后面。每一项新任务，都得重新准备一批新的标注数据，重新训练一遍。

第二类叫做"自监督学习"模型，这是近年来更流行的方向。这类模型不需要人工标注，而是从海量视频或图片中自己找规律——比如把相邻帧的画面拉近、让相似的图片在特征空间里靠在一起。这类模型确实学到了很多有用的视觉特征，但有个致命问题：学完之后，它只有一堆"内部印象"，没有办法直接拿来做任务。你问它"这个物体在哪里"，它答不上来，除非你再给它准备带标注的数据、重新训练一个专门的"读出头"。这就好比一个人读了几千本书，脑子里装满了知识，却只能笔头不离书本，不能直接开口回答你的问题。

更要命的是，当这些自监督模型被拿到真实儿童的生活录像上训练时，效果比在ImageNet（一个高质量人工整理的图片数据库）上差得多。原因也很直观：孩子的视角是颠来倒去的、模糊的、重复的，家里的场景远没有精心拍摄的数据集那么"干净"。所以现有AI在儿童真实视角数据上学得很挣扎，这个现象被研究者称为"生态数据学习鸿沟"——机器和孩子处理真实世界信息的能力之间，有一道难以跨越的沟。

语言领域也存在类似的困境。大型语言模型（比如ChatGPT）确实能做到"零样本"回答问题，但那是建立在数以万亿计的文字训练数据上的。对于视觉理解，这条路还远远没有走通。

ZWM研究团队正是冲着这两道门槛而来的——既要数据高效（少量数据就能学会），又要任务灵活（不需要针对每项任务重新训练）。

二、ZWM的三块基石：像拆解一道物理题一样学会看世界

ZWM的核心设计建立在三个原则上，可以用"一次练习、举一反三、层层深入"来概括。

第一块基石叫做"稀疏时间分解预测"。具体说来，模型的训练方式是这样的：给它看两帧视频画面，相隔约150到450毫秒（大概是眨眼的速度）。第一帧画面完整呈现，第二帧画面则被大量遮挡，只随机留下大约10%的像素小块（称为"补丁"），其余90%都用黑块盖住。模型的任务是：根据第一帧的完整画面和第二帧漏出的那一点点线索，把第二帧完整预测出来。

这个训练方式看似简单，却产生了一个非常精妙的效果。因为第二帧几乎全被遮住，模型要想准确还原它，就必须从第一帧里理解物体的外观，再从第二帧那一丁点漏出的线索里推断物体和相机的运动。换句话说，外观和运动这两件事，被这道"填空题"强制拆解开了。就像侦探在案发现场只找到几枚脚印，他必须从这几枚脚印里推断出嫌疑人的行走方向，而不是依赖监控录像把整件事看清楚。正是这种"线索稀少、推断困难"的训练条件，逼迫模型内部形成了清晰的、可被利用的结构化表示。

第二块基石叫做"通过近似因果推断进行零样本提取"。这是整个框架最有创意的部分。训练完成后，模型掌握的那些"内部印象"怎么变成具体的视觉能力呢？方法是做一个简单的"反事实实验"。

以估算光流（即像素的运动方向和速度）为例：给模型看一帧图像，然后在原始图像里某个特定位置悄悄加上一个白色小点作为"探针"，再让模型预测下一帧。同时，用没有这个小点的原始图像再预测一次下一帧。把两次预测的结果相减，差异最大的地方就是那个小点"被带到了哪里"——这个位置的偏移，就是光流。这个操作不需要任何标注，不需要任何额外训练，完全依靠模型自身已经学到的世界物理规律来运作。

这套逻辑本质上是因果推断：改变一个输入，观察输出的变化，就能推断出某种因果关系。研究团队把这个过程形式化成三步——"扰动"（perturb）、"比较"（compare）、"聚合"（aggregate）——构成了所有零样本任务的通用接口。就像一个侦探通过改变现场的某件物品来观察嫌疑人的反应，从而判断这件物品对案件的重要性。

第三块基石叫做"组合式提示"。简单的提示可以像积木一样拼接成复杂的能力。光流估算是最基础的一块积木。把光流用在立体图像对（左眼和右眼各拍一张）上，就变成了深度感知——近处的东西左右视差大，远处的东西视差小。把一个假设性的运动扰动施加到某个物体上，再用光流分析哪些像素一起动了，就变成了物体分割。把物体分割和运动预测组合起来，用来推断"如果这只手推了这个杯子，杯子会不会倒"，就变成了直觉物理推理。这个逐层堆叠的过程，像极了真实儿童的认知发展：先感知运动，再感知物体，再理解物体之间的因果关系。

三、用一个孩子的眼睛训练出来的"婴儿ZWM"

研究团队把用BabyView数据集训练的模型叫做BabyZWM，而BabyView是一个真实的儿童第一视角视频数据集，包含34名年龄在5个月到5岁之间的儿童的868小时生活录像，由他们戴着头戴式摄像机在日常生活中录制。这些视频里有晃动的镜头、模糊的画面、重复的家庭场景，以及大量"摔东西"、"抓玩具"、"看妈妈烧饭"之类的日常片段——远远谈不上"高质量数据集"。

为了进一步验证模型的数据效率，研究团队还从BabyView中专门筛选出一个极端情形：只用其中一个孩子从9个月到30个月期间录制的132小时视频来训练，称之为"单子女BabyZWM"。132小时是什么概念？如果按照孩子每天清醒约10小时来算，这大概相当于13天的清醒时间。一个孩子睁眼看了13天的世界，然后AI就从这些视频里学会了理解场景——这正是研究团队想要验证的极限。

与此同时，他们还训练了按照孩子年龄顺序排列视频的版本，模拟儿童的成长过程是按时间顺序展开的、不能跳过或打乱的。在这个"年龄排序课程"版本里，研究团队还测试了不同的"整理程度"：有的版本在5分钟的时间窗口内随机打乱顺序（模拟短时记忆整合），有的在30分钟内打乱，有的在1天内打乱（模拟睡眠期间的记忆重组）。结果令人称奇：不管是哪种排列方式，模型的最终表现几乎相同，说明ZWM框架对数据顺序不敏感，具备很好的持续学习能力。

四、考试成绩单：和专业系统掰手腕

研究团队用四类视觉任务对模型进行了全面考核，每类任务都和顶尖专业系统进行了比较。

光流估算方面，BabyZWM在TAP-Vid-DAVIS基准（一个使用真实复杂视频、包含快速运动、遮挡和光照变化的高难度测试集）上表现出色，与专门用带标注数据训练的CoTracker3、DPFlow、SeaRAFT等系统不相上下，在判断像素是否被遮挡方面更是达到了和监督学习系统同等水平。在另一个合成视频测试集TAP-Vid-Kubric上，BabyZWM的成绩略低于用合成数据专门训练的系统，但整体依然强劲。和DINOv3、V-JEPA2等表示学习模型相比，BabyZWM明显更胜一筹——毕竟那些模型本来就没有为光流任务设计。

相对深度估算方面，BabyZWM在UniQA-3D测试集上的准确率超过了90%。这个测试集的题目是给你两个场景中的点，判断哪个更远。90%的准确率不仅超过了Gemini-1.5、GPT-4-Turbo、GPT-4o等大型视觉语言模型，还和专门训练的单目深度模型MiDaS-CNN、自监督深度模型MonoDepth2在同一档次。只有使用立体双目相机专门训练的FoundationStereo略胜一筹，但那是因为它有天然的硬件优势。

物体分割方面，BabyZWM在SpelkeBench测试集上的表现可以媲美Mask2Former（在大规模COCO数据集上有监督训练的专业分割系统），只有SAM2（使用了极大规模人工标注数据）的表现略高于BabyZWM。考虑到BabyZWM完全没有用任何分割标注数据，这个成绩已经相当惊人。

直觉物理推理方面，研究团队自己设计了一套全新的测试，场景是桌面上的手和物体互动：一只手推了某个物体，模型能否预测接下来会发生什么？测试覆盖了五种情况：物体的整体连贯性（推一个角，整个物体都动）、支撑关系（底部的东西被移走后上面的东西会倒）、力的传递（推A，A撞B，B也动）、力的分离（推A不影响距离较远的B）。BabyZWM在所有五种情况下的准确率都接近100%，和用大量多样化数据训练的V-JEPA2不相上下。有趣的是，用BabyView数据训练的V-JEPA2（即Baby V-JEPA2）在这些任务上表现明显较差，说明V-JEPA2的架构对真实儿童视频数据的适应能力不如ZWM——同样的数据，ZWM榨取出了更多的信息。

此外，研究团队还发现，当他们把非对称遮挡设计（第一帧全看、第二帧只露10%）改成对称遮挡（两帧各遮45%或各遮90%）时，模型的表现在所有任务上都大幅下滑。这说明"让模型被迫分离外观与运动"这个设计是整个框架能否成功的关键，不是随便什么遮挡策略都有效。

五、成长曲线：AI的"发育历程"和孩子惊人地相似

研究团队不仅测试了训练完毕的模型，还专门分析了模型在训练过程中的"成长轨迹"——相当于观察一个孩子在不同年龄段的认知能力发展。他们在训练的多个节点（0步、5000步、10000步……直到200000步，总计约等于95天的儿童清醒时间）对模型进行了全面评估。

光流能力在训练初期就迅速提升，然后趋于稳定，对应了真实儿童的运动追踪能力——婴儿在几个月内就发展出了追踪单个或多个运动物体的基本能力。深度感知能力在训练初期急剧提升并维持在高位，对应了婴儿在3到5个月时迅速发展的立体视觉，并在此后持续精细化。物体分割能力则在整个训练过程中持续提升，没有明显的平台期，对应了婴儿期漫长的物体感知学习过程。直觉物理推理在最后阶段才有明显提升，对应了儿童从模糊的整体物理预期逐渐发展出精细的因果判断——先学会"东西不会凭空消失"，再学会"圆的东西会滚"，再学会"重的东西放在轻的上面会倒"。

研究团队坦诚地指出，这些轨迹的相似性需要谨慎解读，因为不同任务的测试难度和评价指标本来就不同，很难直接比较。但这个平行性本身依然提供了一个有意思的视角：一个从视频中自学的AI，在没有人明确教它"先学运动再学物体再学物理"的情况下，自发地走出了和人类婴儿相似的认知发展路径。

六、AI的"大脑扫描"：内部结构和人脑高度相似

研究团队还做了一件特别有趣的事——把AI模型的内部表示拿去和真实人脑及猴脑的神经反应进行比较，看看它"想问题"的方式是否和生物视觉系统相似。

他们使用了两套神经数据集：一是NSD（自然场景数据集），记录了人类在看各种自然图片时大脑不同视觉区域的fMRI（功能性磁共振成像）反应；二是TVSD（腹侧视觉流脉冲放电数据集），记录了猕猴单个神经元在看图片时的电生理反应。前者捕捉的是大脑整体的"几何形状"，后者则精细到了单个神经元的细节。

评估方式是：用线性回归从模型的某一层特征去预测神经反应，看预测准确度有多高。准确度越高，说明模型的那一层和对应的大脑区域"想的越像"。

BabyZWM展现出了两个非常令人印象深刻的规律。第一，模型的浅层（前面的层）和人脑的初级视觉皮层（V1、V2等处理基本边缘、颜色的区域）最匹配，而模型的深层则和高级视觉皮层（处理复杂物体识别的区域）最匹配——这和神经科学对视觉系统分级处理的经典理解完全一致。第二，在训练过程中，初级视觉皮层的对应关系很快就建立起来了，而高级视觉皮层的对应关系则需要更长的训练时间才能达到峰值——这个"早期区域先发育"的规律，和儿童大脑的发育顺序如出一辙。

更值得一提的是，BabyZWM在这两套神经数据上的对应程度，和用远远更多、更多样化数据训练的大型ZWM版本（如BVD版本）相差无几。而Baby V-JEPA2的神经对应度则明显低于其大数据版本——这再次印证了，ZWM的架构设计帮助它更好地从有限的儿童视角数据中提炼出了和生物视觉系统类似的表示结构。

七、这项研究告诉我们什么，还有哪些没解决的问题

归根结底，ZWM做了一件很有意思的事：它不打算复制"现有AI的成功路径"——即大数据加专门训练——而是试图找到一种更接近生物认知的学习方式，用最少的原材料做出最丰富的菜肴。

从哲学层面看，这项研究为一场旷日持久的争论提供了新证据。科学界长期争论儿童的认知能力有多少是"天生"的——有人认为婴儿生来就携带着对物体、因果关系的先天知识；也有人认为这些全是后天学习的结果。ZWM给出的答案更像是一种折中：先天的可能只是学习机制本身（架构、训练目标、提取程序），而具体的知识内容则完全从经验中习得。这个"机制先天、内容后天"的假设，被模型的实际表现所支持——它确实从一个孩子十几天的视角录像里，自发地提炼出了对物体、运动、因果关系的理解。

研究团队也坦率地列出了当前的几个重要局限。首先，ZWM目前的能力集中在物理世界的理解上——运动、深度、物体、力——而语言、语义概念（比如"这是一只猫"而不仅仅是"这里有一团移动的东西"）还完全没有涉及。把视觉世界模型和儿童的语言输入结合起来，是未来重要的研究方向。其次，ZWM是一个确定性的回归模型，在不确定的情况下会产生模糊的预测（专业上叫"模式崩溃"），这限制了它在长时程预测和控制任务上的表现。未来可能需要引入概率建模来解决这个问题。第三，目前神经科学和儿童认知发展领域缺少足够精细的对比数据，使得模型和真实儿童的系统性比较还很困难，需要更多跨学科合作。

从AI工程的角度，ZWM展示的"一个模型、通用接口、零样本多任务"的能力，让人联想到大型语言模型在语言领域的突破。区别在于，语言模型用了万亿级别的训练数据，而BabyZWM只用了几百小时的儿童录像。如果这条路走得通，它对机器人、医学影像、具身AI等领域的影响会是巨大的——因为这些场景里，大规模带标注数据几乎不可能获得。

这项研究打开的大门，比它本身走过的路还要长。一个孩子的眼睛，看了不到两周，就教会了一台机器理解物理世界的基本规律。这提醒我们：学习的效率，从来都不只取决于数据的多少，更取决于我们问对了什么样的问题。

Q&A

Q1：ZWM模型和普通AI视觉模型的根本区别是什么？

A：普通AI视觉模型（无论是监督学习还是自监督学习）训练完之后，要做每一项新任务都需要额外准备带标注的数据重新训练一个"读出层"。ZWM则不同，它通过一种叫做"近似因果推断"的机制，能直接用训练好的模型做光流、深度、分割、物理推理等多种任务，完全不需要额外的标注数据和任务特定训练，这就是"零样本"能力的核心含义。

Q2：BabyZWM用的训练数据真的只有一个孩子的视频吗？

A：是的，研究中最严格的测试版本"单子女BabyZWM"只使用了一个儿童（编号S00320001，年龄9到30个月）的132小时第一视角生活录像进行训练。这些视频是在普通家庭日常生活中录制的，画质参差、场景重复，远没有经过专业整理。即便如此，这个版本在大多数视觉任务上的表现和用34个孩子共868小时数据训练的完整版BabyZWM几乎没有差距。

Q3：ZWM的非对称遮挡训练策略为什么那么重要？

A：非对称遮挡是指训练时第一帧完全可见、第二帧只露出10%。这个设计强迫模型把"物体外观"和"物体运动"这两件事分开来学习：外观从第一帧获取，运动则从第二帧那一点点漏出的像素里推断。正是这种强制分离，让模型内部形成了可以被"零样本提示"所利用的结构化表示。研究团队测试了两帧对称遮挡的变体，结果在所有任务上表现都大幅下滑，证明了这个非对称设计是整个框架成功的关键。

人工智能视觉世界模型零样本学习

分享至