微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

计算机视觉新突破：斯坦福大学让视频生成模型学会"追踪"物体运动

视频生成模型光流估计零样本学习

计算机视觉新突破：斯坦福大学让视频生成模型学会"追踪"物体运动

作者：科技行者

2025-07-22 13:23

分享至：

斯坦福大学研究团队开发了KL-tracing方法，能让视频生成AI模型在无需专门训练的情况下进行精确物体追踪。该方法通过在视频帧中添加微小追踪标记，利用模型的物理理解能力预测物体运动轨迹。在真实场景测试中，相比传统方法性能提升16.6%，展现了大型生成模型在计算机视觉任务中的潜力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-22 13:23 • 科技行者

这项由斯坦福大学的Kim Seungwoo、Aw Khai Loong、Kotar Klemen等研究人员领导的研究发表于2025年7月的arXiv预印本平台，有兴趣深入了解的读者可以通过arXiv:2507.09082v1访问完整论文。研究团队开发了一种名为"KL-tracing"的创新方法，能够让原本用于生成视频的AI模型在不经过任何专门训练的情况下，准确追踪视频中物体的运动轨迹。

在我们的数字时代，视频中的物体追踪技术就像是给计算机安装了一双"眼睛"，让它能够理解画面中的物体是如何移动的。这种技术被广泛应用于自动驾驶汽车、体育比赛分析、医学影像诊断等领域。传统的方法就像是给计算机提供了一本"教科书"，需要大量的标注数据来训练模型识别物体的运动规律。然而，斯坦福大学的研究团队发现了一个巧妙的方法：他们发现那些原本用来生成视频的AI模型，实际上已经在学习过程中自发地掌握了物体运动的规律，就像一个天生具有艺术天赋的人，即使没有专门学过绘画，也能凭直觉画出不错的作品。

这项研究的核心创新在于，研究团队没有像传统方法那样从零开始训练一个专门的物体追踪模型，而是发现了如何"唤醒"已有视频生成模型中隐藏的追踪能力。他们的方法就像是在一张白纸上滴一滴墨水，然后观察这滴墨水在水流中是如何扩散和移动的。具体来说，他们在视频的第一帧中添加一个微小的白色光点作为"追踪标记"，然后让视频生成模型预测下一帧的画面，通过比较有标记和无标记的预测结果，就能精确地找到物体移动到了哪里。

这种方法的美妙之处在于它的通用性和零成本特性。传统的物体追踪方法需要大量的人工标注数据，就像是需要请很多老师来教一个学生如何识别物体的运动。而这项研究的方法则完全不需要额外的训练数据，就像是发现了一个学生原来早就会这项技能，只需要用对方法来激发它。更令人惊喜的是，这种方法在处理一些传统方法难以应对的复杂场景时表现出色，比如物体被遮挡、快速运动、或者在纹理单一的背景中移动等情况。

一、传统物体追踪方法的困境与挑战

物体追踪技术的发展历程就像是人类学习观察世界的过程。最初，计算机就像一个刚学会看东西的婴儿，需要依靠最基本的视觉特征来识别物体。传统的物体追踪方法主要分为两大类：一类是有监督学习方法，另一类是无监督学习方法。

有监督学习方法就像是给学生提供了标准答案的练习册。研究人员需要制作大量的训练数据，在每一帧视频中精确标注物体的位置，然后让AI模型通过不断练习来学会识别物体的运动规律。这类方法的代表有RAFT和SEA-RAFT等模型。然而，这种方法面临一个根本性的问题：现实世界中的视频数据极其复杂多样，人工标注的成本非常高昂，而且几乎不可能涵盖所有可能的情况。更重要的是，这些方法通常在合成数据集上训练，就像是让学生只做教科书上的练习题，当面对真实考试时往往表现不佳。

无监督学习方法试图解决这个问题，它们就像是让学生通过观察自然现象来自学。这类方法利用一些基本的物理假设，比如相邻帧之间的物体外观应该保持一致，或者物体的运动应该是平滑连续的。代表性的方法包括Doduo和SMURF等。这些方法虽然不需要人工标注，但它们依赖的基本假设在复杂的真实场景中往往不成立。当光照条件发生变化、物体被遮挡、或者出现快速运动时，这些假设就会失效，导致追踪精度大幅下降。

更深层次的问题在于，无论是有监督还是无监督方法，它们都是专门为物体追踪任务设计的，模型的能力相对有限。就像是用专门的工具只能做特定的事情，这些方法在面对新的场景类型或者极端情况时，往往缺乏足够的泛化能力。特别是在处理一些需要物理推理的场景时，比如牛顿摆实验中球的碰撞，传统方法很难理解球与球之间的相互作用关系。

研究团队发现，现有方法的这些局限性本质上源于它们对世界理解的不完整性。传统的物体追踪方法更像是在学习表面的视觉模式，而不是真正理解物体运动的内在规律。正是基于这样的认识，研究团队开始思考：是否存在一种已经对世界有更深入理解的AI模型，能够被用来解决物体追踪问题？

二、大型视频生成模型的潜在追踪能力

近年来，大型视频生成模型的发展就像是AI领域的一场革命。这些模型通过观看海量的网络视频，学会了生成逼真的动态画面。它们就像是一个看过无数电影的导演，能够凭直觉创造出符合物理规律和视觉常识的视频片段。研究团队敏锐地意识到，这些模型在学习生成视频的过程中，必然也学会了理解物体是如何运动的。

这种直觉并非空穴来风。当一个视频生成模型能够准确预测一个球从桌子上滚落的下一帧画面时，它实际上已经掌握了重力、惯性、碰撞等物理概念。当它能够生成一个人走路的连续动作时，它已经理解了人体运动的基本规律。这些知识以某种隐式的方式储存在模型的参数中，就像是一个经验丰富的画家，即使不能用语言准确描述透视原理，也能凭直觉画出具有正确空间关系的画面。

然而，如何从这些视频生成模型中提取出物体追踪的能力，却是一个全新的挑战。传统的做法可能是对这些模型进行微调，就像是给一个会画画的艺术家专门教授摄影技巧。但这种方法存在明显的问题：首先，微调需要大量的标注数据，这又回到了传统方法的老问题；其次，微调可能会破坏模型原有的生成能力，就像是为了学习新技能而忘记了原来的特长。

研究团队采用了一种更加巧妙的方法，他们没有试图改变模型本身，而是设计了一种特殊的"提示"方法来激发模型已有的追踪能力。这种方法的灵感来自于反事实世界模型（Counterfactual World Model, CWM）的概念。简单来说，就是通过比较两个略有不同的情况，来推断事物的因果关系。

具体的做法是这样的：研究团队在视频的第一帧中添加一个微小的白色光点，就像是在一张照片上点一个小亮点。然后让视频生成模型分别预测原始视频和带有光点视频的下一帧。通过比较这两个预测结果的差异，就能找到光点在下一帧中的位置，从而实现物体追踪。这种方法的巧妙之处在于，它利用了模型对世界的深层理解，而不是依赖表面的视觉特征匹配。

这种方法的理论基础是，一个真正理解物体运动规律的模型，应该能够准确预测一个微小扰动（光点）在下一帧中的位置。如果一个球正在向右滚动，那么球表面的任何标记都应该随着球一起向右移动。如果一个人正在走路，那么人身上的任何标记都应该随着人体的运动而移动。这种方法本质上是在测试模型对物理世界的理解程度。

三、不同生成模型的追踪能力评估

研究团队并没有盲目地认为所有的视频生成模型都具有相同的追踪能力。相反，他们系统地评估了不同类型的模型，就像是测试不同品牌的汽车在同一条路上的表现。这个评估过程揭示了一些有趣的发现，并最终指向了一个重要的结论：模型的架构设计对其追踪能力有着决定性的影响。

首先，他们测试了确定性模型的表现。这类模型的代表是反事实世界模型（CWM），它就像是一个只能给出标准答案的学生。当面对一个场景时，它只能预测一个确定的结果，而不能表达不确定性。这种特性在处理复杂场景时就会出现问题。比如，当一个球可能向左滚也可能向右滚时，确定性模型会预测一个"平均"的结果，导致球看起来停在中间，产生模糊的图像。这种模糊性不仅影响了视觉效果，更重要的是，它会"稀释"研究团队添加的追踪标记，使得标记在预测图像中变得不明显，难以准确定位。

研究团队发现，CWM在处理追踪任务时就像是一个视力不好的人试图跟踪一个快速移动的物体。由于模型输出的图像本身就是模糊的，添加的白色光点标记也变得模糊不清，这大大降低了追踪的精度。更严重的是，在那些没有添加标记的区域，模糊性也会导致微小的颜色变化，这些变化在计算差异时会产生噪声，干扰真实的追踪信号。

接下来，他们测试了扩散模型的表现，代表是稳定视频扩散（Stable Video Diffusion, SVD）。这类模型就像是一个能够产生多种创意想法的艺术家，它能够生成清晰、多样化的图像。然而，SVD面临着另一个问题：控制粒度过于粗糙。这就像是用一把大刷子去画精密的细节画。SVD的工作原理是通过一个全局的编码向量来控制整个视频的生成过程，这个向量就像是一个总的"指令"，告诉模型要生成什么样的视频。

当研究团队试图在SVD中添加一个微小的追踪标记时，他们发现这个标记会影响整个全局编码向量，进而影响整个画面的生成。这就像是试图在一幅已经完成的油画上添加一个小细节，结果却导致整幅画的风格都发生了变化。由于SVD无法进行精确的局部控制，添加的标记往往会在生成过程中被"重新解释"或"重新安排"，导致标记出现在错误的位置，或者产生不相关的视觉变化。

研究团队还测试了自回归模型的表现，代表是Cosmos模型。这类模型就像是一个按照固定顺序工作的装配线工人，它必须按照从左到右、从上到下的顺序来生成图像的每一个部分。这种工作方式在处理追踪任务时存在天然的局限性。

Cosmos模型的问题在于它的"视野"受限。当模型开始生成一帧图像时，它只能看到已经生成的部分，就像是一个只能看到拼图左上角的人试图完成整个拼图。研究团队尝试了三种不同的方法来使用Cosmos进行追踪：第一种是只提供目标帧左上角10%的信息，第二种是在生成过程中随机提供10%的正确信息，第三种是提供完整的目标帧信息。

结果发现，第一种方法完全失败了，因为左上角的信息对于理解整个画面来说太少了，就像是只看到汽车的一个轮子就要猜测整辆车的运动方向。第二种方法也表现不佳，因为分散的信息片段无法形成连贯的理解。第三种方法虽然能够生成正确的图像，但由于模型已经"知道"了答案，追踪标记反而消失了，失去了追踪的意义。

通过这一系列的测试，研究团队总结出了一个成功的追踪模型应该具备的三个关键特性：首先，模型必须能够预测概率分布而不是确定性结果，这样才能避免模糊性问题；其次，模型必须采用局部编码方式，每个图像区域都有独立的表示，这样才能进行精细的局部控制；最后，模型必须支持随机访问解码，能够根据任意的局部信息来生成对应的图像区域。

这三个特性就像是一个完美追踪系统的三个支柱，缺一不可。研究团队惊喜地发现，最近提出的局部随机访问序列（Local Random Access Sequence, LRAS）模型恰好同时具备了这三个特性，这为他们的研究提供了理想的实验平台。

四、LRAS模型与KL-tracing方法的创新设计

当研究团队发现LRAS模型具备理想的追踪能力基础时，他们意识到找到了一个完美的工具。LRAS模型就像是一个既有艺术天赋又有技术精度的工匠，它能够生成高质量的视频，同时还能进行精确的局部控制。然而，即使是这样优秀的模型，在实际应用中仍然面临一个微妙但重要的问题：采样随机性。

LRAS模型的工作原理就像是一个能够同时处理多个任务的多面手。它将每一帧图像分割成许多小块，每个小块都有自己独立的表示和生成过程。这种设计使得模型能够根据需要只更新图像的特定区域，而不影响其他区域。更重要的是，模型能够根据任意给定的图像片段来推断和生成其他区域的内容，这种"随机访问"的能力正是追踪任务所需要的。

当研究团队将传统的追踪方法应用到LRAS模型上时，他们发现了一个有趣的现象。虽然LRAS能够生成高质量的预测图像，但即使是相同的输入，模型每次生成的结果都会略有不同。这种差异就像是同一个画家画同一幅画，每次都会有微小的笔触变化。这种随机性在正常的视频生成任务中是有益的，因为它增加了生成内容的多样性。但在追踪任务中，这种随机性会产生噪声，干扰真实的追踪信号。

具体来说，当研究团队比较有标记和无标记的两个预测图像时，他们发现即使在没有标记的区域，两个图像也会有微小的差异。这些差异纯粹是由于采样随机性造成的，与物体运动无关。但在计算图像差异时，这些随机噪声会与真实的追踪信号混在一起，就像是在一个嘈杂的环境中试图听清楚特定的声音。

为了解决这个问题，研究团队开发了一种名为KL-tracing的创新方法。这种方法的核心思想是绕过图像层面的比较，直接在模型的"思考"层面进行比较。具体来说，不是比较最终生成的图像，而是比较模型在生成过程中的内部预测分布。

KL-tracing方法的工作原理就像是比较两个人的"想法"而不是他们的"行为"。当一个人在思考时，他的大脑中会有各种可能的想法和判断。即使最终的行为可能看起来相似，但内在的思考过程可能会有显著差异。同样，当LRAS模型预测下一帧图像时，它会为每个图像区域计算一个概率分布，表示该区域可能呈现的各种颜色和纹理。

KL-tracing方法通过计算这些概率分布之间的KL散度（Kullback-Leibler divergence）来量化差异。KL散度是一个数学概念，用来衡量两个概率分布之间的差异程度。在追踪任务中，如果一个区域的概率分布发生了显著变化，说明追踪标记很可能移动到了该区域。相反，如果一个区域的概率分布几乎没有变化，说明该区域不太可能是标记的目标位置。

这种方法的优势在于它能够捕捉到非常微妙的信号变化。有时候，添加的追踪标记在最终的RGB图像中可能看起来很微弱，甚至肉眼都难以察觉。但在概率分布层面，这种变化会被显著地放大。就像是一个经验丰富的医生能够通过听诊器听到患者心脏的微小异常，即使这些异常在外表上完全看不出来。

KL-tracing方法还有另一个重要优势：它能够自然地处理遮挡问题。当一个物体被遮挡时，对应区域的概率分布会变得更加不确定，KL散度值会相应降低。通过设置合适的阈值，系统就能够自动判断一个点是否被遮挡，而不需要专门的遮挡检测算法。

整个KL-tracing的工作流程简洁而优雅：首先，在原始视频的第一帧中添加一个微小的白色高斯光点作为追踪标记；然后，让LRAS模型分别预测原始视频和带标记视频的下一帧，但不生成最终的RGB图像，而是保留中间的概率分布；最后，计算每个图像区域的KL散度，取散度最大的区域作为追踪目标的新位置。

这种方法的美妙之处在于它完全是零样本的，不需要任何额外的训练数据或模型调整。它就像是发现了一个天然存在的能力，只需要用对方法就能激发出来。更重要的是，由于LRAS模型是在大规模真实视频数据上训练的，它对复杂的真实世界场景有着深入的理解，这使得KL-tracing方法在处理各种挑战性场景时都能保持出色的性能。

五、实验结果与性能表现

研究团队对KL-tracing方法进行了全面而严格的实验验证，就像是让一个新发明的工具在各种不同的工作环境中接受测试。他们选择了两个具有代表性的数据集：TAP-Vid DAVIS和TAP-Vid Kubric。这两个数据集就像是两个不同的考试，一个考察在真实世界中的表现，另一个考察在理想条件下的表现。

TAP-Vid DAVIS数据集包含了真实世界的视频片段，这些视频涵盖了各种复杂的场景：有快速移动的物体、复杂的光照变化、物体遮挡、运动模糊等挑战性情况。这个数据集就像是一个包含各种复杂路况的驾驶考试场地，能够真实反映算法在实际应用中可能遇到的各种困难。相比之下，TAP-Vid Kubric是一个合成数据集，虽然场景设置相对简单，但提供了完美的标注信息，可以用来测试算法的基本性能。

实验结果令人振奋。在TAP-Vid DAVIS数据集上，KL-tracing方法在关键指标上取得了显著的改进。具体来说，在端点误差（即预测位置与真实位置之间的距离）方面，KL-tracing方法比现有最好的方法提高了16.6%。这个改进幅度就像是一个射手的命中率从80%提升到93%，看似不大的百分比提升，在实际应用中却意味着质的飞跃。

更令人印象深刻的是，这种改进是在完全没有针对性训练的情况下实现的。传统的方法需要在相关数据集上进行训练或微调，而KL-tracing方法使用的LRAS模型从未见过任何追踪任务的训练数据。这就像是一个从未专门练习过射箭的人，仅凭对物理规律的理解就能在射箭比赛中击败专业选手。

在TAP-Vid Kubric数据集上，KL-tracing方法同样表现出色，端点误差相比最佳基线方法提高了4.7%。虽然改进幅度相对较小，但考虑到这是在合成数据集上的结果，而LRAS模型是在真实数据上训练的，这个结果实际上证明了方法的强大泛化能力。

为了更直观地展示方法的有效性，研究团队还展示了一系列具有挑战性的实际案例。在牛顿摆实验的例子中，传统的视觉匹配方法很难理解球与球之间的物理相互作用。当中间的球被碰撞时，传统方法可能会认为球只是消失了，因为从视觉上看，前后两帧中同一位置的球看起来完全一样。但KL-tracing方法能够理解这种物理过程，正确地追踪到球的运动轨迹，即使球在视觉上看起来没有变化。

在地球仪旋转的例子中，传统方法面临着纹理匮乏的挑战。海洋区域基本上是均匀的蓝色，没有明显的视觉特征可以用来追踪。但KL-tracing方法能够利用模型对三维旋转的理解，即使在纹理单一的区域也能准确追踪点的位置。这种能力就像是一个对地理非常熟悉的人，即使在茫茫大海中也能凭借对地球结构的理解来判断方向。

在快速运动和运动模糊的场景中，KL-tracing方法也展现了显著的优势。传统方法在处理运动模糊时往往会失败，因为模糊破坏了视觉特征的连续性。但KL-tracing方法能够利用模型对运动物理学的理解，即使在模糊的情况下也能推断出物体的运动轨迹。

特别值得注意的是，KL-tracing方法在处理遮挡问题时表现出了独特的优势。当一个物体被遮挡时，传统方法往往会丢失追踪目标或产生错误的预测。但KL-tracing方法能够通过概率分布的变化来判断遮挡的发生，并在物体重新出现时准确地重新获取追踪目标。这种能力就像是一个经验丰富的侦探，即使目标暂时消失在视野中，也能根据周围环境的变化来推断目标的可能位置。

研究团队还发现，KL-tracing方法在长时间追踪任务中表现稳定。许多传统方法在短时间内表现良好，但随着时间推移，误差会逐渐累积，最终导致追踪失败。而KL-tracing方法由于依赖的是模型对物理世界的深层理解，而不是表面的视觉特征匹配，因此能够在长时间追踪中保持稳定的性能。

六、方法局限性与未来发展方向

尽管KL-tracing方法取得了令人瞩目的成果，但研究团队也坦诚地讨论了方法的局限性和潜在的改进方向。这种诚实的态度就像是一个优秀的工程师，在展示新发明的同时也指出了需要进一步完善的地方。

首先，计算效率是一个需要关注的问题。KL-tracing方法需要对每个追踪点运行两次LRAS模型推理，这比传统的专门化追踪方法要慢得多。就像是用一台功能强大但体积庞大的超级计算机来完成一个简单的计算任务，虽然结果准确，但效率不高。LRAS模型有70亿个参数，每次推理都需要大量的计算资源。相比之下，专门的追踪模型通常只有几百万个参数，能够实时处理视频流。

这个问题在实际应用中可能会成为一个障碍。比如，在自动驾驶汽车中，系统需要实时追踪道路上的各种物体，任何延迟都可能带来安全风险。目前的KL-tracing方法虽然准确度高，但难以满足实时性的要求。不过，研究团队提出了一个有趣的解决方案：可以将KL-tracing方法作为一个"老师"，用它生成高质量的追踪标签，然后训练一个更小、更快的"学生"模型来执行实时追踪任务。

其次，方法的泛化能力虽然强，但仍然受限于底层模型的训练数据。LRAS模型是在网络视频数据上训练的，虽然这些数据涵盖了广泛的场景，但仍然可能存在一些盲点。比如，在一些极端的科学实验场景中，或者在一些非常规的视觉效果中，模型可能无法正确理解物理规律。这就像是一个见多识广的人，在面对完全陌生的情况时仍然可能出现误判。

另外，当前的方法主要专注于二维图像平面上的追踪，对于三维空间中的深度变化处理还不够完善。虽然LRAS模型具有一定的三维理解能力，但在处理复杂的三维运动时，仍然存在改进的空间。这个问题在处理快速靠近或远离摄像机的物体时尤为明显。

研究团队还指出，当前的方法需要手动设置一些参数，比如追踪标记的大小和强度。虽然这些参数在大多数情况下表现良好，但在某些特殊场景中可能需要调整。一个更理想的系统应该能够自动适应不同的场景条件，就像是一个智能的相机能够自动调整焦距和曝光设置。

尽管存在这些局限性，研究团队对方法的未来发展充满信心。他们认为，随着视频生成模型的不断改进，KL-tracing方法的性能也会相应提升。特别是，随着新的模型架构的出现，可能会有更多具备理想特性的模型可供选择。

更重要的是，这项研究开创了一个新的研究方向：如何从大型生成模型中提取特定的视觉能力。研究团队认为，类似的方法可能适用于其他视觉任务，比如深度估计、表面法线预测、物体分割等。这就像是发现了一个宝藏，里面可能还有更多有价值的东西等待发掘。

研究团队还提到了将这种方法扩展到更复杂任务的可能性。比如，可以同时追踪多个物体，或者进行长期的轨迹预测。这些扩展将进一步证明大型生成模型在理解物理世界方面的潜力。

七、技术创新的更深层意义

KL-tracing方法的成功不仅仅是一个技术突破，更代表了计算机视觉领域思维方式的重要转变。这种转变就像是从传统的"专业化分工"模式转向"通用智能"模式，反映了人工智能发展的一个重要趋势。

传统的计算机视觉方法遵循着"一个任务一个模型"的思路，就像是工厂流水线上的专业工人，每个人只负责一个特定的工序。这种方法在特定任务上可能表现很好，但缺乏灵活性和适应性。当面对新的场景或任务时，往往需要重新设计算法或收集新的训练数据。

KL-tracing方法展示了另一种可能性：利用具有通用理解能力的大型模型来解决特定任务。这就像是请一个博学的学者来解决各种不同的问题，虽然他可能不是每个领域的专家，但他的广泛知识和深入理解使他能够快速适应新的挑战。

这种方法的哲学基础是，真正的智能应该具有迁移学习的能力。人类在学会走路之后，不需要重新学习就能骑自行车，因为这两种技能都涉及平衡和协调。同样，一个真正理解物理世界的AI模型，应该能够将这种理解应用到各种相关任务中。

从技术实现的角度来看，KL-tracing方法也展示了一种新的模型利用方式。传统的做法是通过微调或重训练来适应新任务，这种方法就像是改造一个工具来适应新的用途。而KL-tracing方法则是通过巧妙的提示工程来激发模型的潜在能力，就像是发现了工具的新用法，而不需要改变工具本身。

这种方法的优势在于它的通用性和可扩展性。一旦找到了合适的提示方法，就可以立即应用到任何具有相应能力的模型上，而不需要额外的训练。这大大降低了应用新技术的门槛，也为快速原型开发提供了可能。

更重要的是，这种方法揭示了大型生成模型中隐藏的丰富知识。就像是考古学家发现了一个埋藏的宝库，KL-tracing方法表明，这些看似只会生成图像的模型，实际上蕴含着对物理世界的深刻理解。这种理解不是通过明确的教学获得的，而是通过观察大量数据自然涌现出来的。

这个发现对人工智能的发展具有深远的意义。它表明，随着模型规模的增大和训练数据的增加，AI系统可能会自发地学会许多我们没有明确教授的技能。这就像是一个孩子通过观察世界自然地学会了许多常识，而不需要每个概念都单独教授。

从更广阔的视角来看，KL-tracing方法也体现了"涌现智能"的概念。当一个系统足够复杂，并且接受了足够多样化的训练时，它可能会表现出超出设计者预期的能力。这些能力不是被明确编程进去的，而是在学习过程中自然涌现出来的。

这种现象在生物智能中也很常见。人类的大脑并不是专门为解决数学问题而进化的，但我们却能够进行复杂的数学推理。这是因为大脑在进化过程中发展出了一般性的认知能力，这些能力可以被应用到各种不同的任务中。

KL-tracing方法的成功也为我们理解智能的本质提供了新的视角。它表明，智能可能不是由大量专门化的模块组成的，而是由一个能够灵活适应不同任务的通用系统构成的。这种观点与传统的模块化智能理论形成了有趣的对比。

说到底，KL-tracing方法的真正价值不仅在于它解决了物体追踪问题，更在于它开启了一扇通往更广阔智能世界的大门。它向我们展示了，当我们学会正确地"询问"AI系统时，我们可能会发现它们知道的远比我们想象的要多。这种发现不仅推动了技术的发展，也深化了我们对智能本质的理解。

正如研究团队所说，这项工作代表了从传统的监督学习或基于光度损失的方法向可控生成模型的零样本提示方法的转变。这种转变可能会在计算机视觉领域引发更广泛的变革，就像大型语言模型改变了自然语言处理领域一样。未来，我们可能会看到更多类似的方法被应用到其他视觉任务中，推动整个人工智能领域向着更加通用、更加智能的方向发展。

Q&A

Q1：KL-tracing是什么？它与传统物体追踪方法有什么不同？ A：KL-tracing是一种让视频生成AI模型进行物体追踪的新方法，就像在视频第一帧添加一个小光点，然后让AI预测这个光点在下一帧的位置。与传统方法不同，它不需要专门训练，而是利用AI模型在学习生成视频时自然获得的物理理解能力。传统方法需要大量标注数据训练，而KL-tracing是零样本的，完全不需要额外训练。

Q2：为什么视频生成模型能够用来追踪物体？它们不是用来创造视频的吗？ A：视频生成模型在学习创造视频的过程中，必须理解物体是如何运动的，比如球如何滚动、人如何走路等物理规律。这些知识隐含在模型中，就像一个会画画的人虽然没专门学过物理，但画运动场景时会凭直觉遵循物理规律。研究团队发现了如何"唤醒"这些隐藏的追踪能力。

Q3：KL-tracing方法有什么局限性？普通人能用吗？ A：目前KL-tracing方法计算量很大，需要强大的计算资源，还不能实时处理视频。就像用超级计算机做简单计算，虽然准确但效率不高。研究团队建议可以用它生成高质量追踪数据，然后训练更小更快的模型。目前这还是研究阶段的技术，普通人暂时无法直接使用，但未来可能会有更实用的版本。

视频生成模型光流估计零样本学习

分享至