微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 韩国科学技术院与谷歌DeepMind联手:让AI像人眼一样追踪视频里每个点的三维运动轨迹

韩国科学技术院与谷歌DeepMind联手:让AI像人眼一样追踪视频里每个点的三维运动轨迹

2026-05-20 11:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-20 11:35 科技行者

这项由韩国科学技术院(KAIST AI)与谷歌DeepMind联合完成的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.12587。感兴趣的读者可以通过该编号在arXiv平台上查阅完整原文。

**一段视频,藏着多少秘密?**

当你拿起手机录下一段奔跑的小狗,这段视频里其实藏着无数条隐形的"运动轨迹"——小狗鼻尖的轨迹、尾巴尖的轨迹、每根毛发的轨迹,甚至背景里那片随风摇摆的草叶的轨迹。如果一台机器能精确地追踪视频里每一个点在三维空间中的完整运动路径,那它就拥有了理解动态世界的基础能力,进而可以帮助机器人抓取物体、重建动态场景,甚至控制视频生成的效果。

这件事听起来不难,但实际上极具挑战性。摄像头本身在移动,场景里的物体也在动,两种运动叠加在一起,让机器很难分清哪些位移是摄像头造成的、哪些才是物体真实的三维运动。更困难的是,当某个点被遮住了——比如小狗的爪子迈步时暂时被身体挡住——机器还得在那段时间里"记住"这个点,等它重新出现时继续追踪。

正是为了解决这个问题,来自韩国科学技术院和谷歌DeepMind的研究团队提出了一个名为 **TrackCraft3R** 的新方法。他们的核心想法颇为大胆:与其从零开始训练一个追踪系统,不如去"改造"一个已经看过海量互联网视频、深度理解视频运动规律的人工智能模型,让它重新承担追踪任务。这个被改造的模型,正是近年来大红大紫的"视频扩散变换器"(video diffusion transformer,简称视频DiT)。

TrackCraft3R在多个公开测试基准上刷新了最佳成绩,同时比此前最强的竞争方法快了1.3倍,内存占用更是仅有对方的五分之一左右。这意味着它不仅更准,还更省资源——这对实际应用来说是非常实在的优势。

**一、追踪三维轨迹,到底难在哪里**

要理解TrackCraft3R解决了什么问题,先得搞清楚"三维追踪"和普通的"视频追踪"有什么区别。

普通的视频追踪,是在一张张平面画面里找到同一个物体的位置,就像在连续的相片里标注"小狗在哪里"。而三维追踪要做的事情更深一层:它不仅要知道小狗的爪子在画面里的哪个像素,还要知道这个爪子在真实三维空间里的坐标——距离摄像机多远、偏左偏右多少、偏高偏低多少——并且要在整段视频里,把第一帧里标注的每一个点的三维坐标变化都完整记录下来。

这件事为什么有价值?因为三维坐标排除了摄像机自身运动的干扰。当摄像机向右移动时,画面里所有东西都向左"漂移",但如果你已经知道了三维坐标,这种干扰就可以被抵消,剩下的才是物体真实的运动。对机器人来说,它需要知道抓手接触物体时的真实三维位置,而不是画面里的像素坐标;对动态场景重建来说,三维轨迹是重建运动物体形态的基础。

早期的三维追踪方法大多借鉴二维追踪的思路,采用迭代更新的方式:先给出一个粗略的轨迹估计,然后一轮一轮地修正,直到结果收敛。这类方法完全从合成数据集上从头训练,缺乏对真实世界视频运动规律的理解,在面对复杂场景时常常力不从心。

近年出现的一批新方法则转向了另一个思路:去利用已有的三维重建模型的空间理解能力。这些模型能从静态多视角图像中重建三维场景,空间几何能力很强,但它们是从静态图像上学出来的,对动态视频里的运动规律所知甚少。

在这两条路之外,还有一类强大的模型一直没有被充分利用:视频生成模型。这类模型在互联网规模的真实视频上训练,对视频里"东西怎么动"有深入的"直觉"。TrackCraft3R的研究团队意识到,这种运动直觉恰恰是三维追踪最需要的东西,于是决定走一条全新的路。

**二、视频生成模型是什么,为什么适合做追踪**

这里需要稍微解释一下视频扩散变换器是什么,因为它是整个故事的核心。

扩散模型是近年来生成图片和视频的主流技术。它的训练方式有点像学习"反向时光机":先把一张清晰的图片逐步加上随机噪声,直到变成一团乱码,然后让模型学习如何把这团乱码一步步还原回清晰图片。通过反复练习这种"去噪"过程,模型逐渐掌握了图片或视频的深层规律。变换器(transformer)则是负责处理这个过程中每个位置之间关系的神经网络结构,它能让模型同时关注画面里所有位置的相互关系,以及不同时间帧之间的关联。

视频扩散变换器(视频DiT)结合了两者的优势,在大量真实视频上训练之后,它对"一段视频里的内容应该如何随时间变化"有了非常丰富的先验知识。打个比方,这就好比一个看过几十亿段视频的人,他对"球被扔出去之后会怎么飞"、"人走路时腿脚如何配合"有深刻的直觉认知,即便遮住部分画面,他也能合理地推断出被遮住部分的样子。

然而,视频DiT有一个根本性的问题:它的工作方式是"以每帧为锚点"的。什么意思呢?它生成视频时,是在每一帧里分别预测"这一帧的内容是什么",每帧都有自己的坐标系,帧与帧之间是独立的。而三维追踪需要的是"以参考帧为锚点"的工作方式——把第一帧里的每一个点作为出发点,追踪它在后续每一帧里跑去了哪个三维位置。这两种工作方式从根本上就不兼容。

如何把"以每帧为锚点"的生成模型改造成"以参考帧为锚点"的追踪模型,正是TrackCraft3R需要解决的核心技术问题。

**三、研究团队如何重新定义问题**

在介绍解决方案之前,先了解一下研究团队如何精确地描述这个问题。

他们引入了两种"点图"(pointmap)的概念来区分输入和输出。第一种叫做"重建点图",是以每一帧自身的内容为参考的:第j帧里的每个像素,对应的是该像素在第j帧时刻的三维坐标。这种点图可以通过现成的深度估计模型和相机位姿估计模型来获得,把每帧的深度图结合相机参数,投影到统一的世界坐标系下即可得到。

第二种叫做"追踪点图",是以第一帧的内容为参考的:对第一帧里的每一个像素,追踪它所代表的那个物理点在第j帧时刻的三维坐标。这两种点图的区别可以用一个直观的场景来理解:假设视频里有一个人在走路。在第5帧的重建点图里,某个位置记录的是"第5帧这个画面位置处的地面"的坐标;而在第5帧的追踪点图里,对应第一帧里"那个人的左脚"位置的条目,记录的是"第一帧里那个人的左脚,到了第5帧之后运动到了三维空间中的什么位置"。

研究团队的任务,就是在给定视频和对应的重建点图的条件下,预测追踪点图——以及一张"可见性地图",记录第一帧里的每个点在后续各帧中是否可见(即是否被遮挡)。

**四、双潜变量表示:给模型配备两套感知器**

TrackCraft3R的第一个核心设计叫做"双潜变量表示"(dual-latent representation)。要理解这个设计,先了解一下视频DiT内部的工作原理。

视频DiT在处理视频时,不是直接操作原始像素,而是先通过一个叫做"变分自编码器"(VAE)的网络把视频压缩成一组更紧凑的"潜变量"表示,在这个压缩的空间里进行推理,最后再解码回像素空间。这种压缩类似于把一段视频先转换成一套关键特征码,在关键特征码的层面上进行分析,比直接处理原始像素效率高得多。

研究团队为每一帧构建了两组潜变量,分别扮演不同的角色,就像侦探工作中的"现场勘查员"和"线索档案员"两种不同职责。

第一组叫做"几何潜变量"(geometry latent),扮演"现场勘查员"的角色。对视频里的每一帧,研究团队把这一帧的RGB图像和对应的重建点图分别通过各自的VAE编码器压缩,然后把两组编码在通道维度上拼接起来,形成几何潜变量。这样,几何潜变量同时包含了"这一帧长什么样"和"这一帧的三维几何是什么"两方面的信息,是每一帧的完整三维快照。

第二组叫做"追踪潜变量"(track latent),扮演"线索档案员"的角色。追踪潜变量的构造方式非常巧妙:把第一帧的几何潜变量复制到每一个时间步。换句话说,对视频的每一帧,都有一个对应的追踪潜变量,但它们的初始内容全部来自第一帧——它们代表的是"第一帧里的那些点,在这个时间步应该跑到哪里"这个待解答的问题。

把所有帧的几何潜变量和追踪潜变量拼接在一起,送入视频DiT进行处理。视频DiT内部的全三维注意力机制,让每一个追踪潜变量(代表第一帧里的一个点)能够"看到"所有帧的几何潜变量(代表各帧的三维场景),从而找到匹配的位置,取出对应的三维坐标。这就像档案员拿着第一帧的"通缉令",在每一帧的"现场记录"里逐一比对,找出同一个物理点的当前位置。

RGB信息在这个过程中充当视觉匹配的线索——第一帧里某个点的外观特征,帮助在后续帧的几何潜变量中定位同一个点;而点图信息则直接提供三维坐标,一旦找到了匹配位置,对应的三维坐标就从点图潜变量里直接读出来。

**五、时序RoPE对齐:给追踪潜变量贴上"目标时刻标签"**

有了双潜变量表示,还需要解决另一个问题:每个追踪潜变量应该去找哪一帧的几何潜变量?

这个问题的答案看似显而易见——第j帧的追踪潜变量当然应该去找第j帧的几何潜变量。但视频DiT的注意力机制本身并不知道这一点,它只知道所有token之间的相对位置关系。如果不加任何干预,追踪潜变量可能会混乱地注意到各个时间帧的几何潜变量,搞混时间顺序。

研究团队的解决方案是"时序旋转位置编码对齐"(temporal RoPE alignment)。旋转位置编码(RoPE)是一种在变换器中编码位置信息的技术,它让模型通过token之间的相对位置差来感知远近关系,位置越接近的token之间的注意力权重越强。

在标准的视频DiT里,每一帧的token会被赋予对应的时间步编号作为时序位置编码。研究团队的改造很简单却非常有效:把第j帧的追踪潜变量赋予与第j帧几何潜变量完全相同的时序位置编码。这样,由于RoPE的特性,时序位置相同的token之间会产生更强的注意力交互,追踪潜变量r?就会主要关注几何潜变量g?(因为它们的时序位置相同),而不会混淆到g?或g?。

研究团队通过可视化实验直观地验证了这一点。他们把第5帧的追踪潜变量对各帧几何潜变量的注意力权重画出来,发现注意力高度集中在g?上(平均注意力质量约占总量的29%-30%),其他帧的几何潜变量只获得了很少的注意力。这证明时序RoPE对齐确实有效地为每个追踪潜变量指定了正确的目标时刻。

更进一步,在找到了正确时刻的几何潜变量之后,注意力机制还需要在这一帧内找到匹配的空间位置。研究团队的可视化显示,在特定的变换器层(尤其是中间层,如第10-18层),注意力会精确地聚焦在与追踪点位置对应的物理点上,即便该点因为物体运动而在画面里移动了位置。不同层承担不同的功能:一些层根据RoPE初始化的位置进行注意,另一些层则真正建立跨帧的对应关系,而且这种分工在不同的视频样本上表现出一致的规律性。

**六、残差预测与可见性输出:追踪更稳、更完整**

在模型输出端,研究团队还做了两个细节设计。

第一个是"残差位移预测"。直觉上,模型应该直接预测第一帧里每个点在第j帧的三维坐标。但研究团队发现,预测"相对于第一帧的位移"(即三维坐标的变化量)比直接预测绝对坐标效果更好。原因在于,对于视频里静止的部分,位移为零,模型只需输出一个简单的零向量;对于运动的部分,位移通常远小于绝对坐标数值,预测难度更低。这种设计在训练中更加稳定,预测精度也有提升,从消融实验来看,去掉这个设计会导致精确度指标明显下降。

第二个是可见性预测。模型输出的追踪潜变量被分成两半,前一半用于解码三维坐标,后一半用于解码可见性概率——一个介于0到1之间的数值,表示第一帧里这个点在当前帧是否可见。这个信息对下游任务非常重要,比如机器人抓取时需要知道目标点当前是否被遮挡。

最终的输出通过两个独立的VAE解码器得到:一个解码器把追踪潜变量的前半部分还原成三维位移图,加上第一帧的三维坐标后得到追踪点图;另一个解码器把后半部分还原成可见性地图。整个过程在一次前向传播中完成,不需要任何迭代步骤。

**七、长视频处理:滑动窗口让时间不再是障碍**

TrackCraft3R的训练使用12帧的视频片段,但实际应用中的视频往往远不止12帧。研究团队设计了一个简单而有效的长视频处理策略:以第一帧为固定锚点,用滑动窗口处理后续帧。

具体来说,给定一段L帧的视频,计算一个步长s,把后续的L-1帧均匀分成若干组,每组包含F帧。每次前向传播,把第一帧加上当前组的F帧送入模型。不同组的预测结果可以直接拼接,不需要任何后处理——因为所有的重建点图都已经在同一个世界坐标系下表示,不同批次的输出天然一致。

训练时,研究团队还专门在不同数据集上使用不同的时间步长进行采样(如每隔2帧、3帧……取一帧),让模型适应不同的帧间运动幅度。这使得模型在面对帧率不同的视频时也能表现稳健。

**八、训练过程:两阶段打磨,从粗到精**

模型的训练分两个阶段。研究团队选择了Wan 2.1-T2V这个开源视频生成模型作为基础,通过LoRA(低秩适配)这种轻量化微调方式来改造它。LoRA的原理是在原有的大型模型参数旁边插入少量可训练的小参数矩阵,主体参数冻结不动,只更新这些小矩阵,从而以极低的计算代价实现有效适配。

第一阶段,冻结所有VAE的参数,只训练DiT的LoRA层和输入输出投影层。这个阶段主要让DiT学会如何在双潜变量的框架下完成追踪任务,同时保留视频生成模型的先验知识。训练使用8块H200 GPU,持续约3天。

第二阶段,解冻所有VAE的编码器和解码器,进行端到端的精调。这个阶段让VAE也适应点图和可见性这两种输出,进一步提升精度。继续训练约2天。

训练数据来自四个合成数据集:Kubric(约6000段)、Dynamic Replica(约480段)、PointOdyssey(约45段)和TartanAir(约160段)。其中前三个提供动态场景的三维轨迹标注,TartanAir则是静态场景但包含大幅相机运动,用于提升模型对相机运动的鲁棒性。训练目标是最小化预测位移与真实位移之间的均方误差,以及预测可见性与真实可见性之间的二元交叉熵,两者加权求和。

**九、与竞争方法的比较:数字背后的真实差距**

研究团队在多个公开基准测试上对TrackCraft3R进行了评测,与多类竞争方法进行了系统比较。

评测指标主要有三个:APD3D(三维端点误差在不同阈值下的平均通过率,反映三维位置精度)、OA(可见性预测准确率)和AJ(联合考虑三维精度和可见性的综合指标)。所有预测结果都经过Sim(3)对齐(一种消除绝对尺度差异的标准化处理)再与真值比较。

测试基准涵盖了稀疏追踪和密集追踪两类场景,包括真实场景数据集ADT(头戴摄像头采集的室内场景)和PStudio(多视角捕捉的社交动作场景),以及合成数据集PointOdyssey、Dynamic Replica和Kubric。

与迭代式方法的代表DELTAv2相比,TrackCraft3R+ViPE在平均AJ上从0.4395提升到了0.5639(提升幅度约28%),APD3D从0.6184提升到0.6817,OA从0.8144提升到0.9258。当使用更强的几何估计模型DA3作为输入时,TrackCraft3R+DA3的平均AJ进一步达到0.6785,超越了DELTAv2+DA3的0.4975,优势更加显著。

与基于三维重建模型的前馈方法相比,TrackCraft3R同样以明显优势领先St4RTrack、Any4D和TraceAnything等方法。而与同样利用视频生成模型的MotionCrafter相比,TrackCraft3R的优势尤为突出——后者采用逐帧预测场景流再链式累积的方式,容易在长序列和遮挡情况下积累误差,而TrackCraft3R的单次前向传播避免了这种误差传播。

在效率方面,以12帧、448×448分辨率在单块A6000 GPU上测试,TrackCraft3R耗时3.91秒,而DELTAv2耗时5.00秒,DELTA耗时14.64秒;峰值显存方面,TrackCraft3R仅需7.63GB,DELTAv2需要35.46GB,DELTA需要29.97GB。对于23帧的情况,这种差距进一步扩大,而TrackCraft3R的显存占用几乎不随帧数增加而增长,始终维持在7.63GB,这是因为它采用滑动窗口策略,峰值显存只取决于单个窗口的大小。

与并行工作V-DPM的比较也值得关注。V-DPM在训练时使用了23个三维标注数据集,而TrackCraft3R只用了4个。在AJ和OA指标上,TrackCraft3R+V-DPM(使用V-DPM的重建点图作为输入)超越了V-DPM,而在APD3D上略低于V-DPM,这表明在数据规模差距如此悬殊的情况下,TrackCraft3R的视频先验确实发挥了重要的补偿作用。效率上,TrackCraft3R比V-DPM快6.6倍,显存少用2.3倍,对长视频的优势更为明显。

**十、大运动和长视频:压力测试下的表现**

研究团队还专门测试了两个压力场景:大帧间运动和长视频。

对于大帧间运动,他们固定视频长度为12帧,但逐渐增大采样步长(从每帧相邻到每12帧才取一帧),这样相邻帧之间的视觉变化越来越大,追踪难度越来越高。结果显示,随着步长增加,DELTAv2的性能急剧下降,而TrackCraft3R下降得更平缓,两者之间的差距随步长增大而持续扩大。这说明从大量真实视频中学到的运动先验,确实帮助模型在面对大幅运动时能做出更合理的推断。

对于长视频,固定步长为1(相邻帧),逐渐增加视频总帧数(从12帧到120帧)。同样地,TrackCraft3R的性能曲线更加平稳,而DELTAv2在帧数较多时性能明显下滑。这说明TrackCraft3R的滑动窗口策略在长视频上保持了很好的一致性,并且预训练的运动先验帮助模型对超出训练序列长度的视频也能保持稳健。

**十一、消融实验:每个设计的贡献有多大**

研究团队通过一系列消融实验,验证了各个设计选择的必要性。

去掉第一帧锚定(把追踪潜变量改为与每帧对应的几何潜变量,而非始终复制第一帧的几何潜变量),AJ从0.5609下降到0.5135,APD3D从0.6790下降到0.6535,模型丧失了将追踪锚定到参考帧的能力。

去掉时序RoPE对齐(把所有追踪潜变量都赋予第一帧的时序编码),AJ大幅下降到0.4450,这是所有消融中影响最大的一项,说明时序对齐对于让追踪潜变量找到正确时刻的几何潜变量至关重要。

去掉残差位移预测(直接预测绝对三维坐标),APD3D从0.6790下降到0.6172,主要影响三维精度,而可见性预测基本不受影响,符合预期。

使用原始的三维VAE时序压缩(而非把时间维度作为批次维度独立处理),所有指标都出现下降,这是因为时序压缩会损失每帧的空间细节,影响点图和可见性的解码质量。

此外,增大LoRA秩(从64到256到1024)会持续提升性能,说明更多的可训练参数有助于更充分地利用预训练先验;在第二阶段解冻VAE后,性能进一步提升,说明让VAE也适应点图输出域是有价值的。

输入几何质量的影响同样被系统测试:使用真实标注的深度和相机位姿(而非模型估计的)时,AJ可以进一步提升到0.7649(对比使用DA3估计值时的0.6005),说明随着三维基础模型的进步,TrackCraft3R可以无需重训练地直接获益。

最后,与从头训练的同等架构相比,使用预训练视频DiT初始化的版本在所有指标上都大幅领先(AJ 0.5639 vs 0.4698),最终证明了从互联网视频中学习的时空先验是TrackCraft3R的核心竞争力所在。

---

归根结底,TrackCraft3R做的是一件听起来有点"偷懒"但实际上相当聪明的事:不从零开始学习"东西怎么在三维空间里动",而是直接去继承一个已经看过无数真实视频的模型所积累的运动直觉,再通过精巧的结构改造,把这种直觉重新定向到追踪任务上。

这对整个领域的意义,或许不只是一个更好的追踪方法,而是提供了一条更宽的路:随着视频生成模型和三维基础模型的不断进步,TrackCraft3R可以顺水推舟地受益,不需要推倒重来。对于机器人抓取、动态场景重建、甚至未来的视频编辑应用来说,一个能可靠追踪每个点的三维轨迹的系统,是一块重要的基础积木。

有兴趣深入研究这个方向的读者,可以通过arXiv编号 2605.12587 查阅完整论文,项目主页位于 cvlab-kaist.github.io/TrackCraft3r,提供了更多可视化结果和补充材料。

---

Q&A

Q1:TrackCraft3R需要什么样的输入才能进行三维追踪?

A:TrackCraft3R需要两类输入:一是原始的单目视频帧序列;二是每帧对应的"重建点图",即每个像素在世界坐标系下的三维位置。重建点图可以通过ViPE、DA3等现成的深度估计加相机位姿估计模型自动生成,用户不需要手动标注任何三维信息。

Q2:TrackCraft3R和普通的视频目标追踪有什么区别?

A:普通视频追踪只在二维画面里定位目标的像素位置,而TrackCraft3R追踪的是三维空间里的真实坐标,并且会把第一帧里的每一个像素点都追踪(密集追踪),而不只是几个选定的目标。此外,TrackCraft3R还会判断每个点在每帧中是否被遮挡,输出可见性信息。

Q3:TrackCraft3R在长视频上表现怎么样,会不会随时间漂移?

A:TrackCraft3R采用以第一帧为固定锚点的滑动窗口策略处理长视频,不同窗口的预测结果因为共享同一个世界坐标系而天然一致,无需额外后处理。测试显示,随着视频帧数从12帧增加到120帧,TrackCraft3R的性能下降比DELTAv2明显更平缓,显示出较好的长视频鲁棒性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-