这项研究由Netflix、Eyeline Labs、牛津大学、加州大学洛杉矶分校、石溪大学以及哥伦比亚大学的研究人员联合完成,发表于2026年7月19日至23日在洛杉矶举办的SIGGRAPH Conference Papers会议,论文编号为DOI: 10.1145/3799902.3811093,有兴趣深入了解的读者可通过该编号查询完整论文。
**一部电影,两个永恒的挑战**
拍一部电影,导演最头疼的事情是什么?答案大概率不是演员档期,而是两件看似简单却极难兼顾的事情:第一,画面里的角色、道具和场景必须长得对;第二,它们必须按照导演想要的方式运动。
以特效合成为例,假设你想把一个演员的脸替换成另一个人的样子,并让这张"新脸"随着演员的每一个点头、转身、侧脸准确地跟随运动。这需要同时处理"长什么样"和"怎么动"两个维度的精确控制,而现有的AI视频生成工具几乎无一例外地把这两件事拆开来做——要么专门控制运动,要么专门控制外观,从没有一个工具能在同一个框架里把两者融合得天衣无缝。
正是为了解决这个问题,来自Netflix等机构的研究团队提出了一个名叫"Go-with-the-Track"(随迹而行)的视频生成框架。它的核心思路可以用一句话概括:用一组跟踪点,同时告诉AI"画面里该有什么"和"它应该怎么动"。
**一、现有工具为什么总差那么一口气**
在理解这项研究的突破之前,有必要先弄清楚现有工具究竟卡在哪里。
目前市面上有两类主流的AI视频控制工具。第一类叫"点追踪视频生成",它的工作方式是这样的:你给AI一张视频的第一帧图像,然后在图像上点几个点、画几条运动轨迹,告诉AI"这个点该往哪里走",AI就会据此生成一段视频。这类工具对运动控制做得不错,但有一个根本缺陷——所有可以被控制的内容,必须出现在第一帧里。如果你想让一个人物从画面外走进来,或者让某个道具在视频中途才出现,这类工具就无能为力了,因为它不知道那个"尚未出现的人"长什么样。
第二类工具叫"参考图像驱动视频生成",它允许你提供一张或多张参考图片,让AI"认识"你想要的角色或场景,然后生成包含这些元素的视频。这类工具在外观复现上表现不错,但它缺少对运动的精细控制——AI大概知道"这个人要出现在视频里",但无法精确指定"这个人在第5秒出现在画面左侧,然后在第8秒走到右侧"。
两类工具各执一词,却都只说了半句话。影视工作者在实际创作中需要的,是既能控制"谁出现",又能控制"在哪里出现、怎么动"——而"Go-with-the-Track"正是把这两件事统一起来的尝试。
**二、一个小小的"延伸",打通了两个世界**
研究团队的核心创意,来自对一个古老概念的重新定义。
在计算机视觉里,"点追踪"(point track)是一个有几十年历史的技术概念。它的意思很直接:在一段视频里选一个点,然后追踪这个点在每一帧里的位置,得到一条连续的运动轨迹。这就好比你盯着一只蝴蝶飞行,把它每一刻的坐标记录下来,最后得到一条蜿蜒的路径。
传统的点追踪只活在视频帧的范围内——轨迹的起点和终点都必须在视频某一帧上。而研究团队做的事情是:把这条轨迹延伸到参考图片上去。
举个具体的例子。假设你有一张演员的正面照(参考图),以及一段他从左走到右的视频。传统点追踪只能告诉你"演员的鼻尖在视频第1帧在坐标A,在第49帧在坐标B"。而"参考锚定点追踪"(reference-anchored point-track)额外记录了"演员鼻尖这个点,在参考图片上的位置是坐标C"。
这一个小小的延伸意义重大。它意味着AI现在知道了三件事:参考图里的这个像素长什么样、它对应视频里的哪个点、这个点在视频里应该怎么运动。外观信息和运动信息通过一根"追踪线"被穿在了一起,AI再也不需要猜测"参考图里的这张脸应该贴在视频的哪个位置",因为追踪点已经明确告诉它了。
**三、让AI"认识"成千上万条轨迹,是个技术难题**
把想法变成可以运行的系统,研究团队遇到了一个棘手的工程问题:如何让AI模型同时"认识"并区分数量庞大的追踪点?
在这个系统里,每一条追踪轨迹都需要一个独特的"身份证",让AI能把"参考图里的第3472个点"和"视频第23帧里的同一个点"认出来是同一个点,并把正确的像素颜色贴上去。点的数量可以多达15000条,而且参考图和视频帧在时间上是不连续的——参考图可以是完全不同时间拍摄的照片,跟视频没有直接的空间对应关系。
早期的研究尝试用随机生成的向量(可以理解为给每个点随机分配一个毫无规律的"身份证号")来解决这个问题。但研究团队发现,随机身份证有一个致命的缺陷:AI无法从身份证号本身得到任何关于"这个点在哪里"的提示。两条紧紧相邻的轨迹,它们的随机身份证号可能天差地别,就好像两个住在同一栋楼里的邻居,身份证号码却毫无相似之处,这让AI无法利用空间上的近邻关系来帮助自己"找到"正确的点。
研究团队的解决方案叫做"空间感知点追踪嵌入"(spatially-aware point-track embedding)。这个方案的逻辑很朴素:一条追踪轨迹在视频帧里的运动路径本身,就是它最好的身份证。每条轨迹在每一帧的坐标都是唯一的,而且空间上相近的轨迹会有相似的坐标序列,就像住在同一小区的人地址相似。
具体做法是:把一条追踪轨迹在所有视频帧上的坐标(加上帧编号),先通过一种叫"正弦位置编码"的数学变换转成向量,再通过一个小型神经网络(MLP)处理,最后把所有帧的结果取"最大值"(max-pooling)汇总成一个代表整条轨迹的向量。这个向量既是这条轨迹的唯一标识,又天然包含了它的空间特征——空间位置相近的轨迹,它们的标识向量也会在数学上更为相似。这就把随机身份证换成了"带地理坐标的身份证",极大地帮助了AI在复杂场景中区分和关联不同的追踪点。
**四、像素级的精度与压缩空间的矛盾,一个"分块汇总"的妙招**
系统里还藏着另一个工程难题,这个问题来自AI视频生成模型的工作方式。
现代AI视频生成模型在内部处理的不是原始的高分辨率像素,而是经过高度压缩的"潜空间令牌"(latent token)。可以把这个过程理解为:原本一张1920×1080的视频帧,被AI压缩成了一个小得多的表示,在空间上缩小了16×16倍,在时间上缩小了4倍。这种压缩对于视频生成的效率至关重要,但也带来了问题:追踪点的坐标是在原始像素空间里定义的("第320行第480列"),而AI的内部空间里根本没有这么精细的划分。
一个粗暴的解决方法是把坐标直接按比例缩小——把原来在第320行的点,近似到压缩后的第20行。但这样会丢失大量精细的运动信息,尤其是当多个运动点原本分散在同一个16×16像素块的不同位置时,压缩后它们会全部"坍缩"到同一个代表位置,细节荡然无存。
研究团队设计了一个"点追踪适配器"(point-track adapter)来优雅地解决这个问题。它的工作方式是:把整个视频体积切分成许多"4×16×16时空块",每个块对应压缩后的一个令牌。对于落在同一个块内的所有追踪点,不是简单地取其中一个或者平均,而是先把每个点的嵌入向量与它在块内的相对位置("我在这个块的左上角还是右下角")拼接起来,再经过一个小网络处理,最后取最大值汇总成一个代表整个块的条件向量。
这个设计的精妙之处在于:它既把信息压缩到了AI能够接受的维度,又通过"相对位置"保留了块内各个点的精细位置差异。这有点像把一栋楼里所有居民的信息汇总给物业管理员——管理员只需要知道"2楼左侧单元有人按门铃",而不需要记住每个人的全部个人信息,但这个"2楼左侧"的位置信息本身就已经足够精确了。
**五、训练数据的"混合配方":合成、静态与真实,缺一不可**
一个模型的能力上限,很大程度上由它的训练数据决定。研究团队在数据策略上也做了颇具匠心的设计。
训练点追踪条件视频生成模型,最大的数据困难是:真实视频里的追踪点坐标通常没有"标准答案"。现有的追踪工具本质上是在估计,面对快速运动、遮挡、透明物体等情况时,它给出的追踪结果可能是错的。拿错误的追踪结果去训练模型,就好比用错误答案去教小学生做数学题,模型学到的只是如何"表现得像在跟随运动",而不是真正精确地跟随运动。
研究团队采用了三类数据混合训练的策略。第一类是真实动态视频数据集(如OpenVidHD、MiraData、OpenHumanVid等),这些数据提供了丰富多样的真实世界视觉先验,让模型学会生成逼真的画面;但这类数据的追踪点是用外部工具估计的,带有噪声。
第二类是真实静态场景数据集(如DL3DV)和合成静态场景数据集(如TartanAir),这些数据集包含了精确的相机位姿和深度信息,可以用数学方法精确计算出每个点在不同相机角度下的投影坐标,从而获得"有标准答案"的追踪点。
第三类是合成动态场景数据集(PointOdyssey),这个数据集包含了带有精确三维网格的动态场景,可以直接从网格顶点提取每帧的二维坐标,得到完全精确的追踪轨迹。
三类数据按照11:3:3的采样比例混合使用,形成了大约3:7的合成与真实数据比例,以及3:7的静态与动态场景比例。这个配方让模型既保留了在真实视频上练就的"审美能力",又通过有标准答案的合成数据培养了"按指令精确行动"的能力。
此外,研究团队还发展了一种"迭代点追踪加密"算法。传统方法要么只追踪第一帧里可见的点,要么在所有帧上均匀随机采样。均匀随机采样的问题在于:对于一段有49帧的视频,总共只采样2500个点,平均每帧仅约30个点分散在整个画面里,很容易出现大片区域没有追踪点的"空白地带"。迭代加密算法的做法是:先做一次追踪,然后把画面分成20×20像素的小格,找出哪些格子里还没有追踪点,在空白格子里新增查询点,再次追踪,如此迭代几次,逐步填满整个画面,确保每个角落的运动都被捕捉到。
**六、模型怎么读懂参考图,一个"带地址的照片墙"**
除了点追踪,系统还需要处理另一个输入:参考图像。研究团队采用的方法是把参考图像经过VAE(变分自编码器,可以理解为一个把图片压缩成高效表示的工具)编码后,直接沿时间维度拼接到带噪声的视频令牌序列里,让模型在处理视频的同时"看着"参考图。
为了让模型区分"这个令牌是需要生成的视频帧"和"这个令牌是参考图",研究团队做了两个小调整:参考图像被分配了从100开始的位置编号(而视频帧的位置编号从0开始),并且参考图像的时间步嵌入被替换为一个从零时刻初始化的可学习嵌入,暗示"参考图像是已经完成的、无噪声的内容"。
训练时还有一个重要的数据增强策略:对每一张参考图像,都随机进行缩放、裁剪、平移等变换。这样做的目的是确保参考图像和目标视频帧在空间上永远不对齐——如果参考图就是目标视频的某一帧且像素完全对齐,模型可能会学会直接"复制粘贴"参考图,而不是真正学会通过追踪点来建立对应关系。通过随机变换,模型被迫只能依赖追踪点坐标来理解参考图与视频帧之间的空间关系。
整个系统建立在开源的Wan 2.1和Wan 2.2视频扩散模型之上,在训练时对自注意力层和前馈网络层进行微调,同时保持跨注意力层冻结。训练分辨率为480×832,每段49帧,在8块A100或H200 GPU上训练约7天。
**七、实验结果:在三个维度上全面领先**
研究团队在两个标准测试集上进行了系统性评估:DAVIS 2017(77段包含各类运动模式的视频)和TAPVid3D-ADT(50段带有精确三维追踪标注的视频)。
评估指标被分成三个维度。第一个维度叫"视觉保真度",用FID和FVD这两个指标衡量生成视频和真实视频在整体统计分布上的差距,数值越低代表生成视频越"真实"。第二个维度叫"重建精度",用LPIPS、PSNR和SSIM衡量生成视频和原始视频在每一帧上的像素级相似程度,前者越低越好,后两者越高越好。第三个维度叫"运动保真度",用端点误差(EPE)衡量生成视频中追踪点的实际位置与输入条件中指定位置的偏差,数值越低代表运动跟随得越精确。
参与对比的方法包括ATI、DiffusionAsShader(DAS)、Tora、Go-with-the-Flow(GWTF)和Wan-Move,这些都是当前该领域的主流方法。测试分三种密度:使用3000条追踪轨迹的"密集追踪"场景、使用512条从第一帧开始的轨迹的"中密度"场景,以及使用32条稀疏轨迹的"稀疏"场景。
在密集追踪场景下,Go-with-the-Track的FID为28.00,远低于第二名Wan-Move的40.47;FVD为322.8,远低于第二名ATI的504.9;运动误差EPE为7.709,而第二名Wan-Move为12.27。在中密度和稀疏追踪场景下,优势同样明显。在更具挑战性的TAPVid3D-ADT测试集上,优势差距更为悬殊,研究团队认为这是因为竞争方法完全依赖带有噪声标注的真实视频数据训练,而该测试集对精确运动跟随的要求更高,暴露出了这些方法的根本局限。
用户研究同样给出了明确的答案。研究团队招募了45位参与者,对30段随机选取的视频从运动跟随质量、主体身份保持和整体质量三个维度打分。在运动跟随这一项上,参与者选择Go-with-the-Track的比例为46.2%,而第二名GWTF仅为17.7%;在整体质量上,Go-with-the-Track获得44.3%的偏好,第二名ATI仅为18.6%。
**八、消融实验:每一个设计决策都有它的道理**
研究团队还通过一系列"控制变量"实验,逐一验证了各个设计选择的必要性。
当把"空间感知嵌入"换回随机嵌入时,DAVIS 2017上的运动误差从7.983上升到10.46,TAPVid3D-ADT上从4.691上升到6.141,视觉保真度也同步下降。这证明了空间相关的身份标识对于精确追踪的重要性。PCA可视化分析进一步直观地展示了这一点:空间感知嵌入在画面上呈现出平滑的颜色渐变,而随机嵌入则是一片随机的彩色噪点,毫无空间规律。
当把点追踪适配器的"相对位置拼接"去掉,仅保留最大值池化时,运动误差明显上升。当进一步把整个适配器替换为简单的随机采样(每个时空块只随机保留一个追踪点)时,性能下降最为显著。当尝试用注意力机制替代最大值池化时,性能反而不如最大值池化,研究团队认为这是因为最大值池化能够保留每条轨迹最显著的特征值,而注意力加权平均会把不同轨迹的特征混合稀释,不利于保持每条轨迹的独特性——这与PointNet等点云处理方法的经验观察一致。
当把合成数据和静态场景数据从训练集中移除后,运动误差在DAVIS上从8.801上升到10.59,在TAPVid3D-ADT上从5.285上升到7.771。用那个有趣的会议室缩放案例来说明:当只使用真实视频数据训练时,模型完全无法生成正确的画面;加入合成和静态数据后,模型能够准确生成期望的缩放效果,TV出现在了正确的位置和大小。
在多参考图像的测试中,提供的参考帧越多,效果越好:只提供第一帧时FVD为346.4,提供首尾两帧时降至233.3,均匀提供4帧时进一步降至188.7。即使提供的参考图被随机裁剪和缩放(不与视频帧对齐),模型也能维持合理的性能,证明它确实通过追踪点而非空间对齐来建立参考与视频的关系。
**九、丰富的应用场景:从换脸到换天**
这套系统的灵活性在实际应用中展现得淋漓尽致,研究团队展示了多个颇具想象力的用例。
第一个应用是"视频重风格化"。给定一段源视频,先用追踪工具提取整段视频的追踪点,再对视频中的关键帧做风格化处理(比如用AI图像风格化工具把真人视频风格化为油画风格),最后把风格化后的关键帧作为参考图、追踪点作为运动条件,输入Go-with-the-Track,就能得到保留了原始运动的风格化视频。研究团队展示了把一个跑酷视频风格化为幻想风格、把女孩与猫的互动视频变成神秘奇幻风格等效果。
第二个应用是"网格驱动合成与风格化"。在动画制作或游戏开发中,角色通常以三维网格的形式存在。研究团队展示了如何从动画网格的顶点位置直接提取追踪点,把网格的各个顶点投影到指定相机视角下的二维坐标,作为追踪点条件,再配合风格化的参考图,生成具有指定外观的动画视频。这对于影视特效和游戏预演制作有直接的实用价值。
第三个应用是"关键点驱动合成"。给定一段人物视频和一张参考人物照片,用人脸和身体关键点检测工具(识别眼睛、鼻子、耳朵、肩膀、肘关节等解剖学标志点)分别在视频帧和参考图上提取关键点坐标。由于同一关键点(如"左眼")在视频和参考图中共享相同的语义标识,它们自然形成了参考锚定追踪点。把这些关键点输入模型,就能把参考人物的外观"贴"到视频中的人物上,同时保留原始的运动。
第四个应用是"静态场景相机控制"。给定一张或多张从不同角度拍摄的场景照片,用三维重建工具(π?)恢复场景的三维点云和相机位姿,然后把点云投影到用户指定的新相机轨迹下,得到新视角的追踪点条件,就能让AI生成从新视角看到的场景视频。研究展示了包括螺旋运动、多视角插值等多种相机轨迹。
第五个应用是"动态场景相机重定向"。这个场景比静态场景更复杂,因为场景中既有相机运动,又有物体运动。研究团队使用DELTA追踪工具配合迭代加密算法提取三维追踪点,用π?估计每帧的相机参数,然后把追踪点重投影到自定义相机轨迹下,再把源视频中均匀采样的4帧作为参考图,输入模型,就能生成从新视角看到的原始动态场景。
还有一个额外的应用展示了这套系统意想不到的泛化能力:用于内在图像分解(intrinsic decomposition)的时序稳定化。内在图像分解是把一张图片分解为"反照率"(albedo,即物体固有颜色)和"着色"(shading,即光照影响)两个分量的技术。现有的单帧估计模型虽然在每帧上表现不错,但逐帧独立处理会导致相邻帧之间的估计结果跳动,造成"闪烁"。研究团队展示了只需对第一帧和最后一帧做内在分解,然后把这两帧的分解结果作为参考图输入Go-with-the-Track,系统就能自动在全序列上插值出时序一致的分解视频,大幅减少闪烁,而这完全超出了模型原本的训练目标。
**结语:一根线,穿起了影视特效的两个维度**
说到底,"Go-with-the-Track"做的事情,是把两个本来分家的问题用一种直觉上极其自然的方式统一了起来——一条追踪轨迹,既是"这里应该是参考图上的那个像素"的地址,也是"这个像素应该往哪里运动"的路线图。
这件事听起来简单,但背后需要解决三个不小的技术难题:如何让AI高效地"认识"成千上万条轨迹(空间感知嵌入)、如何在不丢失精度的前提下把追踪条件注入压缩后的潜空间(分块汇总适配器)、以及如何通过混合数据训练让模型真正学会"精确听话"而不是"大概跟随"。三个问题的解决方案都是对已有技术的巧妙重组,并没有发明什么全新的数学工具,但组合在一起却产生了质的跃升。
对于普通观众而言,这项研究最直接的影响可能会出现在未来的影视特效、游戏动画和短视频创作工具中——当AI视频工具既能让你指定"视频里要出现这个角色",又能精确控制"这个角色在第三秒从左侧走到右侧",创作的门槛会进一步降低,而创作的可能性会大幅扩展。
当然,研究团队也坦诚地指出了这套系统的局限:如果输入的追踪点本身质量不高(比如在快速运动场景下追踪器给出了错误的轨迹),生成视频可能出现时序上的瑕疵;追踪点的空间分辨率也限制了模型对极细微接触动作和细节运动的控制精度;最终的视频质量还受限于底层视频扩散模型的能力上限。这些都是未来工作可以继续深化的方向。有兴趣进一步了解技术细节的读者,可以通过论文编号DOI: 10.1145/3799902.3811093查阅完整论文。
---
Q&A
Q1:Go-with-the-Track与现有视频运动控制工具相比有哪些不同?
A:现有工具要么只能控制外观(参考图像驱动),要么只能控制运动(点追踪驱动),且点追踪条件通常只能作用于视频第一帧中已有的内容。Go-with-the-Track通过"参考锚定点追踪"把两者统一:每条追踪轨迹同时记录了对应参考图上的位置和视频帧内的运动路径,使模型能够将参考图的任意内容精确放置到视频的指定时间和位置,实现外观与运动的联合控制。
Q2:Go-with-the-Track训练时为什么要混合合成数据?
A:真实视频中的追踪点坐标是用估计工具生成的,在快速运动或遮挡场景下存在噪声。如果只用带噪声标注的真实视频训练,模型会隐式地学会"忽略不可靠的追踪条件",无法精确跟随运动指令。合成数据集(如PointOdyssey)和静态场景数据集(如DL3DV)能提供从三维网格或精确相机位姿推导出的精确追踪坐标,帮助模型真正学会严格遵循追踪条件。
Q3:Go-with-the-Track如何处理大量追踪点与AI压缩空间之间的分辨率不匹配问题?
A:研究团队设计了专门的"点追踪适配器"。它把视频时空体切分成若干4×16×16的块,每个块对应压缩后的一个令牌。落在同一个块内的所有追踪点,会先把各自的嵌入向量与其在块内的相对位置坐标拼接,经过小网络处理后取最大值汇总为一个代表向量。这样既完成了从像素空间到压缩空间的降维,又通过相对位置信息保留了块内的精细运动细节,避免了简单坐标缩放带来的精度损失。
好文章,需要你的鼓励
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。
MemoBench是哈佛大学等机构联合推出的视频生成评测基准,专测AI在物体消失再重现场景下的记忆能力,揭示了当前所有主流模型的核心盲区。
研究发现AI代码修复工具默认的"写代码→跑测试→再改"流程中,禁止运行测试几乎不影响修复成功率,却能节省超过一半的时间和费用。