
在ByteDance Seed、香港科技大学、浙江大学和达特茅斯学院的研究团队合作下,一项突破性的研究在2025年10月发表于arXiv(论文编号:2510.13802),这项研究为我们理解和处理视频内容提供了全新的视角。由Xinhang Liu、Yuxi Xiao、Donny Y. Chen、Jiashi Feng、Yu-Wing Tai、Chi-Keung Tang和Bingyi Kang领导的这个国际研究团队,开发了一个名为"Trace Anything"的系统,它能够以一种前所未有的方式理解视频中的运动。
想象你正在看一部电影,屏幕上的每一个像素都在随着时间的推移而移动。一个演员走过舞台,背景中的树叶随风摇曳,摄像机缓缓推进。这些看似简单的视觉现象背后,实际上隐藏着极其复杂的空间和时间信息。传统的视频处理方法通常会分别处理每一帧画面,就像翻看一本静止的相册,然后试图通过光流或其他技术来猜测帧与帧之间的关系。但这个研究团队发现了一个更优雅的方式来思考这个问题。
他们的核心洞察非常简单但深刻:视频中的每一个像素实际上都在三维空间中沿着一条连续的轨迹运动。当你看到屏幕上的一个点从左移动到右,这个点在现实世界中其实是在沿着一条特定的三维路径移动。这就像追踪一只在空中飞行的鸟,你不仅需要知道它现在在哪里,还需要理解它整个飞行路径的形状和方向。研究团队将这种想法形式化为"轨迹场"的概念,这是一个数学上的优雅表述:对于视频中的每一个像素,在每一帧中,都存在一条连续的三维轨迹函数,描述该像素在整个时间段内的运动。
这个概念的妙处在于它的原子性和完整性。原子性指的是轨迹是视频中最小的、不可再分的动态单位。完整性指的是这个表示方法能够捕捉视频中的所有信息——从静止的背景到复杂的非刚体运动。与以往的方法不同,这种方法不需要先估计光流,也不需要先检测和追踪特征点,然后再试图将这些分散的信息拼凑在一起。相反,它直接从像素层面建立了一个统一的、全局一致的三维运动模型。
现在你可能会想,如果要为视频中的每一个像素都定义一条连续的三维轨迹,这需要存储多少信息?答案是:远比你想象的要少。研究团队使用了一种叫做B样条曲线的数学工具来参数化这些轨迹。这就像用几个关键的控制点来定义一条光滑的曲线,而不是存储曲线上的每一个点。
想象你在用一根绳子描绘一条曲线。你不需要记住绳子上的每一个点的位置,只需要记住几个关键的控制点——绳子被钉住的地方。通过这些控制点和一些数学魔法(B样条的基函数),你可以重建整条曲线,并在任意时间点查询曲线上的位置。这正是B样条在这个研究中的作用。对于每个像素,网络预测一组控制点(通常是4个、7个或10个),这些控制点定义了该像素在整个视频时间范围内的三维轨迹。
这个方法的优雅之处在于它的紧凑性和灵活性。紧凑性意味着你只需要存储相对较少的控制点就能精确表示复杂的运动。灵活性意味着你可以在任意时间点查询轨迹的位置,甚至可以查询轨迹的速度(通过对轨迹求导)。这为后续的应用打开了大门,比如运动预测、动态融合等。
既然我们有了轨迹场的数学定义,下一个问题就是:如何从原始视频帧中预测这些轨迹?研究团队提出了一个名为"Trace Anything"的神经网络,它采用了一个非常直接的方法:单次前向传递。
这个网络的架构分为几个主要部分。首先,每一帧都通过一个图像编码器进行处理,这个编码器将像素信息转换为更高层次的特征表示。然后,这些特征通过一个融合变换器进行处理,这个变换器的作用是在所有帧之间建立联系,捕捉空间和时间的相互作用。与以往需要逐对比较帧的方法不同,这个变换器能够同时考虑所有帧的信息,就像一个聪慧的编辑在同时观看整部电影,而不是逐对观看片段。
融合变换器之后是控制点头部,这是一个专门设计的网络组件,它的任务是为每一帧的每一个像素预测控制点坐标。这些控制点都在一个共享的世界坐标系中表示,这意味着不同帧中的同一个物体的轨迹会自动对齐到同一个三维空间中。网络还预测了每个控制点的置信度分数,这允许模型表达它对某些预测的不确定性。
最后,曲线评估步骤使用这些控制点和B样条基函数来生成连续的三维轨迹。这个过程非常高效,因为它只涉及简单的数学运算,不需要额外的神经网络计算。整个过程的美妙之处在于它的端到端性质:从原始图像到完整的轨迹场,一切都在一个前向传递中完成。
要训练这样一个网络,研究团队设计了一个复杂但精妙的损失函数系统,就像一个指挥家用多种乐器创作交响乐一样。核心的损失函数直接监督轨迹的准确性:对于从第i帧的像素出发的轨迹,当在第j帧的时间点进行评估时,它应该精确地落在该像素在第j帧的真实三维位置上。
但仅有这个基本损失还不够。研究团队添加了几个正则化项来引导网络学习更好的表示。置信度调整损失让网络学会对不确定的预测降低权重,同时惩罚过度自信的预测。静态正则化损失鼓励静止区域的像素映射到退化的轨迹(即轨迹上的所有控制点都重合在同一个位置)。刚体正则化损失确保属于同一刚体的像素之间的距离在整个轨迹上保持恒定。对应正则化损失强制来自不同帧但对应同一三维点的像素共享相同的控制点序列。
这些损失函数共同工作,就像一个多层次的教学系统。基础损失教导网络学习正确的运动,而正则化项则教导网络学习物理上合理的运动模式。时间戳损失(当可用时)帮助网络理解帧之间的时间关系。所有这些损失项都被加权组合成一个最终的目标函数,网络通过最小化这个目标函数来学习。
任何深度学习系统的成功都离不开高质量的训练数据。但获取大规模的、带有精确三维轨迹标注的真实视频几乎是不可能的。为了解决这个问题,研究团队开发了一个基于Blender的4D场景数据平台。这个平台能够自动生成数千个带有完美标注的合成视频。
这个平台的设计非常全面。它包含了多样化的环境——从室内场景到室外景观,都是从公开资产库和程序生成技术中获取的。它包含了多种类型的动态——从刚体运动(如物体滑动)到非刚体运动(如人体运动和布料模拟)。它包含了各种摄像机轨迹,从平稳的推进到复杂的环绕运动。对于每个渲染的视频,平台自动生成了丰富的标注:每像素的二维和三维轨迹、深度图、语义掩码、光流、摄像机姿态等。
研究团队最终发布了超过10000个独特的场景,每个场景包含120帧的视频。这个数据集被用来训练Trace Anything模型。除了训练数据,他们还构建了一个专门的基准测试集,包含200个精心挑选的视频。这个基准的独特之处在于它的评估协议:与传统的点追踪基准不同(只评估从第一帧出发的轨迹),这个基准评估从所有帧出发的轨迹。这要求模型不仅能够追踪单个起点的运动,还要能够在整个序列中保持全局一致的三维几何。
研究团队对Trace Anything进行了广泛的实验验证。在他们自己的轨迹场基准上,该模型在所有指标上都超越了现有的最先进方法。端点误差(衡量预测轨迹末端与真实位置的距离)从最佳竞争方法的0.272降低到0.234,这看起来只是一个小数字,但在这个领域代表了显著的改进。对于静态区域的误差,改进更加明显,从0.254降低到0.218。
更重要的是,Trace Anything的推理速度快得惊人。在处理30帧视频时,它只需要2.3秒,而最快的竞争方法需要22.5秒,最慢的需要231.6秒。这个速度优势来自于它的单次前向传递设计——没有迭代优化,没有逐对推理,没有后处理对齐步骤。
研究团队还引入了两个新的指标来验证他们的两个关键假设。静态退化偏差衡量了静止区域轨迹的时间抖动——理想情况下应该为零,因为静止像素的轨迹应该是一个点。对应一致性衡量了来自不同帧但对应同一三维点的像素预测的轨迹有多一致——理想情况下应该完全相同。Trace Anything在这两个指标上也都表现最佳,分别达到1.06和5.09,远优于竞争方法。
除了在标准基准上的性能,Trace Anything还展现了几个令人惊讶的涌现能力。这些能力不是研究团队显式设计的,而是自然从轨迹场表示中涌现出来的。
第一个涌现能力是基于速度的运动预测。由于轨迹场编码了每个像素的完整运动历史,你可以通过对轨迹求导来获得速度,然后沿着这个速度方向外推轨迹来预测未来的运动。这不需要任何额外的预测网络,只需要简单的数学运算。
第二个涌现能力是基于指令的预测。研究团队展示了一个有趣的应用:使用文本到视频生成模型(如Seedance)根据自然语言指令生成未来的视频帧,然后使用Trace Anything来提升这些生成的视频为轨迹场。这在机器人学中有明显的应用——你可以告诉机器人"向前移动到桌子",系统生成一个显示机器人执行这个动作的视频,然后提取三维轨迹来指导实际的机器人运动。
第三个涌现能力是时空融合。在多个帧中观察到的同一个动态物体可以被一致地融合回一个规范帧中。这就像将多个不同角度的照片拼接成一个完整的三维模型,但这里是在时间维度上进行的。这对于处理遮挡和视点变化非常有用。
Trace Anything的另一个令人印象深刻的特性是它的通用性。虽然它的名字暗示它可以处理任何视频,但它实际上能做的远不止这些。
研究团队展示了该模型在视频输入上的性能,这是最直观的应用。给定一个视频序列,模型预测每个像素的轨迹,生成密集的三维点云序列和完整的运动信息。
但模型也能处理图像对输入。给定两个图像(可能相隔很远),模型可以预测一个轨迹场,该轨迹场在两个图像之间进行插值,显示隐含的三维运动。这在机器人学中特别有用。研究团队在BridgeData V2数据集上展示了这一点,该数据集包含机器人操纵行为。给定初始图像和目标图像,模型预测了机器人手臂和被操纵物体的三维轨迹,这些轨迹可以直接用于指导机器人的运动。
更令人惊讶的是,模型甚至能处理无序的、无结构的图像集合。给定一组没有时间顺序、没有连续摄像机运动的图像,模型仍然能够预测合理的轨迹场和摄像机姿态。这展示了模型学到的表示的深层泛化能力。
轨迹场表示的优雅之处在于它能够自然地衍生出许多其他有用的表示。给定轨迹场和摄像机参数,你可以轻松地投影轨迹到图像平面上获得二维轨迹。你可以计算轨迹的方差来生成动态掩码,将静止区域与运动区域分离。你可以计算两个时间步之间的轨迹差来获得场景流。你甚至可以从轨迹推断摄像机的内参和外参。
这种多功能性使得Trace Anything成为一个强大的基础模型,可以支持多种下游应用。它不仅仅是一个轨迹预测器,而是一个统一的几何理解系统。
为了训练Trace Anything,研究团队进行了大规模的计算投资。他们使用了32个NVIDIA A100 80GB GPU,训练时间长达7.22天。模型在两个阶段进行训练:首先在20000个Kubric合成视频上进行预训练,这些视频主要包含刚体运动;然后在Kubric视频和10000个来自他们自己平台的视频的混合数据上进行微调,这些视频包含更复杂的非刚体运动和多样化的环境。
为了处理这样的规模,研究团队采用了几个关键的优化技术。他们使用了FlashAttention来加速变换器的注意力计算。他们使用了DeepSpeed ZeRO Stage 2来分布式训练,将优化器状态、梯度等分散到多个GPU上。这些技术的组合使得大规模训练成为可能。
为了更好地理解Trace Anything的贡献,理解它与现有方法的区别很重要。传统的三维重建方法,如结构从运动(SfM)管道,通常分为多个阶段:特征提取、图像匹配、三角测量、相对姿态估计和全局光束调整。这种阶段式的方法容易积累错误,而且在动态场景中表现不佳。
最近的学习基础方法,如DUSt3R和它的变体,改进了这一点,通过直接预测三维点图而不是逐个阶段进行。但这些方法通常仍然依赖于逐对推理,导致O(N²)的计算复杂度,并且需要后续的全局对齐步骤。
点追踪方法,如CoTracker,专注于追踪特定点的长期轨迹。但它们通常需要额外的深度估计或二维追踪来升级到三维。
Trace Anything通过几种方式改进了这些方法。首先,它是真正的端到端的,从原始图像直接到轨迹,没有中间的估计器。其次,它进行单次前向传递,避免了逐对推理的开销。第三,它在共享的世界坐标系中联合预测所有轨迹,自动确保全局一致性。第四,它不仅预测轨迹,还预测置信度和时间戳,提供了丰富的几何信息。
虽然Trace Anything在许多方面都很强大,但研究团队也坦诚地讨论了其局限性。该模型在处理极端的遮挡、快速的运动或复杂的非刚体变形时可能会遇到困难。在某些情况下,轨迹可能不够光滑或可能包含跳跃。
研究团队还提出了几个未来的研究方向。一个自然的方向是将轨迹场与新视图合成技术集成,使用轨迹场来初始化动态3D高斯溅射模型。另一个方向是改进对极端动态场景的处理。还可以探索轨迹场在其他应用中的使用,如视频编辑、动作捕捉或运动风格转移。
虽然Trace Anything是一个研究系统,但它的应用潜力是巨大的。在电影和视频制作中,它可以用于自动化的视觉效果和运动捕捉。在机器人学中,它可以用于从演示视频中学习运动技能。在增强现实中,它可以用于更准确的虚拟对象放置和交互。在医学成像中,它可以用于追踪器官或肿瘤的运动。在体育分析中,它可以用于详细的运动员运动分析。
关键的是,轨迹场表示提供了一个统一的框架,可以支持所有这些应用。一旦你有了轨迹,你可以用它做几乎任何你想做的事情。
从更深层的角度看,这项研究代表了计算机视觉中的一个重要转变。传统的视觉系统通常是为特定任务设计的——检测、追踪、重建等。但Trace Anything提出了一个更基础的表示,即轨迹场,它可以支持多种任务。这反映了机器学习中的一个更广泛的趋势:从任务特定的模型转向通用的基础模型。
这个研究也展示了合成数据在现代深度学习中的力量。通过构建一个精心设计的数据生成平台,研究团队能够创建大规模的、完美标注的训练数据,这是真实数据收集无法实现的。这为未来的研究打开了大门,许多其他的视觉任务也可以通过类似的合成数据方法来解决。
最后,这项研究展示了数学形式化和深度学习的强大结合。通过将轨迹场形式化为一个数学对象,研究团队能够清晰地定义问题,设计合适的网络架构,并创建有针对性的损失函数。这种方法比单纯的经验性方法更加系统和可靠。
对于那些想要更深入理解技术细节的读者,有几个方面值得特别关注。首先是B样条的选择。B样条相比贝塞尔曲线的优势在于局部控制性——改变一个控制点只会影响曲线的一部分,而不是整条曲线。这使得B样条特别适合于表示可能有复杂形状的轨迹。
其次是融合变换器的设计。与简单地连接所有帧特征不同,融合变换器使用交错的帧内和全局注意力层。帧内注意力在单个帧内进行,捕捉空间信息。全局注意力在所有帧之间进行,捕捉时间信息。这种交错的设计允许信息在空间和时间维度上有效地流动。
第三是置信度的使用。通过预测每个控制点的置信度,网络不仅提供了点估计,还提供了不确定性估计。这在许多应用中都很有价值,因为它允许下游系统对不确定的预测采取更谨慎的态度。
第四是损失函数的设计。每个损失项都针对一个特定的目标。轨迹损失确保准确性。置信度调整损失确保网络学会表达不确定性。静态和刚体正则化损失确保物理上合理的运动。对应正则化损失确保全局一致性。这种多目标学习方法比单一损失函数更加强大。
理解评估指标对于理解模型的性能至关重要。端点误差是最直观的指标——它简单地衡量预测轨迹末端与真实位置的距离。但它也有局限性,因为它只关注轨迹的末端,而不是整条轨迹。
静态退化偏差是一个更有趣的指标。它衡量了静止像素轨迹的方差。理想情况下,静止像素的轨迹应该是一个点(所有控制点都相同),所以方差应该为零。这个指标直接衡量了模型是否学到了一个关键的物理约束:静止的东西应该保持静止。
对应一致性衡量了来自不同帧但对应同一三维点的像素预测的轨迹有多一致。这是一个全局一致性的指标。如果模型正确地理解了三维几何,那么无论你从哪一帧开始追踪一个点,你都应该得到相同的轨迹。
这些指标共同提供了对模型性能的多维理解。不仅仅是准确性,还有物理合理性和全局一致性。
Q1:Trace Anything是什么?它与传统的视频追踪方法有什么不同?
A:Trace Anything是由ByteDance Seed等机构开发的神经网络系统,它能够从视频中预测"轨迹场"——为视频中的每个像素分配一条连续的三维轨迹。与传统方法不同,它不需要先估计光流或进行二维追踪,而是直接在一次前向传递中为所有像素生成全局一致的三维轨迹,速度快得多。
Q2:轨迹场具体是什么意思?为什么用B样条来表示轨迹?
A:轨迹场是一个数学映射,将视频中的每个像素和帧映射到一条三维轨迹函数。B样条是一种参数曲线,用少数几个控制点就能精确表示复杂的曲线形状。这样做既节省存储空间,又能在任意时间点查询轨迹位置,还能计算速度用于运动预测。
Q3:Trace Anything除了追踪运动还能做什么?
A:除了基本的轨迹预测,Trace Anything还能进行运动预测、生成动态掩码、计算场景流、估计摄像机姿态,甚至可以处理图像对或无序图像集合。它还展现了基于速度的预测、基于指令的预测和时空融合等涌现能力。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。