微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

让任何视频都能"讲述"自己的故事：ByteDance研究团队如何用轨迹场重新定义4D视频理解

人工智能计算机视觉3D重建

让任何视频都能"讲述"自己的故事：ByteDance研究团队如何用轨迹场重新定义4D视频理解

作者：科技行者

2025-12-19 07:27

分享至：

这项由ByteDance Seed、香港科技大学等机构联合完成的研究提出了"轨迹场"这一创新的4D视频表示方法。研究团队开发的Trace Anything系统能够在单次前向传递中为视频中的每个像素预测连续的三维轨迹，无需光流估计或迭代优化。通过构建大规模合成数据平台和精心设计的训练方案，该方法在轨迹估计基准上实现了最先进性能，同时推理速度比竞争方法快10倍以上，并展现了运动预测、时空融合等多种涌现能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-19 07:27 • 科技行者

在ByteDance Seed、香港科技大学、浙江大学和达特茅斯学院的研究团队合作下，一项突破性的研究在2025年10月发表于arXiv（论文编号：2510.13802），这项研究为我们理解和处理视频内容提供了全新的视角。由Xinhang Liu、Yuxi Xiao、Donny Y. Chen、Jiashi Feng、Yu-Wing Tai、Chi-Keung Tang和Bingyi Kang领导的这个国际研究团队，开发了一个名为"Trace Anything"的系统，它能够以一种前所未有的方式理解视频中的运动。

一、从像素到轨迹：重新理解视频的本质

想象你正在看一部电影，屏幕上的每一个像素都在随着时间的推移而移动。一个演员走过舞台，背景中的树叶随风摇曳，摄像机缓缓推进。这些看似简单的视觉现象背后，实际上隐藏着极其复杂的空间和时间信息。传统的视频处理方法通常会分别处理每一帧画面，就像翻看一本静止的相册，然后试图通过光流或其他技术来猜测帧与帧之间的关系。但这个研究团队发现了一个更优雅的方式来思考这个问题。

他们的核心洞察非常简单但深刻：视频中的每一个像素实际上都在三维空间中沿着一条连续的轨迹运动。当你看到屏幕上的一个点从左移动到右，这个点在现实世界中其实是在沿着一条特定的三维路径移动。这就像追踪一只在空中飞行的鸟，你不仅需要知道它现在在哪里，还需要理解它整个飞行路径的形状和方向。研究团队将这种想法形式化为"轨迹场"的概念，这是一个数学上的优雅表述：对于视频中的每一个像素，在每一帧中，都存在一条连续的三维轨迹函数，描述该像素在整个时间段内的运动。

这个概念的妙处在于它的原子性和完整性。原子性指的是轨迹是视频中最小的、不可再分的动态单位。完整性指的是这个表示方法能够捕捉视频中的所有信息——从静止的背景到复杂的非刚体运动。与以往的方法不同，这种方法不需要先估计光流，也不需要先检测和追踪特征点，然后再试图将这些分散的信息拼凑在一起。相反，它直接从像素层面建立了一个统一的、全局一致的三维运动模型。

二、用B样条曲线编码运动的秘密

现在你可能会想，如果要为视频中的每一个像素都定义一条连续的三维轨迹，这需要存储多少信息？答案是：远比你想象的要少。研究团队使用了一种叫做B样条曲线的数学工具来参数化这些轨迹。这就像用几个关键的控制点来定义一条光滑的曲线，而不是存储曲线上的每一个点。

想象你在用一根绳子描绘一条曲线。你不需要记住绳子上的每一个点的位置，只需要记住几个关键的控制点——绳子被钉住的地方。通过这些控制点和一些数学魔法（B样条的基函数），你可以重建整条曲线，并在任意时间点查询曲线上的位置。这正是B样条在这个研究中的作用。对于每个像素，网络预测一组控制点（通常是4个、7个或10个），这些控制点定义了该像素在整个视频时间范围内的三维轨迹。

这个方法的优雅之处在于它的紧凑性和灵活性。紧凑性意味着你只需要存储相对较少的控制点就能精确表示复杂的运动。灵活性意味着你可以在任意时间点查询轨迹的位置，甚至可以查询轨迹的速度（通过对轨迹求导）。这为后续的应用打开了大门，比如运动预测、动态融合等。

三、Trace Anything网络：一次前向传递解决所有问题

既然我们有了轨迹场的数学定义，下一个问题就是：如何从原始视频帧中预测这些轨迹？研究团队提出了一个名为"Trace Anything"的神经网络，它采用了一个非常直接的方法：单次前向传递。

这个网络的架构分为几个主要部分。首先，每一帧都通过一个图像编码器进行处理，这个编码器将像素信息转换为更高层次的特征表示。然后，这些特征通过一个融合变换器进行处理，这个变换器的作用是在所有帧之间建立联系，捕捉空间和时间的相互作用。与以往需要逐对比较帧的方法不同，这个变换器能够同时考虑所有帧的信息，就像一个聪慧的编辑在同时观看整部电影，而不是逐对观看片段。

融合变换器之后是控制点头部，这是一个专门设计的网络组件，它的任务是为每一帧的每一个像素预测控制点坐标。这些控制点都在一个共享的世界坐标系中表示，这意味着不同帧中的同一个物体的轨迹会自动对齐到同一个三维空间中。网络还预测了每个控制点的置信度分数，这允许模型表达它对某些预测的不确定性。

最后，曲线评估步骤使用这些控制点和B样条基函数来生成连续的三维轨迹。这个过程非常高效，因为它只涉及简单的数学运算，不需要额外的神经网络计算。整个过程的美妙之处在于它的端到端性质：从原始图像到完整的轨迹场，一切都在一个前向传递中完成。

四、训练的艺术：多个损失函数的精妙协奏

要训练这样一个网络，研究团队设计了一个复杂但精妙的损失函数系统，就像一个指挥家用多种乐器创作交响乐一样。核心的损失函数直接监督轨迹的准确性：对于从第i帧的像素出发的轨迹，当在第j帧的时间点进行评估时，它应该精确地落在该像素在第j帧的真实三维位置上。

但仅有这个基本损失还不够。研究团队添加了几个正则化项来引导网络学习更好的表示。置信度调整损失让网络学会对不确定的预测降低权重，同时惩罚过度自信的预测。静态正则化损失鼓励静止区域的像素映射到退化的轨迹（即轨迹上的所有控制点都重合在同一个位置）。刚体正则化损失确保属于同一刚体的像素之间的距离在整个轨迹上保持恒定。对应正则化损失强制来自不同帧但对应同一三维点的像素共享相同的控制点序列。

这些损失函数共同工作，就像一个多层次的教学系统。基础损失教导网络学习正确的运动，而正则化项则教导网络学习物理上合理的运动模式。时间戳损失（当可用时）帮助网络理解帧之间的时间关系。所有这些损失项都被加权组合成一个最终的目标函数，网络通过最小化这个目标函数来学习。

五、数据的力量：构建一个合成视频帝国

任何深度学习系统的成功都离不开高质量的训练数据。但获取大规模的、带有精确三维轨迹标注的真实视频几乎是不可能的。为了解决这个问题，研究团队开发了一个基于Blender的4D场景数据平台。这个平台能够自动生成数千个带有完美标注的合成视频。

这个平台的设计非常全面。它包含了多样化的环境——从室内场景到室外景观，都是从公开资产库和程序生成技术中获取的。它包含了多种类型的动态——从刚体运动（如物体滑动）到非刚体运动（如人体运动和布料模拟）。它包含了各种摄像机轨迹，从平稳的推进到复杂的环绕运动。对于每个渲染的视频，平台自动生成了丰富的标注：每像素的二维和三维轨迹、深度图、语义掩码、光流、摄像机姿态等。

研究团队最终发布了超过10000个独特的场景，每个场景包含120帧的视频。这个数据集被用来训练Trace Anything模型。除了训练数据，他们还构建了一个专门的基准测试集，包含200个精心挑选的视频。这个基准的独特之处在于它的评估协议：与传统的点追踪基准不同（只评估从第一帧出发的轨迹），这个基准评估从所有帧出发的轨迹。这要求模型不仅能够追踪单个起点的运动，还要能够在整个序列中保持全局一致的三维几何。

六、实验的验证：数字说话

研究团队对Trace Anything进行了广泛的实验验证。在他们自己的轨迹场基准上，该模型在所有指标上都超越了现有的最先进方法。端点误差（衡量预测轨迹末端与真实位置的距离）从最佳竞争方法的0.272降低到0.234，这看起来只是一个小数字，但在这个领域代表了显著的改进。对于静态区域的误差，改进更加明显，从0.254降低到0.218。

更重要的是，Trace Anything的推理速度快得惊人。在处理30帧视频时，它只需要2.3秒，而最快的竞争方法需要22.5秒，最慢的需要231.6秒。这个速度优势来自于它的单次前向传递设计——没有迭代优化，没有逐对推理，没有后处理对齐步骤。

研究团队还引入了两个新的指标来验证他们的两个关键假设。静态退化偏差衡量了静止区域轨迹的时间抖动——理想情况下应该为零，因为静止像素的轨迹应该是一个点。对应一致性衡量了来自不同帧但对应同一三维点的像素预测的轨迹有多一致——理想情况下应该完全相同。Trace Anything在这两个指标上也都表现最佳，分别达到1.06和5.09，远优于竞争方法。

七、超越基准：涌现的能力

除了在标准基准上的性能，Trace Anything还展现了几个令人惊讶的涌现能力。这些能力不是研究团队显式设计的，而是自然从轨迹场表示中涌现出来的。

第一个涌现能力是基于速度的运动预测。由于轨迹场编码了每个像素的完整运动历史，你可以通过对轨迹求导来获得速度，然后沿着这个速度方向外推轨迹来预测未来的运动。这不需要任何额外的预测网络，只需要简单的数学运算。

第二个涌现能力是基于指令的预测。研究团队展示了一个有趣的应用：使用文本到视频生成模型（如Seedance）根据自然语言指令生成未来的视频帧，然后使用Trace Anything来提升这些生成的视频为轨迹场。这在机器人学中有明显的应用——你可以告诉机器人"向前移动到桌子"，系统生成一个显示机器人执行这个动作的视频，然后提取三维轨迹来指导实际的机器人运动。

第三个涌现能力是时空融合。在多个帧中观察到的同一个动态物体可以被一致地融合回一个规范帧中。这就像将多个不同角度的照片拼接成一个完整的三维模型，但这里是在时间维度上进行的。这对于处理遮挡和视点变化非常有用。

八、多种输入的通用性

Trace Anything的另一个令人印象深刻的特性是它的通用性。虽然它的名字暗示它可以处理任何视频，但它实际上能做的远不止这些。

研究团队展示了该模型在视频输入上的性能，这是最直观的应用。给定一个视频序列，模型预测每个像素的轨迹，生成密集的三维点云序列和完整的运动信息。

但模型也能处理图像对输入。给定两个图像（可能相隔很远），模型可以预测一个轨迹场，该轨迹场在两个图像之间进行插值，显示隐含的三维运动。这在机器人学中特别有用。研究团队在BridgeData V2数据集上展示了这一点，该数据集包含机器人操纵行为。给定初始图像和目标图像，模型预测了机器人手臂和被操纵物体的三维轨迹，这些轨迹可以直接用于指导机器人的运动。

更令人惊讶的是，模型甚至能处理无序的、无结构的图像集合。给定一组没有时间顺序、没有连续摄像机运动的图像，模型仍然能够预测合理的轨迹场和摄像机姿态。这展示了模型学到的表示的深层泛化能力。

九、轨迹场的衍生应用

轨迹场表示的优雅之处在于它能够自然地衍生出许多其他有用的表示。给定轨迹场和摄像机参数，你可以轻松地投影轨迹到图像平面上获得二维轨迹。你可以计算轨迹的方差来生成动态掩码，将静止区域与运动区域分离。你可以计算两个时间步之间的轨迹差来获得场景流。你甚至可以从轨迹推断摄像机的内参和外参。

这种多功能性使得Trace Anything成为一个强大的基础模型，可以支持多种下游应用。它不仅仅是一个轨迹预测器，而是一个统一的几何理解系统。

十、训练的规模和效率

为了训练Trace Anything，研究团队进行了大规模的计算投资。他们使用了32个NVIDIA A100 80GB GPU，训练时间长达7.22天。模型在两个阶段进行训练：首先在20000个Kubric合成视频上进行预训练，这些视频主要包含刚体运动；然后在Kubric视频和10000个来自他们自己平台的视频的混合数据上进行微调，这些视频包含更复杂的非刚体运动和多样化的环境。

为了处理这样的规模，研究团队采用了几个关键的优化技术。他们使用了FlashAttention来加速变换器的注意力计算。他们使用了DeepSpeed ZeRO Stage 2来分布式训练，将优化器状态、梯度等分散到多个GPU上。这些技术的组合使得大规模训练成为可能。

十一、与现有方法的比较

为了更好地理解Trace Anything的贡献，理解它与现有方法的区别很重要。传统的三维重建方法，如结构从运动（SfM）管道，通常分为多个阶段：特征提取、图像匹配、三角测量、相对姿态估计和全局光束调整。这种阶段式的方法容易积累错误，而且在动态场景中表现不佳。

最近的学习基础方法，如DUSt3R和它的变体，改进了这一点，通过直接预测三维点图而不是逐个阶段进行。但这些方法通常仍然依赖于逐对推理，导致O(N²)的计算复杂度，并且需要后续的全局对齐步骤。

点追踪方法，如CoTracker，专注于追踪特定点的长期轨迹。但它们通常需要额外的深度估计或二维追踪来升级到三维。

Trace Anything通过几种方式改进了这些方法。首先，它是真正的端到端的，从原始图像直接到轨迹，没有中间的估计器。其次，它进行单次前向传递，避免了逐对推理的开销。第三，它在共享的世界坐标系中联合预测所有轨迹，自动确保全局一致性。第四，它不仅预测轨迹，还预测置信度和时间戳，提供了丰富的几何信息。

十二、局限性和未来方向

虽然Trace Anything在许多方面都很强大，但研究团队也坦诚地讨论了其局限性。该模型在处理极端的遮挡、快速的运动或复杂的非刚体变形时可能会遇到困难。在某些情况下，轨迹可能不够光滑或可能包含跳跃。

研究团队还提出了几个未来的研究方向。一个自然的方向是将轨迹场与新视图合成技术集成，使用轨迹场来初始化动态3D高斯溅射模型。另一个方向是改进对极端动态场景的处理。还可以探索轨迹场在其他应用中的使用，如视频编辑、动作捕捉或运动风格转移。

十三、实际应用的想象

虽然Trace Anything是一个研究系统，但它的应用潜力是巨大的。在电影和视频制作中，它可以用于自动化的视觉效果和运动捕捉。在机器人学中，它可以用于从演示视频中学习运动技能。在增强现实中，它可以用于更准确的虚拟对象放置和交互。在医学成像中，它可以用于追踪器官或肿瘤的运动。在体育分析中，它可以用于详细的运动员运动分析。

关键的是，轨迹场表示提供了一个统一的框架，可以支持所有这些应用。一旦你有了轨迹，你可以用它做几乎任何你想做的事情。