微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港科技大学突破:让电脑"看懂"视频中每个像素的3D运动轨迹

香港科技大学突破:让电脑"看懂"视频中每个像素的3D运动轨迹

2026-01-04 09:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-01-04 09:45 科技行者

当我们观看一部电影时,眼睛能够自然地追踪画面中每个物体的运动轨迹,无论是飞翔的小鸟、行驶的汽车,还是随风摇摆的树叶。但对于计算机来说,要从单个摄像头拍摄的视频中准确理解每个像素在三维空间中的运动,一直是个巨大的挑战。最近,香港科技大学的研究团队在这个领域取得了重大突破,他们开发出一个名为TrackingWorld的系统,能够像拥有超强记忆力的侦探一样,从单目视频中追踪几乎每个像素的3D运动轨迹。

这项由香港科技大学卢嘉豪、熊维涛等研究人员联合中国科学技术大学、香港中文大学、香港大学、厦门大学和澳门科技大学共同完成的研究,于2025年12月发表在第39届神经信息处理系统大会(NeurIPS 2025)上,编号为arXiv:2512.08358v1。对于想要深入了解技术细节的读者,可以通过该论文编号在学术数据库中查找完整研究报告。

一、破解视觉追踪的双重难题

要理解这项研究的重要性,我们可以把视频理解比作一个复杂的侦探案件。当侦探观察一个繁忙的街道场景时,他需要同时处理两个关键问题:第一,分清楚哪些物体在移动,哪些是静止的背景;第二,弄清楚自己的观察位置(也就是摄像头)是否也在移动。

以往的3D追踪系统就像是一个经验不足的侦探,它们往往只能关注其中一个方面,要么假设摄像头是静止的,专门追踪物体运动,要么只能处理稀疏的几个目标点,无法全面掌握整个场景的动态。这就好比一个侦探只能同时盯住几个嫌疑人,却忽略了周围环境的变化,或者只关注环境变化而错过了关键人物的行踪。

TrackingWorld系统的突破在于它能够同时解决这两个难题。这个系统就像一个拥有超强观察力和分析能力的顶级侦探,不仅能够追踪场景中几乎每个像素的运动轨迹,还能准确分辨出这些运动是由于物体本身在移动,还是由于摄像头位置的改变造成的视觉效果。更重要的是,它建立了一个以真实世界为参考系的坐标体系,就像在地球上建立了一个标准的GPS系统,让所有的运动轨迹都有了统一的参考标准。

研究团队发现,现有的追踪方法存在两个关键缺陷。首先,它们无法区分摄像头运动和物体运动,这就像一个人坐在行驶的火车上看窗外,分不清是树木在向后移动还是火车在向前行驶。其次,这些系统只能追踪视频开始时出现的物体,对于中途出现的新物体束手无策,就像一个侦探只能跟踪最初发现的几个目标,而对后来加入场景的新角色视而不见。

二、构建全能视觉侦探系统

TrackingWorld系统的工作原理可以比作一个配备了高科技装备的侦探团队。这个团队有三个核心成员,各自负责不同的任务,但彼此密切配合。

第一个成员是"线索收集专家",它的任务是从视频中提取基础信息。就像侦探需要收集指纹、足迹和目击者证词一样,这个专家使用多种先进工具来获取视频的基本信息:它使用CoTrackerV3或DELTA等追踪工具获取2D运动轨迹,就像在地面上标记出每个人的行走路径;使用UniDepth工具估算每个像素的深度信息,就像测量每个物体到观察者的距离;使用视觉语言模型和GroundingSAM来识别哪些物体是在运动的,哪些是静止的背景。

第二个成员是"轨迹密化专家",它负责将稀疏的追踪点扩展为密集的追踪网络。这就好比一个侦探根据几个关键线索,推断出整个案件的完整脉络。这个专家使用了一个叫做"追踪上采样器"的巧妙工具,它能够根据已知的稀疏追踪点,智能地推算出周围所有像素的运动轨迹。更令人惊叹的是,它不仅能处理视频第一帧的内容,还能对后续每一帧都进行同样的密化处理,确保新出现的物体也能被完整追踪。

为了避免重复劳动,这个专家还有一个聪明的过滤机制。当它发现某些区域已经被之前的追踪覆盖时,就会自动剔除重复的追踪点,就像一个高效的侦探团队避免重复调查同一个线索,将精力集中在新的发现上。

第三个成员是"3D重建专家",这是整个系统的核心大脑,负责将所有的2D追踪信息转换为真实的3D世界坐标。这个过程分为三个精密的步骤,每个步骤都像破解谜题的一个关键环节。

首先是"摄像头姿态估计"。这就像侦探需要确定自己在不同时刻的确切位置和观察角度。系统利用静态背景区域的追踪点,通过复杂的几何计算来推断摄像头在每个时刻的位置和朝向。为了提高效率,系统将整个视频分成多个小段进行并行处理,就像派遣多个小组同时调查案件的不同片段,最后再将结果整合起来。

接下来是"动态背景细化"阶段。由于初始的动态物体识别可能不够准确,系统采用了一个"尽可能静态"的策略。它假设所有点都可能是动态的,但对那些应该保持静态的点施加约束,迫使它们尽量保持不动。这就像一个侦探在不确定某个证人是否可靠的情况下,通过多方验证来确认证词的真实性。这个过程能够有效识别出那些被误认为是静态背景的动态物体。

最后是"动态物体追踪"阶段。在确定了准确的摄像头位置后,系统开始重建所有动态区域的3D轨迹。这个过程使用了多种几何约束来确保结果的准确性,包括投影一致性约束(确保3D点投影到2D图像时位置正确)、深度一致性约束(确保估算的深度与观测深度匹配)、刚性保持约束(确保物体不会发生不合理的形变)和时间平滑约束(确保运动轨迹在时间上连续流畅)。

三、验证系统的侦探能力

为了验证TrackingWorld系统的能力,研究团队设计了一系列严格的测试,就像对一个侦探进行全方位的能力评估。这些测试涵盖了四个关键方面,每个方面都对应着实际应用中的重要需求。

在摄像头位置估计准确性测试中,研究团队使用了三个具有挑战性的数据集:Sintel、Bonn和TUM-D。这些数据集包含了各种复杂的动态场景,就像给侦探提供了不同难度的案件。测试结果显示,TrackingWorld在所有数据集上都表现出色,其绝对轨迹误差、相对平移误差和相对旋转误差都明显低于其他先进方法。特别是在Sintel数据集上,系统的绝对轨迹误差仅为0.088,相比其他方法有了显著改进。

在3D追踪深度准确性测试中,系统展现了令人印象深刻的几何一致性。通过优化的束调整算法,TrackingWorld能够将追踪点的深度误差大幅降低。以Sintel数据集为例,系统的绝对相对误差从原始方法的0.636降低到0.218,同时将精度阈值内的点比例从63.1%提升到73.3%。这种改进就像一个侦探不仅能确定嫌疑人的大概位置,还能精确定位到具体的房间号码。

在稀疏3D追踪性能测试中,研究团队使用ADT和PStudio两个数据集来评估系统的追踪质量。ADT数据集包含移动摄像头的场景,而PStudio包含静态摄像头场景。结果显示,TrackingWorld在移动摄像头场景中表现尤为突出,这证明了明确分离摄像头运动和物体运动的重要性。在ADT数据集上,系统的平均雅卡德系数达到22.5,显著超过了其他方法。

在密集2D追踪准确性测试中,系统使用CVO数据集验证了追踪上采样器的有效性。测试结果表明,该模块不仅能够很好地推广到其他2D追踪器,还能在保持精度的同时大幅提高效率。终点误差保持在较低水平的同时,可见性掩码的交并比得到了明显改善。

四、深入剖析关键创新点

TrackingWorld系统的成功离不开几个关键的技术创新,每个创新都像是给侦探装备了新的高科技工具。

追踪上采样器是系统的第一个重要创新。这个工具就像一个智能的放大镜,能够根据稀疏的观察点推断出整个区域的详细信息。它的工作原理基于一个简单而有效的权重分配机制:对于任何需要追踪的像素,系统会寻找附近已知的稀疏追踪点,然后根据距离远近分配不同的权重,最终通过加权平均得出该像素的运动轨迹。这种方法既保证了计算效率,又能生成高质量的密集追踪结果。

全帧追踪策略是另一个重要突破。传统方法就像一个只关注案件开始阶段的侦探,而TrackingWorld则像一个始终保持警觉的全天候监控系统。它对视频中的每一帧都进行追踪处理,确保任何时刻出现的新物体都能被及时发现和追踪。为了避免计算资源的浪费,系统采用了智能的重叠检测机制,自动识别和删除那些与已有追踪轨迹重叠的冗余点。

世界中心坐标系统的建立是最根本的创新。这就像在一个复杂的案发现场建立了统一的坐标参考系,让所有的证据和线索都能在同一个框架下进行分析。这个系统不仅能够准确估计摄像头在每个时刻的位置和姿态,还能将所有的运动轨迹转换到真实世界的坐标系中,使得静态背景保持真正的静止,动态物体显示其真实的运动模式。

优化策略的设计体现了系统的智能化程度。系统采用了分阶段优化的策略,就像一个经验丰富的侦探会按照一定的逻辑顺序推进调查。首先利用粗糙的静态区域估计初始摄像头位置,然后通过"尽可能静态"的约束细化这些估计,最后重建所有动态区域的精确轨迹。这种循序渐进的方法确保了每个阶段的结果都能为下一阶段提供可靠的基础。

五、实际应用的广阔前景

TrackingWorld系统的应用前景就像一扇通向未来的大门,为多个领域带来了革命性的可能。这些应用不仅体现了技术的先进性,也展示了它对日常生活可能产生的深远影响。

在电影和视频制作领域,这项技术就像给导演和特效师配备了魔法棒。传统的视觉特效制作需要大量的人工标记和复杂的设备设置,而TrackingWorld能够自动理解场景中每个元素的运动模式,为特效添加、场景重构和虚拟物体插入提供精确的参考。这意味着独立电影制作者也能以较低的成本制作出好莱坞级别的视觉效果。

在自动驾驶技术中,这个系统就像为汽车装上了超级智能的眼睛。它能够同时追踪道路上的所有车辆、行人、自行车和其他移动物体,同时准确理解自车的运动状态。这种全方位的环境感知能力对于提高自动驾驶的安全性和可靠性至关重要,特别是在复杂的城市交通环境中。

在安防监控领域,TrackingWorld就像一个永不疲倦的超级保安。它能够从单个摄像头的视频中同时追踪多个目标,即使在摄像头移动或场景复杂的情况下也能保持稳定的追踪效果。这对于大型公共场所的安全管理、人流分析和异常行为检测都具有重要价值。

在体育分析和训练中,这项技术就像一个全知全能的体育分析师。它能够精确追踪运动员和球类的3D轨迹,为战术分析、技术改进和伤病预防提供详细的数据支持。教练可以通过这些数据更好地理解比赛动态,制定更有效的训练计划。

在增强现实和虚拟现实应用中,TrackingWorld提供了更加真实和稳定的环境理解能力。它能够准确识别现实场景中的静态和动态元素,为虚拟对象的放置和交互提供可靠的空间参考,从而创造更加沉浸式的用户体验。

六、技术优势的深入分析

通过大量的实验验证,研究团队详细分析了TrackingWorld系统各个组件的重要性,这些分析就像对一台精密机器进行全面体检,确保每个部件都发挥着应有的作用。

在追踪密化效果的验证中,研究团队发现上采样器不仅能够成功地将稀疏追踪点扩展为密集追踪网络,还能显著提高计算效率。与直接使用密集追踪相比,这种方法在保持相似精度的同时,将计算时间减少了约12倍。这就像用智能算法代替人工逐一标记,既保证了质量又大幅提高了效率。

在摄像头位置估计的准确性验证中,系统展现了强大的鲁棒性。即使在动态物体较多、背景复杂的场景中,TrackingWorld也能准确估计摄像头的位置和姿态。这种能力的关键在于系统能够智能地识别和过滤动态干扰,专注于真正稳定的静态参考点。

在世界坐标系建立的有效性验证中,研究团队通过对比实验证明了明确分离摄像头运动和物体运动的重要性。在包含摄像头移动的场景中,TrackingWorld的追踪精度比传统方法提高了约30%。这证明了建立统一世界坐标系对于准确理解3D运动的关键作用。

系统的可扩展性也得到了充分验证。研究团队测试了不同的深度估计模型(包括ZoeDepth、Depth Pro和UniDepth)和动态掩码生成方法,发现TrackingWorld都能保持稳定的性能表现。这种模块化的设计使得系统能够随着基础技术的进步而不断改进。

在计算效率优化方面,研究团队开发了一套智能的加速策略。通过对静态追踪点进行合理的下采样,然后使用插值方法恢复全分辨率结果,系统能够在保持精度的同时将优化时间从60分钟缩短到8分钟。这种优化策略就像在不影响最终效果的前提下,大幅缩短了制作时间。

七、面临的挑战与未来展望

尽管TrackingWorld系统取得了显著的成功,但研究团队也坦诚地指出了当前面临的挑战和未来的改进方向,这种科学的态度体现了严谨的研究精神。

当前系统的主要局限在于它依赖多个辅助模型来获取2D追踪、深度估计和动态掩码信息。这就像一个侦探需要依靠多个不同的工具才能完成调查,虽然每个工具都很有效,但整体的复杂性和计算开销也相应增加。研究团队认为,未来的发展方向应该是开发更加集成化的前馈解决方案,能够直接从原始视频中一步到位地生成所需的所有信息。

在处理极端场景方面,系统还有改进空间。比如在光照条件急剧变化、物体快速运动或严重遮挡的情况下,追踪精度可能会受到影响。这些挑战就像侦探在恶劣天气或复杂环境中工作,需要更加强大的工具和方法来应对。

研究团队也指出了计算资源需求的问题。虽然已经通过各种优化策略显著提高了效率,但对于实时应用来说,当前的计算速度仍有提升空间。这就像一个快速反应的安防系统,需要在保证准确性的同时实现近乎即时的响应。

在算法鲁棒性方面,系统对输入质量仍然比较敏感。如果基础的2D追踪或深度估计质量较差,会影响最终的3D重建效果。这提示未来的研究需要开发更加鲁棒的算法,能够在输入信息不完美的情况下仍然产生可靠的结果。

展望未来,研究团队提出了几个有前景的发展方向。首先是开发端到端的深度学习解决方案,能够直接从视频中预测所有时刻的3D追踪结果,无需依赖多个独立的预处理步骤。其次是探索更高效的优化算法,可能通过引入先进的并行计算技术来进一步提升速度。最后是增强系统的适应性,使其能够更好地处理各种真实世界的复杂场景。

归根结底,TrackingWorld代表了计算机视觉领域的一个重要里程碑。它不仅解决了长期以来困扰研究者的技术难题,还为众多实际应用开辟了新的可能性。虽然仍有改进空间,但这项研究为我们展示了一个未来的愿景:计算机能够像人类一样自然地理解和解析复杂的视觉世界,为我们的日常生活带来更多智能化的便利。对于想要深入了解这项技术的读者,可以通过论文编号arXiv:2512.08358v1在相关学术数据库中查找完整的研究报告,那里包含了更多详细的技术细节和实验数据。

Q&A

Q1:TrackingWorld能处理哪些类型的视频场景?

A:TrackingWorld可以处理各种复杂的动态视频场景,包括摄像头移动拍摄的街道交通、体育比赛、人物活动等。它特别擅长处理同时包含静态背景和多个动态物体的场景,即使在光照变化或轻微遮挡的情况下也能保持稳定的追踪效果。

Q2:这个系统的追踪精度到底有多高?

A:根据测试结果,TrackingWorld在标准数据集上的追踪精度显著超过现有方法。比如在深度估计方面,绝对相对误差从0.636降低到0.218,精度提升了约65%。在摄像头位置估计方面,绝对轨迹误差达到0.088,比其他先进方法提高了约20-30%。

Q3:普通用户什么时候能用上TrackingWorld技术?

A:目前TrackingWorld还是学术研究阶段的技术,处理30帧视频需要约20分钟时间。研究团队正在优化算法效率和开发更实用的版本。预计在未来几年内,这种技术会逐步集成到视频编辑软件、安防监控系统和自动驾驶汽车中,普通用户可能会在这些应用中间接体验到这项技术的便利。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-