微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 密歇根大学团队突破性发现:视频生成AI竟能"追踪"物体运动

密歇根大学团队突破性发现:视频生成AI竟能"追踪"物体运动

2025-11-25 19:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-25 19:59 科技行者

这项由密歇根大学的Ayush Shrivastava、Sanyam Mehta、Daniel Geng和Andrew Owens,以及康奈尔大学的Andrew Owens共同完成的研究发表于2025年10月,论文编号为arXiv:2510.11715v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看到一个人在视频中跑步时,我们的大眼睛能够轻松地跟踪他的移动轨迹,即使他偶尔被树木遮挡,我们也知道他会从另一边出现。这种看似简单的能力,对于计算机来说却是一个巨大的挑战。现在,密歇根大学的研究团队发现了一个令人惊讶的现象:那些原本用来生成视频的人工智能,竟然也具备了"追踪"物体运动的神奇能力。

研究团队发现,视频生成和物体追踪这两个看似完全不同的任务,实际上有着深层的联系。生成视频的AI需要理解物体如何在时间中移动和变化,而追踪物体也需要预测它们的运动轨迹。基于这个洞察,研究人员想出了一个巧妙的方法:在视频的第一帧中放置一个醒目的红色圆点标记在想要追踪的位置上,然后让视频生成AI重新生成整个视频。令人惊讶的是,AI不仅保留了这个红点,还让它随着物体一起移动,就像是给物体贴上了一个"追踪贴纸"。

这种方法的核心思想可以比作给宠物戴上GPS项圈。当你想知道你的猫在房子里的移动路线时,你给它戴上一个醒目的项圈,然后通过监控录像就能看到项圈(代表猫)的移动轨迹。研究团队的方法类似,只不过他们是在数字世界中给想要追踪的物体"戴上"一个虚拟的红色标记。

这项研究的创新之处在于,它完全不需要专门训练追踪算法,而是巧妙地利用了现有视频生成AI的内在能力。这就像发现一台原本用来洗衣服的机器,竟然还能用来脱水蔬菜一样。研究团队称这种方法为"点提示追踪",因为它通过简单的视觉提示就能实现复杂的追踪功能。

一、让AI"看见"运动的魔法原理

要理解这个方法的工作原理,我们可以把视频生成AI想象成一个非常有经验的动画师。这个动画师已经看过无数的视频,知道各种物体是如何移动的:球会滚动、人会走路、叶子会飘落。当你给这个动画师一张静态图片,并要求他画出接下来会发生什么时,他会根据以往的经验来预测和绘制物体的运动。

研究团队使用的核心技术叫做"扩散模型",这是目前最先进的视频生成技术之一。扩散模型的工作方式就像是从一团噪声中逐渐"雕刻"出清晰的视频,每一步都让画面变得更加清晰和合理。研究人员发现,当他们在第一帧中添加一个明显的红色圆点时,扩散模型会自然地让这个圆点跟随着物体移动,因为这样的运动模式更符合AI从训练数据中学到的物理规律。

但是这里有一个挑战:AI有时会"忘记"这个人工添加的红点,因为在真实世界的视频中,很少有物体表面会有这样明显的红色标记。这就像一个经验丰富的厨师,当你要求他做一道从未见过的奇怪菜肴时,他可能会本能地按照传统做法来处理。为了解决这个问题,研究团队想出了一个聪明的"负面提示"技术。

负面提示的工作原理就像是告诉AI:"不要生成看起来像原始视频的内容"。具体来说,研究人员同时向AI展示两个版本的第一帧:一个带有红色标记的版本,一个没有标记的原始版本。然后他们告诉AI:"朝着第一个版本的方向生成,但要远离第二个版本"。这种对比指导确保了红色标记不会消失,而是会持续跟随物体移动。

整个过程使用了一种叫做"SDEdit"的技术,这个技术的作用就像是给一张已经画好的画重新上色。研究人员不是从零开始生成视频,而是在原始视频的基础上添加一定程度的"噪声",然后让AI重新"清理"这些噪声。在清理过程中,AI会保持视频的基本结构,但会让新添加的红色标记自然地融入到物体的运动中。

这种方法的巧妙之处在于它利用了AI的"想象力"。当AI看到一个物体表面有红色标记时,它会自然地推理这个标记应该如何随着物体移动。就像当你看到一辆汽车车顶有一个明显的标志时,你知道这个标志会随着汽车一起行驶,即使汽车转弯或者被其他车辆暂时遮挡。

二、让红点"粘"在物体上的技术挑战

虽然基本概念听起来简单,但要让这个方法真正有效,研究团队需要解决许多技术难题。第一个挑战是如何确保红色标记真的"粘"在物体上,而不是飘在空中或者粘在背景上。

研究人员发现,视频生成AI有时会把红色标记理解为镜头上的污点,就像你手机摄像头上的灰尘一样,标记会保持在画面的固定位置而不跟随物体移动。为了避免这种情况,他们需要精心调整AI的生成参数,确保标记被理解为物体表面的一部分。

另一个挑战是处理对称性问题。当追踪人体这样具有对称结构的物体时,AI有时会把标记从右手"跳"到左手,或者从右脚"跳"到左脚。这种现象就像你在镜子中看自己时,有时会分不清哪个是左手哪个是右手。研究团队通过改进标记的设计和AI的引导方式,大大减少了这种错误。

最困难的挑战是处理遮挡问题。当被追踪的物体被其他物体挡住时,AI需要"记住"物体的位置,并在物体重新出现时继续追踪。这就像你在拥挤的人群中跟踪一个朋友,即使他暂时被人群遮挡,你也需要预测他会从哪里重新出现。

为了提高追踪的准确性,研究团队开发了两个重要的改进技术。第一个是"颜色重平衡",这个技术会预先处理视频,减少背景中的红色成分,确保红色标记成为画面中最显眼的红色元素。这就像在一个房间里关掉所有的红色灯光,只留下你想要找的那个红色物体发光。

第二个改进是"粗到细的精细化"技术。这个过程分为两个步骤:首先使用基本方法获得一个大致的追踪轨迹,然后使用AI的"修复"功能对轨迹附近的区域进行精细调整。这种方法就像先用粗笔画出草图,然后用细笔描绘细节。在第二步中,AI只被允许修改红色标记周围的小区域,而保持视频的其余部分不变。

研究团队还开发了一个智能的追踪算法来提取红色标记的位置。这个算法不是简单地寻找红色像素,而是使用了更复杂的策略。它会在前一帧标记位置的附近搜索红色像素,如果发现标记被遮挡了,就会逐渐扩大搜索范围直到重新找到标记。找到标记后,算法会计算附近所有红色像素的平均位置,得到一个更稳定和准确的中心点。

这种追踪方法的一个独特优势是它能够处理长时间的遮挡。传统的追踪方法往往在物体被遮挡几秒钟后就会失效,但这种基于视频生成的方法能够利用AI对物体运动的深层理解,即使在长时间遮挡后也能成功恢复追踪。

三、与传统方法的较量:意外的发现

为了验证这种新方法的有效性,研究团队在标准的视频追踪测试数据集上进行了大量实验。他们选择了TAP-Vid基准测试,这是一个专门用来评估点追踪算法的权威数据集,包含了各种复杂场景的视频。

实验结果令人惊讶。在不需要任何专门训练的情况下,这种"零样本"方法的表现竟然超过了所有其他零样本追踪方法,甚至在某些指标上接近了那些需要大量训练数据的专业追踪算法。具体来说,在TAP-Vid DAVIS数据集上,他们的方法达到了42.21的平均Jaccard分数,大幅超过了之前最好的零样本方法(29.68分)。

更令人印象深刻的是,这种方法在处理遮挡方面表现尤为出色。传统的追踪方法往往在物体被遮挡后就会丢失目标,但基于视频生成的方法在遮挡准确性上达到了82.90%,不仅超过了其他零样本方法,甚至超过了一些需要专门训练的自监督方法。

研究团队测试了多个不同的视频生成模型,包括Wan2.1(有13亿和140亿参数两个版本)、Wan2.2和CogVideoX。他们发现,更强大的视频生成模型确实能够带来更好的追踪性能。这个发现验证了他们的核心假设:视频生成质量和追踪能力之间存在直接关系。

有趣的是,研究人员还发现视频分辨率对追踪效果有重要影响。当他们使用高分辨率视频时,追踪精度显著提高。这是因为高分辨率视频为AI提供了更多细节信息,使其能够更准确地理解和预测物体运动。

研究团队还进行了详细的消除实验,系统性地移除方法中的各个组件来验证它们的重要性。结果显示,负面提示技术是最关键的组件——如果没有这个技术,红色标记往往在几帧之后就会消失。颜色重平衡技术也很重要,特别是在处理包含很多红色元素的场景时。精细化步骤则能够进一步提高追踪精度,特别是在物体运动复杂的情况下。

令人意外的是,标记的颜色选择对结果有一定影响,但不是决定性的。虽然红色标记效果最好,但蓝色标记也能取得不错的结果。这表明这种方法具有一定的通用性,不完全依赖于特定的颜色选择。

然而,这种方法也有一些局限性。在某些合成视频(如计算机图形生成的场景)上,效果不如在真实视频上那么好。这可能是因为用于训练视频生成AI的数据主要来自真实世界的视频,对合成场景的理解相对较弱。另外,当物体具有高度对称性时,追踪有时会在对称部位之间"跳跃"。

四、计算成本与实际应用的平衡

虽然这种方法在准确性上表现出色,但它也面临着实际应用中的挑战。最主要的问题是计算成本:为每个追踪点生成一个完整的视频需要相当多的计算资源和时间。

根据研究团队的测试,使用13亿参数的Wan2.1模型追踪一个点大约需要7分钟,而使用140亿参数的更大模型则需要30分钟。对于CogVideoX模型,处理时间约为20分钟。这些时间都是在高端GPU上的测试结果,对于普通用户来说,时间可能会更长。

这种计算开销主要来自于视频生成过程的复杂性。现代视频生成AI需要进行多次迭代来逐步优化每一帧,每次迭代都涉及大量的矩阵运算。相比之下,传统的追踪算法通常能够实时运行,每秒处理几十帧视频。

然而,研究团队指出,这种方法的价值不在于立即取代现有的追踪系统,而在于证明了视频生成AI具有内在的追踪能力。这个发现为未来的研究开辟了新的方向。例如,研究人员可以开发专门的"蒸馏"技术,将这种基于生成的追踪能力转移到更快速的专用追踪网络中。

另一个可能的改进方向是开发更高效的生成方法。目前的方法需要50个去噪步骤来生成视频,但研究人员正在探索只需要一两个步骤的快速生成方法。如果这些技术成熟,基于生成的追踪方法就可能达到实时应用的要求。

研究团队还探索了同时追踪多个点的可能性。理论上,可以在第一帧中放置多个不同颜色的标记,让AI同时追踪多个目标。初步实验表明这是可行的,但需要更仔细的颜色选择和冲突处理策略。

对于资源有限的应用场景,研究人员建议可以采用混合策略:使用这种生成方法来处理最困难的追踪场景(如长时间遮挡),而在其他情况下使用传统的快速追踪方法。这样可以在保持整体效率的同时,显著提高困难场景下的追踪准确性。

五、技术局限与未来改进空间

尽管这项研究取得了显著成果,但研究团队也诚实地指出了方法的局限性。最明显的问题是对于某些类型的视频,特别是计算机生成的合成视频,这种方法的效果不够理想。

在合成视频中,物体的运动模式和外观可能与AI在真实视频上学到的经验有所不同。例如,在游戏视频中,角色的动作可能过于夸张或不符合物理规律,这会让AI感到"困惑",导致追踪失败。研究团队发现,在TAP-Vid Kubric(一个合成视频数据集)上的表现明显低于在真实视频上的表现。

另一个挑战是边界歧义问题。当追踪点非常接近物体边缘时,AI有时会把标记"粘"到背景上而不是物体上。这种情况就像你试图在一个球的边缘贴标签,标签可能会粘到桌面上而不是球上。

对称性混淆也是一个持续的问题。虽然研究团队已经通过各种技术减少了这种情况,但在处理高度对称的物体(如人体的左右手)时,标记仍然可能在对称部位之间跳跃。

研究人员还观察到,在某些情况下,AI会将红色标记理解为与物体表面无关的元素,比如相机镜头上的污点或环境中的反射光。这会导致标记保持在画面的固定位置而不跟随物体移动。

为了解决这些问题,研究团队提出了几个可能的改进方向。首先是改进标记设计:不仅仅使用简单的红色圆点,而是设计更复杂的标记模式,让AI更容易理解它们属于物体表面。例如,可以使用具有纹理的标记,或者在标记周围添加阴影效果。

其次是开发更智能的引导策略。目前的负面提示技术虽然有效,但比较粗糙。研究人员正在探索更精细的引导方法,能够更准确地控制AI的生成行为。

第三个方向是结合多种模态的信息。除了视觉信息,还可以利用音频、深度信息或运动传感器数据来辅助追踪。这样的多模态方法可能会更加鲁棒和准确。

研究团队还建议开发专门针对合成视频优化的模型。通过在更多样化的视频数据上训练,包括各种风格的动画和游戏视频,AI可能会获得更好的泛化能力。

六、对未来AI发展的深远影响

这项研究的意义远远超出了视频追踪本身。它揭示了一个重要的原理:为一个任务训练的AI系统往往具有执行相关任务的潜在能力,即使它从未被明确地训练过这些任务。

这种现象在AI领域被称为"涌现能力"。就像一个学会了画画的人自然也会具备一定的色彩搭配能力一样,学会了生成视频的AI也自然获得了理解和预测物体运动的能力。这个发现为我们重新思考AI的能力边界提供了新的视角。

在实际应用方面,这种技术可能会带来多个领域的创新。在电影制作中,它可以用来自动追踪演员或道具的移动,减少后期制作的工作量。在体育分析中,它可以帮助自动追踪球员或球的运动轨迹,为战术分析提供数据支持。

在安防监控领域,这种技术可能会带来新的突破。传统的监控系统往往在目标被遮挡或离开画面后就会丢失追踪,但基于生成的方法可能能够更好地处理这些困难场景。当然,这也需要解决计算效率的问题。

在医学影像分析中,这种技术可能有助于追踪器官或病变的变化。例如,在心脏超声检查中,可以自动追踪心脏壁的运动,帮助医生诊断心脏功能异常。

更广泛地说,这项研究展示了"提示工程"在视觉任务中的巨大潜力。就像在自然语言处理中,精心设计的文本提示可以让AI执行各种任务一样,精心设计的视觉提示也可能让视觉AI执行意想不到的任务。

这个发现也为AI研究的发展方向提供了启发。与其总是从零开始训练专门的AI系统,研究人员可能可以更多地探索如何通过巧妙的提示或引导方法来激发现有AI系统的潜在能力。这种方法不仅更加高效,也可能发现AI的新能力。

从更深层的角度来看,这项研究表明AI对世界的理解可能比我们想象的更加深入和统一。生成和理解、创造和分析,这些在人类看来不同的认知活动,在AI的内部表示中可能有着深层的联系。

说到底,这项来自密歇根大学的研究为我们打开了一扇新的窗户。它让我们看到,AI的能力边界远比我们想象的更加模糊和广阔。一个被训练来生成视频的AI,竟然能够理解和追踪物体的运动,这种跨任务的能力迁移暗示着AI正在发展出更加通用和灵活的智能。

虽然这种方法目前还面临着计算效率和适用范围的限制,但它开辟的研究方向可能会在未来几年内带来重大突破。当我们学会更好地与AI"对话",通过恰当的提示来激发它们的潜在能力时,可能会发现更多令人惊讶的应用。这不仅会改变我们使用AI的方式,也会改变我们对智能本质的理解。

对于普通人来说,这项研究提醒我们,AI的发展正在以我们难以预料的方式进行。那些看似专门为某个特定任务设计的AI系统,可能隐藏着执行其他任务的巨大潜力。随着研究人员继续探索这些隐藏的能力,我们可能会看到AI在各个领域的应用出现意想不到的突破。

有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2510.11715v1查询完整的学术论文,其中包含了详细的实验数据和技术实现细节。

Q&A

Q1:点提示追踪是什么技术?

A:点提示追踪是密歇根大学研究团队开发的一种新型视频追踪技术。它的工作原理是在视频第一帧的目标位置放置一个红色圆点标记,然后让视频生成AI重新生成整个视频,AI会自动让红点跟随物体移动,从而实现追踪效果。

Q2:这种方法比传统追踪算法有什么优势?

A:最大优势是处理遮挡问题的能力特别强。传统追踪方法在物体被遮挡后往往会丢失目标,但这种基于视频生成的方法能利用AI对物体运动的深层理解,即使在长时间遮挡后也能成功恢复追踪。而且它不需要专门训练,是真正的"零样本"方法。

Q3:这种追踪方法有什么局限性?

A:主要问题是计算成本很高,追踪一个点需要7-30分钟不等,远比传统方法慢。另外,在计算机合成视频上效果不够理想,处理高度对称物体时可能出现标记跳跃问题,而且在物体边缘附近追踪时容易出现歧义。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-