微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉"动感眼":南京大学团队打造的多模态大模型细粒度动作理解增强系统

视觉"动感眼":南京大学团队打造的多模态大模型细粒度动作理解增强系统

2025-06-06 14:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 14:15 科技行者

近日,由南京大学杜一鹏、范铁函、南柯盼,字节跳动南柯盼、谢瑞、周鹏昊、杨震恒,以及南开大学的李翔共同完成的研究"MotionSight: 提升多模态大语言模型中的细粒度动作理解"成为了计算机视觉领域的一大亮点。这项研究虽然还在预印本阶段,但已经在arXiv上公开,论文编号为2506.01674v1。有兴趣深入阅读的读者可以通过南京大学研究团队的项目网站(https://nju-pcalab.github.io/projects/MotionSight)获取更多信息。

想象一下这个场景:你在看一段视频,想知道画面中的警察在做什么,摄像机是如何移动的。如果你问现有的人工智能模型,比如谷歌的Gemini,它可能会告诉你"警察似乎在充当门卫或控制通往白色西装男子前进区域的通道。摄像机正在向右平移。"但实际上,警察只是站在人群附近,而摄像机是在对着白色西装男子进行放大。这种误解恰恰反映了当前多模态大语言模型(MLLMs)在理解视频动作细节方面的局限性。

虽然现有的多模态大语言模型在处理图像和文本方面表现出色,但它们在视频领域,特别是理解细粒度动作方面却显得力不从心。这些模型往往缺乏对帧间差异的感知能力,容易忽略或平均化细微的视觉线索。简单来说,它们看视频就像看一堆静态图片,没能真正捕捉到动作的连贯性和细节变化。

南京大学团队提出的MotionSight系统正是为了解决这一问题。它是一种零样本(不需要额外训练数据)的创新方法,通过引入对象中心的"视觉聚光灯"和"动态模糊"作为视觉提示,显著提升了多模态大语言模型理解细粒度动作的能力。想象一下,如果我们观看魔术表演,MotionSight就像是一个会自动帮我们聚焦到魔术师手部动作的智能助手,同时还能告诉我们摄像机是如何移动来捕捉这些动作的。

除了提出创新方法,研究团队还构建了名为MotionVid-QA的大规模数据集,这是首个专注于细粒度视频动作理解的开源数据集。它包含约4万个视频片段和8.7万个问答对,覆盖了丰富的场景和高质量的视频素材。这些数据被精心组织成层次化的注释,包括用于监督微调(SFT)和人类偏好(DPO)的数据,为未来的研究提供了宝贵资源。

实验结果表明,MotionSight在业界标准基准测试(如MotionBench和FAVOR-Bench)上取得了令人印象深刻的性能。它不仅超越了现有的开源方法,甚至在某些方面与商业模型相媲美。最重要的是,这一切都是在不需要额外训练的情况下实现的,充分释放了多模态大语言模型的潜在能力。

让我们一起深入了解这项创新研究的细节,看看它如何改变我们对视频理解的认知。

一、视频中的动态世界:为什么细粒度动作理解如此重要?

想象你正在看一段芭蕾舞视频。作为观众,你不仅能看到舞者在舞台上移动,还能捕捉到每个微妙的手势、跳跃的轻盈度、旋转的速度变化。这些细节共同构成了一段优美的表演。但如果你问现有的AI模型描述这段视频,它可能只会告诉你"有人在跳舞",忽略了所有让这段表演独特而美丽的细节。

视频与静态图像的根本区别在于其时间维度。这种时间维度体现为帧与帧之间的连续变化,形成了丰富多样的动作。这些变化可能来自画面中的物体,也可能来自摄像机本身,正是这些变化使视频生动有叙事性,将其与静态图像区分开来。

现有的多模态大语言模型虽然在图像理解方面取得了长足进步,但在细粒度动作理解方面却面临重大挑战。这些模型在大规模数据预训练中获取了广泛的语义知识,但由于它们倾向于以统一的重要性处理空间区域,且缺乏明确辨别细微帧间变化的内在机制,直接应用于细粒度动作理解往往效果不佳。

南京大学研究团队提出了两个关键问题:

首先,如何提升多模态大语言模型源自大规模数据的潜在能力,使其能够实现细粒度动作理解,捕捉局部动作线索并增强对细微帧间动态的建模?

其次,即使我们成功增强了模型的细粒度动作理解能力,这种增强的理解和洞察主要以隐式表示形式存在。那么,如何明确且有结构地提取这些知识,将其转化为有价值的数据资产?这些资产对于训练其他模型和研究者的深入分析至关重要。

研究团队进行了大量实验和探索,寻找不依赖额外训练数据的零样本方法来提升模型的固有细粒度动作理解能力。他们发现,虽然图像理解领域的视觉提示技术(visual prompting)显示出很大潜力,但这些技术尚未有效扩展到视频的复杂时间特性,特别是在细粒度动作理解方面。

研究团队在最近的专门针对动作的基准测试上进行了直接迁移评估,发现即使是在静态图像中表现最佳的背景模糊(blur reverse mask)视觉提示,在细粒度动作理解中反而表现最差。这种方法由于丢失了上下文信息,反而降低了模型在细粒度动作理解中的能力。

这促使研究团队设计了一种针对视频动作理解领域独特需求的新型视觉提示方法——MotionSight。

二、MotionSight:让AI的"动态视觉"更敏锐的创新方法

MotionSight的核心思想可以比作给AI装上了一副特殊的"动态眼镜",帮助它更好地识别和理解视频中的动作细节。这种方法首先将物体动作和摄像机动作分离,然后针对每种动作类型采用不同的增强策略。

对于物体动作,系统会根据多模态大语言模型的初步感知选择动作组。想象你在看一个杂技表演视频,系统会自动识别出"杂技演员"、"球"、"平衡木"等关键元素。接着,系统利用外部知识模块进行物体跟踪,识别出与所查询动作高度相关的一系列边界框。这就像给杂技演员画上了一个会跟随其移动的荧光标记。随后,系统会平滑这系列边界框,应用类似聚光灯的视觉提示,将其反馈给多模态大语言模型,增强其细粒度物体动作感知能力。

对于摄像机动作,由于需要多模态大语言模型感知细微的场景变化(这是模型通常表现不佳的能力),研究团队设计了一种方法,在视频帧中人为引入运动模糊。有趣的是,实验表明,这种运动模糊的添加显著有利于摄像机动作的判断。就像当你快速摇晃相机拍照时,照片会出现模糊,这种模糊恰恰成为识别摄像机动作的重要线索。

最后,系统通过精心设计的配置获取增强结果,多模态大语言模型推理产生最终答案。整个过程无需额外训练,完全是零样本的,这意味着它可以直接应用于现有的模型,无需花费大量资源进行重新训练。

MotionSight的工作流程可以分为三个主要步骤:

1. 对象定位(Object Referring):当用户询问视频中的动作时,系统首先分析问题,确定需要关注的对象类别。然后使用GroundingDINO这样的工具在关键帧中定位这些对象,并通过SAM2等跟踪算法在后续帧中追踪它们的轨迹。为了处理对象频繁进出画面的情况,系统会在固定间隔重新检测对象,确保全面捕捉对象的移动。

2. 动作聚焦(Action Focusing):获取对象轨迹后,系统使用动态时间聚合器合并和稳定边界框,抵抗抖动。这个聚合器会根据轨迹内位置变化自适应调整其时间窗口——当对象几乎静止时,使用较长的时间跨度;当对象快速移动时,聚焦于较短时间内的局部区域。然后,系统应用"视觉聚光灯"技术,暗化边界框外的背景,同时保持检测到的对象在原始位置,增强对相关移动元素的关注。

3. 动作模糊(Motion Blur):为了克服现有模型感知帧间变化(尤其是细微的摄像机动作)的固有限制,系统引入了动作模糊转换。这种技术对每一帧进行时间加权聚合,使用其前N帧的信息,并应用衰减因子,使最近的帧贡献更大。这种聚合在整个视频序列中产生运动模糊效果,增强模型感知和解释细微摄像机移动的能力。

这三个组件协同工作,形成了一个强大的系统,能够大幅提升多模态大语言模型对视频中细粒度动作的理解能力。最重要的是,这一切都是在不需要额外训练的情况下实现的,充分释放了模型的潜在能力。

三、MotionVid-QA:为细粒度动作理解打造的高质量数据集

要评估和改进AI模型的细粒度动作理解能力,高质量的数据集至关重要。然而,现有的数据集在这方面存在明显不足。早期的动作识别数据集(如UCF101、ActivityNet、Kinetics-700)由于简单的分类标签,在细粒度动作理解方面受到限制。虽然近期有研究使用多模态大语言模型进行自动标注,但其粒度仍然有限。结构化视频字幕虽然响应了对细粒度语义的需求,但在动作语义划分方面仍存在不足,因为缺乏获取细粒度语义表示的设计良好的方法。

为了解决这一问题,研究团队构建了MotionVid-QA,这是首个专注于细粒度动作理解的大规模数据集。该数据集具有以下特点:

1. 规模与多样性:包含约4万个视频片段和8.7万个问答对,覆盖了多种场景和高质量视频素材。

2. 层次化注释:数据集被组织成两个子集——用于监督微调(SFT)的约3.5万个视频和8万个问答对,以及用于人类偏好对齐(DPO)的约5千个视频和7千个问答对。

3. 严格的质量控制:研究团队应用了严格的过滤机制来提高注释数据的质量。使用VQAScore和人工设定的阈值进行分类,高质量片段成为偏好数据集候选,低质量片段被淘汰,其余部分形成指令数据集。

4. 细粒度问题类型:数据集包含三类问题——以对象为中心的问题(关注物体的移动、动作和交互)、以摄像机为中心的问题(探讨摄像机的移动、技术和视角)以及混合焦点问题(需要对物体动作和摄像机工作之间的相互作用有全面理解)。

这个数据集的创建过程也非常严谨。研究团队首先从多个来源(包括ActivityNet、Kinetics-700、Charades、Charades-Ego、Tarsier2-Recap-585K、OpenVid-1M和MotionBench-train)收集视频,然后应用初始数据处理管道进行过滤,只保留满足特定质量指标的片段。接着,使用MotionSight为选定的片段进行标注,并根据注释质量将其分为三类:高质量片段(用于DPO数据集)、低质量片段(被淘汰)和指令数据集片段(用于SFT)。

对于DPO数据集,研究团队重新标注了高质量片段,并引入了人类偏好信号。人类标注者根据准确性、粒度、时间动态、摄像机移动和事实正确性等标准选择首选的文本描述。这一过程由多个受过良好教育的个体完成,确保数据质量和多样性。

MotionVid-QA数据集的构建不仅为细粒度视频动作理解提供了宝贵资源,还为未来的模型训练和评估奠定了坚实基础。

四、实验结果:MotionSight的卓越表现

研究团队在两个主要基准测试上评估了MotionSight的性能:MotionBench和FAVOR-Bench。

MotionBench是一个大规模、细粒度的动作级基准测试,包含5,385个视频和8,052个问答对。其问题类型包括六个细粒度动作导向任务类别:动作识别(MR)、位置相关动作(LM)、动作顺序(AO)、重复计数(RC)、动作相关对象(MO)和摄像机动作(CM)。

FAVOR-Bench是一个细粒度视频动作理解基准测试,包含1,776个视频,具有各种动作的结构化手动注释。测试包括六种问答对:动作序列(AS)、整体动作分类(HAC)、单一动作细节(SAD)、多动作细节(MAD)、摄像机动作(CM)和非主体动作(NSM)。

在MotionBench上,MotionSight显著提升了基础模型的性能。当使用Qwen2.5VL作为骨干网络时,该方法在类别平均值上实现了3.4%的提升,而摄像机动作改进了惊人的14.3%。更令人印象深刻的是,当与InternVL3-78B结合使用时,MotionSight在开源模型中取得了最先进的结果,甚至在某些方面与领先的商业模型(如GLM-4V-Plus-0111)相媲美。

在FAVOR-Bench上,结果同样令人鼓舞。Qwen2.5VL-7B与MotionSight结合,在类别平均值上提高了3.0%,在整体指标上提高了2.5%。同样,将MotionSight与InternVL3-78B集成,在AS、HAC和MAD等类别中取得了显著提升,展示了该方法的一致有效性。

研究团队还进行了深入的消融研究,评估不同视觉提示策略对物体动作和摄像机动作理解的影响。对于物体动作理解,他们比较了视觉聚光灯、物体裁剪、背景模糊、物体动作模糊和姿态估计等技术。结果表明,提出的视觉聚光灯技术在物体动作平均分数上表现最佳,而背景模糊则产生了负面影响,与其在静态图像提示中的有效性形成对比。

对于摄像机动作理解,研究重点评估了应用于整个视频帧的全局动作模糊。结果显示,这种动作模糊合成方法显著提高了模型感知细微帧间差异的能力,从而大幅提升了基线性能。

此外,研究团队还在其数据集上进行了微调实验,创建了名为MotionChat的模型。在FAVORBench和MotionBench上,完整的MotionChat模型取得了整体性能提升,证明了数据集和微调方法对细粒度动作理解的积极影响。质性比较显示,MotionChat展示了增强的细粒度动作感知,比基线模型更准确地解释复杂的动作叙述。

五、MotionSight的创新和局限

MotionSight的创新之处在于它采用了零样本方法来增强多模态大语言模型的细粒度动作理解能力,而不需要额外的训练数据。它通过引入对象中心的视觉聚光灯和动作模糊作为视觉提示,有效改善了细粒度动作理解。

对于物体动作,研究团队发现视觉聚光灯技术优于其他视觉提示方法,如物体裁剪、背景模糊、物体动作模糊和姿态估计。这表明,通过突出相关移动元素并保持其上下文,可以显著提升模型对物体动作的理解。

对于摄像机动作,研究团队的动作模糊技术通过在视频帧中合成运动模糊,成功增强了模型感知细微场景变化的能力。这一发现特别有趣,因为它表明添加人为的视觉线索可以帮助模型更好地理解动态内容。

除了方法创新,研究团队还构建了MotionVid-QA数据集,这是首个专注于细粒度视频动作理解的大规模开源数据集。该数据集不仅规模大,而且质量高,为未来的研究提供了宝贵资源。

然而,MotionSight也存在一些局限性。首先,其性能与底层多模态大语言模型紧密相关,可能继承模型的偏见。其次,与所有视频分析技术一样,该方法和数据集也存在被滥用的风险(例如,在监控中)。研究团队倡导道德使用,设计工作时考虑了透明度,以便于审查和减轻误用。

尽管如此,MotionSight和MotionVid-QA为细粒度视频动作理解领域做出了重要贡献,为未来研究奠定了坚实基础。

六、结论:视觉的未来与细粒度动作理解的意义

归根结底,南京大学研究团队的MotionSight为多模态大语言模型的细粒度视频动作理解开辟了新的可能性。通过创新的零样本方法和高质量数据集,他们成功释放了这些模型的潜在能力,使其能够更好地理解和解释视频中的细微动作。

MotionSight的核心创新在于将物体动作和摄像机动作解耦,并为每种动作类型设计专门的增强策略——对象中心的视觉聚光灯和动态模糊。这些技术不需要额外训练,却能显著提升模型性能,在业界标准基准测试上取得了令人印象深刻的结果。

同时,MotionVid-QA作为首个专注于细粒度视频动作理解的大规模开源数据集,为未来的研究提供了宝贵资源。它不仅规模大,而且质量高,包含层次化注释,能够支持多种训练策略。

细粒度动作理解的进步对许多领域都有深远影响,从视频监控和安全系统,到辅助技术、自动驾驶、体育分析和电影制作。随着这些技术的发展,我们可以期待AI系统能够更好地理解和解释人类和环境的动态交互,为人类提供更有价值的服务。

未来的研究方向可能包括进一步改进视觉提示技术,探索更多类型的动作理解任务,以及将MotionSight的方法扩展到更多领域。随着多模态大语言模型的持续发展,细粒度动作理解将成为其关键能力之一,为人机交互开辟新的可能性。

对于有兴趣深入了解的读者,可以通过南京大学研究团队的项目网站获取更多信息和资源,包括代码和数据集。这项研究不仅是技术进步,也是对人类如何感知和理解动态世界的深刻探索。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-