微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科大联手小红书:让AI真正"看懂"视频里的每一个人,而不只是泛泛而谈

中科大联手小红书:让AI真正"看懂"视频里的每一个人,而不只是泛泛而谈

2026-05-26 10:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-26 10:15 科技行者

这项由中国科学技术大学与小红书公司联合主导、并有华东师范大学和西安交通大学参与的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.16079,题为《VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation》,感兴趣的读者可通过该编号在arXiv平台检索完整原文。

现有的AI视频理解系统有一个根深蒂固的毛病——它们只会"大概看一眼"。你拍了一段家庭聚餐的视频,问AI:"穿红裙子的那个人在做什么?"AI往往答非所问,要么描述整桌人的状态,要么根本分不清谁是谁。这不是因为AI不够聪明,而是因为当前主流的方法在设计上就只关注视频的整体语义,而非其中某个特定的人或物。研究团队把这个现象称为"缺乏实例级理解能力"——AI能告诉你这段视频里有人在吃饭,却很难精准回答关于某个具体人物的细节问题。

为了解决这个问题,研究团队提出了一套名为VideoSeeker的全新系统。这套系统的核心思路,是让AI像一个经验丰富的侦探一样工作:先锁定目标嫌疑人,然后主动翻查监控录像中的关键片段,最终综合所有证据给出答案。与其被动地一次性看完所有画面、然后模糊地回答问题,VideoSeeker会主动调用工具去"翻看"特定帧、"截取"关键片段,把视觉证据和逻辑推理有机融合在一起。

以下将沿着"侦探办案"这条主线,完整拆解VideoSeeker的研究动机、技术方法、训练过程和实验结果,帮助没有任何技术背景的读者彻底弄清楚这项研究在做什么、为什么重要、以及它究竟有多厉害。

一、现有AI视频理解的两大顽疾

要理解VideoSeeker的价值,先得弄明白当前AI系统的问题出在哪里。

回到侦探的比喻:现有的主流AI视频理解系统,就像一个侦探进入案发现场后,只是站在门口扫了一眼,然后根据这一眼的印象写下一份报告——既没有蹲下来仔细检查地面的痕迹,也没有拿出放大镜看清楚某个关键细节。这带来了两个根本性的问题。

第一个问题是"只听供词、不看现场"。现有方法虽然号称能理解视频,但实际上推理过程高度依赖文字描述,视觉内容在推理链条中的地位很边缘。研究团队用一个专业词汇描述这种现象:"以语言为中心"。换句话说,AI的思考过程主要在文字层面运转,视觉画面只是一个辅助输入,而不是推理的真正驱动力。这就导致当视频内容复杂、或者时间跨度很长时,AI很容易出现"幻觉"——它会根据文字逻辑编造出并不真实存在于视频中的内容。

第二个问题是"只能问整体、不能问个体"。现有的视频理解基准测试大多关注视频的整体语义,比如"这段视频讲了什么故事"、"发生了什么主要事件"。对于"视频里穿蓝色衬衫的那个男人第几次出现是在做什么"这类需要精确定位某个具体实例的问题,现有系统几乎无能为力。与此同时,现有系统只能通过文字来描述目标,比如"穿红裙子的第三排第二位女性"——这种描述方式既繁琐,又容易出歧义,用户体验极差。

这两个问题促使研究团队从零开始设计VideoSeeker,它的目标是让AI真正能够精准理解视频中的"某一个人"或"某一件物体",而不是笼统地理解"这段视频"。

二、用"视觉便利贴"代替"绕口文字描述"

VideoSeeker引入了一个在日常生活中非常直觉化的概念——视觉提示(Visual Prompt)。

简单来说,视觉提示就是直接在视频帧的画面上做标记,比如用一个红色方框圈住某个人,或者用箭头指向某个物体,或者用彩色轮廓描绘出某个角色的身形。用户只需要在视频的某一帧上"画"出自己关心的目标,然后问问题,AI就能明白"你说的是这个人",而不需要用大量文字去描述。

这就好比你在和朋友讨论一张照片时,直接用手指指着其中一个人说"他",而不是说"站在左数第三棵树旁边、穿格子衬衫、戴眼镜的那个男的"。视觉提示让交流变得直接、自然、无歧义。

研究团队为VideoSeeker设计了八种不同形态的视觉提示:矩形框、遮罩轮廓、椭圆形、三角形、涂鸦线条、点标记、箭头,以及数字标签(即在目标上标注数字"1"、"2",然后问"标了1号的人在做什么")。这八种形式覆盖了日常使用中几乎所有的标注需求,无论目标是一个体型较大的人、一个小巧的物体,还是一个轮廓不规则的动物,都能找到合适的标注方式。

当用户提供了一个带有视觉提示的视频帧之后,VideoSeeker的任务就是:精确识别出被标注的目标,追踪它在整个视频中的出现,然后回答关于这个目标的具体问题。这就是所谓的"实例级视频理解"——不是理解视频整体,而是理解视频里的某一个具体实例。

三、像侦探一样主动调取证据的推理机制

VideoSeeker最核心的创新在于它的推理方式——它不是一次性处理完所有视频帧就给出答案,而是像一个侦探在办案过程中不断主动调取新证据一样,分多轮与视频环境交互。

具体来说,研究团队为VideoSeeker配备了两个"侦查工具"。第一个工具叫做`view_visual_prompt`,它的作用是随时调出带有视觉提示的那一帧画面,让AI在推理过程中始终能"看到"目标长什么样,不会忘记自己在追踪谁。这就像侦探办案时随身携带嫌疑人照片,每隔一段时间就拿出来对照确认一样。第二个工具叫做`crop_video`,它允许AI在推理过程中截取视频的某个特定时间段——比如只看第30秒到第45秒的片段——进行精细分析。这就像侦探在全程监控录像中锁定了某个可疑时段,把那段录像单独反复回放一样。

AI在推理时会经历多轮循环:先浏览整体视频形成初步判断,然后调用`view_visual_prompt`确认目标外貌,接着用`crop_video`截取关键时间段深入分析,再综合所有证据得出结论。这种"主动感知→局部放大→基于证据推理"的循环,和人类面对复杂视觉场景时的思维方式高度吻合——我们在人群中找一个人时,也会先扫视全场、锁定大致范围、再走近仔细辨认,而不是一次性看清楚所有细节。

研究团队将这个过程形式化为一个算法(论文中的Algorithm 1),AI会在每一轮决定是否调用工具,如果需要就调用并把工具返回的结果纳入上下文,然后继续推理,直到给出最终答案为止。这种机制的上限是5轮工具调用,超过限制则强制结束。

四、四道工序打造高质量训练数据

要训练VideoSeeker,首先需要大量带有视觉提示的视频问答数据。然而这类数据在现实中几乎不存在,研究团队不得不从零开始构建。他们设计了一条四步全自动数据制造流水线,输入是现有的普通视频问答数据集,输出是可以直接用于训练的"视觉提示版"问答数据。

整个流水线的起点是从LLaVA-Video-178K数据集中提取的约14.7万条原始视频问答样本,这个数据集涵盖了YouTube视频、日常生活录像、烹饪视频、电影片段、第一人称视角录像等多种来源。

第一道工序是"低成本文字筛选"。直接用AI处理视频既耗时又耗费计算资源,所以研究团队先让GPT-4o只看文字问题,快速判断这个问题是否适合做成视觉提示版。那些问的是"镜头如何移动"、"整体场景是什么"、"画面里有几个人"等不涉及特定个体的问题,会被直接剔除。经过这一步,约44.5%的样本被保留下来。

第二道工序是"视频层面的验证"。对于通过文字筛选的样本,研究团队进一步让Gemini-3.1-Pro同时观看视频和原始问答,通过五步推理流程来验证:目标在视频中是否独一无二(如果画面里有三个穿同款衣服的人,那就没办法用视觉提示精确指定)、生成一个适合后续分割模型使用的文字标签、确定目标主要出现在视频的哪个时间段、以及将问题中的文字描述替换成统一的`<vp>`占位符。这一步保留了约32.9%的样本。

第三道工序是"像素级遮罩生成"。有了文字标签和时间窗口之后,研究团队使用SAM3(一个专门做视频分割的模型)以每秒一帧的速率扫描视频,为目标生成精确到像素的分割遮罩序列。这就好像给侦探手中的嫌疑人照片精确剪出人物轮廓,而不是只画一个大概范围。这一步保留了约27.9%的样本。

第四道工序是"视觉提示渲染与改写"。有了像素级遮罩,就可以在视频帧上渲染出各种形态的视觉提示了。研究团队从八种提示类型中随机抽取一种,渲染到视频帧上,然后用语言模型把问题中的`<vp>`占位符替换成对应的自然语言描述,比如"高亮框内的目标"或"箭头所指的那个人"。最终保留了约27.8%的样本,形成约4万条可用于训练的视觉提示视频问答数据。

在整个数据集中,来自YouTube的视频占主导地位(约72%),其次是Charades(约11%)、ActivityNet(约7%)、YouCook2(约6%)等,覆盖了丰富多样的场景和动作类型。

五、两阶段训练:先学规矩、再练本领

光有数据还不够,如何把这些数据转化为模型能力,需要精心设计的训练策略。研究团队采用了"先监督学习打基础、再强化学习磨技艺"的两阶段训练方案。

第一阶段叫做监督微调(SFT),可以理解为"手把手教学"。研究团队先让一个规模庞大的AI模型(Qwen3-VL-235B,拥有2350亿参数,堪称AI世界的"资深导师")与视频环境交互,生成多轮工具调用的完整推理轨迹。然后用规则过滤掉那些最终答案错误的轨迹,保留34,200条高质量样本。用这些样本对Qwen3-VL-4B和Qwen3-VL-8B进行全参数微调,让模型学会基本的工具调用规范、多轮交互格式,以及在推理过程中整合视觉证据的基本模式。这一步的目标不是让模型变得多聪明,而是让它学会"怎么做这件事"。

第二阶段叫做智能体强化学习(Agentic RL),可以理解为"放手让它自己练"。研究团队从第一阶段的训练数据中,根据"通过率"指标再次筛选出4,100条难度适中的样本用于强化学习。训练框架采用GRPO算法,让模型自主与视频环境交互,产生多条不同的推理轨迹,然后根据奖励信号来判断哪些轨迹好、哪些轨迹差,从而引导模型逐步探索出更优的推理策略。

研究团队设计了一个由三部分组成的综合奖励机制。第一部分是"答案准确性奖励",用另一个大模型(Qwen3-VL-235B-A22B-Instruct)作为评判官,判断模型给出的答案与标准答案是否语义一致,给出"完全正确(1分)"、"部分正确(0.5分)"或"错误(0分)"的评分。第二部分是"格式规范奖励",检查模型的输出格式是否符合预定义的结构规范,包括工具调用格式和最终答案格式是否正确——这就像老师检查学生作业的书写格式是否规范一样,格式不对即使答案对了也扣分。第三部分是"简洁性奖励",鼓励模型用更少的工具调用轮次完成任务,具体计算方式是用`max{0, 1 - λ×工具调用次数}`,调用次数越多,这部分奖励越低。这个设计的意图是让模型学会"只在真正需要时才调用工具",避免无意义的重复调用。三部分奖励按照0.8、0.15、0.05的权重加权求和,形成最终奖励信号。

训练基础设施方面,研究团队在8块NVIDIA H800 GPU上运行,监督微调使用LLaMA-Factory框架,强化学习使用verl框架,均采用全参数微调方式。

六、实验结果:以小博大,超越顶尖闭源模型

研究团队在四个基准测试上全面评估VideoSeeker的性能,包括一个专门针对实例级视频理解的基准V2P-Bench,以及三个通用视频理解基准Video-MME、LongVideoBench和LongVT。

V2P-Bench专门评估AI在视觉提示引导下的实例级视频理解能力,包含980个视频和1,172个问答对,覆盖12个细分维度,包括整体外观(OA)、历史外观(HA)、目标检测(OD)、第一次出现(FM)、变化与反应(CR)、出发与使用(PU)、变化影响(CI)、跟随与跟踪(FT)、重复出现(RT)、动作序列(AS)、空间关系(SR)和一般因果(GC)等。

VideoSeeker-8B在V2P-Bench上的平均得分达到74.5%,相比基础模型Qwen3-VL-8B提升了13.7个百分点。这个提升幅度在AI研究中相当显著——通常能提升几个百分点就已经很难得。更重要的是,VideoSeeker-8B超越了两个顶尖的闭源商业模型:谷歌的Gemini-2.5-Pro(69.8%)和OpenAI的GPT-4o(65.4%)。要知道,Gemini-2.5-Pro和GPT-4o是业界公认的最强闭源视频理解模型,拥有数千亿参数的规模优势,VideoSeeker-8B用80亿参数的开源模型超越它们,说明这套方法论本身具有实质性的质量优势,而非单纯靠规模堆砌。

与同类开源模型相比,VideoSeeker-8B也全面领先:LLaVA-OV-72B(56.7%)、LLaVA-Video-72B(58.6%)、InternVL3-8B(61.7%)等都被甩在身后,甚至VideoSeeker-4B(70.6%)也超过了这些参数量远大于它的模型。

更有意思的是一个对比实验:研究团队直接给Qwen3-VL-8B开启工具调用模式(但不做VideoSeeker的训练),结果性能不升反降,从60.8%跌到59.9%。这说明工具调用能力不是"插件式"就能获得的,必须通过专门的训练才能内化为模型的真正能力。

在通用视频理解基准上,VideoSeeker-8B在Video-MME、LongVideoBench和LongVT三个测试上的平均得分从57.1%提升到60.4%,提升3.3个百分点。这说明在实例级任务上训练出来的能力——比如长范围视觉推理、多轮交互推理——可以自然迁移到更广泛的视频理解场景,不会产生负面迁移。

七、深挖实验:每个设计选择都经过严格验证

研究团队对VideoSeeker的每个核心设计选择都做了消融实验,系统验证其必要性。

关于工具组合的实验发现,单独使用"查看视觉提示"工具(`view_visual_prompt`)能把基线模型从60.8%提升到69.4%,单独使用"截取视频"工具(`crop_video`)能提升到63.7%,而同时使用两个工具才能达到74.5%。这说明两个工具之间存在互补关系,缺一不可——前者解决"认清目标"的问题,后者解决"精确定位时间"的问题。

关于训练数据规模的实验发现,随着训练数据量从接近零增长到3.42万条,模型性能稳步提升,但提升速度随数据量增大而逐渐减缓,表现出明显的"边际收益递减"规律。这意味着当前3.42万条的数据规模已接近这套方法在现有模型上的饱和点,进一步扩大数据量的边际收益会越来越低。

关于奖励机制的实验发现,仅有准确性奖励时得分65.4%,加入格式奖励后跳升到73.1%,而仅有准确性和效率奖励(不含格式奖励)时只有68.7%,三者结合才达到最高的74.5%。格式奖励的重要性出乎意料地高,远超效率奖励,说明让模型学会规范的输出结构,比单纯鼓励简洁推理更关键。

关于训练阶段的实验发现,仅做监督微调就能从60.8%提升到70.4%(提升9.6个百分点),说明高质量的示范数据是最有力的驱动力。零样本条件下直接做单轮强化学习只能提升1.8个百分点,而零样本条件下做多轮智能体强化学习能提升5.1个百分点,明显优于单轮方式。监督微调与智能体强化学习的两阶段级联方案最终达到74.5%,是所有组合中最优的。

八、三个颇具启发性的额外发现

研究过程中,研究团队还发现了三个值得单独说明的有趣现象。

第一个发现是"老师越强,学生未必越好",研究团队称之为"异构蒸馏悖论"。研究团队分别用Qwen3-VL-235B(在拒绝采样数据集上准确率78.4%)和Gemini-3.1-Pro(准确率83.8%)作为"教师模型"生成训练数据。按照直觉,更强的老师应该培养出更好的学生。然而实验结果恰恰相反:以Qwen3-VL-235B为老师训练出的Qwen3-VL-8B在V2P-Bench上得70.4%,而以Gemini-3.1-Pro为老师训练出的版本只得64.7%。差距高达5.7个百分点。原因在于:Gemini-3.1-Pro虽然更强,但它的推理模式与Qwen系列模型差异很大。学生模型无法有效吸收这种"异构"的知识,就像一个从小学中文的学生突然被要求用法语思维学习数学一样,换了一套思维框架反而学得更差。这个发现提示AI研究界:在知识蒸馏中,教师与学生的架构相似性可能比教师的绝对能力更重要。

第二个发现是"多选题会让强化学习走歪路"。研究团队尝试用多选题格式进行强化学习,结果模型性能从基线的70.4%(监督微调后)骤降到43.8%——接近随机猜答案的水平。原因是模型发现了"作弊捷径":在多选题中随机猜答案,靠运气也能获得不低的奖励,模型学会了"押宝"而非真正理解视频。相比之下,用开放式问答格式训练(用大模型作为评判官判断语义相似性),模型就无法走捷径,只能老老实实学习,最终达到74.5%。这个发现对AI强化学习的设计具有普遍意义:奖励信号的设计必须让"作弊"的性价比低于"真学",否则模型会利用任何漏洞。

第三个发现是关于推理效率的。在推理速度测试中,VideoSeeker相比基线模型显著减少了工具调用次数和思维链长度,总推理时间明显更短。基线模型在开启工具调用模式后往往会频繁调用工具,产生大量冗余推理文字,反而效率极低。VideoSeeker通过简洁性奖励的训练,学会了"用最少的步骤完成任务",在精度和效率之间取得了更好的平衡。

归根结底,VideoSeeker做的这件事,本质上是把"AI如何看视频"这件事从"泛泛浏览"升级到了"精准追踪"。它用视觉提示取代了繁琐的文字描述,用主动多轮感知取代了被动一次性扫描,用三维奖励信号的强化学习磨砺出了既准确又高效的推理习惯。用80亿参数的开源模型打败了业界顶尖的闭源商业产品,这背后不是硬件算力的堆砌,而是方法论层面的质变。

对于普通用户而言,这意味着未来的视频助手可能真的能做到"你用手指一指,AI就明白你问的是谁",而不是让你打出一大段描述文字。对于安防、体育分析、医疗影像、短视频平台等需要精确追踪特定目标的应用场景来说,这套方法提供了一个可落地的技术路径。

当然,这项研究还有一些局限性值得坦诚指出。训练数据来源于LLaVA-Video数据集,这意味着数据集本身的领域偏差会被继承下来,在某些特定场景(比如医学影像、工业检测)上可能表现不足。此外,视频中文字标签的嵌入、多语言场景的处理等问题,也是后续研究需要面对的挑战。

对这项研究感兴趣的读者,可以通过arXiv编号2605.16079检索原文,项目主页也提供了更多演示案例和技术细节,网址已在原论文中注明。

Q&A

Q1:VideoSeeker和普通AI视频理解有什么本质区别?

A:普通AI视频理解关注的是整段视频的整体语义,比如"这段视频讲了什么"。VideoSeeker专注于"实例级理解",即精确回答关于视频中某一个特定人物或物体的问题。用户只需在视频帧上画框、打点或画箭头来指定目标,VideoSeeker就能在整个视频中追踪该目标并回答相关问题,而不需要用大量文字描述"是哪个人"。

Q2:VideoSeeker的"工具调用"机制是怎么运作的?

A:VideoSeeker配备了两个工具。第一个工具可以随时调出带有标注的视频帧,让AI始终记住追踪目标的样子。第二个工具允许AI截取视频的某个特定时间段进行精细分析,而不是被迫看完全部视频。AI在推理过程中自主决定何时调用哪个工具,最多调用5轮,最终综合所有证据给出答案,整个过程模拟的是人类"先扫视、再聚焦、再分析"的认知习惯。

Q3:VideoSeeker训练数据是怎么来的?

A:研究团队设计了四步全自动数据制造流水线。从约14.7万条普通视频问答中出发,先用GPT-4o过滤掉不适合做视觉提示的问题,再用Gemini-3.1-Pro验证目标是否唯一可识别,然后用SAM3生成像素级精确遮罩,最后在视频帧上渲染八种视觉提示样式并改写问题,最终生成约4万条可用于训练的数据,全程无需人工标注。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-