微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中科大联手小红书：让AI真正"看懂"视频里的每一个人，而不只是泛泛而谈

视频理解强化学习视觉提示

中科大联手小红书：让AI真正"看懂"视频里的每一个人，而不只是泛泛而谈

作者：科技行者

2026-05-26 10:15

分享至：

VideoSeeker是中科大与小红书联合提出的实例级视频理解系统，通过视觉提示和主动工具调用，让AI能精准理解视频中的特定目标，8B模型超越GPT-4o和Gemini-2.5-Pro。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 10:15 • 科技行者

这项由中国科学技术大学与小红书公司联合主导、并有华东师范大学和西安交通大学参与的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.16079，题为《VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation》，感兴趣的读者可通过该编号在arXiv平台检索完整原文。

现有的AI视频理解系统有一个根深蒂固的毛病——它们只会"大概看一眼"。你拍了一段家庭聚餐的视频，问AI："穿红裙子的那个人在做什么？"AI往往答非所问，要么描述整桌人的状态，要么根本分不清谁是谁。这不是因为AI不够聪明，而是因为当前主流的方法在设计上就只关注视频的整体语义，而非其中某个特定的人或物。研究团队把这个现象称为"缺乏实例级理解能力"——AI能告诉你这段视频里有人在吃饭，却很难精准回答关于某个具体人物的细节问题。

为了解决这个问题，研究团队提出了一套名为VideoSeeker的全新系统。这套系统的核心思路，是让AI像一个经验丰富的侦探一样工作：先锁定目标嫌疑人，然后主动翻查监控录像中的关键片段，最终综合所有证据给出答案。与其被动地一次性看完所有画面、然后模糊地回答问题，VideoSeeker会主动调用工具去"翻看"特定帧、"截取"关键片段，把视觉证据和逻辑推理有机融合在一起。

以下将沿着"侦探办案"这条主线，完整拆解VideoSeeker的研究动机、技术方法、训练过程和实验结果，帮助没有任何技术背景的读者彻底弄清楚这项研究在做什么、为什么重要、以及它究竟有多厉害。

一、现有AI视频理解的两大顽疾

要理解VideoSeeker的价值，先得弄明白当前AI系统的问题出在哪里。

回到侦探的比喻：现有的主流AI视频理解系统，就像一个侦探进入案发现场后，只是站在门口扫了一眼，然后根据这一眼的印象写下一份报告——既没有蹲下来仔细检查地面的痕迹，也没有拿出放大镜看清楚某个关键细节。这带来了两个根本性的问题。

第一个问题是"只听供词、不看现场"。现有方法虽然号称能理解视频，但实际上推理过程高度依赖文字描述，视觉内容在推理链条中的地位很边缘。研究团队用一个专业词汇描述这种现象："以语言为中心"。换句话说，AI的思考过程主要在文字层面运转，视觉画面只是一个辅助输入，而不是推理的真正驱动力。这就导致当视频内容复杂、或者时间跨度很长时，AI很容易出现"幻觉"——它会根据文字逻辑编造出并不真实存在于视频中的内容。

第二个问题是"只能问整体、不能问个体"。现有的视频理解基准测试大多关注视频的整体语义，比如"这段视频讲了什么故事"、"发生了什么主要事件"。对于"视频里穿蓝色衬衫的那个男人第几次出现是在做什么"这类需要精确定位某个具体实例的问题，现有系统几乎无能为力。与此同时，现有系统只能通过文字来描述目标，比如"穿红裙子的第三排第二位女性"——这种描述方式既繁琐，又容易出歧义，用户体验极差。

这两个问题促使研究团队从零开始设计VideoSeeker，它的目标是让AI真正能够精准理解视频中的"某一个人"或"某一件物体"，而不是笼统地理解"这段视频"。

二、用"视觉便利贴"代替"绕口文字描述"

VideoSeeker引入了一个在日常生活中非常直觉化的概念——视觉提示（Visual Prompt）。

简单来说，视觉提示就是直接在视频帧的画面上做标记，比如用一个红色方框圈住某个人，或者用箭头指向某个物体，或者用彩色轮廓描绘出某个角色的身形。用户只需要在视频的某一帧上"画"出自己关心的目标，然后问问题，AI就能明白"你说的是这个人"，而不需要用大量文字去描述。

这就好比你在和朋友讨论一张照片时，直接用手指指着其中一个人说"他"，而不是说"站在左数第三棵树旁边、穿格子衬衫、戴眼镜的那个男的"。视觉提示让交流变得直接、自然、无歧义。

研究团队为VideoSeeker设计了八种不同形态的视觉提示：矩形框、遮罩轮廓、椭圆形、三角形、涂鸦线条、点标记、箭头，以及数字标签（即在目标上标注数字"1"、"2"，然后问"标了1号的人在做什么"）。这八种形式覆盖了日常使用中几乎所有的标注需求，无论目标是一个体型较大的人、一个小巧的物体，还是一个轮廓不规则的动物，都能找到合适的标注方式。

当用户提供了一个带有视觉提示的视频帧之后，VideoSeeker的任务就是：精确识别出被标注的目标，追踪它在整个视频中的出现，然后回答关于这个目标的具体问题。这就是所谓的"实例级视频理解"——不是理解视频整体，而是理解视频里的某一个具体实例。

三、像侦探一样主动调取证据的推理机制

VideoSeeker最核心的创新在于它的推理方式——它不是一次性处理完所有视频帧就给出答案，而是像一个侦探在办案过程中不断主动调取新证据一样，分多轮与视频环境交互。

具体来说，研究团队为VideoSeeker配备了两个"侦查工具"。第一个工具叫做`view_visual_prompt`，它的作用是随时调出带有视觉提示的那一帧画面，让AI在推理过程中始终能"看到"目标长什么样，不会忘记自己在追踪谁。这就像侦探办案时随身携带嫌疑人照片，每隔一段时间就拿出来对照确认一样。第二个工具叫做`crop_video`，它允许AI在推理过程中截取视频的某个特定时间段——比如只看第30秒到第45秒的片段——进行精细分析。这就像侦探在全程监控录像中锁定了某个可疑时段，把那段录像单独反复回放一样。

AI在推理时会经历多轮循环：先浏览整体视频形成初步判断，然后调用`view_visual_prompt`确认目标外貌，接着用`crop_video`截取关键时间段深入分析，再综合所有证据得出结论。这种"主动感知→局部放大→基于证据推理"的循环，和人类面对复杂视觉场景时的思维方式高度吻合——我们在人群中找一个人时，也会先扫视全场、锁定大致范围、再走近仔细辨认，而不是一次性看清楚所有细节。

研究团队将这个过程形式化为一个算法（论文中的Algorithm 1），AI会在每一轮决定是否调用工具，如果需要就调用并把工具返回的结果纳入上下文，然后继续推理，直到给出最终答案为止。这种机制的上限是5轮工具调用，超过限制则强制结束。

四、四道工序打造高质量训练数据

要训练VideoSeeker，首先需要大量带有视觉提示的视频问答数据。然而这类数据在现实中几乎不存在，研究团队不得不从零开始构建。他们设计了一条四步全自动数据制造流水线，输入是现有的普通视频问答数据集，输出是可以直接用于训练的"视觉提示版"问答数据。

整个流水线的起点是从LLaVA-Video-178K数据集中提取的约14.7万条原始视频问答样本，这个数据集涵盖了YouTube视频、日常生活录像、烹饪视频、电影片段、第一人称视角录像等多种来源。

第一道工序是"低成本文字筛选"。直接用AI处理视频既耗时又耗费计算资源，所以研究团队先让GPT-4o只看文字问题，快速判断这个问题是否适合做成视觉提示版。那些问的是"镜头如何移动"、"整体场景是什么"、"画面里有几个人"等不涉及特定个体的问题，会被直接剔除。经过这一步，约44.5%的样本被保留下来。

第二道工序是"视频层面的验证"。对于通过文字筛选的样本，研究团队进一步让Gemini-3.1-Pro同时观看视频和原始问答，通过五步推理流程来验证：目标在视频中是否独一无二（如果画面里有三个穿同款衣服的人，那就没办法用视觉提示精确指定）、生成一个适合后续分割模型使用的文字标签、确定目标主要出现在视频的哪个时间段、以及将问题中的文字描述替换成统一的`<vp>`占位符。这一步保留了约32.9%的样本。

第三道工序是"像素级遮罩生成"。有了文字标签和时间窗口之后，研究团队使用SAM3（一个专门做视频分割的模型）以每秒一帧的速率扫描视频，为目标生成精确到像素的分割遮罩序列。这就好像给侦探手中的嫌疑人照片精确剪出人物轮廓，而不是只画一个大概范围。这一步保留了约27.9%的样本。

第四道工序是"视觉提示渲染与改写"。有了像素级遮罩，就可以在视频帧上渲染出各种形态的视觉提示了。研究团队从八种提示类型中随机抽取一种，渲染到视频帧上，然后用语言模型把问题中的`<vp>`占位符替换成对应的自然语言描述，比如"高亮框内的目标"或"箭头所指的那个人"。最终保留了约27.8%的样本，形成约4万条可用于训练的视觉提示视频问答数据。

在整个数据集中，来自YouTube的视频占主导地位（约72%），其次是Charades（约11%）、ActivityNet（约7%）、YouCook2（约6%）等，覆盖了丰富多样的场景和动作类型。

五、两阶段训练：先学规矩、再练本领

光有数据还不够，如何把这些数据转化为模型能力，需要精心设计的训练策略。研究团队采用了"先监督学习打基础、再强化学习磨技艺"的两阶段训练方案。

第一阶段叫做监督微调（SFT），可以理解为"手把手教学"。研究团队先让一个规模庞大的AI模型（Qwen3-VL-235B，拥有2350亿参数，堪称AI世界的"资深导师"）与视频环境交互，生成多轮工具调用的完整推理轨迹。然后用规则过滤掉那些最终答案错误的轨迹，保留34,200条高质量样本。用这些样本对Qwen3-VL-4B和Qwen3-VL-8B进行全参数微调，让模型学会基本的工具调用规范、多轮交互格式，以及在推理过程中整合视觉证据的基本模式。这一步的目标不是让模型变得多聪明，而是让它学会"怎么做这件事"。

第二阶段叫做智能体强化学习（Agentic RL），可以理解为"放手让它自己练"。研究团队从第一阶段的训练数据中，根据"通过率"指标再次筛选出4,100条难度适中的样本用于强化学习。训练框架采用GRPO算法，让模型自主与视频环境交互，产生多条不同的推理轨迹，然后根据奖励信号来判断哪些轨迹好、哪些轨迹差，从而引导模型逐步探索出更优的推理策略。

研究团队设计了一个由三部分组成的综合奖励机制。第一部分是"答案准确性奖励"，用另一个大模型（Qwen3-VL-235B-A22B-Instruct）作为评判官，判断模型给出的答案与标准答案是否语义一致，给出"完全正确（1分）"、"部分正确（0.5分）"或"错误（0分）"的评分。第二部分是"格式规范奖励"，检查模型的输出格式是否符合预定义的结构规范，包括工具调用格式和最终答案格式是否正确——这就像老师检查学生作业的书写格式是否规范一样，格式不对即使答案对了也扣分。第三部分是"简洁性奖励"，鼓励模型用更少的工具调用轮次完成任务，具体计算方式是用`max{0, 1 - λ×工具调用次数}`，调用次数越多，这部分奖励越低。这个设计的意图是让模型学会"只在真正需要时才调用工具"，避免无意义的重复调用。三部分奖励按照0.8、0.15、0.05的权重加权求和，形成最终奖励信号。

训练基础设施方面，研究团队在8块NVIDIA H800 GPU上运行，监督微调使用LLaMA-Factory框架，强化学习使用verl框架，均采用全参数微调方式。

六、实验结果：以小博大，超越顶尖闭源模型

研究团队在四个基准测试上全面评估VideoSeeker的性能，包括一个专门针对实例级视频理解的基准V2P-Bench，以及三个通用视频理解基准Video-MME、LongVideoBench和LongVT。

V2P-Bench专门评估AI在视觉提示引导下的实例级视频理解能力，包含980个视频和1,172个问答对，覆盖12个细分维度，包括整体外观（OA）、历史外观（HA）、目标检测（OD）、第一次出现（FM）、变化与反应（CR）、出发与使用（PU）、变化影响（CI）、跟随与跟踪（FT）、重复出现（RT）、动作序列（AS）、空间关系（SR）和一般因果（GC）等。

VideoSeeker-8B在V2P-Bench上的平均得分达到74.5%，相比基础模型Qwen3-VL-8B提升了13.7个百分点。这个提升幅度在AI研究中相当显著——通常能提升几个百分点就已经很难得。更重要的是，VideoSeeker-8B超越了两个顶尖的闭源商业模型：谷歌的Gemini-2.5-Pro（69.8%）和OpenAI的GPT-4o（65.4%）。要知道，Gemini-2.5-Pro和GPT-4o是业界公认的最强闭源视频理解模型，拥有数千亿参数的规模优势，VideoSeeker-8B用80亿参数的开源模型超越它们，说明这套方法论本身具有实质性的质量优势，而非单纯靠规模堆砌。

与同类开源模型相比，VideoSeeker-8B也全面领先：LLaVA-OV-72B（56.7%）、LLaVA-Video-72B（58.6%）、InternVL3-8B（61.7%）等都被甩在身后，甚至VideoSeeker-4B（70.6%）也超过了这些参数量远大于它的模型。

更有意思的是一个对比实验：研究团队直接给Qwen3-VL-8B开启工具调用模式（但不做VideoSeeker的训练），结果性能不升反降，从60.8%跌到59.9%。这说明工具调用能力不是"插件式"就能获得的，必须通过专门的训练才能内化为模型的真正能力。

在通用视频理解基准上，VideoSeeker-8B在Video-MME、LongVideoBench和LongVT三个测试上的平均得分从57.1%提升到60.4%，提升3.3个百分点。这说明在实例级任务上训练出来的能力——比如长范围视觉推理、多轮交互推理——可以自然迁移到更广泛的视频理解场景，不会产生负面迁移。

七、深挖实验：每个设计选择都经过严格验证

研究团队对VideoSeeker的每个核心设计选择都做了消融实验，系统验证其必要性。

关于工具组合的实验发现，单独使用"查看视觉提示"工具（`view_visual_prompt`）能把基线模型从60.8%提升到69.4%，单独使用"截取视频"工具（`crop_video`）能提升到63.7%，而同时使用两个工具才能达到74.5%。这说明两个工具之间存在互补关系，缺一不可——前者解决"认清目标"的问题，后者解决"精确定位时间"的问题。

关于训练数据规模的实验发现，随着训练数据量从接近零增长到3.42万条，模型性能稳步提升，但提升速度随数据量增大而逐渐减缓，表现出明显的"边际收益递减"规律。这意味着当前3.42万条的数据规模已接近这套方法在现有模型上的饱和点，进一步扩大数据量的边际收益会越来越低。

关于奖励机制的实验发现，仅有准确性奖励时得分65.4%，加入格式奖励后跳升到73.1%，而仅有准确性和效率奖励（不含格式奖励）时只有68.7%，三者结合才达到最高的74.5%。格式奖励的重要性出乎意料地高，远超效率奖励，说明让模型学会规范的输出结构，比单纯鼓励简洁推理更关键。

关于训练阶段的实验发现，仅做监督微调就能从60.8%提升到70.4%（提升9.6个百分点），说明高质量的示范数据是最有力的驱动力。零样本条件下直接做单轮强化学习只能提升1.8个百分点，而零样本条件下做多轮智能体强化学习能提升5.1个百分点，明显优于单轮方式。监督微调与智能体强化学习的两阶段级联方案最终达到74.5%，是所有组合中最优的。

八、三个颇具启发性的额外发现

研究过程中，研究团队还发现了三个值得单独说明的有趣现象。

第一个发现是"老师越强，学生未必越好"，研究团队称之为"异构蒸馏悖论"。研究团队分别用Qwen3-VL-235B（在拒绝采样数据集上准确率78.4%）和Gemini-3.1-Pro（准确率83.8%）作为"教师模型"生成训练数据。按照直觉，更强的老师应该培养出更好的学生。然而实验结果恰恰相反：以Qwen3-VL-235B为老师训练出的Qwen3-VL-8B在V2P-Bench上得70.4%，而以Gemini-3.1-Pro为老师训练出的版本只得64.7%。差距高达5.7个百分点。原因在于：Gemini-3.1-Pro虽然更强，但它的推理模式与Qwen系列模型差异很大。学生模型无法有效吸收这种"异构"的知识，就像一个从小学中文的学生突然被要求用法语思维学习数学一样，换了一套思维框架反而学得更差。这个发现提示AI研究界：在知识蒸馏中，教师与学生的架构相似性可能比教师的绝对能力更重要。

第二个发现是"多选题会让强化学习走歪路"。研究团队尝试用多选题格式进行强化学习，结果模型性能从基线的70.4%（监督微调后）骤降到43.8%——接近随机猜答案的水平。原因是模型发现了"作弊捷径"：在多选题中随机猜答案，靠运气也能获得不低的奖励，模型学会了"押宝"而非真正理解视频。相比之下，用开放式问答格式训练（用大模型作为评判官判断语义相似性），模型就无法走捷径，只能老老实实学习，最终达到74.5%。这个发现对AI强化学习的设计具有普遍意义：奖励信号的设计必须让"作弊"的性价比低于"真学"，否则模型会利用任何漏洞。

第三个发现是关于推理效率的。在推理速度测试中，VideoSeeker相比基线模型显著减少了工具调用次数和思维链长度，总推理时间明显更短。基线模型在开启工具调用模式后往往会频繁调用工具，产生大量冗余推理文字，反而效率极低。VideoSeeker通过简洁性奖励的训练，学会了"用最少的步骤完成任务"，在精度和效率之间取得了更好的平衡。

归根结底，VideoSeeker做的这件事，本质上是把"AI如何看视频"这件事从"泛泛浏览"升级到了"精准追踪"。它用视觉提示取代了繁琐的文字描述，用主动多轮感知取代了被动一次性扫描，用三维奖励信号的强化学习磨砺出了既准确又高效的推理习惯。用80亿参数的开源模型打败了业界顶尖的闭源商业产品，这背后不是硬件算力的堆砌，而是方法论层面的质变。

对于普通用户而言，这意味着未来的视频助手可能真的能做到"你用手指一指，AI就明白你问的是谁"，而不是让你打出一大段描述文字。对于安防、体育分析、医疗影像、短视频平台等需要精确追踪特定目标的应用场景来说，这套方法提供了一个可落地的技术路径。

当然，这项研究还有一些局限性值得坦诚指出。训练数据来源于LLaVA-Video数据集，这意味着数据集本身的领域偏差会被继承下来，在某些特定场景（比如医学影像、工业检测）上可能表现不足。此外，视频中文字标签的嵌入、多语言场景的处理等问题，也是后续研究需要面对的挑战。

对这项研究感兴趣的读者，可以通过arXiv编号2605.16079检索原文，项目主页也提供了更多演示案例和技术细节，网址已在原论文中注明。

Q&A

Q1：VideoSeeker和普通AI视频理解有什么本质区别？

A：普通AI视频理解关注的是整段视频的整体语义，比如"这段视频讲了什么"。VideoSeeker专注于"实例级理解"，即精确回答关于视频中某一个特定人物或物体的问题。用户只需在视频帧上画框、打点或画箭头来指定目标，VideoSeeker就能在整个视频中追踪该目标并回答相关问题，而不需要用大量文字描述"是哪个人"。

Q2：VideoSeeker的"工具调用"机制是怎么运作的？

A：VideoSeeker配备了两个工具。第一个工具可以随时调出带有标注的视频帧，让AI始终记住追踪目标的样子。第二个工具允许AI截取视频的某个特定时间段进行精细分析，而不是被迫看完全部视频。AI在推理过程中自主决定何时调用哪个工具，最多调用5轮，最终综合所有证据给出答案，整个过程模拟的是人类"先扫视、再聚焦、再分析"的认知习惯。

Q3：VideoSeeker训练数据是怎么来的？

A：研究团队设计了四步全自动数据制造流水线。从约14.7万条普通视频问答中出发，先用GPT-4o过滤掉不适合做视觉提示的问题，再用Gemini-3.1-Pro验证目标是否唯一可识别，然后用SAM3生成像素级精确遮罩，最后在视频帧上渲染八种视觉提示样式并改写问题，最终生成约4万条可用于训练的数据，全程无需人工标注。

视频理解强化学习视觉提示

分享至