微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国人民大学与腾讯微信视觉联手，打造首个"全感官主动型"视频理解测试平台

多模态大模型流媒体视频理解基准测试平台

中国人民大学与腾讯微信视觉联手，打造首个"全感官主动型"视频理解测试平台

作者：科技行者

2026-05-29 10:32

分享至：

OMNIPRO是首个同时评估AI全感官感知、主动响应和多样视频理解任务的测试平台，含2700道人工审核题目，揭示了当前AI在长视频感知和非语音音频理解上的核心短板。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-29 10:32 • 科技行者

这项由中国人民大学与腾讯微信视觉团队联合开展的研究，以预印本形式于2026年5月18日发布，论文编号为arXiv:2605.18577。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

你有没有想过，未来的AI助手不只是你叫它才回答，而是像一个眼明手快的搭档，自己盯着直播屏幕、竖起耳朵听声音，一旦发现你关心的事情发生了，就主动开口提醒你？比如你说"帮我盯着这场足球赛，裁判吹哨的时候告诉我"，然后把手机放到一边做别的事，AI会在哨声响起的瞬间主动说"哨声响了，开球了！"——不需要你按任何按钮，不需要你反复问。

这种能力，研究人员给它起了个名字叫"全感官主动式流媒体视频理解"。听起来很绕口，但核心其实只有三件事：第一，AI要同时能看视频、听声音、理解对话；第二，AI要自己判断什么时候该开口，不是被动等人问；第三，AI要能处理的任务不只是"提醒我某件事发生了"，还能数数、定位、讲解步骤、实时解说……各种各样的事都能做。

然而，要检验一个AI在这三件事上做得好不好，需要一套专门设计的考题。就像你不能用数学卷子测语文能力一样，现有的考题库在研究团队看来存在明显缺口：要么只考视觉、不考听觉；要么虽然叫"主动测试"，其实还是人去戳AI才回答；要么只考几种简单任务，根本看不出AI的全部本事。

于是，这支来自人民大学和腾讯的团队从零开始，搭建了一套名为OMNIPRO的测试体系，这是第一个同时覆盖"全感官感知、主动响应、多样任务"三个维度的基准测试平台，包含2700道经过人工审核的题目，跨越9个子任务和3个认知难度层级，84%的题目需要AI去听声音才能作答。

---

一、现有的考题库，哪里出了问题

要理解OMNIPRO为什么有价值，得先看看之前那些考题库都有哪些不足。

研究团队把现有的同类平台和OMNIPRO并排对比，就像把几份餐厅菜单摆在一起比较一样，差异一目了然。

此前影响较大的StreamingBench-Pro只有250道题，全部来自体育和游戏视频，评测方式是每秒钟问AI一次"你看到什么触发条件了吗"，一旦得到肯定答案就停下来，这意味着每道题最多触发一次响应，而且AI根本不是在"主动开口"，而是在被人轮番催问。更关键的是，所有题目只依赖视觉，一句语音都不需要听。

OVO-Bench-Pro表面上叫"主动测试"，实际上是在几个事先定好的时间点上去查AI的答案，AI永远不会自己主动说话，只是在特定时刻被动回答，本质上和普通的静态问答没有区别。它覆盖了计数和简单监控两类能力，同样不涉及任何音频。

OmniMMI-Pro是三者中唯一真正让AI自主决定何时开口的平台，而且大约35%的题目需要理解语音内容。但它有一个硬伤：每道题只允许AI回答一次，也就是说如果一个视频里同一类事件发生了三次，AI只需要抓住第一次就够了，多次触发的决策能力完全没有被测试到。此外，它完全没有非语音类音频，鸟鸣、警报声、背景音乐这些日常生活中大量存在的声音信号，在这个平台上是透明的。

简而言之，现有平台在这三个核心维度上各有残缺：没有一个同时做到了"全感官、真主动、宽覆盖"。

---

二、OMNIPRO是一套什么样的考题库

OMNIPRO的9个子任务像是一张阶梯式的能力地图，按照认知难度从低到高分成三个台阶：感知层、理解层、推理层。

感知层包含四种任务。第一种叫"即时事件提醒"，用户给出一个具体触发条件，比如"门铃响了告诉我"或者"裁判吹哨的时候提醒我"，AI需要在事件发生的瞬间立刻响应，考核的是低延迟的信号识别能力。第二种是"实时状态监控"，AI要持续盯住某个状态变量，比如"帮我监控背景音乐，一旦开始或停止就告诉我"，每次状态发生切换都要汇报，这比单次提醒更难，因为需要一直保持注意力并且记住上一个状态是什么。第三种叫"快照计数"，在特定触发事件发生时，立即数出画面中指定目标的数量，比如"每次裁判吹哨时，数一下场上有几名球员"，难点在于把触发检测和即时计数同时完成。第四种是"明确目标定位"，用户指定一类目标，当目标出现时AI要说出它在画面中的位置，比如"第一次听到铃声时，告诉我铃在画面哪个位置"，要求同时完成主动检测和空间定位。

理解层有三种任务。"事件解说"要求AI对流媒体内容做实时旁白，自己判断什么时候有值得描述的事情发生并主动输出描述，这需要持续的语义理解和对输出时机、信息粒度的把握。"累计计数"要求AI追踪某个可重复事件的总发生次数并每次更新，比如"主持人每次说'谢谢'时告诉我"，需要跨越整段时间的持续追踪。"语义条件提醒"则要求AI理解抽象条件，比如"当有人提出统计数据作为论据时告诉我"，触发条件不是一个具体声音或动作，而是一个需要语义推理才能判断的概念。

推理层包含两种最难的任务。"去重计数"要求AI统计整段视频里出现过多少个不同的目标，关键是再次出现过的不算，比如"这个视频里一共接受了几位不同的采访者"，需要跨时间的身份识别和去重逻辑。"顺序步骤指导"最为复杂，用户表示自己在跟着教程做某件事，AI需要实时判断用户当前做到哪一步了，并在合适的时机主动提示下一步该怎么做，同时融合了时间理解、视觉状态估计和知识推理三种能力。

这9种任务合在一起，覆盖了提醒、监控、定位、计数、解说、预测6种基本视频理解能力，是目前覆盖面最广的同类测试平台。

---

三、这套题目是怎么造出来的

造一套高质量的题目，远比听起来复杂。研究团队的流程像是一条精心设计的流水线，分为数据来源、自动生成、人工审核三个环节。

数据来源方面，团队从两个公开数据集的测试集中抽取了视频。其中，LongVALE提供了1171个高质量的长视频，覆盖日常生活、体育和新闻播报，供大多数子任务使用。由于LongVALE里操作类教程视频不多，团队又从COIN数据集随机抽取了600个视频专门支撑"顺序步骤指导"任务，这个数据集专门收录了各种手把手教程内容。两个来源合计1771个视频。

自动生成阶段分两步走。第一步是为每个视频生成时间对齐的多模态密集描述，由Gemini模型担任"视频分析师"，把视频切成若干段，每段用四个维度描述：总体摘要、视觉细节、音频（背景音乐、音效等）和语音（对话内容转录）。第二步是把视频原片和上一步的描述一起交给模型，结合各子任务的专用提示词模板，让模型生成结构化的问答样本，每个样本包含用户指令、触发时间点、预期响应、触发模态标签（视觉/声音/语音或组合）以及音频依赖程度（必需/有帮助/无关）五个字段。

生成时遵循三个原则。问题设计上优先选择音频触发的事件，只有在音频中找不到合适事件时才退而求其次选择纯视觉触发的事件。响应生成上严格执行"流媒体约束"，每条响应只能引用触发时刻之前的信息，不允许出现任何"预知未来"的内容。触发时间的标注以原始视频为准，描述文本只是参考，所有时间戳都要对照实际视频内容校验。

按照这套流程，每个子任务生成约1000条原始样本，合计9000条。

人工审核分两轮进行。第一轮，9名标注员各负责一个子任务，使用专门开发的工具逐条核查问题自然性、触发时间准确性、响应内容真实性和模态标注正确性，有问题的样本要修改，质量太差的直接丢弃。第二轮，标注员互换子任务交叉复核，确保不同任务之间的标准一致。两轮审核下来，大约70%的原始样本被淘汰，最终留下了来自1262个视频的2700道题目。

---

四、这套题目长什么样，数据分布告诉了我们什么

从最终的2700道题目来看，音频依赖程度在不同子任务之间差异显著。明确目标定位这个任务里，96%的样本都需要音频才能完成；即时事件提醒也高达87%。与之形成对比的是，去重计数对视觉的依赖更强，只有约54%的样本需要音频。

从触发信号的模态构成来看，最常见的类型是"视觉加语音"组合，占42%左右，纯视觉触发约24%，语音单独触发约23%，纯声音效果触发约3%，剩余还有少量"视觉加声音"和"视觉加语音加声音"三合一的情况。接近一半的触发信号具有跨模态特征，这正是这套题目能有效区分全感官模型和纯视觉模型的关键原因。

从时间分布来看，第一次触发事件平均出现在54.1秒处，最后一次触发事件平均出现在126.2秒处，两者之间相差约72秒。这意味着AI必须在平均超过两分钟的时间跨度里持续保持注意力，才有可能在整段视频里抓住所有触发点。

---

五、怎么用这套题目测试AI

研究团队设计了两种互补的测试模式，分别应对不同类型的AI系统。

探测模式面向所有视觉语言模型，不要求被测模型具备流媒体能力。测试方法是对每个触发时间点问两次：一次在触发事件发生前2到5秒，给AI看到这一刻之前的全部视频帧，要求AI回答"该事件是否已经发生"；另一次在触发事件发生后0到3秒，同样给AI看到这一刻的全部视频帧，要求AI给出正确的任务回答。前一次要求AI回答"还没发生"，后一次要求给出正确答案，两次都答对才算这个触发点得分。评测指标是所有触发点中得分比例，也就是准确率。这种模式通过"事前问一次、事后问一次"的组合，测试的是AI对内容的理解能力，而非主动开口的时机判断。

在线模式面向具备流媒体能力的模型，考核完整的主动响应能力。测试时，AI在视频开始时接收到用户指令，然后逐帧处理后续视频，全程不再接收任何外部查询，必须自己判断何时输出响应、输出什么内容。评测指标是F1分数，通过把AI的响应和标准答案在时间上对齐（容错窗口正负3秒）来判断匹配关系，只有时间对上、内容也正确的响应才算有效匹配。F1分数综合考虑精确率（AI响应中有多少是真正有效的）和召回率（标准触发点中有多少被AI覆盖到了），两者的调和平均数就是最终得分。

对于解说类和步骤指导类等开放式生成任务，输出内容无法用精确匹配来判断，就交给另一个AI模型充当"评卷老师"，对照标准答案在1到5分的量表上打分，3分及以上视为正确。

---

六、11个AI模型参加考试，结果怎么样

研究团队让11个代表性的AI模型接受了这套测试，结果揭示了当前技术水平的真实状况。

在探测模式下测试了9个模型，包括5个开源全感官模型（Qwen2.5-Omni 7B、Qwen3-Omni 30B、video-SALMONN 2+ 7B、VideoLLaMA2.1-AV 7B和Phi-4-multimodal 14B）、两个纯视觉开源模型（InternVL3.5 8B和Qwen3-VL 8B）、谷歌的Gemini-3-Flash商业模型，以及表现最佳的在线模型MiniCPM-o 4.5作为对比参照。在线模式下测试了3个流媒体模型：MiniCPM-o 4.5（全感官）、MMDuet2（3B，纯视觉）和LiveStar（8B，纯视觉）。

整体来看，所有模型的得分都不高，说明这套任务确实很有难度，全感官主动式流媒体视频理解还是一个远未解决的开放问题。

在具体得分上，Gemini-3-Flash以40.4%的平均准确率位居第一，几乎是排名最好的开源模型（22.6%，Qwen3-Omni）的两倍，商业系统和开源系统之间的能力差距非常显著。在音频依赖型任务上，全感官模型比纯视觉模型的优势极为突出，以即时事件提醒为例，全感官模型领先超过30个百分点，充分说明听声音这件事对于完成这类任务是不可或缺的，光靠眼睛根本不够。

在线模式下，MiniCPM-o 4.5的F1只有20.9%，而且在需要生成较长内容的任务上表现特别差，事件解说只有6.9%，步骤指导只有7.9%。这表明同时决定"该什么时候开口"和"该说什么"两件事，对现有模型来说是个双重挑战。推理层任务上的差距最大，Gemini的步骤指导准确率是76.3%，而最好的开源模型只有31.6%，说明多步骤因果推理是目前开源模型最难啃的硬骨头。

---

七、把听觉和视觉拆开来看，会发现什么

研究团队还专门设计了一组对照实验，把全感官模型分别在"只听音频"、"只看视频"、"视频加音频"三种输入条件下各测一遍，结果非常有启发性。

无论哪个模型，视频加音频的联合输入都比任何单一模态效果更好，优于纯视频输入的幅度从2.4个百分点到11.1个百分点不等，说明视觉和听觉信号确实提供了互补的信息，合在一起比分开用更强。

不同任务对两种模态的依赖程度差异巨大。在即时事件提醒任务上，音频信号在所有模型里都完胜视觉信号——比如video-SALMONN 2+在纯音频下得42.4分，纯视频下只有3分。但在去重计数和步骤指导任务上，视觉信号反过来大幅领先音频信号，Qwen3-Omni在纯视频下的去重计数得30分，纯音频下只有4.1分。这说明不同性质的任务天然依赖不同的感官，一个真正全能的AI助手必须根据任务情境灵活调配两种感官的权重。

各模型对两种模态的使用习惯也大相径庭。video-SALMONN 2+是个"更爱用耳朵"的模型，纯音频下17.5分，纯视频下11分，明显倾向听觉信息。Qwen3-Omni则相反，纯视频下20.2分，纯音频下只有9.8分，骨子里更依赖眼睛。这种根本性差异来源于两个模型在音频编码和多模态融合方面的不同设计思路。

---

八、视频越长，AI表现越差

研究团队把所有触发点按照它们在视频中的位置分成三段：视频前60秒（短期）、60到180秒（中期）、180秒以后（长期），然后分别统计各段的得分，结果触目惊心。

几乎所有模型在长期段的得分都比短期段大幅下滑，平均下来，各模型在长期段只能保住短期段37%的得分。换句话说，如果一个触发事件发生在视频开头，AI可能还能捕捉到；一旦事件出现在视频后段，大多数AI就开始"走神"了。

MiniCPM-o 4.5在在线模式下的表现尤其极端，短期段F1还有29.1分，但到了长期段（180秒后）直接跌到0.3分，几乎完全失效，表明现有的流媒体模型在面对较长视频时，根本无法维持持续的感知能力。即使是最强的Gemini-3-Flash，在长期段也只剩下17.9分，只有其短期段38.5分的46%，说明长时程事件感知是一个普遍性的难题，而非个别模型的缺陷。

---

九、哪种感官信号最难被AI利用

最后一组分析把所有触发点按照感知它们需要用到的模态分成几类：纯视觉、语音、视觉加语音、视觉加声音效果，分别统计各模型在每类上的得分。

Gemini在语音触发类（32.6分）和视觉加语音类（39.1分）上遥遥领先，但在纯视觉触发类上（23.4分）反而不如Qwen3-Omni（31.1分），说明Gemini的核心优势来自对语音的理解，而非视觉感知。

所有模型一致表现最差的，是视觉加声音效果这一类触发，得分范围只有15.3到22.3分。这里的"声音效果"指的是非语音类的环境音，比如背景音乐的开始和停止、警报声、物品碰撞声等。换句话说，AI对人说话很敏感，但对周围环境的非语言声音却普遍迟钝，这是整个领域共同面临的感知盲区。

---

归根结底，这项研究做的事情有点像给一场还没有统一规则的比赛制定了第一套标准赛制。在OMNIPRO出现之前，测试一个AI在"主动感知视频"方面表现如何，各家有各家的方法，难以横向比较。现在有了这套包含2700道经人工审核题目的测试平台，覆盖了听觉、视觉和语音三种感官信号，支持真正的主动响应评测，任何新开发的AI模型都可以放进来测一测，用同一把尺子量出真实的能力水位。

测试结果所揭示的三条规律也相当清晰：商业模型和开源模型之间还有巨大的差距，尤其是在需要多步推理的任务上；所有模型的注意力都难以在长视频中持久维持，超过三分钟后往往开始"走神"；感知非语音类环境声是一个尚未被充分解决的能力短板。这些发现为未来的AI研究指出了具体的努力方向。

对普通用户来说，这项研究的意义或许需要再过几年才能切身感受到——当AI助手真正能够自己盯着直播、听着声音、主动提醒你关心的事情时，背后正是这类测试平台在驱动的技术进步。有兴趣深入了解的读者可通过arXiv:2605.18577查阅完整论文。

---

Q&A

Q1：OMNIPRO和其他视频理解测试平台有什么本质区别？

A：OMNIPRO是首个同时覆盖全感官感知（视觉、语音、非语音音频三合一）、真正主动响应（AI自主决定何时开口，而非被人反复查询）和多样化任务（9种子任务覆盖6种基本能力）三个维度的测试平台。之前的平台至多满足其中一两个条件，没有任何一个同时满足全部三条。

Q2：OMNIPRO测出来的最大问题是什么？

A：测试发现了三个共性问题：所有模型在视频越长时表现越差，平均到180秒后只能保住开头段37%的得分；商业模型（如Gemini）和开源模型之间存在约一倍的分数差距；所有模型对非语音类环境声（如背景音乐、警报声）的感知能力最弱，是整个领域的共同盲区。

Q3：OMNIPRO的2700道题是怎么保证质量的？

A：题目经过两轮人工审核，9名标注员各审一个子任务，核查问题的自然性、触发时间准确性、响应内容真实性和模态标注正确性，第二轮再交叉复核，最终从9000条原始样本中淘汰了约70%，只保留了真正高质量的2700道题。

多模态大模型流媒体视频理解基准测试平台

分享至