
这项由香港中文大学多媒体实验室(CUHK MMLab)联合上海交通大学、南洋理工大学、麦克马斯特大学、香港城市大学和江西财经大学共同开展的研究,于2026年5月发表,论文编号为arXiv:2605.26485。研究的核心是一套名为OmniInteract的测试平台,专门用来评估那些能够同时处理视频、音频和文字的"全能AI助手",看看它们在真实的实时对话场景中表现究竟如何。
你有没有想过,和AI助手真正对话是什么感觉?不是那种"上传视频,等它看完,再问问题"的迟钝方式,而是像和真人朋友视频通话一样:你在厨房做饭,随口说"帮我盯着,等锅里的水开了提醒我",然后中途又插嘴问"哎这本书叫什么名字来着",AI一边回答你的插话,一边还记着帮你盯水壶。这种实时的、多层次的、随时会被打断的交流,才是人与人之间真实沟通的样子。
然而,现有的AI评测方式远远没有达到这个标准。大多数测试还停留在"给AI看完整视频,然后出题考它"的阶段,就像拿着期末考试卷子考学生,而不是看学生在课堂上能不能随机应变。这套研究正是为了填补这个巨大的空白而诞生的。
一、问题出在哪里:现有的评测方式像在考"闭卷回忆"而非"当场反应"
要理解这项研究为什么重要,先得明白现有的AI助手测试有多"偷懒"。把时间轴当作一条河流,传统的测评方式是等河流流完,把河里的鱼都捞出来,然后问AI"你刚才看到了几条鱼"。而真实的对话,更像是让AI站在河边,实时报告"现在游过来一条大鱼",同时还得回应你问的"刚才那条是什么颜色的",甚至在你突然改口"算了,先告诉我水温"时,能灵活切换而不忘记原来的任务。
当前的AI视频理解测评平台,普遍存在三个核心问题。其一,用户的提问通常是以文字形式输入的,而不是真正的语音。这意味着AI完全跳过了"听懂人说话"这个关键环节。其二,即便是一些声称"实时"的测评,本质上也是把视频切成片段再离线分析,并不是真正的边看边回应。其三,这些测试完全没有考察AI面对"打断"的处理能力——现实中人说话是会突然转换话题的,AI必须能优雅地应对。
正是带着这样的问题意识,研究团队构建了OmniInteract这套全新的评测体系。
二、OmniInteract的核心设计:把真实的对话原汁原味地还原出来
OmniInteract最根本的设计理念,是让AI在真实的音视频流中"活着"接受考验,而不是事后复盘。研究团队收集和制作了250段视频,其中包含1430个精确标注了时间点的"回应机会"——这些机会就像课堂上老师随机点名,AI必须在恰当的时机给出正确的回答,早了不行,晚了也不行。
这250段视频被分成两大类型。第一类叫做"一问一答"(1Q1A),共有210段视频,包含1062个回应机会。这类视频模拟的是日常生活中的具体问答情景,比如用户指着冰箱问"这台冰箱是几级能效",或者事先嘱咐AI"等水壶出现了告诉我"。这一大类又细分为三种情形:第一种是"实时互动",用户开口就问,AI需要立刻根据眼前的画面给出答案;第二种是"主动提醒",用户提前设置了一个监视任务,AI必须自己判断什么时候画面中出现了用户关心的事物,然后主动开口;第三种是"嵌套对话",也就是在AI正在等待某个画面出现的过程中,用户突然插入了一个新问题,AI需要先回答这个插话,然后记得回到原来的任务上。
第二类叫做"一问多答"(1QnA),共有40段视频,包含368个回应机会。这类视频模拟的是更长线的任务监控场景,用户说一句话设定好任务,AI需要在整个过程中持续观察,在不同时间点给出对应的步骤指导或错误提醒。比如用户说"帮我做早餐卷饼,随时告诉我该怎么做,如果做错了也提醒我",AI就需要在整个烹饪过程中随着画面变化,依次给出"把鸡蛋磕进碗里""你刚才加多了一汤匙,应该是半茶匙"这样的实时回应。
视频内容的来源同样经过精心设计。1Q1A的210段视频是研究团队自己录制的,分为两组:150段是中文的日常生活场景,涵盖家庭活动、健身房锻炼、博物馆参观、购物等,这些视频里用户的问题就说在音轨里;60段是英文的数学题解答场景,用户边做题边提问。1QnA的40段视频则来自已有的任务类视频数据集,包括烹饪步骤指导和第一人称视角下的操作错误检测,研究团队在这些视频前面加上了用文字转语音技术合成的初始指令。
三、如何公平地打分:像裁判一样既看答案内容,也看答题时机
考察实时对话的AI有一个天然难题:不像选择题有明确的对错,实时互动中"什么时候说"和"说了什么"同样重要。为此,研究团队设计了一套专门的评分框架,核心是"时间感知的对话槽"(interaction slot)这个概念。
每一个"对话槽"就像是一扇窗户,有开的时间(用户提问的那一刻),有最早能给出有效回答的时间(画面上出现了足够信息的那一刻),还有关闭的时间(下一个事件到来或任务结束的那一刻)。AI必须在这扇窗户开着的时候,不早不晚地给出正确答案。
具体来说,这扇窗户在"最早能回答"之前的那段时间叫做"早期阶段"。在这个阶段,AI可以说"好的,我在观察"或者"稍等,我帮你注意着"——这类简短的确认反馈是被鼓励的。但如果AI在画面还没出现足够信息的时候就急着给出实质性答案,比如猜测"我估计那本书叫《小王子》",这就叫"早期幻觉",会被扣分。"最早能回答"之后的时间叫做"核心阶段",AI在这个阶段给出的答案越早、越准确,得分就越高;拖拖拉拉或者答错了,分数就会往下掉。
整套主要评分指标叫做"交互感知质量-及时性F1分数"(IA-QTF1),这个名字很长,本质上就是综合衡量AI在对话中"答得对不对、答得及时不及时、有没有乱开口、有没有在不该说话的时候继续说话"这四件事。满分是1,分数越高越好。
除了主指标,还有两套专门针对特殊情况的评分工具。面对"被打断"的情况,研究团队设计了"打断诊断套件"(IDS),它包含三个子指标:一是"沉默率",看AI被打断时有多少比例是干脆什么都没说的;二是"部分回答质量",看AI在被打断前已经说出的内容是否有用;三是"后续溢出指标",看AI被打断后是否还在不停地说本已不需要说的话,以及说了多久。面对"嵌套任务"的情况,研究团队设计了"嵌套链完成分数"(NCCS),用来衡量AI能否在回答完插入问题之后,记得回来继续完成原来的任务,分数是内外两个任务得分的几何平均值。
四、四位选手上场:不同AI在不同考题上的冷暖自知
研究团队选取了目前代表性最强的四个支持实时音视频交互的AI系统来参加测评,分别是AURA、Gemini 2.5 Flash Live、MiniCPM-o 4.5和Qwen3.5-Omni Flash Realtime。这四个系统都通过它们自己原本的实时推理接口来接受测试,视频和音频按照原始时间顺序一帧一帧地送进去,模拟真实的实时对话环境。所有开放式回答的质量评判由GPT-4o担任"外部裁判",以避免让被测AI自己给自己打分。
在"实时互动"这个相对直接的考题上,Gemini表现最好,IA-QTF1达到0.553,Qwen3.5-Omni以0.524紧随其后。这两个AI在用户明确说出问题时反应比较灵敏,能够快速抓住用户意图并给出回答。相比之下,AURA和MiniCPM-o在这个场景下的表现略逊,分别只有0.376和0.337。
然而,换到"主动提醒"这个考题,格局完全翻转。MiniCPM-o以0.607的高分领跑,AURA以0.549紧跟,而Gemini和Qwen3.5-Omni则大幅下滑到0.121和0.108。这个差异背后有非常直观的原因:主动提醒要求AI在没有明确提问的情况下,自行判断什么时候画面里出现了用户事先关心的事物,然后主动开口。Gemini和Qwen3.5-Omni显然习惯了"等人问",在需要自主监控的场景下反而找不到开口的时机,经常在画面还没出现目标事物时就急着回应,或者画面明明已经出现了却沉默不语。
在"嵌套对话"这个最复杂的考题上,MiniCPM-o和AURA再次占据上风,分别达到0.599和0.596,而Gemini和Qwen3.5-Omni则停在0.398和0.379。但光看这个数字还不够,研究团队用NCCS来衡量AI能否在回答完插入问题后记得回来继续外层任务。这里的数据触目惊心:Gemini在120对嵌套任务中,有119次回答完内层问题后就彻底忘记了外层任务;Qwen3.5-Omni更夸张,116次都没能回来继续。相比之下,MiniCPM-o只有55次失忆,AURA有54次,它们的NCCS分别是0.284和0.270,而Gemini和Qwen3.5-Omni的NCCS几乎为零,分别只有0.001和0.012。这意味着那两个AI在嵌套场景下实际上是把插入的问题当成了新的、独立的对话,而不是理解为临时的"插话"。
在最难的"持续任务监控"(1QnA)场景下,所有AI的表现都令人沮丧。AURA是四者中最好的,但IA-QTF1也只有0.052,其余三个分别是Gemini 0.028、MiniCPM-o 0.015、Qwen3.5-Omni 0.023。换句话说,在需要AI像一个专注的厨房助手一样全程陪你做饭、在每个关键步骤给出指导的场景下,目前最先进的AI系统几乎全线崩溃。它们要么一开始就把整个菜谱背出来,要么在关键步骤出现时保持沉默,要么给出和当前画面毫不相干的回答。
综合两类任务的总体得分,MiniCPM-o以0.368位居第一,AURA以0.363紧随其后,Gemini是0.344,Qwen3.5-Omni是0.323。即便是最高分,距离满分1.0也还差着将近三分之二的路程,这说明当前的实时AI助手距离真正流畅的人机对话还相当遥远。
五、被打断时的众生相:有人沉默,有人刹不住车
打断处理是实时对话中最考验AI"情商"的环节。研究团队在192个回应槽中设置了被打断的情况,其中1Q1A里有147个,1QnA里有45个。
通过打断诊断套件,四个AI展示出了截然不同的"个性"。Gemini的策略是"多一事不如少一事"——在被打断的情况下,有高达85.94%的比例是直接沉默不语,什么也没说。这让它的"后续溢出"情况最好,停下来很干净(溢出率40.74%,平均溢出时长仅0.312秒),但代价是即便在被打断前已经开口,说的内容对用户的帮助也相当有限,部分回答质量分只有0.370。
MiniCPM-o走了完全相反的路线。它最愿意开口说话,沉默率只有53.65%,而且说出来的内容质量最高,部分回答质量达到0.571。然而,它最大的问题是完全刹不住车——一旦开口,被打断之后还会继续说很久,溢出率高达83.15%,平均溢出时长达到惊人的10.067秒。就像一个健谈的朋友,你打断他、岔开话题,他还是要把刚才说到一半的话说完再说。
Qwen3.5-Omni的表现相对均衡,沉默率71.35%,溢出情况也比较克制(溢出率41.82%,平均溢出0.613秒),部分回答质量0.361。AURA则呈现出"安静但溢出"的奇特组合,沉默率79.17%,但一旦开口又容易超时(溢出率60.00%,平均溢出1.879秒),开口后说的内容质量也不算高,只有0.293。
六、离线能力不等于在线实力:数学推理的降级实验
研究中还有一个引人深思的对照实验。研究团队专门比较了MiniCPM-o 4.5在"离线"模式和"全双工在线流式"模式下做数学题的能力差异——MiniCPM-o是目前唯一公开的、支持真正全双工实时交互的开源模型,因此成为这个实验的唯一对象。
所谓"离线",就是把整段数学题视频全部喂给AI看完,再让它回答;所谓"全双工在线流式",就是视频一帧一帧实时输入,AI一边看一边同时也在处理音频输入和生成语音输出。结果显示,MiniCPM-o的纯答题质量分数从离线状态下的0.6833,跌落到在线实时状态下的0.3475,下降了0.3358分,降幅接近一半。
这个结果告诉我们一个重要道理:AI在安静、专注的状态下能做好的事情,在嘈杂、实时、需要同时处理多路信息的环境中,表现可能会大打折扣。就像一个学生在家独自做题和在嘈杂教室里边听讲边做题,是完全不同的体验和结果。这也说明,仅仅用离线测试成绩来评价AI的实际对话能力,会严重高估它在真实场景中的水平,OmniInteract这套实时评测框架因此具有独特的价值。
七、真实案例解析:AI助手们的高光与翻车时刻
研究团队还通过具体案例,生动地展示了各个AI在不同场景下的真实表现,让数字背后的故事变得更加鲜活。
在一个考察冰箱能效等级的实时问答场景中,用户问"请告诉我这台海尔冰箱是几级能效的",画面在04:11左右出现了可以看清标签的画面,有效回答窗口是04:06到05:01。Gemini和Qwen3.5-Omni都在画面清晰后给出了正确答案"一级能效",得分分别是0.7935和0.7123。而AURA和MiniCPM-o却都给出了"二级能效"的错误答案,得零分并被记录失分。这个案例说明,即便是相对"简单"的实时问答,AI也可能因为误读细节而彻底失误。
在一个书名主动提醒场景中,用户事先说"当视频中出现一本书的时候请告诉我这本书的书名是什么",书出现在02:51,正确答案是《局外人》。MiniCPM-o在02:30就说了一声"好的"作为确认,等到02:55书出现后立刻告诉用户"书的名字叫局外人",表现干净利落,得分0.8664。AURA也表现不错,在等待阶段说"没问题,等视频里出现书我就告诉你书名",等到02:52镜头移到书这一侧后描述了书的封面并读出"局外人"三个字,得分0.9343。相比之下,Gemini在等待阶段就急着回应说"抱歉,视频中没有看到任何书,你能再试一次吗?";Qwen3.5-Omni更是在02:31就猜测"书名是《小王子》"——两者都是在画面还没给出足够信息时就仓促开口,属于典型的"早期幻觉",双双零分。
在嵌套场景的案例中,外层任务是"当视频中出现一个烧水壶时告诉我",内层插入问题是"请告诉我,画面中这本书的书名是什么"(正确答案是《计算机操作系统》,壶出现在00:56)。MiniCPM-o在00:11就识别出书名,00:56壶出现后主动告知用户,两个任务都完成,NCCS达到0.7845。AURA的表现类似,NCCS也有0.7593。但Gemini在看到书的那一刻,回应的是"我现在还没有看到烧水壶",完全没有理解"现在是在回答书名这个插入问题";Qwen3.5-Omni虽然正确回答了书名,壶出现后却再也没有任何回应,彻底忘记了外层任务,NCCS为零。
说到底,OmniInteract这项研究做了一件看似简单却意义深远的事:它把AI助手从"闭卷考试"拉到了"开放性课堂实践"的检验场。结果毫不留情地告诉我们,今天最好的实时AI助手,在面对真实人类对话的复杂性——打断、插话、持续监控、上下文切换——时,依然有相当大的改进空间。最好的综合得分只有0.368,持续任务监控的得分更是只有0.052,这不是小差距,而是一道还没跨越的鸿沟。
更值得警惕的是,那个MiniCPM-o数学推理的降级实验提醒我们:AI在"实验室"里有多厉害,和它在"真实对话"里表现得有多好,可能是两回事。离线能力是一回事,在线实力是另一回事,而OmniInteract正是专门测量后者的尺子。
对于普通用户而言,这意味着在与AI语音助手交流时,当你随口打断它、临时换个问题、或者让它长期盯着某件事的时候,它其实正在经历一场非常艰难的挑战。好消息是,研究团队把这套测评体系和数据集全部公开,相关代码和数据集可以通过arXiv编号2605.26485找到,有兴趣的开发者和研究者都可以用这把尺子来衡量和改进自己的系统,推动AI助手真正走向流畅的人机对话。
Q&A
Q1:OmniInteract测评平台和普通的AI视频问答测试有什么区别?
A:OmniInteract要求AI在视频实时播放过程中处理嵌在音轨里的真实语音提问,不能提前看完视频再回答。它还覆盖了打断处理、主动提醒、嵌套对话等普通测试完全忽略的场景,相当于把AI从"闭卷考试"拉到了"真实课堂"里接受检验。
Q2:IA-QTF1评分标准具体衡量了哪些方面?
A:IA-QTF1同时考察四件事:答案内容是否正确、回答时机是否恰当(既不过早猜测又不拖拖拉拉)、有没有在不应该说话时乱开口、以及有没有在任务边界关闭后继续"溢出"发言。它把这四个维度合并成一个综合分数,满分为1,目前最好的模型只达到0.368。
Q3:为什么AI在离线状态下能做对的数学题,在实时对话中反而做不好?
A:因为实时对话要求AI同时完成多件事:持续接收视频帧、监听音频输入、还要生成语音输出。这些任务同时运行会互相争抢AI的"注意力",导致推理质量下降。MiniCPM-o 4.5的数学题得分从离线的0.6833跌至在线的0.3475,降幅近一半,证明了这种多任务并发对AI能力的明显消耗。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。