微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

清华大学等机构推出全球首个实时双工多模态交互评测基准，AI助手"边看边说"的能力究竟差在哪里？

多模态大模型实时双工交互评测基准

清华大学等机构推出全球首个实时双工多模态交互评测基准，AI助手"边看边说"的能力究竟差在哪里？

作者：科技行者

2026-05-26 17:45

分享至：

清华大学等机构提出首个实时双工多模态交互评测基准Omni-DuplexEval，含660个视频、9项任务，揭示当前最佳AI模型综合得分仅39.6分，远低于人类81.8分。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 17:45 • 科技行者

这项由清华大学、同济大学与ModelBest公司联合主导的研究，以预印本形式于2026年5月发表（论文编号arXiv:2605.17360），提出了一个名为**Omni-DuplexEval**的全新评测基准，专门针对人工智能系统在"实时双工交互"场景下的能力进行系统性评估。对于完全没有接触过这个领域的读者来说，理解这项研究的意义，不妨先从一个日常场景说起。

当你和朋友一起看一场足球比赛时，你不会等到比赛结束才开口评论——你会在进球的瞬间惊呼，在犯规发生时质疑，在精彩配合展开时赞叹。这种"一边看、一边说、一边回应"的能力，对人类来说毫不费力，却恰恰是当前人工智能系统的重大软肋。这项研究的核心问题就是：AI到底有没有能力像人一样，在信息持续涌入的同时，做出及时、准确、恰当的回应？

---

一、为什么"边看边说"对AI来说这么难？

绝大多数现有的多模态大语言模型（也就是那些能同时处理文字、图像、视频、音频的AI系统），在设计上都遵循一个"先看完、再说话"的工作模式。具体来说，这类模型需要先把一段完整的视频全部"消化"完毕，才能生成一段回答。这就好比让一个人先把整本书读完，再来告诉你书里哪一页最精彩——这固然能给出完整准确的答案，但在需要实时反馈的场合，这种方式就完全行不通了。

现有的评测基准，比如Video-MME和LVBench，都是在这种"离线"模式下进行测评的——AI先看完整段视频，再作答。这些评测对于衡量AI的"理解能力"是有价值的，但它们无法反映AI在真实交互场景中的表现，比如作为一个直播助手、实时字幕生成器，或者在用户说话的同时给出反馈的对话机器人。

研究者们将"边输入边输出、同时处理"的能力称为"实时双工交互"（real-time duplex interaction）。近年来，已经有一些系统开始尝试支持这种能力，比如LiveCC可以实时生成视频解说，MiniCPM-o 4.5支持全双工多模态直播流处理。然而，要评测这些系统的表现，却面临一个根本性的困境：现有的评测工具根本没有针对这种实时性场景而设计，尤其缺乏对"回应时机"的评估——AI不仅要说对，还要在正确的时间点说出来。正是为了填补这一空白，Omni-DuplexEval应运而生。

---

二、这套评测基准到底在测什么？

Omni-DuplexEval包含660个视频样本，每个视频都配有精细的人工标注和精确的时间戳元数据，覆盖娱乐、生活方式、运动与爱好、艺术、教育、新闻等多个领域，视频时长均在一分钟以内，平均时长约34秒。所有问题均采用开放式问答形式，而非选择题，这更贴近真实的交互场景。

整个基准围绕两个核心测试场景展开，可以理解为两种截然不同的"实时播报员"任务。

第一个场景叫做"实时描述"（Real-Time Description），对应的是那种需要持续跟进、边看边讲的能力。比如，AI扮演一个足球解说员，随着比赛的推进不断发出评论，而不是等到比赛结束再做总结。这个场景下，AI在视频开始时会收到一个用户指令，告诉它关注什么内容，然后需要随着视频的播放，持续生成与当前画面紧密对应的描述，且这些描述必须跟上画面变化的节奏。

实时描述场景下一共设计了六类子任务，覆盖了不同难度和类型的感知与推理需求。"计数"任务要求AI随时跟踪画面中某类对象的数量变化，比如在一个水族馆直播中实时报告当前画面里有几条鲨鱼。"互动关系"任务要求AI描述人与人、人与物、物与物之间的动态关系，比如一个人正在如何与一只狗互动，随着画面发展不断更新描述。"全模态"任务是最综合的，要求AI同时整合视觉和听觉信息，比如在音乐演奏视频中，既要看到演奏者的动作，又要听到乐器的声音，才能准确说出"他现在在演奏木琴"。"世界知识"任务考察AI识别特定属性和类别的能力，比如识别视频中人物的着装品牌或动物的种类。"OCR"任务聚焦于动态文字识别，要求AI实时读出画面中不断变化的文字，比如电梯里变化的楼层数字或滚动的字幕。"精细动作"任务则要求AI精确描述复杂的肢体或机械动作轨迹，比如魔术师手部动作的每一个细节。

第二个场景叫做"主动提醒"（Proactive Reminder），测试的是AI能否在正确的时刻主动开口的能力。这就好比你托付给一位助手："当会议中有人提到预算问题时，提醒我一下。"这位助手需要一直默默关注会议进程，在预算话题出现的那一刻及时提醒你，而不是等你问他"刚才有没有人提到预算"才作答。

主动提醒场景下同样设计了三类子任务。"事件提醒"（Event Reminder）是最直接的形式：用户在视频开始时描述一个未来可能发生的事件，AI需要持续监控视频流，在事件发生时立刻作出反应。"事后提醒"（Post-Event Reminder）则更有挑战性：用户描述的是一个过去已经发生过的事件，比如"刚才那件黑色衬衫很好看，如果再次出现请提醒我"，AI需要判断该事件是否会再次出现并在下次出现时提醒用户。"纠错"（Correction）任务要求AI在用户的描述中识别出错误，并根据视频内容主动给出纠正，比如用户说"那个穿黑衣服的人已经钓了两条鱼"，而视频中实际上只有一条，AI需要在观察到相关内容后主动纠正这一错误。

这两大场景共同构成了对实时双工能力的立体评测：前者考察的是"持续地说什么"，后者考察的是"在何时说、说什么"。

---

三、怎么评分？——一套专为"实时性"设计的打分体系

现有的AI评测通常只关心答案内容对不对，完全不管答案是什么时候给出的。但在实时双工场景下，"时机"和"内容"同样重要。研究团队因此设计了一套基于"大模型担任评委"（LLM-as-a-Judge）的自动评测框架，分别针对两个场景制定了不同的评分策略。

对于"实时描述"场景，评分由两个维度共同构成，各占50%的权重。第一个维度叫"内容一致性"（Content Consistency），关注的是AI整体输出与视频内容的语义匹配程度。评委（一个大语言模型）会对照视频和音频内容，检查AI的回答是否准确，有没有说错事实、编造不存在的内容，或者漏掉重要信息。评分采用"扣分制"，从满分3.00分开始，每发现一类错误就扣掉相应分数：比如说错了颜色或数量，扣1.00分；编造了画面中不存在的内容，扣1.50分；遗漏了关键信息，扣0.75分。

第二个维度叫"时序敏感性"（Temporal Sensitivity），考察的是AI描述是否在正确的时间段内出现。评测过程分四步走，颇为精巧。首先，评委会筛掉AI输出中那些没有实质内容的"废话句子"，比如"好的，我明白了"、"没问题"之类的礼貌性回复——这些句子不该被纳入时序评测，否则会干扰结果。其次，考虑到AI从感知到输出存在约2秒的自然延迟，评测时会对每个句子的时间戳构建四个候选时间窗口，分别向前偏移1秒或2秒，允许一定的合理误差。然后，评委会提取每个候选时间窗口对应的视频帧（每秒2帧）和音频，评估AI那个句子的内容与每个候选窗口的视频内容是否吻合。每个句子的最终得分，取四个候选窗口中最高的得分。最后，如果AI输出中"废话"的比例越高，整体时序得分的惩罚系数就越大。

对于"主动提醒"场景，评分逻辑相对直接。评测时，会在每个标注事件发生的时间点之后，提取AI在10秒时间窗口内生成的所有回应，交给评委判断AI是否成功完成了提醒任务。对于"纠错"类任务，评委会对照标准答案，检查AI是否准确识别并纠正了错误。对于包含多次事件的样本，AI必须对每一次事件都做出正确回应，缺一不可，才算该样本成功。

这套评测框架经过了与人工评分的多轮对比校准。研究团队构建了一个包含63个标注样本的校准集，通过反复调整评测策略，最终使自动评分与人工评分之间的斯皮尔曼相关系数（一种衡量两组排名是否一致的统计指标）在内容一致性维度上超过0.90，在时序敏感性维度上接近0.80，说明这套自动评测体系具有相当高的可靠性。

---

四、现有AI的表现究竟有多差？

研究团队选取了当前最具代表性的几款支持双工推理的多模态模型进行测评，分别是LiveCC（Base版和Instruct版）、MMDuet2、StreamingVLM和MiniCPM-o 4.5。同时，研究团队还组织了人工评测，分为两种形式：一种是"实时人工"，由4名未参与数据标注的评测员在第一次观看视频时实时说出回应，模拟真实的双工交互场景；另一种是"离线人工"，评测员可以提前预览整段视频和问题，然后再给出完整回答，作为内容理解能力的上限参考。

结果相当令人震惊。表现最好的模型MiniCPM-o 4.5，在整体评分上只拿到了39.6分（满分100分），而实时人工的得分是81.8分，离线人工更是高达91.5分。换句话说，当前最好的双工AI系统与真实人类实时交互水平之间，存在超过40分的巨大鸿沟。

在"实时描述"场景下，各模型的表现相对好一些，MiniCPM-o 4.5得分59.1，MMDuet2得分58.4。但仔细拆分两个评分维度就会发现一个有趣的不对称：所有模型的时序敏感性得分都明显高于内容一致性得分。以MiniCPM-o 4.5为例，时序敏感性得79.9分，内容一致性却只有38.3分。这种分裂说明，这些模型并不是"说得不准"，而是"说得太少"——它们倾向于只在少数关键时刻开口，保证说出来的那几句话在时间上是对的，但由于大部分时间保持沉默，整体内容覆盖率极低，导致全局内容评分惨不忍睹。研究者发现，这些模型在约50%到60%的视频时长内完全静默，没有任何输出。这就好比让你解说一场一小时的足球赛，你只在进球的瞬间开口说了三句话，虽然每句都说在了点子上，但对于整场比赛的解说质量而言，这显然是不够的。

在任务类型上，"计数"任务是最难的，MiniCPM-o 4.5在这个子任务上只有51.4分，而OCR任务相对最简单，得分68.6。这说明当前双工模型对低层次的感知任务（比如认字）掌握得相对较好，但在需要持续追踪和逻辑推理的任务（比如计数）上，明显力不从心。

"主动提醒"场景的情况则更为严峻，所有模型的得分都极低。表现最好的MiniCPM-o 4.5只得了20.0分，StreamingVLM只有1.7分，LiveCC-Base更是只有1.9分。研究者进一步分析了错误类型，发现不同模型失败的方式截然不同。MiniCPM-o 4.5和MMDuet2的主要问题是"不作答"——在事件发生后的10秒窗口内完全没有生成相关回应，MiniCPM-o 4.5有49.2%的样本属于这种情况，MMDuet2更高达75.8%。而LiveCC和StreamingVLM则恰恰相反，它们总是在说话，但说的内容与用户指令完全无关，只是持续生成类似"电视解说员"式的画面描述，完全无视"当特定事件发生时提醒我"这个核心要求。换句话说，前者的问题是"哑了"，后者的问题是"在说废话"，两类失败都指向同一个根本困境：模型不知道什么时候该主动开口。

---

五、这些发现对我们意味着什么？

这项研究揭示的核心矛盾，可以用一句话概括：当前的AI双工系统面临"及时性"与"完整性"之间的根本权衡困境。要么为了保证说出口的内容是对的，就只在高度确定的时刻说话，导致大量信息被遗漏；要么为了保证持续输出，就停不下来地说，却完全忽视了用户真正关心的内容。如何在这两者之间找到平衡，是未来研究需要重点攻克的难题。

另一个核心发现是，现有的双工模型对"应当在什么时候主动发言"几乎没有任何概念。人类之所以能在恰当的时刻开口，是因为我们不断地在心里追踪对话目标，一旦检测到目标触发条件，就会立刻做出反应。而当前的AI系统，要么完全缺乏这种"目标跟踪"能力，要么虽然有输出，却无法将输出与用户的具体指令挂钩。这是一个深层的架构与训练层面的问题，而非简单调参就能解决的。

Omni-DuplexEval的意义不仅在于揭示了当前系统的局限，更在于为未来的研究提供了一个清晰的评测标准。研究团队表示，未来计划将该基准扩展到更长、更复杂的交互场景，并期待更多模态和更丰富的实时交互形式被纳入评测范畴。

说到底，真正好用的AI助手，应该像一个得力的现场搭档——在你需要的时候说出你需要的话，在不该开口的时候保持克制，在关键事件发生的瞬间立刻给出反馈。这项研究告诉我们，距离这个目标，现在的AI系统还差得相当远，而这套评测框架的出现，至少为我们提供了一把清晰衡量这段距离的尺子。有兴趣深入了解的读者，可以通过arXiv编号2605.17360查阅完整论文，项目代码和数据集也已通过论文中提供的GitHub地址公开发布。

---

Q&A

Q1：Omni-DuplexEval评测基准和普通视频理解评测有什么区别？

A：普通视频理解评测让AI看完整段视频再作答，只测答案对不对。Omni-DuplexEval专门测AI"边看边说"的能力，既要看内容准不准，还要看是不是在正确的时间点说出来，更接近真实的实时交互场景。

Q2：主动提醒任务为什么比实时描述任务难那么多？

A：实时描述只需要AI持续跟进画面内容，而主动提醒要求AI在大量无关内容中识别出特定事件触发点，并在那个精确时刻主动开口，同时不能在没有触发点时乱说话。这种"等待+触发+响应"的机制对当前AI来说是根本性的挑战，大多数模型要么一直沉默，要么一直在说无关的话。

Q3：当前最好的双工AI模型表现达到人类水平了吗？

A：差距还很大。表现最好的MiniCPM-o 4.5总体得分只有39.6分，而人类在实时条件下得81.8分，在无时间压力的离线条件下更是达到91.5分。最薄弱的主动提醒场景，最好的模型也只有20.0分，说明整个领域在实时双工交互方面还处于早期阶段。

多模态大模型实时双工交互评测基准

分享至

0赞

好文章，需要你的鼓励

推荐文章

强化学习
粒子物理触发系统
自适应阈值优化

2026-07-15 17:40

粒子物理学的"门卫"进化了：芝加哥大学等机构用强化学习让大型强子对撞机自动调节探测阈值

芝加哥大学等机构将强化学习引入大型强子对撞机触发系统，用GFPO方法实现阈值自适应调整，显著提升信号效率并保持背景率稳定，首次在真实CMS碰撞数据上完成验证。
人工智能
多模态模型
音频-文字联合训练

2026-07-15 17:12

英伟达造出了一个"既会说话又会听歌"的超级AI，而且完全不忘记原本的聪明劲儿

英伟达发布Audex多模态大模型，在音频理解与生成达到最优水平的同时，保持文字推理能力几乎零退步，提供完整技术路径。
抑郁检测
自监督学习
模型崩塌

2026-07-15 16:13

当语音测谎仪遇上抑郁筛查：南加州大学的这项研究揭示了一个被忽视的关键环节

南加州大学研究揭示语音抑郁检测中"时序聚合"环节的系统性盲点：72个测试组合中三分之一完全失效，骨干网络选择的影响丝毫不亚于聚合架构本身。
医疗AI
纵向影像分析
最优采样筛选

2026-07-15 15:40

斯坦福大学与根特大学联手：让AI读片"懂历史"，胸片报告质量大幅提升

斯坦福与根特大学联合提出"变化感知最优采样"方法，无需训练模型，通过匹配历史变化模式筛选AI胸片报告候选，印象部分RadGraph F1提升最高达13.6%。

粒子物理学的"门卫"进化了：芝加哥大学等机构用强化学习让大型强子对撞机自动调节探测阈值

粒子物理学的"门卫"进化了：芝加哥大学等机构用强化学习让大型强子对撞机自动调节探测阈值

2026-07-15 17:40

英伟达造出了一个"既会说话又会听歌"的超级AI，而且完全不忘记原本的聪明劲儿

英伟达造出了一个"既会说话又会听歌"的超级AI，而且完全不忘记原本的聪明劲儿

2026-07-15 17:12

当语音测谎仪遇上抑郁筛查：南加州大学的这项研究揭示了一个被忽视的关键环节

当语音测谎仪遇上抑郁筛查：南加州大学的这项研究揭示了一个被忽视的关键环节

2026-07-15 16:13

斯坦福大学与根特大学联手：让AI读片"懂历史"，胸片报告质量大幅提升

斯坦福大学与根特大学联手：让AI读片"懂历史"，胸片报告质量大幅提升

2026-07-15 15:40

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn