微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI助手在嘈杂的网络信息中迷失方向:北卡罗来纳大学等团队发布了一个让现有顶尖AI集体"翻车"的多模态评测基准

当AI助手在嘈杂的网络信息中迷失方向:北卡罗来纳大学等团队发布了一个让现有顶尖AI集体"翻车"的多模态评测基准

2026-04-24 09:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-24 09:46 科技行者

这项由北卡罗来纳大学教堂山分校、弗吉尼亚理工大学和德克萨斯大学奥斯汀分校联合完成的研究,以预印本形式于2026年4月15日发布,论文编号为arXiv:2604.13418。有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有遇到过这样的情况:朋友问你"那个谁谁谁在哪部电影里演了一个什么角色来着",你打开搜索引擎,却发现搜出来的结果乱七八糟,有人说这个,有人说那个,甚至有人指着一张截图说"你看,这里写得很清楚",但那张图根本不是你要找的那部电影的截图。你不得不打开原版视频,一帧一帧地看,才找到答案。

现在,把你换成一个AI助手,把那个混乱的搜索结果换成整个互联网,再把那个问题换成需要看视频、听音频、查图表、读文章才能综合得出答案的复杂问题——这就是这项研究想要测试的真实场景。研究团队把这个测试平台命名为MERRIN,全称是"嘈杂网络环境中的多模态证据检索与推理基准"(Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments)。

这个名字听起来很学术,但它想回答的问题其实很朴素:当你问AI一个问题,这个问题的答案藏在某段视频的第1分42秒,而网上还有一堆看起来相关但实际上答案截然不同的"干扰信息",AI能找到正确答案吗?结果令人清醒——不能,至少现在还远远不够。

一、为什么要专门设计这样一个测试?

在展开研究细节之前,有必要先聊聊背景:为什么这个测试如此必要?

回想一下你平时搜索信息的体验。当你问"1964年理查德·费曼在康奈尔大学的第三次信使讲座中,他在黑板上写下的第一个方程式描述的定律是谁发现的",你在网上能找到的东西可能包括:这个系列讲座的文字总结、某个人做的视频剪辑集锦、讲座全程视频、讲座笔记的PDF版本,以及各种相关但不完全相关的百科条目。要回答这个问题,你必须找到那段完整视频,定位到视频的正确时间点,认出黑板上那个方程式,判断它对应的物理定律,再查出是谁首先提出了这条定律。任何一个步骤出错,答案就全错了。

以前的AI测试平台大多不是这样设计的。很多测试会在问题里直接告诉AI"看下面这张图"或"根据以下视频内容"——这等于直接把答案藏在哪里告诉了AI,只需要它会"看图说话"就够了。还有很多测试只考文字和图片,根本不涉及视频和音频。更关键的是,几乎没有测试会故意在搜索结果里放置"迷惑信息"——那些看起来相关、实际上会把AI引向错误答案的干扰源。

MERRIN的研究团队决定填补这个空白。他们要构建一个更接近真实互联网体验的测试:问题用日常语言提出,不透露答案藏在哪种媒体里;答案可能藏在视频、音频、图片或文字任何一种媒体中;搜索过程中必然会遇到让人困惑的干扰信息;而且必须经过多个步骤的推理才能得出最终答案。

二、这个测试是怎么设计出来的?

构建这样一个测试平台,本身就是一项繁重的工程。研究团队的六名标注员(五名研究生、一名本科生,均有自然语言处理背景)花费大量时间手工设计和审核问题。

每道问题必须同时满足三个硬性条件。第一,问题的措辞里绝对不能出现任何暗示媒体类型的词语,不能说"根据下图"或"在这段视频中",问题必须读起来像一个普通人随口提出的搜索需求。第二,必须经过严格验证,确保这道题无法仅靠文字信息回答——团队会把每道题拆解成若干子问题,然后用只能搜索文字的方式逐一尝试解答,甚至还要做一轮"作弊测试":把已知的正确答案也放进搜索词,看看文字材料里有没有直接给出答案的捷径。只要能找到文字捷径,这道题就不合格。第三,每道题必须有且只有一个明确的、简短的正确答案,不能模棱两可。

在质量控制方面,每道题都要经过第二名标注员的独立审核,考察答案是否正确、问题是否清晰、难度是否达标。第一轮审核中,大约有39.5%的候选题目被直接淘汰;在被淘汰的题目中,又有45.3%经过修改后在第二轮审核中通过。这套严格的筛选流程保证了最终留下来的162道题每一道都货真价实。

这162道题覆盖的媒体类型相当均衡:文字类来源96个,视频类来源88个,图片类来源110个,表格类来源12个。从题目要求来看,非文字证据在其中的作用也很多样——有些题目的答案本身就藏在非文字媒体里(比如只能通过看视频才能知道),另一些题目则需要用非文字媒体作为推理的中间环节(比如先看图表得出一个数据,再用这个数据进一步推导最终答案),还有一半左右的题目同时需要这两种作用。此外,73.5%的题目同时考察多步推理能力和处理矛盾信息的能力,意味着单靠一步就能推出答案的题目几乎不存在。

三、AI助手们在测试中经历了什么?

研究团队用这162道题测试了十个不同的AI模型,包括GPT-5.4-nano和GPT-5.4-mini(OpenAI开发)、Gemini 3 Flash和Gemini 3 Pro(谷歌开发)、Gemini 3.1 Flash Lite和Gemini 3.1 Pro(谷歌开发)、Gemini深度研究助手(谷歌开发),以及三个规模不同的开源模型Qwen3-4B、Qwen3-30B和Qwen3-235B(阿里巴巴开发)。每个模型都在三种不同的"搜索条件"下接受测试。

第一种条件叫"不搜索":AI只能依靠自己训练时学到的知识,不能上网查任何东西。第二种条件叫"原生搜索":启用各个模型自带的搜索功能,让AI可以自主上网查询,但这些内置搜索工具普遍只支持文字和图片,不能处理视频和音频。第三种条件叫"智能多模态搜索":为AI配备了一套专门设计的工具箱,里面包含普通网页搜索工具、一个能理解网页上图文内容的增强版网页访问工具,以及一个能直接观看YouTube视频并理解其视觉和音频内容的视频处理工具。

结果非常直白:所有AI助手在所有条件下的平均得分只有22.3%。即便是表现最好的组合——Gemini 3.1 Pro使用智能多模态搜索——也只答对了40.1%。换句话说,即使是顶尖AI用最好的工具,也有将近60%的题目答错了。

从三种搜索条件的整体表现来看,在六个被同时测试了全部三种条件的模型上,"不搜索"条件下平均得分17.3%,"原生搜索"条件下提升到23.1%,"智能多模态搜索"条件下进一步提升到33.7%。每一步的进步都说明搜索能力和多媒体处理能力确实有价值,但最终成绩依然远低于人类水平。

四、AI犯了哪些错,各自有什么规律?

研究团队对表现最好的Gemini 3.1 Pro进行了详细的错误分析,发现了几个鲜明的规律。

最普遍的问题是对文字的执念。在这个模型检索到的所有证据中,有87.7%是文字内容,来自图片的只有6.8%,来自视频和音频的加在一起只有5.5%。对比一下题库本身的媒体分布:文字来源只占31.4%,图片来源占35.9%,视频和音频来源占28.8%。这意味着AI明显偏爱文字,即使正确答案就藏在一段视频里,它也倾向于优先阅读相关的文字材料,然后在文字里推断一个答案。结果可想而知——答案大概率是错的,因为关键信息根本不在文字里。

另一个值得关注的现象是"越能干越容易迷路"。更强大的模型(比如Gemini深度研究助手和使用原生搜索的Gemini Pro系列)在面对嘈杂的网络信息时,反而更容易陷入"搜索黑洞":它们不断发出新的搜索请求,不断打开新的网页,但就是无法收敛到一个最终答案上。Gemini深度研究助手在平均33.1%的题目上会直接超时——它在没有给出任何答案的情况下持续搜索长达15分钟,最终因超时而"放弃"。Gemini Pro系列在原生搜索模式下,有平均12.7%的题目会触发"工具调用次数过多"的API限制,导致系统返回空响应。相比之下,更轻量级的Flash和Lite版本受这个问题困扰的比例分别只有3.1%和0.4%——因为它们发出的搜索请求更少,更快就做出了(虽然可能是错的)判断。

对于多步推理题目,研究团队还专门标注了50道需要两步推理的题目,为每步推理提供了子问题和中间答案,然后分析AI在哪一步更容易出错。结论是:第一步(识别并获取正确证据)出错的比例是57.7%,第二步(根据已获取的证据推导最终答案)出错的比例是42.3%。第一步的失误更致命,因为一旦证据找错了,后续推理再严密也没有意义。

五、搜索出了问题,还是推理出了问题?

一个自然的疑问是:AI答不对题,到底是因为没找到正确的证据,还是因为就算有了证据也推理错了?研究团队为此设计了一组专门的对照实验,通过"逐步给AI开后门"的方式来区分这两类问题。

第一步是在正常的网络搜索结果里,偷偷塞入正确答案所在的网页链接(但AI仍然需要自己找到并识别这些链接,因为它们混在很多普通搜索结果里)。这个条件下,成绩从40.1%提升到43.4%,提升了3.3个百分点。提升幅度不大,说明即便正确证据已经出现在搜索结果里,AI也未必能正确识别和利用它。

第二步是完全去掉普通搜索,只向AI提供正确答案的网页链接(不再有任何干扰信息),但AI仍然可以使用各种工具来处理这些页面。成绩进一步提升到45.5%,又涨了2.1个百分点。这说明那些混在搜索结果里的干扰信息确实会损害AI的判断,即使正确证据就在眼前,干扰信息也会带来负面影响。

第三步是完全绕过AI助手的工具使用框架,直接把正确的图片和视频作为原生多模态输入喂给模型,让它在没有任何中间工具的情况下直接回答。成绩再次提升到47.7%,又涨了2.2个百分点。这说明AI在使用工具处理正确来源时,也并不总是会深入分析内容——有时它只是浏览了一下网页标题或摘要,就决定不需要进一步阅读了。

把这些数字串起来看:从原始的40.1%到"完美证据直接输入"的47.7%,总共只提升了7.6%。这意味着搜索阶段的所有问题加在一起,最多只能解释7.6个百分点的得分差距。而就算彻底消除了搜索的所有问题,AI仍然只能答对不到一半的题目。研究团队由此得出结论:推理能力的不足比搜索能力的不足更根本、更难克服。

六、人类的表现如何?差距在哪里?

为了有一个参照基准,研究团队招募了五名本科生,让他们用普通的谷歌搜索(不借助任何AI工具)回答随机抽取的50道题目,要求他们记录自己搜索的时间、查询次数、以及每个打开过的网页或视频。

结果差异悬殊。人类的平均正确率是71.4%,远远超过最好的AI组合(40.1%)。更惊人的是,人类只用了平均2.9次搜索和2.9次网页访问就达到了这个成绩,而最好的AI助手平均需要进行9.1次搜索、访问3.5个页面才能得出(往往还是错误的)答案。

在媒体使用上,人类的分布相当均衡:53.2%的资源是文字,28.2%是视频,18.5%是图片。而AI助手高度偏向文字,最好的AI组合有87%的资源是文字,视频只有4.4%,图片只有8.5%。

另一个有趣的对比是"加时赛的收益"。研究团队分析了如果强制把超过五分钟的问题算作答错,成绩会发生什么变化。对于人类来说,五分钟内的正确率是59.2%,最终整体正确率是71.4%——额外的时间带来了12.2个百分点的收益。对于AI来说,五分钟内AI助手的正确率是34.0%,最终整体正确率是40.1%——额外的时间只带来了6.1个百分点的收益。两者平均花费的时间几乎相同(AI 4.0分钟,人类4.1分钟),但人类用额外时间更深入地挖掘难题,而AI则倾向于继续发出大量重复的搜索请求,并没有实质性地"深挖"。

在人类答错的题目中,错误类型也很有启发性。43%是"数错了"——找到了正确的信息来源,但具体计数时出了差错,比如少数了一张专辑封面或者多算了一秒钟。29%是"找对了来源但提取细节时出错"——比如从视频的错误时间点读取了数值。14%是"答案方向对但不够精确"——比如回答"守恒定律"而不是更具体的"电荷守恒定律"。只有14%的人类错误属于彻底答错,说明人类即便出错,通常也是在正确的方向上出了小差错,而不是南辕北辙。

七、几个有意思的额外发现

除了主要实验,研究团队还做了几组补充测试,每组都揭示了一些有价值的细节。

其一是加入视频处理工具的效果。原生搜索模式本身不支持处理视频,研究团队专门测试了"仅给原生搜索加一个视频处理工具"会带来多大提升。结果发现,对Gemini系列四个模型的平均提升幅度是5.7个百分点,其中Gemini 3.1 Pro的提升最大,达到了8.5个百分点。这说明视频处理能力确实能实质性地改善表现,而不只是锦上添花。

其二是"思考力度"的影响。研究团队用GPT-5.4-mini测试了从"完全不思考"到"极度深思熟虑"五个不同的思考强度级别(谷歌的模型无法关闭思考功能,所以只有GPT系列适合这个测试)。总体规律是:思考力度越大,成绩越好,但效果因搜索条件不同而有差异。在智能多模态搜索模式下,从"不思考"到"最高强度思考",成绩提升了8.6个百分点;在原生搜索模式下提升了6.8个百分点;在不搜索模式下只提升了3.1个百分点。这表明更强的推理能力在有搜索支持的情况下收益更大。

其三是开源模型与闭源模型的差距。Qwen3系列三个不同规模的模型在智能多模态搜索模式下的平均正确率只有16.6%,远低于闭源模型的平均水平。更关键的是,为开源模型配备搜索工具后,成绩的提升幅度(平均6.5个百分点)也明显小于闭源模型(平均16.4个百分点)。研究团队分析认为,这主要源于三个问题:开源模型处理长段多步骤搜索结果的能力较弱;更容易被无关信息干扰,在答案明显不对的情况下也可能草草收尾;以及中间推理步骤更容易出错,错误会像滚雪球一样累积到最终答案上。

说到底,MERRIN这个测试揭示了一个令人深思的现实:我们现在能用的最强大的AI助手,在面对真实互联网上那种杂乱、矛盾、多媒体混杂的信息环境时,表现还远不如一个耐心的本科生。AI的问题不是单一的——既不擅长找到正确的信息来源,又不擅长在找到来源后正确提取关键信息,还特别不擅长处理视频和音频这类"非文字"媒体。最反直觉的发现是:更强的模型并不一定更能解决这些问题,有时候反而会陷入更深的"信息过载"困境,像一个在图书馆里迷失方向的学霸,翻了一本又一本书却越来越焦虑,而不是像普通人那样找到一两本关键书籍后就直接得出答案。

这项研究的价值正在于此——它清晰地指出了差距究竟在哪里,为接下来改进AI搜索助手指明了方向。毕竟,只有先知道自己哪里不足,才能真正进步。如果你对这份测试的完整细节感兴趣,可以通过arXiv编号2604.13418找到完整论文。

Q&A

Q1:MERRIN测试平台和普通AI测试有什么区别?

A:MERRIN最核心的不同在于三点:问题不会告诉AI答案藏在哪种媒体里,AI必须自己判断该看视频还是读文字;题目覆盖视频和音频这两种以往测试几乎不涉及的媒体;搜索过程中故意存在会误导AI的干扰信息,而不是在干净的环境下测试。这三点结合在一起,使得MERRIN比大多数现有测试更接近真实的互联网搜索场景。

Q2:MERRIN测试中AI的主要失败原因是什么?

A:研究发现AI失败主要有两大原因,而且推理能力不足比搜索能力不足更根本。即便把正确答案的来源直接告诉AI,成绩也只从40.1%提升到47.7%,说明就算找到了正确来源,AI也常常无法正确理解和提取关键信息。此外,AI普遍存在严重的"文字偏好"——87%的检索内容是文字,即便答案明显藏在视频里,AI也倾向于优先搜索文字材料。

Q3:人类和AI在MERRIN测试中的差距有多大?

A:差距相当显著。人类用平均2.9次搜索达到了71.4%的正确率,而最好的AI组合用9.1次搜索只达到40.1%的正确率。不只是准确率的差距,人类选择信息来源的精准度(38.1%的访问URL与正确来源匹配)也远高于AI(只有1.8%)。人类还会利用额外时间深挖难题,额外时间带来12.2个百分点的收益,而AI的额外搜索时间只带来6.1个百分点,且主要是重复无效的搜索。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-