微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 SEALQA:提升搜索增强型语言模型推理能力的新挑战

SEALQA:提升搜索增强型语言模型推理能力的新挑战

2025-06-06 12:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-06 12:25 科技行者

这项由维吉尼亚理工大学的Thinh Pham、Nguyen Nguyen、Pratibha Zunjare、Weiyuan Chen、Yu-Min Tseng和Tu Vu共同开展的研究,发表于2025年6月1日的arXiv预印本平台(arXiv:2506.01062v1),旨在评估搜索增强型语言模型在面对复杂、嘈杂或相互矛盾的搜索结果时的推理能力。论文全文可通过huggingface.co/datasets/vtllms/sealqa获取。

一、当人工智能遇到搜索引擎:新挑战的诞生

想象一下,你向一个聊天机器人提问:"哪家公司最近首次市值突破1万亿美元?"一个基础的AI模型可能会直接回答:"伯克希尔·哈撒韦公司于2024年8月28日首次市值突破1万亿美元,成为首家达到这一里程碑的非科技类美国公司。"听起来很有道理,对吧?

但实际上,正确答案是:"博通(Broadcom)公司于2024年12月13日首次市值突破1万亿美元,成为第八家达到这一里程碑的美国科技公司。"

这个简单的例子展示了当今搜索增强型语言模型面临的核心挑战:当网络搜索结果含有矛盾、嘈杂或误导性信息时,如何进行有效的推理?维吉尼亚理工大学的研究团队正是针对这一挑战,开发了SEALQA(搜索增强型语言模型问答)基准测试。

语言模型技术正在进入一个新的扩展范式:测试时扩展(test-time scaling)。这意味着模型可以在推理时动态分配更多计算资源来提高性能。先进的推理模型如OpenAI的O系列、DeepSeek-R1等,利用强化学习等技术在推理阶段引导思维链推理、递归优化和实时搜索等策略。这些模型能够将问题分解为子查询,决定何时以及如何查询搜索引擎,并将检索内容融入结构化的推理路径。

随着语言模型能力的提升,现有的基准测试已经跟不上发展步伐。许多学术问答数据集(如MMLU)已被前沿模型攻克,准确率超过90%。此外,对搜索增强语言模型的评估往往集中在简单的事实查询上,即顶级搜索结果直接回答问题。这种设置只需浅层理解,无法反映真实世界搜索的复杂、模糊本质。

二、SEALQA:一种全新的测试基准

SEALQA是一个针对搜索增强语言模型的具有挑战性的基准测试,由维吉尼亚理工大学的六名NLP研究人员历时八个月精心打造。每个问题都经过精心设计,会触发模糊、冲突或嘈杂的搜索结果,使得简单的关键词匹配或依赖顶级文档的策略难以奏效。

想象SEALQA就像是一个特别设计的迷宫,里面充满了错误指示、相互矛盾的路标和误导性的捷径。普通的导航系统(基础语言模型)会迷失方向,只有真正具备高级推理能力的系统才能成功找到正确出口。

SEALQA问题跨越多种领域,包括科学、技术、体育、娱乐、政治、历史和地理等。这些问题探测了广泛的复杂推理技能:

1. 区分相似实体或事件:例如,识别不同时期的同名公司或人物。 2. 追踪同一实体随时间的变化:如某个组织或政策在不同时期的变化。 3. 解读搜索结果中的图表、表格或数据:需要从视觉信息中提取和理解信息。 4. 计数多个项目:需要精确识别和统计符合特定条件的多个项目。 5. 处理非英语内容:某些问题虽然用英语提问,但需要从非英语资料中获取答案。 6. 识破错误前提或常见误解:辨别问题本身可能包含的错误假设。

为确保质量和难度,每个SEALQA问题都经过严格的多轮审核流程:首先由两名或更多研究生级别的审核者审查,然后由专家审核者批准。

SEALQA提供三种测试类型:

1. SEAL-0(核心集,111个问题):精心筛选的问题集,即使是前沿模型如CHATGPT 4.1也无法正确回答。这些问题经过多次尝试,确保模型的准确率接近零。

2. SEAL-HARD(254个问题):包含SEAL-0和其他虽未达到严格失败阈值但仍具高度挑战性的问题。

3. LONGSEAL(254个问题):"大海捞针"变体,测试长上下文、多文档推理能力。每个问题配对一组检索文档,其中只有一个包含或暗示正确答案,而这个答案被埋藏在无关、嘈杂或误导性内容中。

研究团队刻意保持SEALQA规模较小,因为高质量问题的开发成本和复杂性极高。较小的基准测试也降低了API评估成本,允许更频繁更新,并符合近期对高质量、有针对性评估优于大型、嘈杂评估的趋势。

三、实验设置:前沿模型的严峻考验

研究团队对多种开源和专有模型进行了基准测试,包括:

对话型模型:如GPT-4O、GPT-4.1及其MINI变体、LLAMA-3.1-70B、LLAMA-3.2-3B和LLAMA-4-SCOUT。

高级推理模型:如O3-MINI、DEEPSEEK-R1-671B、DEEPSEEK-R1-0528-671B、DEEPSEEK-R1-DISTILL-QWEN系列和QWEN3-235B-A22B。

代理工具使用模型:如O3和O4-MINI等具备工具使用能力的模型。

对于没有内置浏览能力的模型,研究人员应用了FRESHPROMPT或SELF-ASK方法,将GOOGLE搜索结果注入到提示中。为估计人类表现,研究人员还邀请了三名研究生级别的NLP研究人员(非问题标注者)独立回答50个SEAL-HARD问题样本,允许他们无限制地使用GOOGLE搜索。

LONGSEAL测试则模拟了多文档问答任务,其中模型接收一个问题和一组文档:一个包含正确答案的黄金文档,以及多个干扰文档。黄金文档随机放置在干扰文档中,模型需要从输入上下文中识别并使用黄金文档才能正确回答。

四、实验结果:前沿模型的困境

研究结果揭示了当前语言模型在处理SEALQA问题时面临的严重限制。即使是最先进的前沿模型,在所有SEALQA变体上的表现也相当不佳。

### SEAL-0和SEAL-HARD的表现

在没有搜索引擎辅助的情况下,模型在SEAL-0上的准确率仅为0.0%至5.4%,在SEAL-HARD上为0.0%至22.4%。虽然专有模型往往优于开源模型,但DEEPSEEK-R1-671B是一个值得注意的例外,它达到了整体最佳表现。

有趣的是,模型大小与性能并不总是一致相关。例如,LLAMA-3.2-3B和LLAMA-3.1-70B在SEAL-0上均得分为0.0%,但较小的模型在SEAL-HARD上略微优于较大的模型(1.6%对0.0%)。类似地,DEEPSEEK-R1-DISTILL-QWEN从1.5B扩展到14B时,在两个数据集上的改进都微乎其微(0.0%→0.9%)。

当引入搜索功能时,通常会提高模型的准确率。O3和O4-MINI这类能够使用工具(包括网络搜索)的代理推理模型表现明显优于其他模型。O3在两个数据集上达到了最高准确率:SEAL-0为17.1%,SEAL-HARD为34.6%。

然而,简单添加搜索功能并不总是有益的。例如,当GPT-4.1-MINI配备内置搜索功能时,其准确率从13.8%下降到11.8%。由于SEALQA问题设计用于引发矛盾或嘈杂的搜索结果,因此简单的检索和整合可能会损害模型准确率。

### 高级推理模型对嘈杂搜索结果的脆弱性

研究发现,DEEPSEEK-R1-671B和O3-MINI等高级推理模型对输入噪声的敏感度远高于其他模型。例如,DEEPSEEK-R1-671B的性能在使用FRESHPROMPT时从22.4%下降到11.0%。进一步分析表明,FRESHPROMPT虽然改善了DEEPSEEK-R1-671B在快速变化(+1.6%)和2025年特定(+5.4%)问题上的表现,但在静态或较旧问题上导致大幅下降(从不变问题上-17.7%,在2024年之前的问题上-20.8%)。

在检索提示方法中,SELF-ASK(将问题分解为子问题)通常比FRESHPROMPT(直接搜索)更有效,因为后者会为SEALQA的对抗性问题触发更多噪声。然而,这两种方法都会损害DEEPSEEK-R1-671B和O3-MINI的准确率。

### 测试时扩展无法带来可靠的性能提升

O3-MINI、O3和O4-MINI等模型展示了强大的推理能力,随着测试时计算资源的增加,性能通常会提高。然而,研究发现这种方法在SEALQA问题上并不能带来可靠的提升。

如图1所示,在SEAL-0上,O3-MINI的准确率尽管扩展计算资源但仍然停滞不前,在低、中、高三种努力级别的得分分别为1.8%、2.7%和1.8%。O4-MINI的准确率在低努力级别达到峰值(6.3%),但在中等(5.4%)和高(4.5%)设置下反而下降。虽然O3达到了总体最高准确率,但扩展在SEAL-0上也未能提供可靠的提升,三个努力级别的准确率分别为11.7%、17.1%和14.4%。在SEAL-HARD上也观察到类似趋势。

研究人员推测,对嘈杂搜索结果进行更多推理可能会损害性能。随着测试时计算资源的增加,更长的思维链可能会放大虚假或无关信息,使模型陷入误导性证据,最终降低准确率。

### LONGSEAL上的表现

在LONGSEAL测试中,所有模型在干扰文档增加时准确率都明显下降。例如,当黄金文档紧跟在问题之后(即位于第1位)时,GPT-4.1-MINI的准确率从k=12(即12个干扰文档)时的32.7%下降到k=20时的29.9%,再到k=30时的29.5%。在较小或能力较弱的模型中,这种退化更为明显:GPT-4O-MINI从24.0%下降到6.3%,再到3.9%,而LLAMA-3.2-11B从10.2%下降到2.0%,再到2.4%。

这些结果表明,仅仅增加上下文大小并不能保证有效使用上下文。当存在许多干扰文档时,模型往往难以识别和优先处理黄金文档。主要失败模式似乎是无法在大规模可靠地过滤相关和无关内容。高干扰密度会损害相关性估计,即使所有输入文档都适合于上下文窗口。

与Liu等人2024年的工作不同,研究未发现明显的U型位置趋势(即"迷失在中间"效应)。GPT-4.1-MINI在各位置上保持稳定的准确率,从头到尾只有微小波动;即使在k=30时,其性能在早期、中期和后期位置之间变化也很小。LLAMA-4-SCOUT在后期位置略有改善,但中间没有一致性下降。

这种位置偏差的缺失表明,较新的模型可能已经缓解了先前与位置编码相关的一些结构性弱点。然而,更广泛的挑战仍然存在:无论位置如何,当干扰因素众多时,模型往往无法识别黄金文档。问题已经从对位置的敏感性转变为在大型、嘈杂上下文中对相关性建模的更一般性困难。

### 人类性能与模型比较

在50个SEAL-HARD问题样本上,前沿语言模型通常落后于人类性能:最佳模型O3-HIGH达到28.0%的准确率,略低于最高人类得分30.0%,是唯一超过平均人类准确率23.3%的模型。平均而言,人类参与者仅跳过11.3%的问题,并在64.7%的情况下报告在五分钟内找到答案。尽管如此,总体准确率仍然较低。

五、定性分析:模型推理方式的差异

两位作者独立评估了来自六个模型的100个回答:GPT-4.1(不带搜索、带FRESHPROMPT和带内置搜索);O3-MINI和O3(均在中等推理努力下);以及DEEPSEEK-R1-671B。分析揭示了模型在推理和使用外部知识方面的明显差异。

GPT-4.1变体中,没有搜索的基础模型偶尔会包含相关URL,但由于知识过时常产生不准确答案。FRESHPROMPT版本更善于检测错误前提问题,表达更简洁,但其准确性严重依赖检索质量。内置搜索变体产生逻辑更连贯的答案和更高质量的引用,支持事实验证,但仍有偶尔错误。

O3能够产生更明确和简洁的回应,但有时会过度思考并错误拒绝有效答案。O3-MINI的输出易于理解,但模型偶尔会错过相关推理路径。值得注意的是,这两个模型通常会确认时间敏感查询的知识截止日期,寻求澄清,并建议替代策略来支持用户决策。

DEEPSEEK-R1-671B往往过度思考,经常重复"等等"、"让我思考"和"或者"等短语,而不得出明确结论。其缺乏结构化格式也使其回应比GPT-4.1和O3模型更难理解。

六、SEALQA的意义与未来展望

SEALQA的创建填补了现有基准测试的重要空白,为评估搜索增强语言模型在面对嘈杂、矛盾或不完整信息时的推理能力提供了全面平台。这一基准不仅仅是测试模型是否能找到正确答案,更是评估它们在现实世界复杂信息环境中进行推理的能力。

研究结果表明,即使是最先进的前沿模型在处理SEALQA这类挑战时仍存在显著局限性。这些模型在搜索结果含有噪声或矛盾信息时特别脆弱,而且增加测试时计算并不总能带来可靠的性能提升。特别是,模型难以在大量干扰文档中可靠识别相关信息。

这项研究为未来工作指明了几个关键方向:

1. 开发更强大的搜索增强推理技术,能够在嘈杂、矛盾的信息中进行有效推理。 2. 提高模型在"大海捞针"设置中识别和优先处理相关证据的能力。 3. 探索更有效的方法来平衡推理深度和对误导性信息的敏感性。

SEALQA的发布(可在huggingface.co/datasets/vtllms/sealqa获取)为研究社区提供了一个稳定且不断发展的基准,用于推进语言模型在现实世界信息检索和推理任务中的能力。研究团队承诺定期更新,以保持基准的相关性和挑战性。

七、研究局限性与伦理考量

尽管SEALQA经过严格的多轮审核,但研究仍存在一些局限性。首先,多数SEALQA问题被构造为具有单一简短答案,这并不能完全捕捉现实世界信息查询任务的复杂性。在实践中,用户可能提出没有确定答案、具有多个合理答案或需要长篇回应的问题。

其次,虽然一些问题涉及检索和推理非英语资源,但该基准并非设计用于系统评估多语言能力或文化和语言泛化,这是未来研究的重要方向。最后,尽管SEALQA定期更新以保持相关性,但由于网络内容的快速演变,发布之间的一些答案可能会过时。

在伦理方面,手动策划可能会无意中引入文化、地区或领域特定的偏见。研究团队虽然致力于中立性和多样性,但这类偏见很难完全消除。此外,LONGSEAL中配对的真实世界搜索数据可能包含受版权保护、敏感或受限内容。研究团队敦促研究人员遵循道德准则,尊重知识产权。

结语:推动搜索增强推理的新前沿

SEALQA的诞生代表了评估语言模型能力的一个新里程碑。在真实世界中,信息很少是清晰明确的——它常常是嘈杂的、矛盾的、不完整的。能够在这种环境中进行有效推理的能力对于下一代AI系统至关重要。

研究结果表明,即使是最先进的模型在这类复杂任务上也面临严峻挑战。这不仅仅是改进搜索技术的问题,更是开发能够在不确定性和矛盾中进行推理的系统的挑战。

就像人类专家能够从看似矛盾的信息中提炼出正确答案一样,下一代AI系统也需要具备这种复杂推理能力。SEALQA为衡量这种能力提供了严格的标准,也为未来研究指明了方向。

对于有兴趣深入了解这项研究的读者,完整论文可在huggingface.co/datasets/vtllms/sealqa获取。正如研究团队所言,SEALQA不仅是一个挑战,更是推动搜索增强语言模型发展的新起点。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-