微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 "干扰效应":理解RAG系统中的不相关段落如何影响AI决策

"干扰效应":理解RAG系统中的不相关段落如何影响AI决策

2025-05-27 09:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 09:36 科技行者

在2025年5月,由技术创新研究院的Chen Amiraz、Florin Cuconasu、Simone Filice和Zohar Karnin组成的研究团队发表了一篇名为《干扰效应:理解RAG系统中的不相关段落》的论文。这项研究发表在arXiv上,编号为2505.06914v1,揭示了检索增强生成(RAG)系统中的一个关键问题。RAG系统已成为大型语言模型(LLM)处理知识密集型任务的重要方法,但研究团队发现,当检索到的无关段落与查询在语义上相关时,它们可能会"干扰"语言模型的判断,导致错误回答。本文详细解析了这一重要发现及其解决方案。

一、什么是RAG系统及其"干扰段落"问题

想象一下,你有一位非常聪明但记忆力有限的朋友。每当你向他提问时,他都会先查阅一些相关资料,然后基于这些资料加上自己的知识来回答你。这基本上就是检索增强生成(RAG)的工作方式——大型语言模型(LLM)在回答问题前先检索相关文档,然后使用这些检索到的信息来生成答案。

这种方法在很多场景下都表现出色,特别是当语言模型需要访问最新信息或特定领域知识时。正如研究者指出的,将检索到的文本添加到LLM的提示中可以显著减少"幻觉"(即模型凭空编造不存在的信息)。例如,如果你问一个没有RAG支持的AI关于2024年某个新发布产品的信息,它可能会编造答案;而配备RAG的系统则会先检索最新资料,再给出答案。

但这种看似完美的方案存在一个隐患:当检索系统提供了看似相关但实际上无关的信息时,会发生什么?研究团队发现,这些表面上相关但实际上无关的信息段落会产生"干扰效应",使语言模型偏离正确答案。

举个例子,假设你问"亚马逊河有多长?",一个完美的RAG系统会检索出"亚马逊河长约6400公里"的段落。但如果系统误检索到一段提到"尼罗河长约6650公里,是世界上最长的河流"的内容,语言模型可能会被干扰,错误地将尼罗河的信息应用到亚马逊河上,或混淆两条河流的信息。

这种干扰效应与我们人类的认知偏差非常相似。当我们阅读一段文字后立即接触相关但不同的信息时,之前的信息可能会影响我们对后续信息的处理和记忆。语言模型也存在类似的"思维干扰"现象。

研究者们在论文中提到,随着检索系统性能的提升,这个问题可能会变得更加突出。因为更强的检索器会返回更具干扰性的不相关段落——它们与查询在表面上更相似,更容易让语言模型受到误导。

二、如何衡量段落的"干扰效应"

研究团队提出了一个简单而有效的方法来量化段落对语言模型的干扰程度。这就像是测量食物的辣度一样——我们需要一个客观的指标来判断一段文本有多"干扰"。

他们设计了一个公式:对于一个查询q和一个段落p,段落的干扰效应DEq(p)可以通过以下方式计算:

首先,他们创建一个包含查询和段落的提示,并明确告诉语言模型如果段落不包含答案就回答"NO-RESPONSE"。然后,他们计算语言模型不选择回答"NO-RESPONSE"的概率:

DEq(p) = 1 - p(语言模型回答"NO-RESPONSE"|查询q, 段落p)

简单来说,如果语言模型倾向于基于这个段落生成答案(即使该段落与问题无关),那么这个段落就具有高干扰效应。如果语言模型正确地识别出段落与问题无关并回答"NO-RESPONSE",那么这个段落的干扰效应就很低。

这就像测试一个人面对诱人甜点的自制力——如果即使明知道不应该吃甜点,还是忍不住伸手,那么这个甜点对这个人的"干扰效应"就很高。

研究团队发现,尽管不同的语言模型具有不同的特性,但段落的干扰效应在不同模型间有很高的相关性。这意味着一个对Llama模型具有高干扰效应的段落,对Falcon或Qwen模型也可能有类似的干扰效应。这一发现证明了干扰效应是段落的内在特性,而不仅仅是模型的特定反应。

研究者们还证实了这种干扰效应确实会影响RAG系统的实际表现。他们发现当高干扰效应的段落与正确信息一起出现在提示中时,会显著降低模型的回答准确率,即使模型同时获得了正确信息。这就像你在听一个人解释正确答案的同时,旁边有人不断插话提供相似但错误的信息,最终导致你对正确答案的理解出现偏差。

三、如何获取具有高干扰效应的段落

研究团队探索了多种方法来获取具有高干扰效应的段落,这些方法可以分为两大类:基于检索的方法和基于生成的方法。

**基于检索的方法**就像是从图书馆中寻找特定类型的书籍。研究者们使用了两种检索策略:

第一种是标准检索,即使用常规的检索系统找到与查询相关的段落,然后排除真正相关的段落,保留那些系统认为相关但实际上不包含正确答案的段落。这些段落通常会包含与查询相关的关键词或主题,但不含有正确答案。

第二种是答案偏斜检索,这是研究者们开发的一种新方法。想象一下,你想找到一本讨论足球但不涉及世界杯的书。标准检索可能会返回许多谈论足球(包括世界杯)的书,而答案偏斜检索则会特意寻找那些谈论足球但避开世界杯的内容。具体来说,研究者对查询向量做了修改,使其远离答案向量但仍保持与原始查询的相关性。

**基于生成的方法**则像是定制书籍而不是检索现有书籍。研究团队使用强大的语言模型生成不同类型的干扰段落:

1. 相关主题段落:讨论与问题高度相关的主题,但不包含答案。比如对于"亚伯拉罕·林肯何时出生?"的问题,生成关于"罗伯特·托德·林肯(亚伯拉罕·林肯的长子)于1843年8月1日出生"的段落。

2. 假设性段落:讨论一个假设情境,在这种情境下答案不同于正确答案。例如对于"第五周年纪念日的传统礼物是什么?"的问题,生成"在古罗马时期,夫妇在第五周年纪念日会进行为期一周的狩猎之旅"的段落。

3. 否定段落:提供错误答案,但以否定形式出现。例如"人们普遍误解为学生不需要缴税"这样的表述。

4. 情态陈述段落:在声明答案不确定的免责声明后提供错误答案。例如"金字塔可能是通过建造倾斜和环绕的砖块、泥土和沙子堤坝而建成的"。

通过这些方法,研究团队为各种查询创建了一个多样化的干扰段落集合,这些段落能够有效测试语言模型在面对具有误导性信息时的表现。

四、干扰段落的实验分析

研究团队设计了一系列实验来分析不同方法获取的干扰段落的效果。他们使用了四个常用的问答基准数据集:NQ、PopQA、TriviaQA和WebQA,并测试了多个不同规模(从3B到70B参数)和不同系列的语言模型,包括Llama、Falcon和Qwen。

实验结果显示出几个有趣的模式:

首先,标准检索返回的不相关段落比答案偏斜检索返回的段落更具干扰性。这就像是错误地返回一本介绍宇航员尼尔·阿姆斯特朗的书(当查询是关于路易·阿姆斯特朗爵士时)比返回一本介绍爵士乐但不提及路易·阿姆斯特朗的书更具干扰性。研究者还发现,当使用排序器对检索结果进行重新排序时,干扰效应会进一步增强。

其次,研究发现不同检索位置的段落干扰效应不同。排名越靠前的不相关结果通常具有更高的干扰效应,这与之前的研究发现一致——更强的检索器返回的不相关段落比弱检索器返回的更具干扰性。

在生成的干扰段落中,情态陈述段落(以不确定形式提供错误信息的段落)通常最具干扰性,而相关主题段落(讨论相关主题但不含答案的段落)的干扰效应最低。这表明语言模型特别容易被那些表现出不确定性但提供明确(错误)答案的段落所误导。

研究者们还观察到,不同来源的干扰段落对不同查询的干扰效应各不相同。对于48%的查询,最具干扰性的段落来自于标准检索加重排序之外的方法。这表明综合使用多种方法可以创建更多样化、更具挑战性的干扰段落集合。

有趣的是,不同大小和架构的语言模型对干扰段落的反应有高度的相关性(Spearman相关系数通常大于0.6)。这意味着如果一个段落能够干扰Llama-3.1-8B,它很可能也会干扰Falcon-3-7B或Qwen-2.5-7B,尽管干扰程度可能有所不同。

研究者们还进行了"正确信息+干扰段落"的实验,结果表明即使在提示中同时包含正确信息和干扰段落时,高干扰效应的段落仍能显著降低模型的回答准确率,降幅从6到11个百分点不等。即使是70B参数的大型模型也会受到影响,这证明了干扰段落的强大影响力。

五、利用干扰段落改进RAG系统

研究团队不仅分析了干扰段落的特性,还展示了如何利用这些干扰段落来改进RAG系统。就像疫苗接种通过暴露于减毒病原体来建立免疫力一样,研究者们通过暴露模型于干扰段落来提高其对干扰的抵抗力。

他们使用从NQ数据集中选取的800个查询构建了训练数据,每个训练样例包含一个查询、一个正确答案和5个段落。这些段落根据不同策略收集:

1. 检索策略:使用标准检索系统获取排名前5的结果。 2. 重排序策略:使用标准检索后加重排序获取排名前5的结果。 3. 难难策略:在50%的样例中,使用一个相关段落和四个高干扰效应段落;在另外50%的样例中,使用五个高干扰效应段落。

然后,他们使用这些不同的训练集微调了Llama-3.2-3B和Llama-3.1-8B模型,并在内部测试集(NQ剩余查询)和外部测试集(PopQA、TriviaQA和WebQA)上评估了模型表现。

结果非常令人鼓舞:使用难难策略训练的模型在几乎所有测试集上都表现最佳,对Llama-3.2-3B模型的提升尤为显著,在TriviaQA和WebQA上分别提高了6.7和7.6个百分点。即使对于更强大的Llama-3.1-8B模型,难难策略也带来了明显改进。

特别值得注意的是,这种训练方法在处理"无根据"样例(即提示中不包含相关段落的样例)时表现尤为突出,在某些情况下准确率提升超过了16个百分点。这表明模型学会了更好地识别和抵抗干扰段落的影响,就像人类学会了识别虚假信息一样。

六、研究意义与未来展望

这项研究为理解和改进RAG系统提供了重要见解。通过定义和量化段落的干扰效应,研究者们为评估RAG系统的鲁棒性提供了一个新的度量标准。通过开发获取干扰段落的多种方法,他们创建了更具挑战性和多样性的测试集,这些测试集可以用来评估和改进RAG系统的表现。

研究的主要贡献在于:

1. 提出了干扰段落这一核心问题的形式化定义和量化方法。 2. 超越了简单的二元分类(完全无关 vs 干扰),提供了一个连续的干扰效应度量。 3. 开发和分析了多种获取难干扰段落的方法。 4. 证明了使用这些干扰段落进行微调可以显著提高RAG系统的鲁棒性。

未来的研究方向可能包括:扩展干扰段落的分类体系以捕捉更多类型的干扰信息;将这些方法应用于问答以外的其他RAG任务;以及探索如何在保持模型对相关信息敏感性的同时增强其对干扰信息的抵抗力。

总的来说,这项研究为提高RAG系统的鲁棒性提供了一个有前景的方向。随着检索系统变得越来越强大,它们返回的不相关段落也可能变得越来越具有干扰性。因此,训练模型识别和抵抗这些干扰段落变得越来越重要。这就像教导孩子在信息爆炸的时代辨别真假信息一样,对于构建可靠的AI系统至关重要。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-