在人工智能快速发展的今天,大型语言模型(LLM)已经成为我们日常生活中不可或缺的一部分。无论是问答系统、内容创作,还是信息检索,它们都在悄无声息地改变着我们获取知识的方式。然而,这些看似强大的模型也有其局限性。2025年5月,来自罗马萨皮恩扎大学和技术创新研究所的研究团队,包括Florin Cuconasu、Simone Filice、Guy Horowitz、Yoelle Maarek和Fabrizio Silvestri发表了一篇题为《Do RAG Systems Suffer From Positional Bias?》的研究论文,深入探讨了检索增强生成(RAG)系统中的位置偏见问题。这篇论文发表于arXiv预印本平台,编号为arXiv:2505.15561v1。
我们先来理解什么是检索增强生成(RAG)。想象你有一个超级智能的朋友,他知道很多事情,但有时候记忆会有漏洞。为了确保他给出的信息准确无误,你总是会先从图书馆找来一些相关的书籍或文章让他参考,然后再请他回答问题。这就是RAG的基本原理——它先从外部资料库中检索相关信息,然后把这些信息添加到大型语言模型的提示词(prompt)中,帮助模型生成更准确的答案。
但是,有一个关键问题:当我们把多段检索到的文本放入模型的提示词中时,文本的排列顺序是否会影响模型的表现?也就是说,同样的信息放在提示词的开头、中间或结尾,是否会导致模型对它们的注意力不同?这就是所谓的"位置偏见"(positional bias)问题。
先前的研究已经发现,大型语言模型确实存在"迷失在中间"(lost-in-the-middle)效应——它们倾向于更多关注提示词开头和结尾的信息,而忽略中间部分的内容。然而,这些研究通常是在一个受控的环境中进行的,它们通常只在提示词中放入一段相关内容,其余都是不相关的内容,然后观察相关内容位置变化对模型表现的影响。这种人为设置可能会放大位置偏见的影响,但并不完全反映真实场景。
罗马大学和技术创新研究所的研究团队采取了不同的方法。他们不仅关注了相关段落的位置如何影响模型的表现,还研究了"干扰段落"(distracting passages)的位置效应。什么是干扰段落?简单来说,它们是那些与问题相关但不包含正确答案的文本,就像是在侦探推理中的"红鲸鱼"——看起来很相关,但实际上会引导你走向错误的方向。
研究团队通过大量实验发现,最先进的检索系统在尝试找出相关内容的同时,也会将高度干扰的段落排在检索结果的前列。数据显示,超过60%的查询在前10个检索结果中至少包含一个高度干扰的段落。由于相关段落和干扰段落都出现在检索结果的前列,它们都会受到位置偏见的影响,这就在很大程度上抵消了位置偏见在实际应用中的影响。
研究团队进一步证明,那些基于模型位置偏好来重新排列段落的复杂策略,实际上并不比随机排序表现得更好。换句话说,在真实的RAG场景中,位置偏见对系统性能的影响远比我们想象的要小。
下面,让我们更深入地了解这项研究的细节,看看它对我们使用和改进RAG系统有什么启示。
一、研究背景与问题
想象你正在用一个智能助手回答一个复杂问题,比如"谁发明了电灯泡?"为了给你最准确的答案,这个助手会先去查阅大量资料,找出与电灯泡发明相关的段落,然后根据这些段落生成回答。这就是检索增强生成(RAG)的工作方式,它通过从外部知识库检索相关信息来增强大型语言模型的表现。
然而,现实世界中的检索系统并不完美。它们通常会返回多个可能相关的段落,而不仅仅是最佳匹配的那一个。这样做虽然提高了召回率(即找到相关信息的概率),但也引入了"干扰段落"——那些看似相关但实际上不包含正确答案的文本。最近的研究表明,这些干扰段落会显著降低模型的回答准确性。
同时,大型语言模型还有另一个弱点:位置偏见。将同样的信息放在提示词的不同位置可能会改变答案并大大影响其准确性。Liu等人将这称为"迷失在中间"效应,指的是大型语言模型倾向于关注提示词开头或结尾的文本。然而,先前的分析主要是在受控环境中进行的,通常是在一个提示词中旋转一个相关段落的位置,而其他内容都是不相关的。这种人为设置不仅放大了位置偏见的影响,还忽略了位置偏见如何影响模型对干扰段落的敏感性,而这正是本研究的核心关注点。
使用Amiraz等人的"干扰效应"指标,研究团队展示了答案准确性取决于相关段落和干扰段落的位置。然后,他们通过实验表明,当前最先进的检索管道在尝试检索相关段落的同时,也会将高度干扰的段落排在前列,而且检索管道越先进,检索到的段落就越具有干扰性。
这种在检索排名顶部同时存在相关段落和高度干扰段落的情况,大大降低了位置偏见的影响,因为它依次惩罚了两种类型的段落。基于这些发现,研究团队通过实验证明,基于模型位置偏好来重新排列段落的策略并不比随机排序更有效。
二、相关研究回顾
在深入研究之前,让我们先了解一下这个领域的相关工作。目前的研究主要集中在两个方面:不相关内容的影响和位置偏见。
关于不相关内容的影响,最近的研究探讨了大型语言模型提示词中不相关内容的有害效果。在RAG环境中,如果一个段落不提供有用的信息来回答查询,它就被视为不相关。Cuconasu等人将不相关段落分为两类:随机的(与查询在语义上无关)和干扰的(与查询相关但不包含答案)。他们发现,虽然随机段落不影响答案质量,但干扰段落确实会降低答案质量。Jin等人表明,强检索器返回的不相关段落比弱检索器返回的更有害。Amiraz等人提出了一种连续的干扰效应度量方法,以及一种增强模型鲁棒性的微调方法。
关于位置偏见,尽管有先进的位置编码方法如Alibi和RoPE,长上下文大型语言模型通常仍受位置偏见影响,即它们识别相关内容的能力取决于内容在提示词中的位置。Liu等人讨论了"迷失在中间"效应,即模型倾向于忽略提示词中间的信息。Hutter等人扩展了这项工作,并证明不同的模型展现出不同的位置偏见模式。
为了减轻这种偏见,一些解决方案建议在训练数据中相关信息均匀分布于提示词所有位置上对模型进行微调。其他方法则修改了Transformer架构的注意力机制,以消除token级别的偏见。Peysakhovich和Lerer提出了一种双重解码方法,在第二次解码步骤中,根据段落在第一步中收到的注意力重新排序。Jin等人根据"迷失在中间"行为将排名靠前的段落放置在特权位置。Zhang等人直接在提示词中指示模型对上下文的选定部分分配更多注意力,旨在补偿注意力不足。Jiang等人通过引入一个外部模块来压缩提示词,从而减轻位置偏见。
三、实验设置
为了全面研究RAG系统中的位置偏见问题,研究团队设计了一系列实验,使用了三个常用的公共问答基准:PopQA、Natural Questions (NQ)和TriviaQA。从每个基准中,他们随机选择了两个不相交的500大小样本来分别运行第四节和第五节中的实验。
在知识库方面,研究团队使用BM25进行稀疏检索,以及BGE large en v1.5嵌入模型进行密集检索。此外,他们还使用了一个重排器(BGE reranker v2 m3)来重新排序检索器的前25个结果。
研究团队评估了四种检索管道的性能,主要从两个指标来看:HITS@k和Precision@k。HITS@k衡量至少一个相关段落出现在前k个检索结果中的百分比,而Precision@k衡量前k个检索结果中相关段落的平均百分比。他们发现,特别是在使用重排器时,HITS很快就会达到平稳,而Precision则继续下降,因为排名较低的段落大多是不相关的。这表明使用较大的k值(例如,超过10)并不值得,因为这只会在提示词中添加不相关的段落。因此,他们的实验集中在两个合理的k值上,即5和10,这提供了一个良好的准确性-延迟权衡。
作为大型语言模型,研究团队使用了Llama 3.2 3B (L3B)、Llama 3.1 8B (L8B)、Llama 3.3 70B (L70B)和Qwen 2.5 7B (Q7B),涵盖了不同的模型大小和系列。
在评估策略方面,他们遵循"LLM-as-a-judge"方法来评估段落相关性和答案质量。在前一种情况下,他们提示模型评估段落对问题的相关性,给定参考答案;在后一种情况下,他们提示模型评估生成的响应是否在语义上匹配参考答案。他们使用AWS Bedrock上的Claude 3.7 Sonnet作为评判模型。
在实验中,研究团队使用了Amiraz等人提出的干扰效应定义。具体来说,他们的方法是提示一个模型根据段落p中的信息回答问题q,或者如果段落不包含对q的答案,则放弃(输出"NO-RESPONSE")。段落p对问题q的干扰效应DEq(p)然后计算为模型不放弃的概率:
DEq(p) = 1 - P^LLM(NO-RESPONSE|q, p)
对于每个检索管道,他们计算检索到的不相关段落的干扰效应,并假设相关段落的DE=0。
研究结果显示,在前k个位置中最具干扰性的段落(MaxDE)达到了非常高的值,超过60%的查询在密集检索器的前10个结果中至少包含一个硬干扰器(定义为DE得分大于0.8的段落)。而平均干扰效应(MeanDE)曲线最初非常低,因为前几个检索到的段落大多是相关的,然后随着更多不相关段落出现在提示词中而增加,但很快又下降。这表明高度干扰的段落通常出现在靠前的位置,而排名较低的段落的DE得分接近0。
最后,导致更高HITS和Precision的检索管道,例如使用BGE时,也表现出更高的MaxDE和MeanDE曲线,揭示了一个关键方面:更强的检索器增加了召回率,但也带来了更有害的干扰器,使检索成为一把双刃剑。
四、受控环境中的位置偏见
虽然先前的研究已经确认了大型语言模型中位置偏见的存在,但这些研究通常只从相关段落的角度分析问题,完全忽略了位置偏见如何影响模型对干扰段落的敏感性。在这项研究中,研究团队首次系统地调查了位置偏见对干扰段落的影响,分析了它们与相关内容的交互。
对于每个查询,研究团队选择由BGE large重排后获得的排名最高的相关段落。遵循Amiraz等人的方法,他们使用前面提到的公式计算不相关段落的干扰效应。他们将段落分类为"硬干扰器"(DE > 0.8)和"弱干扰器"(DE < 0.2)。
实验结果显示,当在固定的弱干扰器中旋转单个相关段落时,Qwen 2.5 7B表现出特征性的U形准确性模式。同样,这种位置偏见也延伸到干扰段落,开头或结尾的硬干扰器具有显著更高的干扰效应(36-44%),而中间位置的干扰效应较低(28-34%)。这种平行模式表明,无论段落相关性如何,模型都偏好某些位置。
研究团队通过在位置3(最低DE)和位置5(最高DE)放置硬干扰器,进一步验证了这一点。与只使用弱干扰器相比,他们观察到准确性平均下降了约6个百分点,而当硬干扰器占据位置5时,下降更为明显。这证实了位置偏好如何放大干扰内容的负面影响。
五、真实场景中的位置偏见
在第四节中,研究团队展示了在受控环境中,相关段落的位置可以导致高达5个百分点的答案准确性差异。然而,在真实的RAG场景中情况会如何呢?也就是说,当大型语言模型的提示词包含检索管道排名前k的段落时。
这种设置与图2a所示的受控环境有本质区别。实际上,不能保证在排名前k的段落中只有一个相关段落:可能没有,也可能有多个,还可能有一个或多个高度干扰的段落。因此,研究团队根据以下策略安排了检索到的前k个段落:
1. Shuffle:段落的随机排序 2. Sequential:保持检索排名顺序 3. Inverse:颠倒检索顺序,根据提示词模板,排名第一的检索段落最接近问题 4. MaxRelevance:根据在受控实验中估计的位置准确性对段落进行排序(即根据相关段落位置变化对模型表现的影响) 5. MinDistraction:根据在受控环境中估计的DE顺序排列段落(即根据干扰段落位置变化对模型表现的影响)
实验结果表明,在真实环境中位置偏见的影响很小:不同的段落排列策略导致的结果非常相似,与Shuffle基线没有显著差异,无论是什么大型语言模型或检索管道。研究团队认为,这些结果可以通过相关段落和高度干扰段落的对比效应来解释,正如图1所示,它们都倾向于出现在检索到的前几个段落中:例如,在MaxRelevance策略中,将相关段落放在模型偏好位置的好处被无意中将高度干扰的段落放在相同位置的趋势所抵消。
六、结论与启示
研究团队的工作证明,虽然位置偏见在当前的大型语言模型中确实存在,但其在现实RAG环境中的影响是微乎其微的:检索段落的随机排序与更复杂的重排策略在统计上产生同等的准确性。
他们观察到,当代检索器不仅仅返回一些不相关的段落,它们还会浮现出在超过60%的测试问题中降低答案准确性的段落,使检索器本身成为错误的一阶来源。因此,尝试将相关段落放在模型的有利位置可能无意中优先考虑硬干扰器而非相关内容,抵消了战略性重新排序的潜在好处。
这些发现表明,未来的改进应该集中在检索质量和模型对干扰的鲁棒性上,而不是段落定位。简单地说,与其花时间优化段落在提示词中的顺序,不如提高检索系统的质量,确保它能更准确地找到真正相关的信息,同时让模型更好地抵抗干扰段落的影响。
作为一项开创性研究,这项工作确实有一些局限性。研究主要调查了事实性问答任务,尽管干扰段落的概念适用于各种RAG用例。扩展研究到其他任务,如多跳问答或事实验证,将提供更完整的图景,但研究团队将这留给未来的工作。此外,虽然他们在英语基准上进行了实验,但他们方法的语言无关性表明这些发现很可能适用于其他语言,尽管这一假设的正式验证仍有待进行。
总的来说,这项研究为RAG系统的优化提供了宝贵的洞察,表明简单的随机排序可能与复杂的位置优化策略一样有效,这不仅简化了系统设计,还将注意力引导到更关键的改进领域。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。