微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

修复"伤害"模型表现的数据：级联LLM技术重标注负面样本，提升信息检索的稳健性

信息检索大语言模型数据质量优化

修复"伤害"模型表现的数据：级联LLM技术重标注负面样本，提升信息检索的稳健性

作者：科技行者

2025-05-28 19:54

分享至：

这项来自加拿大滑铁卢大学的研究挑战了"更多训练数据总是更好"的观念，发现某些数据集反而会损害信息检索模型性能。研究者提出了RLHN方法，使用级联LLM技术识别并重标注训练数据中的"假负样本"。实验表明，这种方法显著提升了检索和重排模型在BEIR和AIR-BENCH基准测试上的性能，尤其在处理未见过的领域时效果更佳。人类验证结果证实了该方法的可靠性，为构建更准确、鲁棒的信息检索系统提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-28 19:54 • 科技行者

本篇研究来自加拿大滑铁卢大学大卫·R·切里顿计算机科学学院的Nandan Thakur、Crystina Zhang（两位为共同第一作者）、Xueguang Ma和Jimmy Lin团队，发表于2025年5月22日的arXiv预印本（arXiv:2505.16967v1）。研究代码已在GitHub上开源（https://github.com/castorini/rlhn），数据集可在Hugging Face上获取（https://huggingface.co/rlhn）。感兴趣的读者可通过这些链接获取更多技术细节。

一、研究背景：并非所有训练数据都能提升模型表现

想象一下，你在装修房子时发现有些材料不但没有提升房子的质量，反而让整体结构变得脆弱。在信息检索领域，研究人员也发现了类似的问题——训练数据集中存在"有害"的部分，反而会损害模型的表现。

这项研究的起点非常有趣。研究团队在使用大规模数据集训练检索和重排模型时发现，某些数据集实际上会损害模型的效果。例如，BGE集合包含了来自不同来源的160万个查询-段落对，但研究人员发现从中移除15个数据集中的8个（删除了约57.5%的数据），不但没有降低模型效果，反而在BEIR基准测试上将nDCG@10分数提高了1.0点。

这个发现挑战了"更多数据总是更好"的常见观念。想象你正在做一锅汤，但加入某些特定的调料后，汤的味道不升反降。这种情况促使研究人员更深入地研究训练数据的质量，特别是"假负样本"（false negatives）问题——一些实际上与查询相关的段落被错误地标记为不相关。

二、"假负样本"：好数据被错误地归为反例

什么是假负样本？想象你在寻找关于"野兽过山车"的信息，数据集中已经标记了一个描述加拿大奇幻乐园中野兽过山车的段落为相关内容。但同时，还有一个描述"Splash Works是加拿大奇幻乐园内20英亩大的水上乐园"的段落被错误地标为不相关。实际上，这个段落也包含了回答问题所需的关键信息（即水上乐园也在同一个公园内），却被归类为"负样本"。这就是一个典型的假负样本。

这类错误在稀疏标注的数据集中尤为常见。比如，在MS MARCO和NQ等数据集中，评估者通常只会标记少量真正相关的段落，而其余大量未标记的段落则被默认为不相关。这种简化的标注方式导致了大量的假负样本混入训练数据。

过去的研究已经注意到这个问题：Qu等人（2021年）尝试通过知识蒸馏来缓解；Moreira等人（2024年）则基于相关性分数过滤潜在的假负样本。但这些方法没有直接处理假负样本数据。前者假设交叉编码器比检索模型对假负样本更鲁棒，但并没有移除假负样本本身；后者假设假负样本的相关性分数系统性地高于95%的正样本分数，但没有考虑数据样本层面的差异。

三、RLHN：一种有效的假负样本重标注方法

研究团队提出了一种名为RLHN（ReLabeling Hard Negatives，重标注硬负样本）的简单而有效的方法，利用级联大语言模型（LLM）来识别和重新标注假负样本。这就像请两位专家依次检查食材的质量：第一位专家负责初筛，第二位专家对有疑问的食材进行更精确的鉴定。

具体来说，RLHN分为两个主要阶段：

首先，他们使用成本较低的GPT-4o-mini对所有训练样本中的硬负样本进行扫描，识别潜在的假负样本。这相当于请一位经验丰富但收费较低的品鉴师先对所有食材进行初步筛选，标记出那些可能有问题的部分。

然后，对于被初步识别为假负样本的部分，他们使用更可靠（但也更昂贵）的GPT-4o进行第二轮评估和重新标注。这就像请一位顶级专家对已经被初步筛选出的食材进行更专业的鉴定，确保判断准确无误。

研究团队分析了BGE训练集合中的七个精选数据集，发现MS MARCO中高达56%的训练对可能含有假负样本，而SCIDOCSRR中这一比例最低，约为3%。在所有检测到的假负样本对中，58%只包含一个假负样本，19%包含两个假负样本，不到1%包含八个或更多假负样本。

识别出假负样本后，研究团队尝试了三种不同的处理方法： 1. 完全移除：丢弃包含假负样本的整个训练实例 2. 移除假负样本：仅从硬负样本集合中移除假负样本，保留其余部分 3. RLHN重标注：将假负样本重新标注为真实相关内容（即正样本）

这就像处理一篮子水果时，你可以选择：扔掉整篮有问题的水果（方法1），只挑出坏掉的水果（方法2），或者重新分类那些被错误归类的好水果（方法3）。

四、实验设置：全面评估重标注效果

研究团队使用了多种基准测试和模型来评估RLHN的效果。

他们首先从BGE训练集合中选择了七个经过精心筛选的数据集，包括MS MARCO、HOTPOTQA、NQ、FEVER、SCIDOCSRR、FIQA-2018和ARGUANA，总计约68万训练对。这比原始的160万训练对减少了约2.35倍。

在模型选择方面，他们使用了两种类型的检索器模型： 1. E5 (base)：一个基于BERT的编码器模型，包含1.1亿参数 2. Qwen2.5-7B：一个基于LLM的解码器模型，包含76.1亿参数

此外，他们还使用Qwen2.5-3B作为重排模型。

评估基准包括： 1. BEIR：一个包含16个人工构建数据集的基准测试 2. AIR-BENCH：一个由LLM自动生成的零样本评估基准，包括英文的五个特定领域：Arxiv、Finance、Healthcare、Law和News

所有模型评估均使用nDCG@10（归一化折扣累积增益@10）作为主要指标，这是信息检索领域常用的评估指标，衡量模型在返回前10个结果时的排序质量。

五、实验结果：重标注显著提升模型性能

研究的结果令人印象深刻，清晰地表明了数据质量对模型表现的巨大影响。

首先，在数据集筛选实验中，研究人员发现从BGE训练集合中移除8个数据集后（仅保留7个核心数据集），E5 (base)模型在BEIR上的平均nDCG@10从0.519提升到0.529。这相当于在减少2.35倍训练数据量的同时，提高了模型性能。

更重要的是，RLHN方法在所有实验中都表现出色：

在BEIR基准测试中，RLHN处理后的数据训练出的E5 (base)和Qwen2.5-7B模型分别达到0.515和0.518的平均nDCG@10，比默认设置分别提高了0.7和1.4点。这种提升在7个域外（out-of-domain）数据集上尤为明显，RLHN（第二阶段）比默认设置分别提高了3.2点和2.1点。

在AIR-BENCH零样本评估中，RLHN同样带来了显著提升。第一阶段RLHN提高了1.1点nDCG@10，第二阶段进一步提高到2.1点nDCG@10。

重排模型的结果也很有说服力。在BEIR上，使用RLHN处理后的数据训练的Qwen2.5-3B重排模型的nDCG@10分数逐步提高了0.5点和0.8点。这种提升在7个域外数据集上更为显著，分别提高了1.0点和1.8点。

研究人员注意到，重排模型相对于检索模型，对假负样本数据的鲁棒性稍强。但即使如此，使用高质量训练数据仍然能显著提升重排模型的效果，尤其是在泛化到未见过的领域时。

六、人类验证：确认LLM判断的可靠性

为了验证LLM判断的准确性，研究团队邀请了三位人类评估者对670个随机抽样的查询-硬负样本对进行标注。评估者在Label Studio平台上独立工作，不知道LLM的预测结果。

结果表明，GPT-4o的判断与人类评估者的一致性（用Cohen's Kappa系数衡量）比GPT-4o-mini高出约10个百分点（0.390 vs 0.320）。这印证了使用更强大的LLM作为最终判断者的合理性，也证实了级联设计的有效性。

七、假负样本的类型分析

通过人工检查一些训练实例，研究团队发现了几种不同类型的假负样本：

1. 错误标注的不相关内容：有些被检测为假负样本的段落实际上与查询无关。例如，对于询问"哪个是美食杂志，Latin Mass Magazine还是Saveur?"的问题，被检测为假负样本的Food & Wine和Cocina杂志实际上都是美食杂志，但与原问题无关。

2. 可能存在的错误标注：在少数情况下，真实标注的段落可能包含与假负样本矛盾的信息。例如，关于"职业冰球联盟成立于哪一年"的查询，真实标注段落提到1997年，但假负样本中提到的1917年才是正确答案。

3. 过于宽泛或模糊的查询：在MS MARCO中，很多训练查询本身就比较模糊，导致多个段落都可能相关。例如"yin and yang的含义"这样的查询，多个段落都能正确解释其含义，只是角度不同。

4. 部分正确的假负样本：并非所有被检测为假负样本的段落都完全相关。例如，对于"查尔斯王子是多个组织的赞助人"的查询，一些假负样本可能只部分相关。