微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

掀开面纱：爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

自然语言处理多跳问题答案大语言模型

掀开面纱：爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

作者：科技行者

2025-05-26 17:56

分享至：

这项由爱丁堡大学和华为研究团队完成的研究探究了大语言模型在多跳问题答案任务中如何处理上下文排列。研究发现：编码器-解码器模型（如Flan-T5）在未微调时表现优于更大规模的因果解码器模型；改变黄金文档顺序揭示了前向排列（符合推理链）带来最佳性能；为因果解码器模型添加双向注意力机制显著提升性能并增强对文档排序变化的鲁棒性；文档间距离越大性能越差；模型在回答正确时往往对关键文档分配更高注意力权重。这些发现为优化检索增强生成系统提供了重要指导。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 17:56 • 科技行者

在2025年5月发布于arXiv（arXiv:2505.11754v1）的一项研究中，来自爱丁堡大学信息学院的Wenyu Huang、Mirella Lapata和Jeff Z. Pan，以及华为爱丁堡研究中心的Pavlos Vougiouklis共同揭示了语言模型在处理多跳问题答案任务时的内部机制。这项研究对我们理解大语言模型如何"思考"提供了宝贵的窗口。

想象一下，当你问一个复杂问题时，可能需要先找到线索A，然后利用线索A找到线索B，最后通过线索B找到最终答案。这就像一场信息的接力赛跑。这种需要多步推理的问题被称为"多跳问题"（Multi-hop Question Answering，简称MHQA）。现代语言模型在回答这类问题时，通常会被提供多个检索结果（文档），要求它们不仅找出相关信息，还需跨越多个文档进行推理。

但是，不同类型的语言模型处理这种复杂任务的能力存在显著差异。研究团队发现了一个有趣的现象：虽然目前最流行的语言模型采用"因果解码器"架构（如Llama和Qwen家族），但在多跳问题上，看似"老派"的编码器-解码器架构（如Flan-T5系列）表现更好，即使后者的参数规模小得多。

为什么会这样？答案可能与语言模型的"视野"有关。想象你在阅读一本书，因果解码器模型只能看到已经读过的内容，而编码器-解码器模型则可以在回答问题前先通览全书。这种区别在处理需要连接多个信息源的问题时尤为关键。

一、研究背景：多跳问题的挑战

在日常搜索和问答系统中，我们经常遇到这样的场景：想要回答一个问题，需要从多个地方收集信息再进行整合。例如，如果你想知道"获得诺贝尔文学奖的最年轻作家的国籍是什么？"，你可能需要先找出谁是最年轻的获奖者，然后再查询这个人的国籍。这就是一个典型的多跳问题。

当今的检索增强生成（RAG）框架正是为了解决这类问题而设计的。在这个框架中，语言模型会根据问题检索相关文档，然后基于这些文档生成答案。微软的Copilot和百度的文心一言等对话搜索工具都采用了这种方法。

然而，多跳问题对语言模型提出了更高的要求。模型不仅需要理解单个文档中的信息，还需要在多个文档之间建立联系，进行多步推理。这就像侦探需要将多个线索串联起来才能破案。

当前主流的大语言模型多采用因果解码器架构，这种架构在训练和推理过程中使用"因果掩码"（causal mask）。这意味着，当模型在处理某个位置的token时，只能看到之前的内容，无法看到之后的内容。这就像我们只能从书的开头一页一页向后读，无法随意翻页查看。

相比之下，传统的编码器-解码器架构（如T5模型）在编码阶段可以双向处理输入内容，就像可以随时查看整本书的任何部分。这种结构上的差异可能会影响模型处理多跳问题的能力。研究团队正是想探究：这种架构上的限制会对多跳问题的解决造成多大影响？如果移除这种限制，模型的表现会有怎样的变化？

二、研究方法：重新排列上下文的巧妙实验

为了深入了解语言模型如何处理多跳问题，研究团队设计了一系列精巧的实验。他们选择了三种广泛使用的开源语言模型家族：代表传统编码器-解码器架构的Flan-T5系列，以及代表因果解码器架构的Qwen2.5和Llama 3.x系列。

研究团队使用了MuSiQue数据集，这是一个专门用于多跳问题研究的数据集，包含了2至4跳的问题。每个问题都配有2-4个黄金文档（包含回答问题所需证据的文档），以及干扰文档，共组成最多20个文档的上下文。

研究的主要创新点在于，团队设计了三种不同的文档排列方式，以测试语言模型在不同情况下的表现：

首先是改变黄金文档的顺序。在理想情况下，黄金文档应该按照推理链的顺序排列。例如，对于"获得诺贝尔文学奖的最年轻作家的国籍是什么？"这个问题，第一个文档应该包含最年轻获奖者的信息，第二个文档则包含这个人的国籍信息。研究团队设置了三种排列：Forward（按推理链顺序排列）、Backward（按推理链相反顺序排列）和Original（原始数据集中的顺序）。

其次是改变黄金文档之间的距离。在现实世界的RAG应用中，相关文档之间可能会被其他不相关文档分隔。研究团队设计了一系列Forward_i设置，其中i表示在每个黄金文档之间插入的干扰文档数量，从0到5不等。

最后是测试黄金文档的完整性。研究团队移除了第一跳的黄金文档，观察模型是否仍能正确回答问题。这有助于判断模型是否真的在进行多跳推理，还是仅仅在猜测答案。

针对每个模型，研究团队尝试了四种不同的设置：

1. 仅答案模式（Answer Only）：模型直接生成答案。 2. 思维链提示（CoT）：模型先生成推理步骤，再给出最终答案。 3. 微调（Finetuned）：使用MuSiQue训练集微调模型。 4. 微调+双向注意力（Finetuned + Bi）：在微调的基础上，将原始的因果掩码替换为允许双向注意力的掩码。

通过这些设置，研究团队能够全面评估不同类型语言模型在多跳问题上的表现，以及上下文排列对其性能的影响。

三、惊人发现：编码器-解码器模型的优势

研究结果令人惊讶。在没有微调的情况下，Flan-T5系列模型在多跳问题上明显优于同等规模甚至更大的因果解码器模型。例如，拥有3B参数的Flan T5 xl的表现超过了所有不超过8B参数的因果解码器模型，甚至与14B参数的Qwen2.5模型相当。

更有趣的是，Flan T5模型在Forward设置（黄金文档按推理链顺序排列）下表现最佳，而在Backward设置（黄金文档按推理链逆序排列）下表现最差。这表明编码器-解码器模型能更好地理解和利用文档的逻辑顺序。

至于因果解码器模型，在未经微调的状态下，它们对黄金文档的顺序变化不太敏感。但当这些模型经过微调后，也开始表现出对Forward排列的偏好。这是一个有趣的发现，因为训练数据中的文档是按原始顺序提供的，并非刻意按推理链排列。

当研究团队将双向注意力机制引入微调后的因果解码器模型时，性能进一步提升。例如，在Qwen2.5 7B模型上，从Answer Only的28.6%准确率提升到Finetuned的58.1%，再到Finetuned + Bi的63.0%。此外，具有双向注意力的模型对文档顺序变化更加鲁棒，表现出更稳定的性能。

四、距离效应：黄金文档之间的距离至关重要

另一个重要发现是，黄金文档之间的距离对模型性能有显著影响。随着距离的增加，所有模型的表现都会下降。这说明语言模型在处理分散的信息时存在困难，这与之前研究发现的"丢失在中间"（lost in the middle）问题一致。

有趣的是，即使在Forward_i设置中，将黄金文档放置在上下文最后位置也能带来显著的性能提升。这表明语言模型通常更倾向于关注靠近上下文边界的文档，而不是中间部分。

微调后的模型（特别是具有双向注意力的模型）对距离的增加更加鲁棒，性能下降不那么明显。这说明微调和双向注意力能帮助模型更好地处理分散的信息。

五、完整性测试：语言模型是否真的在推理？

当研究团队移除第一跳的黄金文档时，所有模型的性能都有所下降，但仍保持相对较高的准确率。这令人担忧，因为它表明模型可能并没有真正进行多跳推理，而是在某种程度上"猜测"答案。

更令人担忧的是，对于一些微调模型，在3跳和4跳问题上，移除第一跳文档后性能甚至有所提高。这强烈暗示模型可能没有充分利用所有提供的信息，或者说它们不知道"自己不知道什么"。

为了进一步验证这一点，研究团队进行了一个简单的测试：直接询问模型第一跳问题，看它们是否拥有相关的参数知识。结果显示，即使当模型已经具备第一跳问题的参数知识时，移除第一跳文档仍会对2跳问题的性能造成显著影响，但对更复杂的问题影响较小。这表明复杂的多跳问题对当前语言模型仍是一个巨大挑战。

六、透视内部机制：注意力分布的秘密

研究团队进一步分析了语言模型在处理多跳问题时的注意力分布。他们引入了"信息贡献"（Information Contribution，IC）分数，用于衡量各个文档对答案生成的贡献程度。

分析发现，当模型正确回答问题时，通常会对至少一个文档（特别是最后一跳文档）分配更高的注意力权重。相比之下，当模型回答错误时，注意力分布更加均匀。这提供了一个有价值的线索：注意力峰值可能是判断模型是否找到正确答案的指标。

基于这一发现，研究团队开发了一种简单而有效的启发式方法：对每个问题，随机打乱文档顺序多次，选择产生最高峰值注意力分数的顺序作为最终输入。这种方法将Qwen 7B模型的准确率从28.6%提高到33.7%。