微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 掀开面纱:爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

掀开面纱:爱丁堡大学研究团队揭示多跳问题答案中语言模型如何处理上下文排列

2025-05-26 17:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:56 科技行者

在2025年5月发布于arXiv(arXiv:2505.11754v1)的一项研究中,来自爱丁堡大学信息学院的Wenyu Huang、Mirella Lapata和Jeff Z. Pan,以及华为爱丁堡研究中心的Pavlos Vougiouklis共同揭示了语言模型在处理多跳问题答案任务时的内部机制。这项研究对我们理解大语言模型如何"思考"提供了宝贵的窗口。

想象一下,当你问一个复杂问题时,可能需要先找到线索A,然后利用线索A找到线索B,最后通过线索B找到最终答案。这就像一场信息的接力赛跑。这种需要多步推理的问题被称为"多跳问题"(Multi-hop Question Answering,简称MHQA)。现代语言模型在回答这类问题时,通常会被提供多个检索结果(文档),要求它们不仅找出相关信息,还需跨越多个文档进行推理。

但是,不同类型的语言模型处理这种复杂任务的能力存在显著差异。研究团队发现了一个有趣的现象:虽然目前最流行的语言模型采用"因果解码器"架构(如Llama和Qwen家族),但在多跳问题上,看似"老派"的编码器-解码器架构(如Flan-T5系列)表现更好,即使后者的参数规模小得多。

为什么会这样?答案可能与语言模型的"视野"有关。想象你在阅读一本书,因果解码器模型只能看到已经读过的内容,而编码器-解码器模型则可以在回答问题前先通览全书。这种区别在处理需要连接多个信息源的问题时尤为关键。

一、研究背景:多跳问题的挑战

在日常搜索和问答系统中,我们经常遇到这样的场景:想要回答一个问题,需要从多个地方收集信息再进行整合。例如,如果你想知道"获得诺贝尔文学奖的最年轻作家的国籍是什么?",你可能需要先找出谁是最年轻的获奖者,然后再查询这个人的国籍。这就是一个典型的多跳问题。

当今的检索增强生成(RAG)框架正是为了解决这类问题而设计的。在这个框架中,语言模型会根据问题检索相关文档,然后基于这些文档生成答案。微软的Copilot和百度的文心一言等对话搜索工具都采用了这种方法。

然而,多跳问题对语言模型提出了更高的要求。模型不仅需要理解单个文档中的信息,还需要在多个文档之间建立联系,进行多步推理。这就像侦探需要将多个线索串联起来才能破案。

当前主流的大语言模型多采用因果解码器架构,这种架构在训练和推理过程中使用"因果掩码"(causal mask)。这意味着,当模型在处理某个位置的token时,只能看到之前的内容,无法看到之后的内容。这就像我们只能从书的开头一页一页向后读,无法随意翻页查看。

相比之下,传统的编码器-解码器架构(如T5模型)在编码阶段可以双向处理输入内容,就像可以随时查看整本书的任何部分。这种结构上的差异可能会影响模型处理多跳问题的能力。研究团队正是想探究:这种架构上的限制会对多跳问题的解决造成多大影响?如果移除这种限制,模型的表现会有怎样的变化?

二、研究方法:重新排列上下文的巧妙实验

为了深入了解语言模型如何处理多跳问题,研究团队设计了一系列精巧的实验。他们选择了三种广泛使用的开源语言模型家族:代表传统编码器-解码器架构的Flan-T5系列,以及代表因果解码器架构的Qwen2.5和Llama 3.x系列。

研究团队使用了MuSiQue数据集,这是一个专门用于多跳问题研究的数据集,包含了2至4跳的问题。每个问题都配有2-4个黄金文档(包含回答问题所需证据的文档),以及干扰文档,共组成最多20个文档的上下文。

研究的主要创新点在于,团队设计了三种不同的文档排列方式,以测试语言模型在不同情况下的表现:

首先是改变黄金文档的顺序。在理想情况下,黄金文档应该按照推理链的顺序排列。例如,对于"获得诺贝尔文学奖的最年轻作家的国籍是什么?"这个问题,第一个文档应该包含最年轻获奖者的信息,第二个文档则包含这个人的国籍信息。研究团队设置了三种排列:Forward(按推理链顺序排列)、Backward(按推理链相反顺序排列)和Original(原始数据集中的顺序)。

其次是改变黄金文档之间的距离。在现实世界的RAG应用中,相关文档之间可能会被其他不相关文档分隔。研究团队设计了一系列Forward_i设置,其中i表示在每个黄金文档之间插入的干扰文档数量,从0到5不等。

最后是测试黄金文档的完整性。研究团队移除了第一跳的黄金文档,观察模型是否仍能正确回答问题。这有助于判断模型是否真的在进行多跳推理,还是仅仅在猜测答案。

针对每个模型,研究团队尝试了四种不同的设置:

1. 仅答案模式(Answer Only):模型直接生成答案。 2. 思维链提示(CoT):模型先生成推理步骤,再给出最终答案。 3. 微调(Finetuned):使用MuSiQue训练集微调模型。 4. 微调+双向注意力(Finetuned + Bi):在微调的基础上,将原始的因果掩码替换为允许双向注意力的掩码。

通过这些设置,研究团队能够全面评估不同类型语言模型在多跳问题上的表现,以及上下文排列对其性能的影响。

三、惊人发现:编码器-解码器模型的优势

研究结果令人惊讶。在没有微调的情况下,Flan-T5系列模型在多跳问题上明显优于同等规模甚至更大的因果解码器模型。例如,拥有3B参数的Flan T5 xl的表现超过了所有不超过8B参数的因果解码器模型,甚至与14B参数的Qwen2.5模型相当。

更有趣的是,Flan T5模型在Forward设置(黄金文档按推理链顺序排列)下表现最佳,而在Backward设置(黄金文档按推理链逆序排列)下表现最差。这表明编码器-解码器模型能更好地理解和利用文档的逻辑顺序。

至于因果解码器模型,在未经微调的状态下,它们对黄金文档的顺序变化不太敏感。但当这些模型经过微调后,也开始表现出对Forward排列的偏好。这是一个有趣的发现,因为训练数据中的文档是按原始顺序提供的,并非刻意按推理链排列。

当研究团队将双向注意力机制引入微调后的因果解码器模型时,性能进一步提升。例如,在Qwen2.5 7B模型上,从Answer Only的28.6%准确率提升到Finetuned的58.1%,再到Finetuned + Bi的63.0%。此外,具有双向注意力的模型对文档顺序变化更加鲁棒,表现出更稳定的性能。

四、距离效应:黄金文档之间的距离至关重要

另一个重要发现是,黄金文档之间的距离对模型性能有显著影响。随着距离的增加,所有模型的表现都会下降。这说明语言模型在处理分散的信息时存在困难,这与之前研究发现的"丢失在中间"(lost in the middle)问题一致。

有趣的是,即使在Forward_i设置中,将黄金文档放置在上下文最后位置也能带来显著的性能提升。这表明语言模型通常更倾向于关注靠近上下文边界的文档,而不是中间部分。

微调后的模型(特别是具有双向注意力的模型)对距离的增加更加鲁棒,性能下降不那么明显。这说明微调和双向注意力能帮助模型更好地处理分散的信息。

五、完整性测试:语言模型是否真的在推理?

当研究团队移除第一跳的黄金文档时,所有模型的性能都有所下降,但仍保持相对较高的准确率。这令人担忧,因为它表明模型可能并没有真正进行多跳推理,而是在某种程度上"猜测"答案。

更令人担忧的是,对于一些微调模型,在3跳和4跳问题上,移除第一跳文档后性能甚至有所提高。这强烈暗示模型可能没有充分利用所有提供的信息,或者说它们不知道"自己不知道什么"。

为了进一步验证这一点,研究团队进行了一个简单的测试:直接询问模型第一跳问题,看它们是否拥有相关的参数知识。结果显示,即使当模型已经具备第一跳问题的参数知识时,移除第一跳文档仍会对2跳问题的性能造成显著影响,但对更复杂的问题影响较小。这表明复杂的多跳问题对当前语言模型仍是一个巨大挑战。

六、透视内部机制:注意力分布的秘密

研究团队进一步分析了语言模型在处理多跳问题时的注意力分布。他们引入了"信息贡献"(Information Contribution,IC)分数,用于衡量各个文档对答案生成的贡献程度。

分析发现,当模型正确回答问题时,通常会对至少一个文档(特别是最后一跳文档)分配更高的注意力权重。相比之下,当模型回答错误时,注意力分布更加均匀。这提供了一个有价值的线索:注意力峰值可能是判断模型是否找到正确答案的指标。

基于这一发现,研究团队开发了一种简单而有效的启发式方法:对每个问题,随机打乱文档顺序多次,选择产生最高峰值注意力分数的顺序作为最终输入。这种方法将Qwen 7B模型的准确率从28.6%提高到33.7%。

另一个有趣的发现是,在所有噪声文档中,模型往往最关注最后一个文档。这表明,将重要信息放在上下文的边界位置(特别是结尾)可能会提高模型的表现。

七、实际应用启示与未来展望

这项研究对RAG系统的设计和优化提供了重要启示。首先,如果使用现成的因果解码器语言模型作为阅读器,应尽量减小相关文档之间的距离,确保它们紧密排列。其次,如果有条件进行微调,则应保持前向顺序(按推理链排序)。无论哪种情况,都建议将高相关性的文档放在上下文靠后的位置。

研究还表明,使用双向注意力机制可以显著提升因果解码器模型在多跳问题上的表现。另外,Flan-T5系列模型展现出优秀的多跳问题解答能力,可以作为RAG框架中的有力替代选择。

最后,研究强调了归因的重要性。即使在第一跳文档被移除的情况下,模型仍能保持较高的准确率,这表明模型可能未充分利用所有提供的证据。在知识密集型任务中,确保生成的答案有足够的证据支持至关重要,以避免产生"幻觉"。

总的来说,这项研究深入揭示了语言模型在处理多跳问题时的内部机制,为提高模型在复杂推理任务上的表现提供了新的思路和方法。它不仅帮助我们更好地理解语言模型的工作原理,也为设计更高效的RAG系统提供了实用指导。

对于对这项研究感兴趣的读者,可以通过arXiv(arXiv:2505.11754v1)获取完整论文,代码也已在GitHub上公开发布(https://github.com/hwy9855/MultiHopQA-Reasoning)。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-