微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 打破极限:清华与阿里联合研究团队用多智能体协作突破大语言模型外部知识输入的窗口限制

打破极限:清华与阿里联合研究团队用多智能体协作突破大语言模型外部知识输入的窗口限制

2025-06-01 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 11:15 科技行者

本研究由清华大学计算机科学与技术系(人工智能研究院)的刘子钧、万振南,清华大学人工智能产业研究院的李鹏、刘洋,以及阿里巴巴通义实验室的闫铭、张骥、黄飞共同完成,于2025年5月27日发布于arXiv预印本平台(arXiv:2505.21471v1)。

在过去几年,大语言模型(LLM)取得了令人瞩目的进步,特别是在参数规模和上下文窗口长度方面。现在的模型已经能够一次处理相当于一本书长度的文本输入。但即使是这些令人印象深刻的限制,对于现实世界中的许多任务来说仍然不够用。想象一下,你需要通过互联网回答多跳问题、处理企业知识库,或者基于大量学术研究撰写长篇综述论文,这些情况往往需要处理远超当前最大上下文窗口限制的知识量。

特别是,近期研究表明,大语言模型在推理和信息检索方面的后训练技术已取得长足进步。这些模型可以在生成长推理链和执行信息检索任务时变得更加出色。研究发现,在上下文窗口范围内增加检索知识量可以显著提升任务表现。就像给记者提供更多参考资料,他们能写出更全面准确的报道一样。

那么问题来了:当需要处理的外部知识远超出大语言模型的上下文窗口限制时,我们该怎么办?当前模型能否有效利用超出其处理能力的知识?

当输入内容超出上下文窗口长度时,情况变得更加复杂。如果粗暴地截断或压缩这些知识,关键证据可能会丢失,导致下游任务表现下降。就像强行把一部三小时的电影剪辑成一小时,重要情节和细节不可避免地会丢失。一个自然的解决方案是训练具有更长上下文窗口的模型,但这在经济上极其昂贵,实验上也不稳定:注意力机制的二次计算复杂度会变得难以处理,而且长上下文训练数据本身就十分稀缺。

因此,实践者转向检索增强生成(RAG)或上下文压缩流程。不幸的是,这两种策略都不可避免地会导致信息丢失:RAG受到排名错误的限制,而压缩器可能会丢弃那些在推理链展开前看似微不足道但实际上至关重要的细节。

近期的一些研究让基于大语言模型的智能体协作处理长上下文,取得了最先进的性能。在这项研究中,清华大学和阿里巴巴的研究团队更进一步,提出了一个关键问题:大语言模型能否通过扩展外部知识输入量(甚至超出上下文窗口限制)来持续提升任务表现?

实现外部知识的高可扩展性意味着两个要求:首先,需要一个可扩展的上下文扩展方法来接受海量输入;其次,需要在推理过程中有效整合这些知识以提高性能。由于重新训练短上下文大语言模型是不切实际的,研究团队主要关注超越上下文窗口的推理时知识整合的可扩展性。

研究团队专注于几项需要大量外部知识的任务,包括多跳问答(QA)(基于长文档和大型知识库)以及长篇综述生成。他们发现,当前的长上下文任务基准测试存在偏差,即许多查询可以通过在附加文档上滑动一个小的上下文窗口来回答。为了全面验证,他们增强了现有的长上下文基准测试∞Bench,创建了一个基于长文档的多跳问答测试集∞Bench+,以及公共多跳问答和长篇综述生成基准测试。

在初步实验中,研究团队发现当前最先进的基于大语言模型的多智能体系统LLM×MapReduce在扩展外部知识输入时无法持续提升任务表现,甚至与截断输入相比性能有所下降。他们系统分析了现有的多智能体方法,发现了这些方法共享组件中的两个核心瓶颈:

第一个瓶颈是知识同步,即智能体理解分布式上下文并提供用于推理的浓缩信息的过程。这个瓶颈在于每个智能体可访问的智能体"带宽"。就像在一个大型会议中,如果每个人只能与相邻的两个人交流,传递复杂信息将变得极其困难。

第二个瓶颈是知识整合推理,瓶颈在于推理过程中不相关信息的比例。想象一下试图从塞满无关文件的文件夹中找出关键文档的情景。

为了克服这些瓶颈,研究团队开发了一个名为EXTAGENTS的多智能体框架。遵循先前的分布式范式,该框架将完整输入分割成适合小窗口的智能体特定上下文块。EXTAGENTS将智能体角色简化为两种:寻找智能体和推理智能体,并提出两个关键组件:

全局知识同步:寻找智能体不再局限于与相邻智能体交流,而是能够全局交换和更新显著的中间结果。这就像在一个会议中,每个人都可以向整个团队广播自己的发现,而不仅仅是与旁边的人低声交谈。

知识累积推理:推理智能体不是一次性接收所有同步信息,而是在多轮推理过程中逐步整合和增加来自寻找智能体的更新知识。这类似于侦探在收集更多证据的同时逐步完善他的理论。

研究团队通过在上述基准测试上的综合实验证明了EXTAGENTS的有效性和效率。结果表明,EXTAGENTS在扩展外部知识输入时持续提升任务表现,显著优于最先进的非训练方法,无论输入是否超出上下文窗口。研究证明了EXTAGENTS在不同问答和长篇生成任务上的泛化能力,以及与不同大语言模型家族的兼容性。团队还测量了EXTAGENTS通过高并行性获得的效率提升。

研究的实验设置包括多种基准测试:增强版的∞Bench+(包括中英双语长文档问答子集)、HotpotQA(包含需要维基百科事实知识的多跳查询)以及AutoSurvey(用预先检索的论文生成长篇综述)。评估指标包括问答任务的F1分数和长篇综述生成的LLM-as-a-Judge评分。团队测试了各种配置下的EXTAGENTS,发现在各个任务中,EXTAGENTS都能够显著优于基线方法。

在多跳问答任务中,EXTAGENTS持续表现优于基线,并随着外部知识输入的增加而提高性能。例如,在HotpotQA上,使用gpt-4o-mini-2024-07-18时,EXTAGENTS达到了0.534的F1分数,而使用Llama-3.1-8B-Instruct时达到了0.412,显著高于其他方法。

在长篇综述生成任务中,EXTAGENTS能够在生成过程中整合更多论文,并实现更好的性能,引用更多参考文献,重复率更低。通过聚合LLM-as-a-Judge的八个成对分数,研究发现EXTAGENTS整体评分显著高于AutoSurvey。

在延迟和成本分析方面,研究团队测量了EXTAGENTS在相同128k外部知识输入条件下的延迟,发现在合理数量的并行进程下,EXTAGENTS可以实现显著的加速,证明了该框架的效率和高并行性。

消融研究显示,移除全局知识同步(GKS)或知识累积推理(KAR)组件都会导致性能显著下降,特别是随着外部知识量的增加。这证明了渐进式知识累积组件对于实现强可扩展性和有效知识整合至关重要。

在不同大语言模型上的测试表明,EXTAGENTS在更强大的模型上表现更出色。例如,使用gpt-4o-2024-08-06时,在HotpotQA基准测试上的性能显著提升,超过了较弱模型。这表明更强大的大语言模型可能从EXTAGENTS的可扩展性中获益更多,这为未来使用更强大的大语言模型进行工作提供了有希望的方向。

这项研究的主要贡献包括:

首先,研究团队引入并定义了超越上下文窗口扩展外部知识输入的问题,填补了当前大语言模型部署中的关键空白。他们还构建了增强版长上下文多跳问答基准∞Bench+,用于相应评估。

其次,研究团队系统研究了现有的基于大语言模型的多智能体系统,用于上下文窗口扩展,并通过提出新颖的EXTAGENTS框架克服了它们的瓶颈。

最后,研究团队展示了EXTAGENTS在问答和综述生成任务上的有效性和效率。随着外部知识输入扩展超出上下文窗口,它持续提升任务表现,显著优于最先进的方法。

总的来说,EXTAGENTS代表了一个重要进步,使大语言模型能够有效利用超越其上下文窗口限制的外部知识,为需要处理大量外部知识的现实世界应用开辟了新可能。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-