本研究由清华大学计算机科学与技术系(人工智能研究院)的刘子钧、万振南,清华大学人工智能产业研究院的李鹏、刘洋,以及阿里巴巴通义实验室的闫铭、张骥、黄飞共同完成,于2025年5月27日发布于arXiv预印本平台(arXiv:2505.21471v1)。
在过去几年,大语言模型(LLM)取得了令人瞩目的进步,特别是在参数规模和上下文窗口长度方面。现在的模型已经能够一次处理相当于一本书长度的文本输入。但即使是这些令人印象深刻的限制,对于现实世界中的许多任务来说仍然不够用。想象一下,你需要通过互联网回答多跳问题、处理企业知识库,或者基于大量学术研究撰写长篇综述论文,这些情况往往需要处理远超当前最大上下文窗口限制的知识量。
特别是,近期研究表明,大语言模型在推理和信息检索方面的后训练技术已取得长足进步。这些模型可以在生成长推理链和执行信息检索任务时变得更加出色。研究发现,在上下文窗口范围内增加检索知识量可以显著提升任务表现。就像给记者提供更多参考资料,他们能写出更全面准确的报道一样。
那么问题来了:当需要处理的外部知识远超出大语言模型的上下文窗口限制时,我们该怎么办?当前模型能否有效利用超出其处理能力的知识?
当输入内容超出上下文窗口长度时,情况变得更加复杂。如果粗暴地截断或压缩这些知识,关键证据可能会丢失,导致下游任务表现下降。就像强行把一部三小时的电影剪辑成一小时,重要情节和细节不可避免地会丢失。一个自然的解决方案是训练具有更长上下文窗口的模型,但这在经济上极其昂贵,实验上也不稳定:注意力机制的二次计算复杂度会变得难以处理,而且长上下文训练数据本身就十分稀缺。
因此,实践者转向检索增强生成(RAG)或上下文压缩流程。不幸的是,这两种策略都不可避免地会导致信息丢失:RAG受到排名错误的限制,而压缩器可能会丢弃那些在推理链展开前看似微不足道但实际上至关重要的细节。
近期的一些研究让基于大语言模型的智能体协作处理长上下文,取得了最先进的性能。在这项研究中,清华大学和阿里巴巴的研究团队更进一步,提出了一个关键问题:大语言模型能否通过扩展外部知识输入量(甚至超出上下文窗口限制)来持续提升任务表现?
实现外部知识的高可扩展性意味着两个要求:首先,需要一个可扩展的上下文扩展方法来接受海量输入;其次,需要在推理过程中有效整合这些知识以提高性能。由于重新训练短上下文大语言模型是不切实际的,研究团队主要关注超越上下文窗口的推理时知识整合的可扩展性。
研究团队专注于几项需要大量外部知识的任务,包括多跳问答(QA)(基于长文档和大型知识库)以及长篇综述生成。他们发现,当前的长上下文任务基准测试存在偏差,即许多查询可以通过在附加文档上滑动一个小的上下文窗口来回答。为了全面验证,他们增强了现有的长上下文基准测试∞Bench,创建了一个基于长文档的多跳问答测试集∞Bench+,以及公共多跳问答和长篇综述生成基准测试。
在初步实验中,研究团队发现当前最先进的基于大语言模型的多智能体系统LLM×MapReduce在扩展外部知识输入时无法持续提升任务表现,甚至与截断输入相比性能有所下降。他们系统分析了现有的多智能体方法,发现了这些方法共享组件中的两个核心瓶颈:
第一个瓶颈是知识同步,即智能体理解分布式上下文并提供用于推理的浓缩信息的过程。这个瓶颈在于每个智能体可访问的智能体"带宽"。就像在一个大型会议中,如果每个人只能与相邻的两个人交流,传递复杂信息将变得极其困难。
第二个瓶颈是知识整合推理,瓶颈在于推理过程中不相关信息的比例。想象一下试图从塞满无关文件的文件夹中找出关键文档的情景。
为了克服这些瓶颈,研究团队开发了一个名为EXTAGENTS的多智能体框架。遵循先前的分布式范式,该框架将完整输入分割成适合小窗口的智能体特定上下文块。EXTAGENTS将智能体角色简化为两种:寻找智能体和推理智能体,并提出两个关键组件:
全局知识同步:寻找智能体不再局限于与相邻智能体交流,而是能够全局交换和更新显著的中间结果。这就像在一个会议中,每个人都可以向整个团队广播自己的发现,而不仅仅是与旁边的人低声交谈。
知识累积推理:推理智能体不是一次性接收所有同步信息,而是在多轮推理过程中逐步整合和增加来自寻找智能体的更新知识。这类似于侦探在收集更多证据的同时逐步完善他的理论。
研究团队通过在上述基准测试上的综合实验证明了EXTAGENTS的有效性和效率。结果表明,EXTAGENTS在扩展外部知识输入时持续提升任务表现,显著优于最先进的非训练方法,无论输入是否超出上下文窗口。研究证明了EXTAGENTS在不同问答和长篇生成任务上的泛化能力,以及与不同大语言模型家族的兼容性。团队还测量了EXTAGENTS通过高并行性获得的效率提升。
研究的实验设置包括多种基准测试:增强版的∞Bench+(包括中英双语长文档问答子集)、HotpotQA(包含需要维基百科事实知识的多跳查询)以及AutoSurvey(用预先检索的论文生成长篇综述)。评估指标包括问答任务的F1分数和长篇综述生成的LLM-as-a-Judge评分。团队测试了各种配置下的EXTAGENTS,发现在各个任务中,EXTAGENTS都能够显著优于基线方法。
在多跳问答任务中,EXTAGENTS持续表现优于基线,并随着外部知识输入的增加而提高性能。例如,在HotpotQA上,使用gpt-4o-mini-2024-07-18时,EXTAGENTS达到了0.534的F1分数,而使用Llama-3.1-8B-Instruct时达到了0.412,显著高于其他方法。
在长篇综述生成任务中,EXTAGENTS能够在生成过程中整合更多论文,并实现更好的性能,引用更多参考文献,重复率更低。通过聚合LLM-as-a-Judge的八个成对分数,研究发现EXTAGENTS整体评分显著高于AutoSurvey。
在延迟和成本分析方面,研究团队测量了EXTAGENTS在相同128k外部知识输入条件下的延迟,发现在合理数量的并行进程下,EXTAGENTS可以实现显著的加速,证明了该框架的效率和高并行性。
消融研究显示,移除全局知识同步(GKS)或知识累积推理(KAR)组件都会导致性能显著下降,特别是随着外部知识量的增加。这证明了渐进式知识累积组件对于实现强可扩展性和有效知识整合至关重要。
在不同大语言模型上的测试表明,EXTAGENTS在更强大的模型上表现更出色。例如,使用gpt-4o-2024-08-06时,在HotpotQA基准测试上的性能显著提升,超过了较弱模型。这表明更强大的大语言模型可能从EXTAGENTS的可扩展性中获益更多,这为未来使用更强大的大语言模型进行工作提供了有希望的方向。
这项研究的主要贡献包括:
首先,研究团队引入并定义了超越上下文窗口扩展外部知识输入的问题,填补了当前大语言模型部署中的关键空白。他们还构建了增强版长上下文多跳问答基准∞Bench+,用于相应评估。
其次,研究团队系统研究了现有的基于大语言模型的多智能体系统,用于上下文窗口扩展,并通过提出新颖的EXTAGENTS框架克服了它们的瓶颈。
最后,研究团队展示了EXTAGENTS在问答和综述生成任务上的有效性和效率。随着外部知识输入扩展超出上下文窗口,它持续提升任务表现,显著优于最先进的方法。
总的来说,EXTAGENTS代表了一个重要进步,使大语言模型能够有效利用超越其上下文窗口限制的外部知识,为需要处理大量外部知识的现实世界应用开辟了新可能。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。