微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 QwenLong-CPRS: 阿里巴巴推出突破无限长文本窗口的动态上下文优化技术

QwenLong-CPRS: 阿里巴巴推出突破无限长文本窗口的动态上下文优化技术

2025-05-29 10:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 10:25 科技行者

2025年5月,阿里巴巴旗下的千问文档团队发布了一项开创性研究——QwenLong-CPRS(Context Processing with Dynamic Reasoning System),这是一个专为长文本处理设计的上下文压缩框架。该论文已于2025年5月23日在arXiv上发表(arXiv:2505.18092v1),研究团队包括沈伟周、李陈亮、万凡琦、廖胜毅等多位来自阿里巴巴集团的研究人员。论文项目已在GitHub和HuggingFace上开源,感兴趣的读者可以通过https://github.com/Tongyi-Zhiwen/QwenLong-CPRS 和 https://huggingface.co/Tongyi-Zhiwen/QwenLong-CPRS-7B 获取更多信息。

想象一下,如果你需要阅读一本400页的小说,但只想找出与某个特定角色相关的内容。传统方法可能是从头到尾翻阅整本书,或者使用目录和索引快速定位——但这些方法要么太耗时,要么不够精准。大型语言模型(LLM)面临着类似的挑战:当处理超长文本时,它们要么受限于固定的"注意力窗口"(就像人类的短期记忆),要么在处理中间部分内容时表现不佳(所谓的"迷失在中间"现象)。

QwenLong-CPRS就像是一个超级智能的阅读助手,它能够根据你的具体问题,从海量文本中精准提取最相关的内容。这项技术彻底改变了大型语言模型处理长文本的方式,不再是简单地扩大窗口大小,而是通过智能压缩,让模型只关注真正重要的内容。

传统上,解决长文本处理问题主要有两种方法:一种是检索增强生成(RAG),就像使用搜索引擎一样,根据查询从长文本中检索相关片段;另一种是稀疏注意力机制,改变模型内部的自注意力计算方式,让模型选择性地关注重要的部分。这两种方法各有优缺点:RAG处理速度快但精度不高,稀疏注意力精度高但需要重新训练模型和专门的基础设施。

QwenLong-CPRS开辟了一条全新的道路——动态上下文优化。这种方法不再依赖于粗粒度的块级检索,而是能够精确地选择单个词语级别的内容;同时,它也不需要像稀疏注意力那样重新训练整个模型,可以作为即插即用的组件与任何现有的语言模型配合使用。

从技术上看,QwenLong-CPRS是如何工作的呢?想象一个熟练的编辑,能够根据读者的需求,从一本书中精准地标记出最相关的段落、句子甚至单词。QwenLong-CPRS就扮演着这样的角色。它接收控制提示(类似编辑指南)、任务查询(读者的具体问题)和长文本(原始材料),然后通过单次前向传播,给每个标记(token)分配一个重要性分数,从而压缩出与任务相关的内容。

为了实现这一目标,研究团队对原有的Qwen架构进行了四项关键创新:首先,他们引入了自然语言引导的动态优化机制,使模型能够根据自然语言指令进行不同粒度(关键词、句子、段落等)的上下文压缩;其次,他们设计了双向推理层,增强了模型对文本边界的感知能力;第三,他们开发了一种基于语言建模的标记评价机制,重新利用现有LLM的语言建模头来标记标记级别的重要性分数;最后,他们实现了窗口并行推理,大大提高了处理效率。

研究团队在多个基准测试上评估了QwenLong-CPRS的性能。结果令人印象深刻:QwenLong-CPRS在Ruler-128K和InfiniteBench等基准上显著优于其他上下文管理方法,平均性能提升19.15点。更令人惊讶的是,它实现了21.59倍的上下文压缩率,这意味着模型可以处理原来21倍长度的文本,而不会损失性能。

最让人兴奋的是,QwenLong-CPRS与各种旗舰LLM(包括GPT-4o、Gemini2.0-pro、Claude3.7-sonnet等)集成后,都实现了显著的性能提升。特别是,当与Qwen2.5-32B-Instruct结合使用时,QwenLong-CPRS在Ruler-128K和InfiniteBench上分别超越了领先的专有LLM 4.85和10.88分,创造了新的最先进(SOTA)性能。

让我们更深入地了解QwenLong-CPRS的工作原理。想象你正在玩一个视频游戏,游戏中有成千上万的物品,但在特定任务中,你只需要找到几个关键物品。QwenLong-CPRS就像是一个智能助手,它能够根据你的任务描述,快速标记出游戏世界中最重要的物品,而忽略其他无关物品,从而大大提高你的探索效率。

在实际应用中,QwenLong-CPRS通过一个混合架构来实现这一功能:保留低层Transformer层的因果掩码(类似于只能看到过去的信息),同时在上层使用双向注意力(可以看到过去和未来的信息)。这种设计既保持了模型的语言建模能力,又增强了对文本边界的感知能力。模型可以根据不同的系统提示(如"提取与用户问题相关的段落"或"找出支持回答问题的句子"),动态地选择不同粒度的内容。

例如,当系统提示要求"提取与用户问题相关的关键词"时,QwenLong-CPRS能够精确地识别和提取文本中的关键词;当系统提示变为"提取支持回答问题的句子"时,它又能够切换到句子级别的提取;当要求"提取与查询相关的段落或表格"时,它可以进行段落级别的压缩。这种灵活性使得QwenLong-CPRS能够适应各种不同的应用场景。

研究团队还设计了一种创新的训练数据构建方法,包括多粒度上下文优化数据和查询感知上下文优化数据。前者关注如何根据系统提示自适应地压缩长文本,后者则专注于提高查询-上下文交互理解能力。这种双重训练策略使模型能够同时发展一般上下文感知能力和针对性的查询-响应对齐能力。

在实验部分,研究团队将QwenLong-CPRS与多种基线方法进行了比较,包括专有LLM(如Qwen2.5-Max、GPT-4o等)、开源LLM(如Qwen2.5-7b/32b/72b-instruct等)、RAG和稀疏注意力方法。结果显示,QwenLong-CPRS在多个长文本基准上都取得了显著的性能提升,特别是在文本长度超过标准LLM容量限制的极端长度场景中。

例如,在Ruler-128K基准上,增强了QwenLong-CPRS的LLaMA3.1-8b-Instruct、Qwen2.5-7b-Instruct和Qwen2.5-32b-Instruct分别实现了39.72、55.79和19.26的性能提升;在InfiniteBench上,这三个模型也分别获得了13.30、21.95和18.83的提升。更令人印象深刻的是,增强了QwenLong-CPRS的开源模型在Ruler-128K和InfiniteBench上超越了专有LLM,创造了新的最先进性能。

此外,QwenLong-CPRS还大大提高了处理效率。在延迟分析中,研究团队比较了四种系统配置:直接使用Qwen2.5-7b-instruct、RAG增强实现、Minference稀疏注意力集成和QwenLong-CPRS级联架构。结果显示,QwenLong-CPRS在128K标记处理时实现了3.47倍的加速,远优于Minference的1.42倍。

让我们以一个具体例子来说明QwenLong-CPRS的强大能力。在"Needle-in-a-Haystack"测试中,QwenLong-CPRS增强的Qwen2.5-7b-Instruct在各种深度变化(0%到100%)和上下文长度(32K到1M标记)下都实现了完美的准确率,匹配了当代宣称拥有超过1M标记容量的LLM和代理系统的性能。

总的来说,QwenLong-CPRS通过动态上下文优化范式解决了大型语言模型处理长文本的两个关键挑战:计算复杂性和"迷失在中间"现象。它不仅提高了性能,还大大减少了计算开销,使小型、短上下文LLM能够通过优化上下文达到与专业长上下文LLM相当的性能,为资源高效的部署提供了可能。

未来,研究团队计划进一步提高计算效率、增强全局上下文感知能力,并扩展框架的应用范围,将其作为长链推理压缩和代理系统等多样化用例的基础组件。

QwenLong-CPRS的出现,标志着大型语言模型朝着真正处理无限长文本的能力迈出了重要一步。通过智能地优化上下文,而不是简单地扩大窗口大小,这项技术开创了一条更加高效、灵活的路径,为未来的长文本处理技术发展指明了方向。

分享至
1赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-