微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快科技崛起:快手研究院教AI彻底读懂长篇文章,训练数据和算法双管齐下

快科技崛起:快手研究院教AI彻底读懂长篇文章,训练数据和算法双管齐下

2026-05-27 11:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-27 11:02 科技行者

这项由快手技术团队与中国科学院大学联合开展的研究,发表于2026年5月,论文编号为arXiv:2605.19577,题为"GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment"。感兴趣的读者可以通过该编号在arXiv平台检索到完整论文。

当你把一本厚厚的小说、一份长长的法律合同、或者一篇充满数据的年报扔给AI,期待它帮你提炼出关键信息,AI究竟有没有真正"读懂"全文?这是AI领域一个让研究者们头疼已久的难题。快手技术团队与中国科学院大学的研究者们针对这个问题下了一番苦功,他们发现,让AI真正掌握处理长文本的能力,关键在于两件事:一是给它练习用的"题目"要够多样,覆盖真实生活中各种各样的阅读任务;二是训练时用的"评分标准"要足够聪明,能区分不同难度和不同类型任务之间的差异。他们将这套方法命名为GoLongRL,并将相关数据集、训练流程和代码全部开源,任何人都可以使用。

从最终测评结果来看,GoLongRL训练出来的模型,在多个权威长文本理解基准测试上,表现与DeepSeek-R1-0528以及千亿参数级别的Qwen3-235B-A22B-Thinking等顶尖大模型不相上下,而它自身只是一个30B(300亿参数)规模的模型,远比那些旗舰级模型轻量得多。这个结果意味着,提升AI读懂长文的能力,并不一定要靠堆砌更多参数,训练数据的质量和多样性,以及更科学的训练算法,同样能发挥关键作用。

一、AI读长文,到底难在哪里

要理解这项研究解决了什么问题,得先明白AI处理长文本时面临的困境。现代AI大模型的"上下文窗口"虽然越来越大,有的已经能处理几十万甚至上百万个字符,但"能看见"和"真正读懂"是两回事。就像一个人盯着一篇密密麻麻的法律条文看了半天,眼睛扫过去了,脑子里却没留下什么痕迹——AI也会有类似的问题,尤其是当需要同时处理非常长的文本时,信息很容易在传递过程中"衰减"甚至"丢失"。

为了让AI真正利用好长文本,研究者们近年来开始尝试一种叫做"强化学习"的训练方式。这种方式的核心思路是:给AI出一道题,它做完题之后,根据答对了还是答错了给它打分,它会从这个反馈中学习如何做得更好。这个过程有点像小孩子学骑自行车——摔倒了就知道哪里没掌握好,下次会调整姿势。与传统的"给AI看大量示范答案让它模仿"的训练方式不同,强化学习更能让模型学会主动推理和思考。

然而,快手团队在深入研究现有方法时发现了两个明显的短板。第一个问题出在训练数据上:现有的长文本强化学习训练数据,往往过于集中在"找信息"这类任务上——比如在一大堆文字里找一个特定的字符串,或者沿着特定线索一路追踪。这类任务确实能训练AI的信息检索能力,但真实世界中对长文本的需求远不止于此。人们有时需要AI总结一篇文章,有时需要它比较多份文件之间的异同,有时需要它从财务报告里算出具体数字,这些都是截然不同的能力。

第二个问题出在训练算法上:当训练数据涵盖多种不同类型的任务时,不同任务的评分标准(也就是"奖励信号")的数值范围差异很大。打个比方,判断AI有没有找到正确答案,得分要么是0要么是1,非常简洁;但评价AI排名是否正确,用的是一种叫NDCG的指标,它的数值可能是0.73或者0.89这样的小数。把这两种差异悬殊的评分标准混在一起训练,就好像让一个运动员同时参加百米短跑和马拉松,用同一套体能分数来评价表现,必然导致某种训练方向被过度强化,另一种被忽视。

快手团队就是为了解决这两个问题,设计出了GoLongRL这套方案。

二、精心打造的"练习题库":23000道覆盖9种能力的训练样本

围绕着"训练数据要够多样"这个核心目标,快手团队首先花了大量精力构建一个全新的训练数据集。他们将长文本理解所需的能力分成了9大类,每一类对应一种真实的阅读任务。这个分类框架参考了学界一个叫"LongBench Pro"的评测体系,但针对训练需求做了专门设计。

第一类是精确定位检索,考察的是从长文中找到某个具体信息点的能力,用"完全匹配"(即答案必须一字不差)来评分,共收集了将近8000道题,占整个数据集的34%,是题量最多的一类。第二类是理解与推理,考察的是根据文章内容回答选择题的能力,共约6800道题,占比接近30%。第三类是穷举检索,不只是找一个答案,而是把符合条件的所有信息都找出来,用"词语重叠率"(F1分数)评分,共约3500道题。第四类是数值计算推理,专门考察从财务报表、数据表格等结构化文本中提取数字并进行计算的能力,共3000多道题,使用专门的数学验证工具评分。

第五类是结构化提取,考察从多个表格中提取并整合信息的能力,用"交并比"(IoU)评分,有近1000道题。第六类是结构化匹配,考察聚类分析、规则归纳等模式识别能力,共360道题。第七类是分级排名,考察按照某种维度对检索结果进行排序的能力,用NDCG这个排名质量指标评分,共120道题。第八类是序列排序,考察恢复文本段落正确顺序的能力,用两两比较的准确率评分,共180道题。第九类是摘要生成,考察对长文档进行归纳总结的能力,用ROUGE-L这个文本相似度指标评分,共120道题。

整个数据集共22965道题,覆盖了从几百字到25万字不等的各种长度文本。这个数据集有一个很重要的特点:它明确给每类任务搭配了与该任务最自然契合的评分标准,而不是把所有任务都压缩成一个简单的"对或错"的二元评分。

这些训练数据来自两条渠道。一条是公开数据来源渠道,从已经存在的各类长文本数据集中精挑细选,涵盖了法律判决书、财务报告、文学小说、多轮对话等多种领域,总计约14000个样本。另一条是合成数据渠道,研究者们从Project Gutenberg的公版书籍、arXiv的开放学术论文、PubMed中央数据库的生物医学文章,以及多轮对话数据集中抽取真实文档,然后用AI模型自动生成问题和答案,总计约9000个样本。

合成数据的生成过程格外严格。生成问题的模型会遵循一套三步程序:先识别源文档的语言,再按照任务要求构造问题(包括设置足够迷惑性的错误选项,以及至少四个选项),最后对自己生成的问题做一次自我检查,确认问题表述清晰、答案有充分的文本依据。这些自动生成的题目随后还要经过两轮质量过滤。第一轮由Gemini-2.5-Pro这个强大的AI模型扮演"质检员",对照原始文档逐条检查:答案是否唯一且明确?干扰选项是否合理?有没有凭空捏造的内容?不合格的一律丢弃。第二轮则是用两个能力不同的模型(Qwen3-4B和Qwen3-30B-A3B)来实际做题,如果一道题两个模型都做不出来(通过率低于25%),就认为这道题可能存在标注错误,同样予以淘汰。

经过这套筛选流程,整个数据集中大约31%的题目属于较简单的题,约58%属于中等难度,约11%属于较难的题,难度分布相对均衡,避免了训练数据过于简单或过于困难导致的学习效率问题。

这个数据集并非一次性完成的,而是经历了三个版本的迭代优化。最初的V1版本只有约9600个样本,训练后发现模型在跨文档推理和长程上下文记忆方面明显偏弱。研究者增补了更多样本,形成了V2版本(约17700个样本),跨文档推理能力有所提升,但长程记忆能力依然没有明显改善。经过针对性分析,研究者专门补充了多跳推理和上下文记忆相关的样本,形成最终的V3版本(约23000个样本)。从V2到V3只增加了约5200个样本,但平均分提升了7.2分;而从V1到V2增加了约8100个样本,平均分却只提升了2.2分。这说明精准地针对薄弱环节补充数据,效率远高于盲目扩大数据量。

三、更聪明的"打分方式":TMN-Reweight算法

解决了数据问题之后,快手团队还设计了一套专门应对多任务混合训练的算法,叫做TMN-Reweight,全称是"任务级均值归一化与难度自适应重加权"。这个名字听起来很复杂,但背后的思路其实相当直观。

先来理解一下标准GRPO算法(也就是现在很多大模型训练中常用的强化学习方法)是怎么工作的。当模型对一道题给出多个不同的回答时,算法会计算每个回答的得分,然后对比"这个回答比平均水平高多少还是低多少",高于平均的回答会被鼓励,低于平均的会被抑制。

这套机制在单一任务上表现不错,但在多任务混合训练时会暴露两个问题。第一个问题是,不同题目的难度差异会被错误放大:对于特别简单或特别难的题目,所有回答的得分往往集中在一起(要么都对要么都错),这时候"平均水平"的参考价值很低,相当于用一把松紧不一的橡皮筋来测量,容易产生失真的学习信号。第二个问题是,不同任务的评分范围差异没有被处理:比如选择题的得分是0或1,而排名任务的NDCG得分是0到1之间的连续小数,如果不做任何处理直接混合,得分范围较大的任务会在训练中占据主导地位,相当于一个声音很大的学生总是压过其他人。

TMN-Reweight用两步来解决这两个问题。第一步叫"任务级归一化":不再用每道题自己的得分标准差来做归一化,而是计算同一类任务(比如所有选择题或所有排名题)内所有题目的得分标准差,用这个任务级别的标准差来统一该类任务的分数范围。这样,不同类型任务的训练信号就处于同一个数量级上,排名题不会因为NDCG分数范围比选择题的0/1得分更分散而在训练中喧宾夺主。这一步的理论依据来自一个数学推导:训练时每个任务对模型参数更新的影响力,从根本上是由该任务内部所有题目的得分方差决定的,用任务级标准差归一化就是在直接均衡各任务的梯度影响力。研究者还用实验数据做了直观验证,测量了三种方法(标准GRPO、移除标准差的Dr.GRPO和他们的TMN)在各个任务上产生的梯度大小,结果显示TMN方法使9类任务的梯度分布最为均匀,变异系数(衡量分散程度的指标)从0.54和0.34降低到了0.18。

第二步叫"难度自适应重加权":在均衡了任务间的差异之后,再针对每道题的难度进行微调。具体做法是,对每道题估计一个"通过率"(即模型能答对这道题的概率),然后根据通过率计算一个权重——难题(通过率低于50%)的权重大于1,简单题(通过率高于50%)的权重小于1。难题上,那些偶尔答对的回答会被额外强化,因为这些稀有的成功探索更有学习价值;答错的回答则被适当削弱,避免大量错误反馈干扰模型的学习方向。简单题上,答对的回答会被适当淡化,因为模型已经基本掌握,继续强化效果递减;答错的回答反而会被适当放大,因为这些偶尔的失误更值得模型注意。

为了让难度估计更稳定,研究者还设计了一个平滑机制:不完全依赖当前这一批次的8个回答来估计难度,而是将当前批次的表现与同类任务在这个批次中的整体平均表现做加权混合。经过实验调优,这个混合比例设定为当前批次占80%、任务平均占20%时效果最好,因为这样既保留了具体题目的难度信息,又借助任务整体表现降低了随机波动带来的估计噪声。

四、实验结果:数据和算法各自贡献了多少

为了准确评估数据和算法各自的贡献,研究团队设计了一套严格对照的实验方案。在4B(40亿参数)规模的模型上,他们用8000个样本的数据子集进行了多种对比实验;在30B(300亿参数)规模的模型上,使用了完整的23000个样本进行训练。

在数据的贡献方面,仅仅将训练算法固定为最基础的标准GRPO,只替换训练数据,就已经带来了显著提升。4B模型用快手的数据训练后,长文本综合得分从53.0分提升到了62.2分,比用QwenLong-L1.5(另一个竞争方案,数据集并未公开)数据训练的基准结果高出6.1分。30B模型同样从60.1分提升到了69.8分,比竞争方案的67.2分高出2.6分。这些对比实验的训练算法完全相同,差异只来自数据本身,因此可以比较直接地将性能差异归因于数据质量和多样性。

在算法的贡献方面,将TMN-Reweight替换标准GRPO,在保持数据相同的前提下,4B模型的综合得分进一步从62.2分提升到了63.0分。这个提升幅度比数据的贡献小,但它分布在多个不同类型的评测任务上:在CorpusQA(多文档语料库问答)上提升了4.5分,在LongBench-V2(通用长文本理解)上提升了1.6分。这表明TMN-Reweight的效果在需要综合多种推理能力的任务上更为突出,而对于以信息检索为主的MRCR任务,标准GRPO的表现反而略好,说明不同的优化策略在不同类型任务上各有侧重。

将GoLongRL-30B-A3B与其他同类或更大规模的模型做横向比较,结果相当有说服力。在六个长文本基准测试上,这个300亿参数的模型平均得分达到69.8分,而DeepSeek-R1-0528(一个行业顶尖模型)的平均分是68.67分,Qwen3-235B-A22B-Thinking(参数量是它七倍多的模型)的平均分是68.45分,GoLongRL-30B-A3B均高于这两者。在六个具体评测项目中,GoLongRL-30B-A3B在Frames(多跳推理)和MRCR(长上下文检索)上表现尤为突出。

五、训练长文本能力没有让模型"偏科"

训练AI专门处理长文本,会不会让它在其他方面退步,比如数学推理、常识判断等一般性能力?这是一个现实的担忧。毕竟,用大量长文本题目训练,可能会让模型过度专注于长文本处理,在短文本或其他类型任务上表现下滑。

研究团队对此进行了专门验证。他们在训练前后分别测试了模型在MMLU-Pro(多学科知识测试)、AIME24/25(竞赛数学题)、GPQA-Diamond(研究生级科学问答)等与长文本完全无关的标准测试上的表现。结果显示,GoLongRL-4B模型在这些测试上的表现不降反升:MMLU-Pro提升了0.7分,AIME24提升了1.6分,AIME25提升了0.6分,GPQA-Diamond提升了2.3分;30B模型同样呈现类似趋势。研究者分析认为,长文本训练帮助模型更好地整合和利用信息,这种能力在短文本推理任务上同样有帮助。

除了一般推理能力,研究团队还测试了模型在记忆相关任务上的表现,包括BFCL-V4记忆子集(模拟AI智能体需要记住历史信息的场景)和LongMemEval(测试AI在多轮对话中跨越很长时间维护记忆的能力)。结果同样令人意外地乐观:4B和30B模型在LongMemEval上的分数都大幅提升了13.6分,Memory-Vec(向量化语义记忆)和Memory-Rec_Sum(摘要式记忆)子项也有明显改善。这些测试数据集并不在训练数据中,属于完全"没见过的题型",模型表现的提升说明GoLongRL确实训练出了一种可以迁移的理解和记忆能力,而不只是针对特定测试格式的表面适配。

此外,研究团队还测试了模型在超出训练长度(训练时最长处理16万字,评测时用到51万字甚至100万字以上)的文本上的表现。结果显示,4B模型在MRCR的12.8万至51.2万字区间的得分从11.16提升到了23.43,30B模型在同一区间从24.91提升到了37.52。这意味着训练时学会的信息整合能力,可以在一定程度上延伸到训练时从未出现过的更长文本上,表现出良好的长度泛化能力。

说到底,GoLongRL这项研究的核心启示是:训练AI处理长文本,关键不在于任务越复杂越好,也不在于数据量越大越好,而在于任务覆盖的能力范围够不够广,以及每个任务使用的评分标准够不够贴近该任务的本质。当一个训练数据集能够同时覆盖检索、理解、计算、排序、归纳、摘要等多种真实阅读需求,并且每种需求都用最匹配的方式来评分,AI模型就能从中学到真正多维度的长文本理解能力,而不是在某一种能力上单打独斗。

这套方法的全部数据和代码都已开源,任何研究团队都可以在此基础上继续探索。从快手团队自己的实验结果来看,这套方法作为"事后训练配方",可以直接叠加在更强的基础模型之上,未来如果与更强的底座模型结合,还有进一步提升的空间。对于那些正在关注大模型如何更好地应对法律合同分析、长篇学术论文理解、多轮客服对话记忆等实际需求的从业者来说,这项研究提供了一个切实可行的参考路径。读完这篇研究,你可能会好奇:如果把这套训练思路推广到多模态内容(比如同时包含图文的长文档),或者推广到需要实时更新记忆的AI智能体场景,又会带来什么新的挑战?这些问题,或许就是下一批研究者值得深入挖掘的方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.19577查阅完整论文,所有数据集和代码也已在GitHub上以"GoLongRL"为关键词公开发布。

Q&A

Q1:GoLongRL训练数据集包含哪些任务类型?

A:GoLongRL数据集共涵盖9种任务类型,包括精确定位检索、理解与推理、穷举检索、数值计算推理、结构化信息提取、结构化匹配、分级排名、序列排序以及摘要生成,共22965个样本,每种任务搭配与之最匹配的评分标准进行强化学习训练。

Q2:TMN-Reweight和标准GRPO算法有什么区别?

A:标准GRPO在多任务混合训练时,不同任务的评分范围差异会导致某些任务主导训练方向。TMN-Reweight在此基础上增加了两步改进:先用任务级标准差统一不同任务的分数范围,再根据每道题的难度动态调整训练权重,难题上的偶发正确回答会被额外强化,简单题上的意外错误会被更多关注,从而让多任务训练更均衡稳定。

Q3:GoLongRL训练后模型的数学和推理能力会下降吗?

A:不会。实验显示,经过GoLongRL训练的4B和30B模型,在MMLU-Pro、AIME24/25、GPQA-Diamond等与长文本无关的标准测试上表现不降反升,在多轮对话记忆测试LongMemEval上也提升了13.6分,说明长文本训练强化的信息整合能力可以迁移到其他推理任务上。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-