这项由腾讯混元团队的杜东、刘淑琳、杨涛、陈绍华、李杨等研究人员共同完成的研究发表于2025年7月,论文标题为《UloRL:An Ultra-Long Output Reinforcement Learning Approach for Advancing Large Language Models' Reasoning Abilities》。有兴趣深入了解的读者可以通过论文链接https://github.com/liushulinle/ULORL获取完整研究资料和开源代码。
要理解这项研究的重要性,不妨从一个熟悉的场景说起。当你面临一道复杂的数学题时,你会怎么做?你可能会在草稿纸上写下大量计算过程,反复验证每一步,甚至推翻重来,直到找到正确答案。这种深度思考的过程往往需要很长时间,但正是这种耐心细致的推理让你最终解决了难题。
然而,当前的人工智能模型在处理复杂推理任务时却面临着一个有趣的困境:它们就像是那些习惯快速作答的学生,总是急于给出答案,却缺乏深度思考的耐心。特别是当问题变得复杂时,这种"快进快出"的模式往往导致推理错误。腾讯混元团队意识到,要让AI真正具备类似人类专家的推理能力,就必须让它学会"慢思考"——也就是生成更长、更详细的推理过程。
这项研究的核心创新在于开发了一套名为UloRL(Ultra-Long Output Reinforcement Learning)的训练方法,专门用于提升大语言模型在超长输出情况下的推理能力。研究团队在千文3-30B-A3B模型上进行了实验,结果令人振奋:经过UloRL训练后,模型在AIME2025数学竞赛题目上的表现从70.9%提升到了85.1%,在BeyondAIME测试集上从50.7%提升到61.9%,甚至超越了参数量更大的千文3-235B-A22B模型。更令人印象深刻的是,这种方法将训练速度提升了2.06倍,证明了其在实际应用中的可行性。
研究的意义不仅限于数学推理。在人工智能向着更加智能化发展的今天,推理能力被认为是衡量AI系统智能水平的关键指标。就像OpenAI的o1系列模型和DeepSeek的R1模型所展示的那样,通过强化学习训练出的"会思考"的AI正在各个领域展现出惊人的能力。腾讯混元团队的这项研究为这一发展趋势提供了重要的技术支撑,特别是在如何高效训练超长推理链方面做出了突破性贡献。
一、让AI学会"深度思考":超长输出的挑战与机遇
在人工智能的发展历程中,一个有趣的发现是:给AI更多的"思考时间"——也就是让它生成更长的推理过程——往往能显著提升其解决复杂问题的能力。这就像考试时,那些在草稿纸上写满计算步骤的学生通常比匆忙作答的学生表现更好。
当研究人员开始尝试让语言模型生成超长的推理链时,他们很快发现了一个技术难题。传统的强化学习训练方法就像是一个要求所有学生同时交卷的严格考官:在一个批次中,所有样本都必须完成生成才能开始下一轮训练。这种做法在处理短文本时还算合理,但当涉及超长输出时就会遇到"长尾效应"的问题。
具体来说,在一个包含多个样本的训练批次中,可能80%的样本只需要生成6万个词符就能完成推理,但剩下20%的样本却需要生成12万个词符。按照传统方法,整个训练过程必须等待那些最慢的样本完成,这就像是整个班级都要等最慢的那几个学生交卷才能下课。这种等待不仅浪费了大量计算资源,还大大降低了训练效率。
腾讯混元团队巧妙地解决了这个问题。他们提出了"分段生成"的策略,将超长的推理过程分割成多个较短的段落。每个段落的长度被限制在一个合理的范围内,比如1.6万个词符。这样,当某个样本完成了一个段落的生成后,如果还没有得出最终答案,就会被暂时"保存"起来,等待下一轮继续生成。而那些已经完成推理的样本则可以立即进入训练流程。
这种方法的巧妙之处在于它大大提高了计算资源的利用效率。研究团队的实验表明,使用两个段落的分段生成可以将训练速度提升1.6倍,使用四个段落则可以提升2.06倍。这意味着原本需要一天完成的训练任务,现在只需要半天就能完成,大大降低了训练成本。
然而,分段生成带来了一个新的技术挑战:如何确保训练的准确性?在传统方法中,每个样本都是由同一个模型版本生成的,但在分段生成中,一个完整的推理链可能包含由不同版本模型生成的段落。这就像是一篇文章由不同时期的作者续写,如何评估这样的"混合作品"成为了一个关键问题。
研究团队提出了两种解决方案。第一种叫做"段落感知重要性采样"(SAIS),它会精确地识别每个段落是由哪个版本的模型生成的,并相应地调整训练权重。第二种方案更加简洁,被称为"伪在线重要性采样"(POIS)。这种方法的核心思想是将所有段落都当作是由最新版本的模型生成的来处理,这样可以简化计算过程,同时保持训练的稳定性。
实验结果显示,POIS方法不仅计算更简单,效果也更好。在4千词符、3.2万词符和6.4万词符的输出长度测试中,使用POIS的模型在推理准确性和训练稳定性方面都表现出色。这个发现对整个领域具有重要意义,因为它证明了在某些情况下,简化的方法可能比复杂的精确方法效果更好。
二、解决"熵坍塌"问题:让AI保持思维的多样性
在训练AI进行复杂推理的过程中,研究人员发现了一个令人困扰的现象:随着训练的进行,模型的输出逐渐变得单一化,就像是一个原本思维活跃的学生慢慢变成了只会背标准答案的机器。这种现象在学术界被称为"熵坍塌",它严重制约了模型的推理能力发展。
要理解熵坍塌,可以用一个生动的比喻。假设你在教一个学生解数学题,一开始他会尝试各种不同的解题方法,思路很活跃。但如果你只表扬那些用标准方法得出正确答案的情况,久而久之,这个学生就会只使用那一种"安全"的方法,不再探索其他可能的解题路径。虽然他的正确率可能在短期内有所提升,但长期来看,这种思维的僵化会限制他处理新颖问题的能力。
腾讯混元团队深入分析了熵坍塌的根本原因,他们发现问题出在对"已掌握正面标记"(MPTs)的过度训练上。简单来说,就是模型对于那些它已经很有把握的正确表达方式进行了过度学习。当模型对某个表达的预测概率已经达到99%时,继续强化训练这些"已经会了"的部分反而会让模型变得过于自信和僵化。
这种情况就像是一个钢琴师已经能够完美演奏某个片段,但老师还是要求他反复练习这个片段,结果不仅没有提升整体演奏水平,反而让演奏变得机械化,失去了音乐的灵活性和表现力。
为了解决这个问题,研究团队提出了一个创新的"动态遮蔽已掌握正面标记"(DMMPTs)策略。这个策略的核心思想是智能地识别那些模型已经充分掌握的部分,并在适当的时候将它们从训练过程中暂时排除。
具体的工作机制是这样的:系统会持续监控模型输出的多样性水平,当发现多样性下降到预设阈值以下时,就会自动识别并遮蔽那些模型预测概率超过99%的标记。这样,模型的注意力就会转向那些还需要进一步学习的部分,从而保持思维的活跃性和多样性。当多样性水平恢复到正常范围后,这些被遮蔽的部分会重新加入训练过程。
研究团队在三个不同规模的模型上验证了这种方法的有效性:千文3-4B、千文3-8B和千文3-30B-A3B。实验结果表明,无论模型大小如何,DMMPTs策略都能有效地维持训练过程中的多样性水平,使其稳定在预设的目标范围内。这种稳定性对于长期训练至关重要,因为它确保了模型在获得更强推理能力的同时,不会失去应对新颖问题的灵活性。
更重要的是,这种方法不需要引入额外的优化目标,也不依赖复杂的重要性采样机制,这使得它在实际应用中更加简洁和可靠。相比之前的一些解决方案,比如直接在损失函数中添加熵正则项或调整训练样本权重,DMMPTs方法避免了这些方法可能带来的性能下降问题。
三、构建更智能的评判系统:生成式验证器的应用
在训练AI进行推理的过程中,一个关键挑战是如何准确评判AI给出的答案是否正确。这个问题看似简单,实际上却充满了微妙之处。传统的基于规则的评判方法虽然严格,但往往过于机械化,容易出现误判。
考虑这样一个场景:当AI被要求计算"一个半径为3厘米的圆的面积"时,它可能给出"28.27平方厘米"、"9π平方厘米"或"大约28.3平方厘米"等不同形式的答案。对于人类来说,这些答案显然都是正确的,只是表达方式不同。但是传统的规则匹配系统可能会认为只有完全符合预设格式的答案才是正确的,从而错误地惩罚那些实际正确但表达方式略有不同的回答。
更具挑战性的是一些看似不同但实际等价的答案,比如"27厘米"和"0.27米",或者"1/2"和"二分之一"。这些情况需要系统具备更深层的理解能力,而不仅仅是简单的字符串匹配。
腾讯混元团队意识到这个问题的重要性,开发了一个基于生成式AI的智能验证器。这个验证器不是简单地比较字符串,而是能够理解答案的语义含义,判断两个看似不同的表达是否在数学或逻辑上等价。
这个生成式验证器的工作原理有点像一个经验丰富的老师阅卷。它不会因为学生没有按照标准格式书写答案就扣分,而是会仔细分析答案的实质内容,判断学生是否真正理解了问题并给出了正确的解答。这种"理解式"的评判方法大大提高了奖励信号的准确性,从而提升了整个训练过程的质量。
除了改进验证方法,研究团队还对训练数据进行了精心的清理和优化。他们删除了那些包含多个子问题的复杂题目,因为这类题目容易导致AI在回答不完整时被错误地判定为失败。他们也将选择题、证明题等转换为简答题格式,避免AI通过猜测获得正确答案而没有真正理解问题。
特别值得一提的是,研究团队还利用多个先进模型的一致性来识别和删除那些参考答案可能有误的题目。当多个不同的先进模型都给出相同答案,但这个答案与提供的标准答案不符时,他们会认为标准答案可能存在错误,并将这类题目从训练集中移除。这种"民主投票"的方式有效地提高了训练数据的质量。
在处理超长回答的策略上,研究团队选择了一种简洁直接的方法。对于那些因为达到长度限制而被截断的回答,系统会直接将其标记为不正确。虽然这种做法可能会错误地惩罚一些实际上正确但表述冗长的回答,但实验表明这种简单策略的效果与更复杂的处理方法相当,同时大大简化了系统的复杂度。
四、实验验证:从理论到实践的转化
理论的价值最终需要通过实际效果来证明。腾讯混元团队在千文3-30B-A3B模型上进行了全面的实验验证,这个模型本身就是一个性能优秀的大语言模型,为实验提供了坚实的基础。
实验的设计考虑到了实际应用的各种需求。研究团队设置了128k词符的最大输出长度,并将其分为8个段落,每个段落包含16k词符。这种设置既能支持复杂问题的深度推理,又能保持训练的效率。在训练过程中,他们使用了AdamW优化器,学习率设定为1×10^-6,这些参数经过精心调试以确保训练的稳定性。
为了确保结果的可靠性,每个测试都重复进行了32次,然后取平均值作为最终结果。这种做法类似于科学实验中的多次重复验证,可以有效消除随机因素的影响,确保结论的可信度。
实验结果令人印象深刻。经过UloRL训练的模型在AIME2025数学竞赛题目上的准确率从原来的70.9%提升到了85.1%,提升幅度达到了14.2个百分点。在BeyondAIME这个更具挑战性的测试集上,准确率从50.7%提升到了61.9%,提升了11.2个百分点。这些提升不仅在统计上显著,在实际应用中也具有重要意义。
更令人惊喜的是,经过训练的30B参数模型甚至超越了参数量更大的千文3-235B-A22B模型。这个结果证明了UloRL方法的高效性:通过改进训练方法,较小的模型可以达到甚至超越更大模型的性能,这对于实际部署具有重要的成本优势。
为了验证各个组件的贡献,研究团队还进行了消融实验。他们发现,去除DMMPTs策略的模型在AIME2025上的表现降至78.6%,在BeyondAIME上降至57.1%,这证明了动态遮蔽策略的重要性。这种对比实验清楚地展示了每个技术组件的价值。
研究团队还探索了进一步扩展输出长度的可能性。通过使用Yarn技术将输出长度扩展到140k词符,模型的性能得到了进一步提升,在AIME2025上达到85.1%,在BeyondAIME上达到61.9%。这个结果支持了"更长的推理链带来更好性能"的假设。
特别值得关注的是不同输出长度对性能的影响。实验显示,32k词符的改进相对有限,这主要是因为基础模型在这个长度下已经表现很好。但当输出长度扩展到64k、96k和128k时,性能提升变得越来越明显。这个趋势表明,对于真正复杂的推理任务,更长的思考过程确实是必要的。
五、技术创新的深层意义:重新定义AI推理能力
腾讯混元团队的这项研究不仅在技术层面取得了突破,更重要的是它为我们重新理解AI推理能力提供了新的视角。传统观念认为,AI应该快速给出答案,效率至上。但这项研究证明,有时候"慢就是快"——通过更深入的思考过程,AI可以达到更高的准确性。
这种转变的意义是深远的。在过去,人们常常批评AI缺乏真正的理解能力,只是在进行复杂的模式匹配。但当AI开始展现出详细的推理过程,能够像人类专家一样步步为营地解决复杂问题时,这种批评就变得不那么有力了。虽然我们仍然不能确定AI是否真正"理解"了问题,但它确实展现出了与人类专家相似的问题解决策略。
从技术发展的角度看,这项研究为强化学习在自然语言处理领域的应用开辟了新的方向。以往的研究更多关注于如何优化模型架构或增加模型参数,而UloRL方法证明了通过改进训练策略同样可以获得显著的性能提升。这种思路对于那些计算资源有限的研究团队和应用场景具有特别重要的意义。
分段生成策略的成功也为处理超长序列问题提供了新的思路。在自然语言处理的许多任务中,比如长文档理解、代码生成、创意写作等,都面临着类似的长序列处理挑战。UloRL的技术框架为解决这些问题提供了可借鉴的方案。
DMMPTs策略的成功则揭示了一个重要的训练原理:并不是所有的正确行为都需要持续强化。这个发现对于设计更高效的学习算法具有启发意义。在很多机器学习任务中,模型往往会在已经掌握的简单样本上浪费过多的训练资源,而DMMPTs策略提供了一种智能的资源分配方法。
生成式验证器的应用也代表了一个重要趋势:用AI来训练AI。随着AI能力的不断提升,我们越来越多地看到AI被用作评判者、教师甚至是训练数据的生成者。这种自我改进的循环可能会成为未来AI发展的重要模式。
从更广阔的视角来看,这项研究体现了当前AI发展的一个重要特点:从追求通用性向追求专业性转变。早期的AI研究更多关注如何让机器在各种任务上都有不错的表现,而现在的趋势是让AI在特定领域达到专家级水平。UloRL方法在数学推理领域的成功就是这种趋势的一个典型例子。
这种转变对AI的实际应用具有重要意义。在教育、科研、工程设计等需要复杂推理的领域,具备深度思考能力的AI助手将能够提供更有价值的帮助。它们不再只是简单的信息检索工具,而是能够参与复杂问题解决过程的智能伙伴。
然而,这项研究也提出了一些值得思考的问题。随着AI推理能力的不断提升,我们需要重新考虑人机协作的模式。当AI能够进行如此深入的推理时,人类的独特价值在哪里?如何确保AI的推理过程是可解释和可信的?这些问题将是未来研究需要关注的重点。
说到底,腾讯混元团队的这项研究为我们展示了AI推理能力发展的一个重要里程碑。通过让AI学会"慢思考",我们不仅提升了它们解决复杂问题的能力,也为人工智能向着更高层次的智能演进提供了新的路径。虽然我们还不能说AI已经具备了人类般的智慧,但它们确实在某些特定领域展现出了令人印象深刻的专业能力。
这种进步对普通人的生活将产生深远影响。在不久的将来,我们可能会看到能够协助解决复杂数学问题的AI家教、能够分析复杂法律案例的AI顾问、能够设计复杂工程方案的AI助手。这些应用将不仅仅是效率的提升,更是认知能力的扩展,让更多人能够接触到原本只有专家才能提供的高水平服务。
当然,技术的发展也伴随着挑战。如何确保AI推理的可靠性,如何防止AI被恶意利用,如何在提升AI能力的同时保持人类的主导地位,这些都是需要整个社会共同思考和解决的问题。但无论如何,UloRL研究为我们打开了一扇通向更智能AI的大门,让我们对人工智能的未来充满期待。
对于那些对技术细节感兴趣的读者,研究团队已经将相关代码和模型开源,这意味着全球的研究者和开发者都可以基于这项工作进行进一步的探索和改进。这种开放的态度体现了科学研究的合作精神,也将加速整个领域的发展进程。
Q&A
Q1:UloRL是什么?它解决了什么问题?
A:UloRL(超长输出强化学习)是腾讯混元团队开发的AI训练方法,专门解决让AI进行深度推理时面临的效率问题。传统方法训练AI生成长推理链时,必须等所有样本都完成才能开始下一轮训练,就像全班都要等最慢学生交卷。UloRL通过分段生成,让完成的样本先进入训练,大大提升了效率。
Q2:为什么让AI生成更长的回答能提升推理能力?
A:这就像考试时在草稿纸上详细写出解题步骤的学生通常比匆忙作答的学生表现更好。AI通过生成详细的推理过程,能够更仔细地分析问题,验证每个步骤,从而得出更准确的答案。实验显示,输出长度从32k扩展到128k时,AI在数学题上的准确率显著提升。
Q3:普通人什么时候能用到这种技术?会有什么具体应用?
A:这种技术将首先在需要复杂推理的专业领域应用,比如AI数学家教、法律咨询助手、工程设计顾问等。随着技术成熟,普通人可能在几年内就能体验到能够深度思考的AI助手,它们不再只是简单回答问题,而是能像专家一样分析复杂情况并给出详细建议。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。