
这项由腾讯天美LLM部门的吴浩源、王海等研究人员以及香港中文大学的于贝教授合作完成的研究发表于2025年12月,论文编号为arXiv:2512.22955v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们日常与聊天机器人对话时,可能从未想过这样一个问题:机器在选择下一个要说的词时,是应该保持多样性还是追求精确性?就像一个人在写作时,是应该用词丰富多变,还是应该精准直击要点?这个看似简单的选择,实际上关乎着人工智能能否真正学会推理和思考。
腾讯的研究团队发现了一个令人意外的现象:当前最先进的大语言模型在学习时面临着一个根本性的困境。传统观点认为,让机器保持输出的多样性有助于它更好地探索和学习,就像鼓励孩子多尝试不同的解决方案一样。然而,研究结果却完全颠覆了这一直觉:在训练阶段追求精确性,反而能让模型在后续的强化学习中表现得更出色。
这项研究的突破性在于,它首次将传统的交叉熵损失函数重新解释为强化学习中的政策梯度优化。简单来说,研究团队发现了机器学习背后的一个隐藏规律:模型在预训练阶段的输出分布,就像为后续学习搭建的舞台,决定了模型能够探索哪些推理路径。
为了验证这一发现,研究团队开发了从1B到10B参数规模的多个模型,包括密集型和专家混合型架构。他们在数学推理任务上进行了大量实验,结果表明那些在预训练时采用精确导向策略的模型,在强化学习阶段能够更稳定地激活长链推理能力,避免了高熵配置下常见的推理能力崩塌问题。
一、从新角度理解机器学习的基础
要理解这项研究的重要意义,我们需要先了解大语言模型是如何学习的。通常情况下,训练一个语言模型就像教一个学生写作文。传统方法是给学生看大量的优秀范文,然后让他学会预测下一个应该写什么词。这个过程被称为"下一词预测",是目前所有大语言模型的基础训练方式。
在这个过程中,有一个关键的概念叫做"交叉熵损失函数"。如果用烹饪来比喻,这就像是一个评判厨师技艺的标准:当厨师做出的菜越接近标准答案时,得分越高。传统上,研究人员认为这是一个纯粹的监督学习问题,就像老师批改作业一样,对就是对,错就是错。
然而,腾讯团队的研究人员发现了一个被忽视的重要事实:这个看似简单的"对错判断"实际上隐含着复杂的奖励机制。他们重新审视了交叉熵损失函数,发现它本质上就是一种特殊的强化学习算法。当模型预测正确时,它会获得与预测概率成反比的奖励,而所有错误的预测都会被一视同仁地惩罚。
这个发现的重要性在于,它揭示了预训练和强化学习之间存在着一个此前未被认识的深层联系。就像建房子需要先打好地基一样,预训练阶段的输出分布为后续的强化学习奠定了基础,决定了模型能够探索哪些可能的推理路径。
研究团队进一步发现,传统的交叉熵方法在处理正确答案时采用了一种相当极端的策略:给正确答案最大的奖励,而对所有错误答案都给予零奖励。这就像一个严格的老师,只认可完全正确的答案,对所有错误都一概否定。虽然这种方法在很多情况下都很有效,但它可能限制了模型在复杂推理任务中的表现。
二、创新的奖励塑形策略
基于对交叉熵本质的新理解,研究团队提出了一个创新的解决方案:奖励塑形策略。这个策略的核心思想是,不再简单地用"对"或"错"来评判模型的预测,而是设计一套更精细的奖励机制,就像一个富有经验的老师会根据学生答案的质量给出不同程度的评分。
这套新策略包含两个主要组成部分。首先是正向奖励调节机制,通过引入一个参数β来控制对正确答案的奖励强度。当β小于零时,系统会放大对正确预测的奖励,就像一个鼓励型老师会对学生的正确答案给予更多赞扬,这样做的结果是让模型的输出更加集中和精确。相反,当β大于零时,系统会适当减少对正确答案的奖励,允许模型保持更平缓的输出分布,增加输出的多样性。
第二个组成部分是排名感知的负向调节机制。传统方法对所有错误答案都一视同仁,但新策略认识到,并非所有错误都同等重要。就像在多选题中,选择一个相近但错误的答案和选择一个完全无关的答案,其错误程度是不同的。
具体来说,新策略将错误答案分为两类:高排名的负面词汇和低排名的负面词汇。对于那些模型认为比较可能但实际错误的词汇,系统会给予适度的奖励,这样可以保持一定的探索性,避免模型变得过于保守。而对于那些明显不合适的低概率词汇,系统会施以惩罚,迫使模型将注意力集中在更合理的选择上。
这种精细化的奖励机制带来了一个重要优势:它允许研究人员在全局熵和局部熵之间找到最佳平衡点。全局熵控制着整体的输出分散程度,而局部熵则调节在合理选择范围内的多样性。通过这种双重控制,模型既能保持必要的探索性,又不会在无意义的选择上浪费计算资源。
三、令人意外的实验发现
为了验证这套新理论,研究团队进行了一系列规模庞大的实验。他们构建了包括1B、4B参数的密集型模型,以及5B-A0.3B、10B-A0.5B的专家混合型模型,涵盖了从小规模到大规模的不同配置。实验使用了500B个词汇的预训练语料库,主要聚焦于一般知识,随后进行了100B词汇的中期训练,其中约5%为合成数据,并显著增加了推理导向内容的比例。
实验结果带来了一个颠覆性的发现:违背直觉的是,那些在预训练阶段采用精确导向策略的模型,在后续的强化学习中表现得更加出色。具体来说,当β设置为-0.25时(对应更集中的输出分布),模型在各种数学推理任务上都显示出了更稳定和更强的性能增长。
这个发现特别令人惊讶,因为传统观点认为,保持输出的高熵(即高多样性)应该有利于模型的探索和学习。就像鼓励孩子尝试多种不同的解决方法一样,研究人员普遍认为多样性是学习的关键。然而,实验数据明确显示,在预训练阶段采用低熵配置(即更精确的输出)的模型,在强化学习阶段能够更好地激活长链推理能力。
更深入的分析揭示了这一现象背后的机制。研究团队发现,高熵配置的模型在强化学习早期容易出现策略熵的快速崩塌。这就像一个过于活跃的学生,在面对复杂问题时容易失去耐心,快速放弃深度思考。与此同时,这些模型的回应长度也会急剧下降,表明其推理能力受到了抑制。
相比之下,那些采用精确导向预训练的模型表现出了更好的稳定性。它们能够在强化学习过程中保持稳定的策略分布,避免了早期崩塌的问题,并且能够持续增长生成长度和推理深度。这种稳定性使得模型能够更有效地学习复杂的推理模式。
局部高熵配置也展现出了独特的优势。当使用λ = -0.1, λ = 0, k = 100的配置时(即对低排名词汇进行惩罚,同时对高排名词汇保持中性),模型在10B-A0.5B规模上取得了最佳表现。这种策略通过抑制明显不合适的尾部词汇,同时保持对合理候选词汇的开放态度,实现了探索与利用之间的最佳平衡。
四、深入理解多样性与精确性的权衡
实验结果揭示的核心洞察是,在语言模型训练中,多样性和精确性之间的最优平衡点可能与我们的直觉完全相反。传统思维认为,多样性总是有益的,因为它能让模型探索更广阔的解决方案空间。然而,这项研究表明,在特定条件下,约束输出分布实际上能够创造更有效的学习环境。
这种现象可以通过"有效探索空间"的概念来理解。当模型的输出分布过于分散时,它的注意力会被分散到大量无意义的选择上,就像一个人在图书馆里漫无目的地浏览,虽然看到了很多书,但很难深入学习任何有价值的内容。相反,当输出分布更加集中时,模型能够将有限的学习资源集中在最有希望的方向上,从而实现更高效的学习。
研究团队还通过Pass@k分析进一步验证了这一理论。Pass@k指标衡量的是模型在k次尝试中至少产生一个正确答案的概率,这个指标在解决方案精确性和多样性之间需要微妙的平衡。令人意外的是,实验显示那些全局多样性更高的模型并不能带来更好的Pass@k表现。相反,精确导向的策略在数学和编程任务上都取得了更好的结果。
这个发现挑战了一个广泛接受的假设:输出多样性会自动转化为更好的解决方案覆盖率。实际情况似乎是,精确导向的模型虽然输出看起来不够多样化,但它们能够更有效地覆盖真正有意义的解决方案空间,而不是在低质量的候选答案上浪费概率质量。
此外,研究还发现了一个有趣的规模效应。在较小的模型中,精确导向策略的优势可能不那么明显,但随着模型规模的增大,这种优势变得越来越显著。这说明大型模型具有更强的能力来利用精确的输出分布,将约束转化为更有效的学习信号。
五、技术实现的精妙设计
要实现这种精确导向的训练策略,研究团队设计了一套精巧的技术框架。整个训练流程分为三个阶段:预训练、中期训练和强化学习阶段。每个阶段都有其特定的目标和配置。
在预训练阶段,团队使用了一个包含500B词汇的大规模语料库,主要聚焦于一般知识内容。这个阶段的关键是应用新的奖励塑形策略,通过精心调节β、λ和λ参数来塑造模型的输出分布。具体来说,他们测试了β = -0.25(精确导向)和β = 0.5(多样性导向)两种配置,以及λ = -0.1和λ = 0.1的局部调节策略。
中期训练阶段引入了100B词汇的额外数据,其中约5%为合成数据,并显著增加了推理导向内容的比例。这个阶段的目的是让模型逐步适应更复杂的推理任务,同时保持预训练阶段建立的输出分布特性。值得注意的是,研究团队特意排除了合成长推理数据,以确保能够准确观察模型长链推理能力的自然激活过程。
强化学习阶段采用了GRPO算法(一种在线策略优化方法),专门针对数学推理任务进行优化。这个阶段使用了可验证的奖励信号,如通过单元测试或得出正确数学解答。训练过程分为两个子阶段:前700步使用8K的序列长度,后续训练扩展到16K长度,以支持更长的推理链条。
实验评估覆盖了五个核心能力领域:一般知识、逻辑推理、常识推理、数学和编程。评估使用了19个不同的基准测试,包括MMLU、GSM8K、MATH-500、HumanEval+等广泛认可的标准。对于需要数学推理和代码生成的任务,研究团队还使用了Pass@k指标,通过采样128个回应并报告Pass@64结果来评估模型的上限能力。
六、实际应用的深远影响
这项研究的影响远远超出了学术范围,为实际的AI系统开发提供了重要指导。首先,它为模型预训练策略的设计提供了新的理论基础。传统上,研究人员在选择训练策略时主要依靠经验和直觉,但这项研究提供了一个更科学的框架来理解不同策略的长远影响。
对于工业界的AI开发团队来说,这些发现具有直接的实践价值。在设计大型语言模型时,团队可以根据最终应用场景来选择合适的预训练策略。如果目标是构建一个需要强推理能力的系统,那么采用精确导向的预训练可能会带来更好的最终效果,即使这可能意味着在预训练阶段牺牲一些表面上的多样性。
这项研究还对计算资源的分配提供了新的洞察。传统观点认为,增加训练数据的多样性总是有益的,但这项研究表明,在某些情况下,将计算资源集中在高质量的精确预测上可能更加有效。这对于资源有限的研究团队和公司来说具有重要的成本优化意义。
此外,研究结果对于理解不同规模模型的行为也很有帮助。研究发现,精确导向策略的优势随着模型规模的增大而增强,这为大型模型的训练策略设计提供了指导。小型模型可能仍然受益于传统的多样性导向方法,而大型模型则更适合精确导向的训练策略。
从更广阔的角度来看,这项研究也为我们理解人工智能的学习机制提供了新的视角。它表明,AI系统的学习过程可能与人类的直觉存在根本性差异。人类学习往往受益于探索多样性,但AI系统可能需要更加结构化和集中的学习环境才能发挥最佳性能。
说到底,这项由腾讯和香港中文大学联合完成的研究为我们重新思考AI训练提供了全新角度。它挑战了关于学习中多样性价值的传统假设,展现了在某些关键时刻,约束和精确性反而能够释放更强大的学习潜力。这不仅是一个技术突破,更是对AI学习本质的深刻洞察,必将影响未来语言模型的设计和开发方向。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2512.22955v1查询完整的研究报告。
Q&A
Q1:什么是奖励塑形策略,它如何改进传统的语言模型训练方法?
A:奖励塑形策略是一种创新的训练方法,它重新设计了模型学习时的奖励机制。传统方法只是简单地对正确答案给最高奖励,对错误答案给零奖励。新策略则通过参数β控制对正确答案的奖励强度,同时区分对待不同类型的错误答案,对高排名但错误的词汇给予适度奖励,对明显不合适的词汇进行惩罚。
Q2:为什么精确导向的预训练策略比多样性导向策略表现更好?
A:实验发现,精确导向策略能让模型将学习资源集中在最有希望的方向上,避免在无意义的选择上浪费注意力。虽然这看起来限制了多样性,但实际上创造了更有效的探索空间。在强化学习阶段,这些模型表现出更好的稳定性,能够保持稳定的推理能力增长,而多样性导向的模型容易出现早期性能崩塌。
Q3:这项研究对实际AI应用开发有什么指导意义?
A:这项研究为AI开发团队提供了重要的策略选择指导。对于需要强推理能力的AI系统,采用精确导向的预训练策略可能带来更好效果。研究还表明大型模型比小型模型更适合精确导向策略,这对计算资源分配和模型规模选择具有实践价值,帮助团队在资源有限的情况下做出更明智的技术决策。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。