微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯团队破解AI推理"探索枯竭"难题:低概率"推理火花"原来是关键

腾讯团队破解AI推理"探索枯竭"难题:低概率"推理火花"原来是关键

2025-11-12 10:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-12 10:11 科技行者

当你和朋友聊天时想要换个话题,可能会突然冒出"等等"、"不过"这样的词汇,这些看似随意的表达其实在悄悄引导着对话的方向。令人惊讶的是,人工智能在进行数学推理时也有类似的现象。腾讯LLM部门的研究团队最近发现,那些在AI生成过程中出现概率很低的特定词汇,竟然是维持AI持续思考和探索新思路的关键所在。

这项由腾讯LLM部门的黄冠华、徐廷强等研究人员领导的研究发表于2025年10月,论文编号为arXiv:2510.03222v1。研究团队包括来自清华大学、北京大学和香港中文大学的学者,有兴趣深入了解的读者可以通过该编号查询完整论文。他们的发现不仅解决了一个困扰AI训练领域已久的技术难题,更为我们理解AI如何进行创造性思维提供了全新视角。

**一、AI推理训练遭遇的"思维枯竭"困境**

想象你正在教一个学生解数学题。起初学生很有创造力,会尝试各种不同的解题思路,但随着练习的进行,学生逐渐变得墨守成规,只会用最安全、最常见的方法,再也不愿意尝试新的解题路径。这就是目前AI推理训练中面临的核心问题。

在强化学习与可验证奖励(RLVR)的训练过程中,AI模型会像学生一样逐渐失去探索精神。具体表现为"策略熵"的快速衰减,说人话就是AI的创造性和多样性急剧下降,最终导致性能停滞甚至崩溃。这种现象就像一个原本思维活跃的学生,慢慢变成了只会照本宣科的机器人。

以往的研究团队试图通过各种方法来维持AI的"思维活跃度",比如强制增加输出的随机性,或者限制某些更新操作。然而这些方法就像是给一个已经失去创造力的学生喝咖啡提神,治标不治本,甚至可能让情况变得更糟。

**二、"推理火花"的惊人发现**

腾讯研究团队通过深入分析发现,问题的根源在于一类被他们称为"推理火花"的特殊词汇正在被系统性地消除。这些推理火花包括"等等"、"不过"、"也许"等看似不起眼但实际上具有重要作用的词汇。

这些词汇的特点是出现概率很低,但功能非常重要。它们就像思维的转折点,能够引导AI从一种思路转向另一种思路,开启全新的推理路径。比如当AI在解数学题时遇到困难,出现"等等"这个词往往意味着它要重新审视问题,尝试不同的解题角度。

研究团队通过大量数据分析发现了一个惊人的规律:在未经训练的原始模型中,这些推理火花词汇丰富多样,但在RLVR训练过程中,它们会被逐步"熄灭"。原因是训练算法倾向于惩罚那些导致错误答案的路径,而推理火花词汇因为引导AI探索未知领域,经常与错误答案相关联,因此被过度惩罚。

更有趣的是,研究团队发现,简单地增加输出随机性不仅无法解决问题,反而会放大无关噪声。这就像是为了让学生更有创造力而让他们随机说话,结果只会产生更多无意义的内容,而真正有价值的创新思路依然被埋没。

**三、巧妙的"低概率正则化"解决方案**

面对这个复杂问题,研究团队开发了一种名为"低概率正则化"(Lp-Reg)的创新方法。这种方法的核心思想非常巧妙:既要保护有价值的推理火花,又要避免放大无关噪声。

他们的策略可以比作一个精明的园丁。传统方法就像是为了保护花朵而给整个花园浇水,结果花朵没保住,杂草却疯长。而Lp-Reg方法则像是一个会识别的园丁,能够区分哪些是珍贵的花朵(推理火花),哪些是无用的杂草(噪声),然后精准地保护花朵,清除杂草。

具体来说,Lp-Reg首先构建一个"过滤器",通过概率阈值筛选掉那些被认为是噪声的低概率词汇。这个过滤器基于一个重要观察:在低概率范围内,有意义的探索性词汇(如"等等")的平均概率始终高于无关噪声词汇(如"成本")。

接下来,系统会重新分配被过滤词汇的概率质量给剩余的候选词汇,创建一个"去噪代理分布"。在这个新分布中,有价值的推理火花词汇的相对概率被放大,而噪声被抑制。

最后,通过前向KL散度,系统对偏离这个代理分布的行为进行惩罚,从而有选择地保护那些在去噪分布中被保留的低概率词汇。这种方法既保护了推理火花,又避免了强制模型严格模仿启发式目标分布的问题。

**四、突破性的实验结果**

实验结果令人振奋。研究团队在五个广泛使用的数学基准测试中验证了Lp-Reg的效果,包括AIME24、AIME25、MATH-500、OlympiadBench和Minerva Math等。

在Qwen3-14B-Base模型上,Lp-Reg实现了60.17%的平均准确率,比之前最好的方法提高了2.66%。更重要的是,该方法能够支持稳定的在线策略训练长达约1000步,而在这个训练阶段,许多基于熵控制的方法已经崩溃。

实验还揭示了一个有趣现象:Lp-Reg呈现出一种动态的、多阶段的熵轨迹。训练初期,熵会下降,因为模型在学习核心推理模式;随着性能改善,熵逐渐增加以促进探索;最终在健康范围内稳定下来。这种适应性行为源自置信度感知的正则化,它有选择地保护推理火花,而不放大低概率的无关噪声。

研究团队还进行了详细的对比分析,发现传统的高熵正则化方法往往导致人工的、持续的熵增加,而Lp-Reg则实现了更自然、更有效的探索-利用平衡。

**五、深层机制的科学洞察**

为了理解Lp-Reg成功的深层原因,研究团队进行了细致的机制分析。他们发现,低概率词汇和高熵词汇之间存在根本性差异。

通过词云统计分析,研究人员发现低概率词汇中频繁包含有意义的探索性标记,如"但是"、"等等"、"也许"、"或者"等,这些词汇经常标志着推理轨迹的转变。相比之下,高熵词汇主要由常见的功能性术语(如"sqrt"、"times")或格式化符号(如换行符)组成,它们几乎没有探索性意图。

更深入的分析显示,在标准GRPO训练下,推理火花词汇被限制在低熵、高概率区域,这意味着它们只在模型已经非常确信时才出现,失去了引导不确定性探索的功能。而添加熵损失虽然改变了这种行为,但方式不受控制,导致一些推理火花词汇出现在极高熵水平,产生的多样性缺乏有用的探索信号。

Lp-Reg方法则实现了更平衡的动态效果。推理火花词汇在从高概率到低概率的广泛熵值范围内被采样,这种平衡防止了它们在负反馈下的概率崩溃,同时保持了它们对推理的信息性贡献。

**六、对AI发展的重要意义**

这项研究的意义远超技术层面的改进。它揭示了AI系统中一个previously overlooked但极其重要的现象:看似微不足道的低概率词汇实际上承载着维持AI创造性思维的重要功能。

这一发现挑战了传统上关于AI训练的一些假设。以往人们认为提高整体熵(增加随机性)就能改善探索能力,但这项研究证明,关键不在于增加整体的随机性,而在于精准地保护那些具有特殊功能的低概率元素。

从更广泛的角度来看,这项研究为我们理解复杂AI系统的内在机制提供了新的视角。它表明,AI的"思维过程"比我们想象的更加精妙,那些看似不重要的细节可能恰恰是整个系统正常运转的关键。

此外,该研究还为未来的AI训练方法指明了方向。传统的训练方法往往采用"一刀切"的策略,而这项研究展示了精细化、有针对性的训练策略的重要性。未来的AI训练可能需要更多地考虑不同类型tokens的特殊功能,而不是简单地追求整体性能指标。

说到底,这项研究告诉我们,AI的智能不仅体现在它能生成正确答案,更体现在它能保持探索未知的能力。那些低概率的"推理火花"就像人类思维中的灵感闪现,虽然罕见,但正是它们让AI能够突破固有思维模式,产生真正的创新。腾讯团队的这一发现,不仅解决了一个具体的技术问题,更为我们理解和改进AI的创造性思维能力开辟了新的道路。对于那些关心AI如何变得更聪明、更有创造力的人来说,这无疑是一个重要的里程碑。

Q&A

Q1:什么是推理火花?它们在AI思考中起什么作用?

A:推理火花是指AI在推理过程中出现概率很低但功能重要的词汇,如"等等"、"不过"、"也许"等。这些词汇就像思维的转折点,能够引导AI从一种思路转向另一种思路,开启全新的推理路径,是维持AI探索精神和创造性的关键要素。

Q2:低概率正则化方法是如何保护推理火花的?

A:低概率正则化方法通过构建智能过滤器,首先识别并过滤掉无意义的噪声词汇,然后重新分配概率质量给有价值的推理火花词汇,最后通过KL散度惩罚来保护这些重要的低概率词汇不被训练过程消除。这就像一个精明的园丁,能够区分珍贵花朵和无用杂草,精准保护有价值的内容。

Q3:这项研究对AI发展有什么重要意义?

A:这项研究揭示了AI创造性思维的重要机制,表明维持AI探索能力的关键不是增加整体随机性,而是精准保护具有特殊功能的低概率元素。它挑战了传统AI训练的假设,为开发更智能、更有创造力的AI系统指明了新方向,特别是在需要复杂推理的任务中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-