微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

大模型不再"想"得太多：字节跳动AdaCoT通过强化学习实现自适应思维链

人工智能强化学习大型语言模型

大模型不再"想"得太多：字节跳动AdaCoT通过强化学习实现自适应思维链

作者：科技行者

2025-05-22 14:00

分享至：

这篇研究介绍了字节跳动团队开发的AdaCoT框架，通过强化学习实现大型语言模型的自适应思维链触发。该框架将问题设计为帕累托优化，平衡推理质量与计算效率，使模型能根据输入复杂度自主决定是否使用详细推理。研究结果显示，在维持高性能的同时，AdaCoT能将思维链使用率降低至3.18%，响应令牌数减少约70%，大幅提升模型效率和用户体验。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-22 14:00 • 科技行者

近日，字节跳动Seed团队发表了一项重要研究，提出了名为AdaCoT的创新框架，旨在解决大型语言模型(LLM)在使用思维链(Chain-of-Thought, CoT)推理时的效率问题。这项研究由字节跳动Seed团队的娄晨伟、孙泽威、梁信年等研究人员共同完成，发表于2025年5月20日，论文标题为《AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning》，可通过www.volcengine.com查阅完整内容。

大模型的思考困境：为何需要"按需思考"？

想象一下，如果你每次回答问题，无论简单还是复杂，都要详细写下你的思考过程，那会是多么低效。例如，当有人问你"1+1等于几"时，你可能会直接回答"2"，而不会写下"我先拿1个苹果，再拿1个苹果，然后数一数总共有几个苹果"这样的思考过程。但如果有人问你"342×78等于多少"，你可能就需要列出计算步骤了。

大型语言模型(LLM)面临着类似的困境。虽然思维链提示(CoT prompting)技术大大提高了模型的推理能力，让它们能够像"写出思考过程"一样，分步骤解决复杂问题，但这种方法存在明显缺点：模型会对所有问题都生成详细的推理步骤，即使是简单的问题也不例外。这不仅浪费计算资源，还降低了模型的响应速度。

字节跳动Seed团队的研究人员在论文中指出，理想情况下，模型应该能够自行判断何时需要详细思考，何时可以直接回答。例如，对于"1+1等于几"这样的简单问题，模型应该能够直接给出答案；而对于需要多步骤推理的复杂问题，再使用详细的思维链分析。这就是AdaCoT（Adaptive Chain-of-Thought，自适应思维链）框架的核心思想——让模型能够根据问题的复杂性自适应地决定是否使用思维链。

AdaCoT：兼顾效率与性能的帕累托最优解

AdaCoT框架的核心在于将自适应推理问题设计为一个帕累托优化问题。什么是帕累托优化？打个比方，这就像你在选择手机时，既想要电池续航长，又想要价格便宜。这两个目标通常难以同时达到最优，需要在它们之间做出权衡。在AdaCoT中，研究团队需要在推理性能和计算成本这两个相互竞争的目标之间找到最佳平衡点。

具体来说，AdaCoT的优化目标可以表示为：

1. 最大化模型性能（让回答尽可能准确） 2. 最小化思维链的使用率（避免不必要的计算开销）

研究团队提出了基于强化学习的方法，特别是使用近端策略优化(PPO)算法，通过调整惩罚系数动态控制思维链触发的决策边界。这使得模型能够根据查询的隐含复杂性判断是否需要使用思维链。

想象一下这个过程：模型就像一个学习判断问题难度的学生。刚开始，它通过监督学习（SFT）获得基本判断能力。然后，通过强化学习（RL），它不断调整自己的判断标准。当它对简单问题使用了不必要的思维链时，会受到"浪费时间"的惩罚；当它对复杂问题没有使用思维链而导致回答错误时，又会受到"回答质量差"的惩罚。通过这样的训练，模型逐渐学会了何时该"深思熟虑"，何时可以"直接作答"。

技术挑战：决策边界崩溃问题

在实现AdaCoT的过程中，研究团队面临一个重要技术挑战：决策边界崩溃问题。

这个问题是什么呢？设想有一个学生正在学习判断什么题目需要列出解题步骤，什么题目可以直接写答案。如果他只接触到数学竞赛题这样的难题，可能会养成"所有题目都要列步骤"的习惯；相反，如果他只遇到简单的加减法，可能会倾向于"从不列步骤"。这就是决策边界崩溃——模型在某些训练数据分布下，可能会失去判断能力，要么总是触发思维链，要么完全不使用思维链。

为了解决这个问题，研究团队提出了一种名为"选择性损失掩蔽"(Selective Loss Masking, SLM)的技术。简单来说，这个方法在容易导致决策边界崩溃的训练阶段（如数学专注的RL阶段），通过选择性地屏蔽对"决策令牌"的损失贡献，保持先前学习到的自适应触发能力。

这就像教导那个学生："即使你现在遇到的都是难题，也不要忘记之前学到的判断标准，不是所有题目都需要列步骤的。"这样，模型就能在面对各种不同偏向的训练数据时，保持健康的判断能力。

实验与结果：显著降低计算成本的帕累托前沿

研究团队对AdaCoT进行了广泛的实验评估，结果令人印象深刻。他们使用了15个广泛采用的基准测试集来评估模型的整体性能，并创建了一个包含1000个提示的高质量平衡测试集，专门评估CoT触发决策。

主要实验结果包括：

1. AdaCoT RL模型有效地追踪帕累托前沿，实现了性能与CoT使用率之间的最佳权衡。例如，AdaCoT RL Exp2模型以53.3%的CoT触发率实现了62.8%的平均得分，接近全CoT RL基线的65.0%分数，但CoT使用率减少了近一半。

2. 在生产环境测试集中，AdaCoT展现出了更显著的效率提升。AdaCoT RL Exp2模型在移动端的CoT触发率低至3.18%，平均响应令牌数减少了69.1%；在PC端的CoT触发率为12.5%，平均响应令牌数减少了70.6%。

3. 通过"始终使用CoT"系统提示控制，AdaCoT RL模型能够实现与专用全CoT RL基线相当甚至略高的性能，证明适应性训练不会限制模型的峰值推理能力。

这些结果就像表明，一个聪明的学生不仅学会了何时需要列出解题步骤，何时可以直接给出答案，而且在需要时，他展示步骤的质量丝毫不逊于那些总是列出步骤的同学。更重要的是，通过减少不必要的步骤展示，他能够更快完成更多题目，效率大大提高。

元推理：为决策增加思考层

研究团队还探索了一种名为"元推理"(meta-reasoning)的创新方法，进一步提升AdaCoT的CoT触发决策能力。

这种方法是什么呢？想象一个学生在解题前先简短评估题目难度："这道题目看起来很简单，我可以直接回答"或"这道题目比较复杂，我需要仔细思考"。这就是元推理的核心思想——模型首先生成对输入查询复杂性的简短内部评估，然后再决定是否进行完整的CoT推理。

在日常使用测试集上，添加元推理的AdaCoT SFT模型的F1分数从0.750提高到0.840，表明元推理显著提升了模型的判断准确性。

有趣的是，研究人员还发现元推理使模型获得了对CoT的用户提示控制能力。用户可以在他们的提示中包含明确的暗示，如"请逐步思考"来鼓励CoT，或"给出直接答案"来避免使用CoT。虽然这种控制能力并不完美，但它为开发更具交互性和用户引导的推理系统开辟了一条有希望的道路。

然而，元推理也有缺点。每次查询都增加了额外的令牌生成，考虑到实际生产环境中AdaCoT模型非常低的CoT触发率，这些额外的元推理步骤会造成可观的累积令牌成本。因此，研究团队在随后的RL实验中没有采用这种方法，但它仍然是一个值得未来研究的方向。

研究意义与未来方向

AdaCoT研究的意义远超单纯的计算效率。通过让大型语言模型能够根据问题复杂性"按需思考"，研究团队不仅降低了部署成本，还提升了模型响应速度，这对于交互式应用尤为重要。

想象一下，一个虚拟助手可以在回答简单问题时立即给出答案，而在面对复杂问题时会深入思考。这种能力不仅提高了用户体验，也使AI系统在资源受限的环境中更具实用性。

同时，研究人员也坦诚地指出了AdaCoT框架的一些局限性。例如，最佳的CoT触发策略与基础模型的能力相关，需要为不同的LLM重新校准；当前的二元CoT触发（开/关）简化了连续的推理深度和风格光谱，可能限制了细微差别；领域泛化性仍然是一个挑战，因为CoT必要性在知识领域之间可能有很大差异；此外，框架目前缺乏用户个性化偏好。

未来研究方向包括更细粒度的推理控制，如自适应推理长度（模型动态调整详细程度），或更加细致的触发机制，超越简单的二元决策。研究团队相信，这些努力对于开发更加复杂和高效的推理策略至关重要。

AdaCoT的设计考量与实现细节

AdaCoT的训练流程由三个主要阶段组成：

首先是数据准备和监督微调(SFT)作为热身阶段。研究团队利用一个辅助模型，根据预定义的原则（如查询复杂性、预期推理深度、领域等）标记查询为"可能从CoT受益"或"可能适合直接回答"。在他们的实现中，使用了一个内部15B参数模型生成这些注释，但该框架与模型无关。对于标记为受益于CoT的查询，响应保留完整的推理过程：reasoning_stepsanswer。对于标记为不需要CoT的查询，响应省略显式推理但保持结构一致性：answer。SFT阶段使模型具备了区分这两种响应风格的基础能力。

第二阶段是强化学习(RL)阶段，关键在于调整AdaCoT的自适应推理能力。研究团队设计了一个奖励函数：R(x, r) = Rbase(x, r) - α1·Pmiss(x, r) - α2·Pover(x, r) - γ·Pfmt(r)，其中Rbase(x, r)是反映响应质量的基础奖励，Pmiss(x, r)是推理遗漏的二元惩罚，Pover(x, r)是推理过度使用的二元惩罚，Pfmt(r)是格式错误的二元惩罚，α1、α2、γ是非负惩罚系数。通过调整α1和α2，研究者可以引导AdaCoT走向帕累托前沿上的不同点，探索性能与效率的不同平衡。

AdaCoT的RL过程分为两个阶段：首先是数学专注的RL阶段(RL-Math)，集中于复杂、规则可验证的问题；其次是通用领域RL阶段(RL-General)，结合更广泛的数据和训练奖励模型。为了防止在数学专注阶段出现决策边界崩溃，研究团队应用了选择性损失掩蔽(SLM)。在通用领域阶段，他们系统地改变惩罚系数，训练了四个不同的模型变体(Exp1-Exp4)，代表帕累托前沿上的不同点。

研究结果的深入分析

AdaCoT的实验结果不仅证明了其在效率和性能之间取得了良好平衡，还揭示了一些有趣的见解。

在日常使用测试集上的CoT触发性能评估中，AdaCoT SFT模型本身就表现出强大的自适应触发能力。RL-Math阶段不使用SLM的结果明显表明决策边界崩溃的严重性：模型默认触发CoT(召回率=1.0)但精度低(0.503)，导致整体准确率低(0.506)。应用SLM后，模型有效保持了在SFT期间学到的自适应能力，维持高精度(0.938)并实现显著更好的准确率(0.813)。

最终的AdaCoT RL模型(Exp1-4)展示了如何通过调整RL惩罚系数微调决策边界。例如，AdaCoT RL Model Exp2在日常使用测试集上实现平衡的F1分数0.814，在15个基准测试集上取得62.8%的平均分数，仅使用53.3%的CoT触发率。

特别令人印象深刻的是，在系统提示控制下使用"始终推理"模式时，AdaCoT RL模型实现了与全CoT RL基线相当甚至略高的性能。这证明了一个重要优势：AdaCoT的自适应训练，虽然旨在优化性能成本帕累托前沿，但并不限制模型的峰值推理能力。当需要全面推理时，模型仍然保持高水平的性能。

另一个有趣的观察来自SFT阶段，关于长形式生成（高达32,000个令牌）。在"始终推理"系统提示的指导下，AdaCoT SFT模型比标准全CoT SFT基线表现出更少的提前输出截断，对不良生成循环的抵抗力也更强。研究团队推测，这种改进源于AdaCoT的多样化SFT数据，其中包含许多非CoT示例，导致平均训练样本长度更短，可能为结束序列(EOS)令牌提供更强的学习信号。

总结：思考需要成本，高效思考创造价值

回顾AdaCoT研究，我们可以看到它很好地解决了大型语言模型在推理过程中的一个根本效率问题。通过让模型能够自适应地决定何时进行详细推理，AdaCoT不仅大幅降低了计算成本和响应时间，还保持了高质量的推理能力。

这项研究让我们想起艾萨克·阿西莫夫的一句话："思考本身是一种活动，需要花费能量和资源。"在人工智能日益融入我们日常生活的时代，像AdaCoT这样的技术创新对于构建既智能又高效的AI系统至关重要。

特别是在资源受限或对响应时间要求严格的场景，如移动设备上的AI助手或实时交互系统，AdaCoT的自适应推理能力可能带来显著的用户体验改善。同时，通过将算法决策框架化为帕累托优化问题，研究团队为类似的AI效率挑战提供了一个有价值的方法论模板。

展望未来，AdaCoT开辟的自适应推理领域还有广阔的探索空间。更细致的推理控制、更深入的用户个性化、更广泛的应用场景，都是值得期待的发展方向。对于希望深入了解这项研究的读者，论文全文可以在www.volcengine.com上找到。

人工智能强化学习大型语言模型

分享至