微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 拆解断点思维链:大模型推理效率革命 - 阿姆斯特丹大学与Salesforce AI联合研究

拆解断点思维链:大模型推理效率革命 - 阿姆斯特丹大学与Salesforce AI联合研究

2025-05-22 08:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:22 科技行者

在人工智能快速发展的当今,大语言模型(LLM)的推理能力让人惊叹,但也面临着一个现实问题:高效率的推理需要消耗大量计算资源。2025年5月,来自阿姆斯特丹大学和Salesforce AI研究团队的Baohao Liao、Hanze Dong、Yuhui Xu、Doyen Sahoo、Christof Monz、Junnan Li和Caiming Xiong发表了一篇题为《Fractured Chain-of-Thought Reasoning》(断点思维链推理)的研究论文,提出了一种革命性的方法来解决这个难题。这篇发表在arXiv(arXiv:2505.12992v1)上的研究向我们展示了如何在不降低模型推理质量的情况下,大幅降低计算资源消耗。

想象一下,你正在解决一道复杂的数学问题。传统方法就像是一步步写下完整的解题过程,从头到尾不漏掉任何细节,这当然能得到正确答案,但需要写很多步骤。而这篇研究提出的方法则更像是"聪明地偷懒":你可能只需写下关键的几个步骤,然后直接跳到最终答案,却依然能得到正确结果。

研究团队首先做了一个令人惊讶的发现:当大语言模型在使用"思维链"(Chain-of-Thought,简称CoT)方法进行推理时,完整的思考过程实际上并不总是必要的。他们发现,如果在思考过程中途截断并直接生成最终答案,模型依然能够保持很高的准确率,甚至在某些情况下表现得更好!这一发现直接挑战了我们对"更多思考总是更好"的常规认知。

基于这一发现,研究团队提出了"断点采样"(Fractured Sampling)框架,这是一种在推理时能够灵活调整计算资源分配的策略。它沿着三个不同的维度来分配计算资源:思考轨迹的数量(不同的解题路径)、每条思考轨迹产生的最终解答数量,以及思考轨迹被截断的深度。通过在这三个维度上进行灵活调整,研究人员找到了一种在准确率和计算成本之间的最优平衡点。

这项研究在五个具有挑战性的推理基准测试(包括MATH500 L5、AIME24、AIME25、AIMO2和GPQA)上进行了大量实验,并使用了不同规模的模型进行验证。结果表明,断点采样方法能够以显著更低的计算成本实现与传统方法相当甚至更好的性能。具体来说,对于固定的计算预算,断点采样能够实现更陡峭的对数线性提升,每增加一点计算资源就能获得更多的性能提升。

这项研究的意义远不止于学术层面。在现实世界中,计算资源是昂贵的,尤其是当我们需要在对延迟敏感的应用场景中部署大语言模型时。通过断点采样方法,我们可能能够以更低的成本部署更强大的AI系统,使高效能的AI推理变得更加普及和经济实惠。

接下来,让我们深入了解这项研究的具体细节,看看断点思维链推理是如何在不牺牲性能的前提下大幅降低计算成本的。

一、研究背景:推理时的计算困境

大语言模型(LLM)近年来在复杂推理和问题解决方面取得了令人印象深刻的进步。像GPT-4、Claude 3.5和Gemini等模型能够解决复杂的数学问题、进行逻辑推理,甚至在某些专业领域展现出接近人类专家的能力。

然而,这些惊人能力的背后隐藏着一个巨大的计算成本问题。想象一下,如果大语言模型是一位聪明的学生,那么"思维链"(Chain-of-Thought,CoT)方法就像是要求这位学生在解答问题时写下所有的思考步骤,而不仅仅是最终答案。这种方法确实提高了问题解答的准确性,但也大大增加了计算成本。

特别是近期发展起来的"长思维链"(Long Chain-of-Thought,Long-CoT)技术,它鼓励模型生成更长、更多样化的推理轨迹,包括自我反思和自我纠正等环节。虽然这种方法在准确性和鲁棒性方面带来了显著提升,但也导致了计算成本的激增。一个典型的Long-CoT推理过程可能需要生成数千个额外的标记(tokens),使得推理成本急剧上升。

情况在使用"自一致性解码"(self-consistency decoding)等推理时扩展技术时变得更为严峻。这些技术通过生成多个独立的推理路径并进行多数投票来提升准确性,但当与Long-CoT结合使用时,计算负担常常达到实际应用难以承受的水平。

研究团队敏锐地提出了一个关键问题:我们能否保留Long-CoT推理的优势,同时避免其全部计算成本?这个问题直接挑战了一个普遍假设:完整的思维链对于准确推理是必不可少的。

二、断点思维链:打破推理成本天花板

研究团队进行了一个简单但富有洞察力的实验,结果令人惊讶:当他们在思考过程的中间位置截断,然后直接让模型给出最终答案时,模型的准确率不仅没有下降,在许多情况下还有所提高!

想象一下,这就像是一个聪明的学生在解决数学问题时,写下了开始的几个关键步骤后,就能直接"跳"到正确答案,而不需要详细写出中间的所有过程。这一发现直接挑战了"更多思考总是更好"的传统观念。

图1中的实验结果清晰地展示了这一现象:在五个不同的推理基准测试上,使用截断的思维链方法(图中的橙色虚线)在相同的最大令牌限制下,能够达到甚至超过完整思维链采样(图中的蓝色实线)的准确率。更重要的是,截断方法使用的令牌数量大大减少,意味着更低的计算成本。

基于这一发现,研究者提出了"断点采样"(Fractured Sampling)框架,这是一种统一的推理时策略,可以在完整思维链和仅输出解答之间灵活调整。如图2(a)所示,断点采样在三个正交维度上进行探索:

1. 思考轨迹数量(n维度):生成多少条不同的推理路径 2. 解答多样性(m维度):针对每条推理路径生成多少个最终答案 3. 思考前缀长度(H维度):在哪个深度截断每条思维链

图2(b)进一步揭示了一个关键事实:在总体令牌计数中,思考步骤(蓝色)占据了绝大部分,而最终解答(橙色)的贡献微乎其微。这意味着优化思考深度和广度有巨大的效率提升空间。

三、断点采样的原理与优势

要理解断点采样的工作原理,我们需要首先理解大语言模型进行推理的过程。传统的CoT方法可以表示为:模型先生成一系列推理步骤 h = [h?, ..., h?] = f?(x, ε),其中x是输入提示,ε是随机种子;然后基于这些推理步骤生成最终答案 z = f?(x, h, ε)。

在研究团队提出的框架中,模型可以使用部分推理轨迹(只到第t步)来生成答案。具体来说,部分推理轨迹可以表示为 h?:? = [h?, ..., h?] = f??(x, ε)。断点采样的核心思想是:在推理过程的不同阶段采样响应,而不仅仅是在完整轨迹结束时。

这种方法提供了两个主要优势:

1. 粒度聚合:通过整合中间推理步骤,能够及早检测结论并避免过度思考,提高最终预测的一致性。

2. 增强多样性:多层次采样机制鼓励更广泛的推理轨迹。通过聚合这些路径,产生的共识对个别失误更具韧性。

断点采样在三个正交轴上操作:

- m轴:解答多样性 - 从单个推理轨迹采样多个最终输出 - n轴:轨迹多样性 - 使用不同种子采样多个独立推理轨迹(传统的CoT采样) - H轴:推理深度多样性 - 在单个推理轨迹的不同中间阶段进行采样(断点采样的独特之处)

这三维框架使得我们能够精细地探索成本-性能的权衡空间。虽然m和n在输出或完整轨迹层面提供了多样性,但H维度独特地捕捉了推理的时间演化,提供了早期、多样化且高效的决策点。

四、断点采样的理论基础

从理论角度看,断点采样的有效性可以从多样性角度进行解释。研究团队提出了"多样性下界"理论,表明通过在不同轨迹和中间步骤上分布样本,断点采样能够利用多样化的错误模式来提高整体成功率。

简单来说,如果不同采样位置的失败事件不倾向于同时发生(即它们的错误模式是多样化的),那么至少有一个样本成功的概率就会显著提高。数学上,这可以通过失败指标之间的负协方差来表达 - 当一个采样位置失败而另一个成功的趋势越强,整体成功率就越高。

图3展示了不同推理深度位置之间的失败指标相关矩阵。矩阵中的粉色区域(负相关)表明,在一个深度位置失败的情况通常不会与另一个深度位置的失败同时发生。这种错误模式的多样性正是断点采样所利用的,通过在中间阶段分散样本,它能够解相关错误模式,从而显著降低所有样本同时失败的概率。

某些基准测试(如GPQA)表现出更强的负对角线结构,意味着它们从断点采样中获得的收益更大,这与实验结果相符。

五、实验结果:断点采样的强大效能

研究团队在五个具有挑战性的数学和科学推理基准上进行了大量实验:MATH500 Level 5(L5)、AIME24、AIME25-I、AIMO2和GPQA Diamond集。他们使用了多个模型进行验证,主要关注DeepSeek-R1系列,并进一步用Qwen3、Skywork-OR1和DeepScaler模型验证结果。

每个基准测试侧重于不同类型的复杂推理,从高级数学问题到科学知识评估。实验设置为n=16(思考轨迹数量),H=16(每个轨迹划分为16个相等的段),m=4(每个前缀生成4个答案)。

### 1. 各维度的扩展规律

图4展示了在固定计算预算下,三种采样方案的pass@k(至少一个正确预测的概率)与总令牌数的关系。在所有基准和模型规模上,断点采样(H轴,橙色虚线)显示出最陡峭的对数线性增益。

研究者为每个维度拟合了一个扩展规律: pass@k(B*) ≈ C* log B* + c*,其中 * ∈ {n, m, H}

实验一致观察到CH ≥ max{Cn, Cm},这证实了将预算分配给中间步骤分支比单纯采样更多独立轨迹或更多最终答案能获得更高的边际回报。

这些结果表明,断点采样能够捕获中间推理状态中丰富但未被充分利用的变化,使模型能够"及时纠正"并避免陷入错误轨迹。这导致:(1)早期高回报:在小预算情况下,H维度采样比n或m维度产生更陡峭的准确率提升;(2)持续优势:H曲线与其他曲线之间的差距在所有预算下都保持稳定;(3)任务相关效应:错误相关性较低的基准测试(如GPQA)从断点采样中获得的改进最大。

### 2. 跨维度的扩展规律

图5对比了四种代表性方案,它们在解答(m)和深度(H)维度同时分配预算,同时n轴扫描至16: 1. (H=1, m=1):标准单路径CoT采样(基线) 2. (H=1, m=4):为每条轨迹增加4个最终答案 3. (H=16, m=1):跨16个深度的断点采样,每个深度一个答案 4. (H=16, m=4):完整的三轴采样(深度断点和多个最终答案)

在每个任务和模型上,非基线方案(除(H=1, m=4)外)在固定预算下都优于(H=1, m=1)。更重要的是,扩展H通常比扩展m更有效。这些多轴扩展规律表明,在相同令牌预算下,最高效的计算分配方式是在时间分支H上分配令牌,在某些情况下最终解答复制m也有效。

### 3. 最佳N选择跨维度比较

为了进一步考察断点采样的效果,研究团队使用了流程奖励模型(PRM)——具体是Qwen2.5-Math-PRM-72B,在三个采样轴中识别正确解答。

表1显示,使用H=1, m=4进行采样相比标准设置H=1, m=1略有改进(61.6%对60.4%)。有趣的是,仅增加H维度到H=16, m=1也带来了轻微改进(61.4%对60.4%)。

研究者假设将所有H=16生成的解答全部纳入可能引入过多噪声,使PRM难以正确识别最优解答。基于图6的观察——后期推理位置(更高的H索引)与更高的准确率相关——他们应用了一个简单的降噪策略:丢弃早期解答(H=1到H=11)并只保留最后四个(H=-4)。

这个简单调整显著提升了性能,将准确率从61.4%(H=16, m=1)提高到68.0%(H=-4, m=1)。进一步结合两个维度(H=-4, m=4)获得了70.8%的准确率,比基线设置(H=1, m=1)提高了10.4%。值得注意的是,这一配置甚至优于具有两倍参数数量的更大模型的标准采样(70.8%对68.3%)。

### 4. 高效生成的早停策略

从推理效率角度出发,研究团队探索了是否可以利用H维度上预测的一致性进行早停。具体来说,如果某个特定预测在多个H位置上频繁出现(超过预定阈值),则视为提前终止生成的信号,从而减少计算成本。

如图6所示,早期位置的预测准确率往往较低。为平衡计算效率和准确率,研究者实验性地将第一个H位置初始化在令牌索引6144,然后每隔2048个令牌评估一次预测。一旦同一预测出现多次或达到最大令牌限制,生成就会终止。

如表2所示,这种早停策略在保持模型准确率的同时,在某些情况下还有所提高——对DeepScaleR-1.5B-Preview实现了2.9%的提升。在计算效率方面,早停策略比标准生成减少了约20%的生成令牌数。值得注意的是,这种方法实现简单,不需要额外训练。

六、断点采样:推理效率的新时代

这项研究揭示了断点思维链推理的强大潜力。通过系统地权衡成本和性能,研究团队提出的断点采样框架为高效推理打开了新的可能性。

关键是,断点采样不仅仅是一种技术优化,它代表了对AI推理过程本质的重新思考。传统观点认为,完整的推理过程对准确解答至关重要,但研究结果表明,模型实际上可以在很早的阶段就锁定正确方向,完整的推理有时反而是多余的。

这种认识对于AI系统的实际部署具有重大意义。在对延迟敏感的应用中,如在线客服、实时决策系统或移动设备上的AI助手,计算资源和响应时间都是宝贵的。断点采样提供了一种可以显著减少这些成本而不牺牲性能的方法。

更广泛地说,这项研究表明,通过更深入理解大语言模型的内部推理动态,我们可以设计更高效的推理策略。它挑战了"更多计算总是更好"的简单假设,转而倡导更精细、更有针对性的计算资源分配。

未来的研究方向可能包括:将断点采样与其他推理时优化技术(如推测解码)结合;开发更复杂的断点策略,可能基于内容而非仅仅基于位置;以及探索不同类型任务的最佳断点配置。

总而言之,断点思维链推理代表了一个令人兴奋的方向,有可能使强大的AI推理能力更加普及和实用化。通过更智能地使用计算资源,而不是简单地增加它们,我们可以构建更经济、更高效、更环保的AI系统。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-