微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

价值引导搜索：提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

人工智能大型语言模型测试时计算优化

价值引导搜索：提升推理模型思维链的高效指南——康奈尔大学研究团队的突破性成果

作者：科技行者

2025-05-29 12:03

分享至：

康奈尔大学研究团队提出了"价值引导搜索"方法，通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹，训练了15亿参数的评估模型，实现了基于块的高效搜索。这种方法不需要预定义"步骤"概念，也无需昂贵的每步标注。在四个数学竞赛基准测试中，该方法使DeepSeek-1.5B模型达到了45.7%的平均准确率，与更大模型相当，同时显著减少了计算资源需求。研究团队开源了数据集、模型和代码，为高效人工智能推理提供了新范式。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 12:03 • 科技行者

在人工智能快速发展的今天，大型语言模型（LLMs）的推理能力日益提升，但如何在保持高质量输出的同时降低计算成本，一直是研究者们面临的挑战。2025年5月，来自康奈尔大学、哈佛大学、Netflix以及Databricks的研究团队发表了一篇题为《Value-Guided Search for Efficient Chain-of-Thought Reasoning》的论文，提出了一种名为"价值引导搜索"（Value-Guided Search，简称VGS）的创新方法，旨在提高推理模型的效率。这项研究由Kaiwen Wang、Jin Peng Zhou、Jonathan Chang等人共同完成，已在arXiv平台上发布（arXiv:2505.17373v1），目前正在审阅中。有兴趣深入了解的读者可以通过https://github.com/kaiwenw/value-guided-search访问他们开源的数据集、模型和代码。

想象一下，你有一个聪明的朋友能解决复杂的数学问题，但他需要大声思考很久才能得出答案。每次听他思考都要花费大量时间，而且有时他会在无用的思路上绕圈子。如果你能有一种方法判断他思考的哪些部分更有价值，从而指导他沿着更有希望的路径思考，岂不是能节省大量时间并提高解题成功率？这正是本研究的核心思想。

现代大型语言模型如OpenAI的o1和o3、Claude Sonnet 3.7、Gemini Pro 2.5以及DeepSeek R1等，都经过强化学习训练，能够进行多步推理和自我纠正，在数学竞赛、编程和科学研究等领域展现出超越普通人类的能力。不过，这种增强的能力是有代价的：每次生成回答都需要冗长的思维链（Chain-of-Thought, CoT），消耗大量计算资源。而且，这些思维链往往包含重复和无效的循环。研究团队提出了两个关键问题：我们能否通过优化思考过程，以更少的计算资源获得相同的性能？能否通过更高效的搜索方法提升这些模型的性能上限？

传统上，研究者们使用过程奖励模型（Process Reward Models, PRMs）来引导搜索，评估模型生成解决方案中每个步骤的正确性。虽然这种方法能提高测试时计算效率（Test-Time Compute，TTC），但很难扩展到长上下文推理模型。首先，现有方法需要预先定义"步骤"的概念，但正如Guo等人指出的，"在通用推理中明确定义细粒度步骤是具有挑战性的"。其次，即使能定义"步骤"，收集步骤级别的标注也非常昂贵，需要人类专家、LLM评判员或多次蒙特卡洛采样。

针对这些挑战，研究团队提出了一种全新的方法。他们首先构建了一个包含250万个数学推理轨迹的数据集（超过300亿个标记），然后训练了一个15亿参数的标记级别价值模型。这个价值模型能够预测部分解决方案最终成功的概率，无需定义精细的"步骤"概念。研究者们使用这个价值模型来引导基于块的搜索过程，在数学竞赛评估中取得了令人印象深刻的结果。

研究的核心创新点在于，他们的价值模型不需要预定义的步骤概念，而是在标记级别上工作。想象一下，传统方法就像是在一本教科书上预先划定了哪些是"步骤"的分界线，而他们的方法则是灵活地判断任何一段文字的价值，无论它是否构成完整的逻辑步骤。此外，他们的数据收集过程比现有技术更高效，无需昂贵的每步标注。

在竞争性数学测试中，他们的方法展现出惊人的效果。使用64次生成的计算预算，VGS引导的DeepSeek-R1-Distill-1.5B模型在四个数学竞赛基准测试（AIME 2024和2025、HMMT Feb 2024和2025）上实现了45.7%的平均准确率，达到了与o3-mini-medium相当的水平。更重要的是，VGS显著减少了达到与多数投票相同性能所需的计算量。

让我们一起深入了解这项研究的细节，看看它如何改变我们对大型语言模型推理能力的理解和应用。

一、研究方法：价值模型训练的简单有效方法

研究团队首先面临的挑战是：如何训练一个能够准确预测推理过程价值的模型？不同于传统的过程奖励模型需要明确定义"步骤"并为每个步骤提供标签，他们提出了一种更简单、更高效的方法。

想象你在看一个人解数学题，但不是对每一步打分，而是在他思考的任意点评估："如果从这里继续，最终能解出正确答案的可能性有多大？"这就是他们的价值模型要评估的。这种方法的优势在于，你不需要定义什么构成"一步"，也不需要在中间过程中判断正确性，只需知道最终答案是否正确即可。

研究团队首先明确了他们的目标：训练一个标记级别的价值模型，该模型能够预测给定部分解决方案的预期回报（即最终是否正确）。为了训练这个模型，他们采用了一种称为"通过分类进行回归"的技术。简单来说，就是将连续的价值预测问题转化为分类问题。模型需要预测三种情况的概率：回答正确、回答错误或回答不完整。

训练数据采用的形式是：问题提示x，部分回答y（称为"roll-in"），从y开始的完成部分z（称为"roll-out"），以及最终完整回答的标签κ。所有的roll-out都由一个固定的策略（称为πref）生成，在这项研究中，他们使用了DeepSeek-R1-Distill-Qwen-1.5B作为roll-out策略。通过使用固定策略，他们确保了价值模型学习预测的一致性。

训练过程使用标准的交叉熵损失，对每个数据批次进行梯度下降：对于批次B中的每个(xi, yi, zi, κi)，计算平均损失。关键的是，他们不仅为完整的roll-out计算损失，还为roll-out的每个前缀计算损失，类似于自回归模型的下一个标记预测训练。这确保了价值模型能在文本的任何位置提供准确的评估。

完成训练后，该模型可以被视为价值模型，其对"正确"类别的预测概率对应于从当前位置继续将产生正确答案的概率估计。如果f*表示最优分类器，那么f*(x, y)[1]就是在给定x和y的条件下，从πref得到正确答案的期望奖励。

二、数据集创建：构建庞大的推理轨迹库

为了训练一个有效的价值模型，研究团队需要大量高质量的推理轨迹数据。他们创建了一个名为OpenR1-VM的新数据集，包含来自DeepSeek模型的250万个推理回答，涵盖了OpenR1-Math中的45,000个数学问题。

数据收集过程可以分为三个主要步骤：预过滤、回答生成和后过滤。

在预过滤阶段，研究团队从OpenR1-Math数据集（默认划分）开始，该数据集包含94,000个已经过质量过滤的数学问题和解答。然而，通过人工检查，他们发现这个数据集仍然包含无法解决的问题（例如需要网页浏览但模型无法访问网络）和模糊或无法验证的答案（例如多个\boxed{}表达式或无法解析的答案）。他们过滤掉了所有这些有问题的题目，生成了一个包含50,000个可通过sympy或math-verify验证解答的问题的清洁子集，称为OpenR1-Cleaned。

在回答生成阶段，他们收集了从DeepSeek模型生成的roll-in和roll-out。固定roll-out策略πref为DeepSeek-R1-Distill-Qwen-1.5B。为确保roll-in分布的多样性，他们从四个不同大小的DeepSeek-R1-Distill-Qwen模型（1.5B、7B、14B和32B）中每个采样14个独立的roll-in，生成直到思考结束标记<\think>。对于每个roll-in，他们在四个随机位置启动完整的roll-out，然后解析响应中的最终答案（包含在\boxed{}中），并使用math-verify检查其正确性。这个过程（如图2左侧所示）总共产生了每个问题56个标记的roll-in和roll-out对，总计280万个数据点。

在后过滤阶段，他们过滤掉了所有56个roll-out都不完整或不正确（即奖励为0）的问题。这一步骤去除了预过滤中可能遗漏的任何模糊或无法回答的问题，同时也去除了对πref来说太难而无法提供有用学习信号的问题。这一步过滤了大约10%的问题，最终得到了250万个数据点。

值得注意的是，这种方法不需要细粒度的步骤概念，数据收集比现有的PRM技术更便宜。具体来说，Lightman等人使用专家人类标注每个步骤，Zhang等人使用LLM作为评判员为每个步骤提供标注，Wang等人在每个步骤使用多次蒙特卡洛采样。由于推理CoT轨迹中的换行数量可能快速增长，为推理模型收集每步标签非常昂贵。相比之下，研究团队的方法只需要为每个问题收集少量的roll-in（来自任何策略）和roll-out（来自πref），这个数量可以灵活调整以平衡数据覆盖率和数据收集成本。

三、测试时计算和搜索算法：优化推理过程

有了价值模型后，研究团队需要设计有效的算法来利用它指导推理过程。他们主要关注基于块的搜索方法，其中"块"指的是一系列标记（例如，他们的实验发现4096个标记的块效果最好）。

最简单的不使用外部评分模型的测试时计算方法是多数投票（MV），它在N个响应中选择最频繁出现的答案，随机打破平局。还有其他无需评分模型的方法，包括通过CoT提示顺序修改响应和混合方法。

使用外部评分模型的方法包括结果奖励模型（ORMs），它评估整个提示和响应的质量/正确性。流行的ORM例子包括Bradley-Terry奖励模型或LLM-as-a-Judge。ORMs可用于最佳N选择（BoN），选择得分最高的响应，也可用于加权多数投票（WMV），将响应投票权重与其ORM得分成正比。

过程级测试时计算方法可以通过过程级评分器进一步改进生成过程。研究团队的价值模型可以同时作为结果级和过程级评分器。当查询部分响应时，价值模型预测在πref下未来完成的期望质量。当查询完整响应结束时，价值模型预测最终响应的质量。事实上，他们最佳表现的价值引导搜索（VGS）设置使用中间值来指导基于块的束搜索，并使用最终值通过WMV聚合最终束，这利用了价值模型的过程级和结果级评分能力。

研究团队探索了多种搜索算法：

宽度优先搜索（BFS）是一种近似给定良好价值模型的最优KL正则化策略的自然搜索方法。对于提示x，BFS从π采样N个并行块bi，并选择具有最高值的块b* = argmaxbi V(x, bi)，将其添加到提示中，即x←x,b*。这个过程重复直到响应完成。

束搜索是BFS的泛化，保持B = N/w（假设为整数）个部分响应，并从每个分支w个并行块。对于提示x，束搜索首先生成N个并行块。但与BFS不同，束搜索保留得分最高的前B个束，然后在下一步每个束采样w个并行块。

多样验证树搜索（DVTS）是一种元算法，通过运行更小预算的并行搜索进一步增加多样性。具体来说，DVTS-M运行M个并行束搜索，每个预算为N/M（假设为整数），并将响应聚合为最终答案。

研究团队发现，束搜索和DVTS最关键的细节是最终束/响应的聚合方式。先前的工作选择得分最高的响应，类似于最终的最佳N选择（BoN）。相比之下，他们发现采用加权多数投票（WMV）能带来更好的性能，这一点通过图3（左）得到证明。

基于块的搜索的计算效率值得注意。由于价值分数仅在每个块结束或整个响应结束时使用，基于块的价值模型指导所需的FLOPs只是来自π生成成本的很小一部分（<<1%）。

四、实验结果：价值引导搜索的印象深刻表现

研究团队对他们的1.5B价值模型DeepSeek-VM-1.5B进行了广泛评估，重点是指导DeepSeek模型的CoT推理。最佳的VGS设置是束搜索加上最终WMV聚合，束宽为2，块大小为4096，并使用DVTS（对于较大的推理预算）。这种设置优于其他测试时计算方法（如MV、WMV、BoN）和其他评分模型（如现有的7B PRMs和在他们数据集上训练的1.5B Bradley-Terry奖励模型）。

研究评估使用了2024年和2025年美国数学邀请赛（AIME）和2月哈佛-MIT数学锦标赛（HMMT）的版本。这两个比赛都是美国著名的高中数学竞赛，也被用于评估前沿LLMs。他们使用AIME I和II以及HMMT的个人部分，每个比赛提供30个问题。为了减轻对单一广泛使用的基准测试过度拟合的风险，他们报告了总体平均准确率。

研究团队评估了两个最先进的7B PRMs：Math-Shepherd-Mistral-7B-PRM和Qwen2.5-Math-PRM-7B。Math-Shepherd使用来自每个步骤的蒙特卡洛采样估计每步值，而Qwen2.5 PRM使用LLM-Judge注解每个步骤，类似于PRM800K的每步人类注解。作为步级值模型，Math-Shepherd-PRM-7B与他们的标记级值模型更相关。最后，他们还评估了一个1.5B Bradley-Terry（BT）模型，称为DeepSeek-BT-1.5B，使用他们的数据集进行训练。

在表1的顶部部分，他们固定生成器为DeepSeek-1.5B，测试时预算为N = 256，比较了使用他们的价值模型、BT模型和基线PRMs的VGS和WMV。结果显示，使用DeepSeek-VM-1.5B的VGS和WMV实现了最高的两个分数，优于BT奖励模型和先前的PRMs。这表明他们的价值模型不仅是强大的结果奖励模型（ORM），也是指导搜索的有效值模型。值得注意的是，使用256的预算，他们的1.5B价值模型可以指导DeepSeek-1.5B（总参数数量为3B）达到与OpenAI强大的数学推理模型o3-mini-medium的pass@1相当的水平。有趣的是，虽然DeepSeek-BT-1.5B只被训练为ORM，但他们发现VGS相对于WMV也提高了性能，这表明BT模型也可能提供有意义的块级反馈来指导搜索。他们还观察到，7B基线PRMs（MathSheperd和Qwen2.5-Math）的准确率仅略高于MV@256且不会随搜索改进，这表明这些PRMs可能对DeepSeek-1.5B生成的长CoTs分布外（OOD）。

在表1的中间部分，研究团队指导了更强大的7B和14B DeepSeek模型，并比较了VGS与MV（一种不使用外部评分模型的标准TTC方法）。结果显示，VGS在7B和14B模型上都实现了高于MV的准确率，这表明DeepSeek-VM-1.5B在指导更强大DeepSeek模型的CoT方面也很有用。然而，他们观察到VGS和MV之间的差距随着更大的DeepSeek模型而变小，这表明DeepSeek-14B CoTs可能对他们的价值模型变得OOD，后者是在DeepSeek-1.5B CoTs上训练的。为了指导更强大的模型，应该在类似能力的模型的输出上训练新的价值模型；然而考虑到他们训练过程的可扩展性（在第2节中描述并在附录B中总结），这在实际中不应该是一个问题。

最后，值得注意的是，所有模型在AIME-24上的表现始终高于其他竞赛，这表明评估多样化和更新的竞赛以减少过度拟合或数据污染风险的重要性。

研究团队设计了三个实验来分析VGS的TTC扩展属性，解答以下三个关键研究问题：

1. VGS是否通过其基于块的指导，相比于响应级聚合方法如BoN或WMV展示出更优越的性能？ 2. VGS的TTC扩展行为与标准无评分基线MV相比如何？ 3. DeepSeek-VM-1.5B的TTC扩展行为与基线模型相比如何？

关于响应级选择与基于搜索的块级选择的比较，虽然BoN和WMV代表使用ORM选择响应的标准方法，但基于块的VGS通过顺序块对块选择指导响应生成。图3（左）说明，WMV在所有推理预算尺度上始终优于BoN，这表明将MV与价值分数结合的好处。此外，VGS（以WMV作为最终聚合步骤）相比单独的WMV带来了额外的改进。这证实了搜索的好处，与先前研究的结论一致。有趣的是，如果BoN用作最终聚合步骤，他们没有观察到搜索带来的相同好处，这表明WMV是VGS的关键组成部分。

除了一致的性能提升外，VGS还产生明显更短的响应，相比基础DeepSeek-1.5B模型。在图15（附录C.7）中，他们展示了所有基准测试的响应长度直方图。结果显示，VGS始终生成更简洁的输出，而基础模型往往达到生成上限，多达50%的响应未完成。平均来说，VGS响应长度为11,219标记，而DeepSeek-1.5B为12,793标记，减少了超过12%的标记和FLOPs使用。

关于VGS与多数投票的比较，图3（右）表明，VGS始终实现高于MV的准确率，在实质上更低的推理预算下达到相当的性能（如图1右所示）。完全关闭与oracle Pass@N曲线的差距可能需要在更广泛的数据集上训练更大的价值模型。

关于DeepSeek-VM-1.5B与基线评分模型的比较，图4对DeepSeek-VM-1.5B与现有PRMs和他们的BT模型进行了基准比较。他们观察到，DeepSeek-VM-1.5B在用作WMV的ORM（左）和作为块级搜索的指导机制（右）时，始终提供优越的性能。值得注意的是，他们发现BT模型作为搜索指导模型出奇地有效，这表明他们的标记级数据集在成功的下游搜索中发挥着重要作用。

研究团队还扩展了实验，指导更大的7B和14B DeepSeek模型。在图5中，他们使用相同的DeepSeek-VM-1.5B提供指导，运行具有相同搜索参数的VGS。虽然理论上7B和14B DeepSeek模型对他们的价值模型来说是OOD的，后者是在DeepSeek-1.5B输出上训练的，但他们观察到VGS持续扩展而不会随着测试时计算增加而趋于平稳。这提供了一些证据表明，用更弱的验证策略训练的价值模型可以有效地泛化并指导更强模型的CoTs。这种泛化特别有价值，因为从较小的πref模型收集训练数据明显更便宜。这种"弱到强"泛化似乎是未来研究的一个有前途的方向。

为了调查搜索中关键超参数的作用，研究团队在AIME-24上进行了块大小和束宽的敏感性分析，涵盖了不同的推理预算。他们还消融了DVTS并行度的数量。这些测试表明，适用于所有推理预算的搜索超参数有一个一致的选择。

块大小：他们使用束宽2执行束搜索，块大小从16到16384。图6显示了在三个推理预算N中的AIME-24准确率，揭示了4096的最佳选择在不同N下保持一致。他们观察到使用更细粒度块进行搜索时性能下降。

束宽：他们使用块大小4096执行束搜索，束宽各异，其中宽度优先搜索（BFS）是束宽等于N的特殊情况。图7（左）显示了在五个推理预算中的AIME-24准确率，表明束宽2在不同N上始终是最优的。值得注意的是，他们的最优束宽与先前工作发现的4不同。

DVTS并行度：图7（右）显示了从VGS中消融DVTS的作用。对于每个推理预算，他们报告没有DVTS和具有最佳DVTS并行度M的平均准确率。他们观察到DVTS在更高预算时变得更有效，比单一搜索树扩展得更好，这与先前工作的发现一致。然而，他们发现DVTS即使在较小的推理预算下也从未比单一搜索树差，这与先前工作得出的相反结论不同。这种差异可能是因为他们使用WMV组合DVTS响应，鉴于他们从图3的发现，这似乎是比BoN（用于先前工作）更稳健的执行DVTS的方式。

最后，研究团队直接消融了他们价值模型在搜索过程中的指导作用。他们执行VGS（具有相同宽度、块大小和DVTS），但随机选择块而不是选择具有最高值的块。他们仍然通过WMV用他们的价值模型聚合最终束，所以唯一的变化是如何选择中间块。他们称这个过程为"随机搜索"。因此，如果他们的价值模型对搜索有帮助，他们应期望VGS优于随机搜索。确实，图8验证了这一假设。他们还评估了一种混合方法，其中DVTS的一半并行树使用随机搜索，另一半使用VGS。他们发现这种混合方法位于纯VGS和纯随机搜索之间，再次验证了他们价值模型的块选择改进了随机选择。

五、研究局限性与未来展望

研究团队的价值模型仅在来自精简推理模型πref（例如，DeepSeek-R1-Distill-Qwen-1.5B）的完成/输出上训练。随着前沿LLMs的不断进步，它们生成的响应分布可能越来越偏离研究团队的训练分布，可能降低评分和搜索性能。为保持最佳性能，新的价值模型需要在更新后的生成器策略的输出上重新训练。然而，考虑到他们管道的简单性和可扩展性，这在实际中不应该是主要问题。为促进重新训练和适应类似可验证领域，研究团队开源了他们的代码库，并在附录B中提供了数据收集、训练和搜索推理的分步指南。

六、总结与意义

这项研究提出了一种新颖而有效的方法，通过价值引导搜索（VGS）提升大型语言模型的推理效率。研究团队构建了一个包含250万推理轨迹的庞大数据集，训练了一个15亿参数的标记级价值模型，并展示了这种方法在竞争性数学测试中的卓越性能。与现有方法不同，他们的方法不需要预定义的"步骤"概念，也不需要昂贵的每步标注，使其更易于扩展到长上下文推理模型。

实验结果表明，VGS不仅提高了推理模型的性能上限，还显著减少了达到与基线方法相同性能所需的计算量。特别是，使用64次生成的计算预算，VGS引导的DeepSeek-R1-Distill-1.5B模型在四个数学竞赛基准测试上达到了45.7%的平均准确率，与更大的模型相当。

这项研究为未来的研究打开了多个有前途的方向。"弱到强"的泛化表明，用较弱模型训练的价值指南可能有效地指导更强模型的推理，这可能是一种成本效益高的强化学习方法。此外，将VGS应用到其他领域，如编程、科学推理或文本生成，也是值得探索的方向。

总的来说，价值引导搜索代表了一种强大的范式，有可能显著提高大型语言模型的效率和能力，使我们能够以更少的计算资源获得更好的结果，同时促进人工智能的可访问性和可持续性。

人工智能大型语言模型测试时计算优化

分享至