微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

重新思考验证粒度：打造高效大型语言模型测试时扩展的新方案

大型语言模型测试时扩展验证粒度优化

重新思考验证粒度：打造高效大型语言模型测试时扩展的新方案

作者：科技行者

2025-05-27 09:39

分享至：

这篇研究首次系统探索了验证粒度对大型语言模型测试时扩展的影响。研究团队通过提出可变粒度搜索（VG-Search）算法，挑战了传统的固定验证频率范式。实验表明，根据任务难度和计算预算动态调整验证粒度，可以在减少超过52%计算量的同时，将准确率提高3.6%。这一发现为优化大模型的推理效率提供了全新思路，特别适用于计算资源受限的场景。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 09:39 • 科技行者

在大型语言模型（LLM）快速发展的今天，如何提高模型的推理能力成为研究的热点。来自英国帝国理工学院和日本东京科学研究所的研究团队在2025年5月16日发布的一篇题为《重新思考最佳验证粒度：面向计算高效的测试时扩展》的论文中，提出了一种新颖的方法，旨在优化大型语言模型的测试时扩展性能。这项研究由Hao (Mark) Chen、Guanxi Lu、Yasuyuki Okoshi、Zhiwen Mo、Masato Motomura和Hongxiang Fan共同完成，论文已发表于arXiv（arXiv:2505.11730v1）。

想象一下，如果你请一个聪明的朋友解决一道复杂的数学题，你可能会在他完成每一步计算后检查一下，或者等他完成整个题目后再看结果。哪种方式更好呢？这正是这篇论文探讨的核心问题。

研究者们发现，在大型语言模型的测试时扩展（Test-Time Scaling，简称TTS）过程中，"验证"这一环节既影响推理性能，又影响计算效率。传统方法要么在每一步都进行验证（像Beam Search那样），要么只在最终结果出来后才验证（像Best-of-N采样那样）。但这种固定的验证策略真的是最优的吗？

研究团队通过引入"可变粒度搜索"（Variable Granularity Search，简称VG-Search）算法，首次系统地探索了验证粒度（即多久进行一次验证）对模型性能和计算效率的影响。就像烹饪时你可以选择每加一种调料就尝一下味道，或者等几种调料都加完再尝，VG-Search允许研究人员灵活调整验证的频率。

研究结果令人惊喜：适当调整验证粒度可以在不增加计算成本的情况下提高准确率，甚至在某些情况下，还能在提高准确率的同时大幅减少计算量。具体来说，他们提出的自适应VG-Search策略比传统的Beam Search高出3.1%的准确率，比Best-of-N高出3.6%，同时减少了超过52%的计算量。

这项研究为如何更高效地利用大型语言模型提供了新思路，特别是在计算资源有限的情况下，如何通过优化验证策略来最大化模型性能。接下来，让我们深入了解这项研究的详细内容，看看研究团队是如何挑战传统验证范式，并提出全新解决方案的。

一、测试时扩展与验证的重要性

在过去几年中，大型语言模型（LLM）通过扩大模型规模和训练数据量取得了显著进步。然而，进一步的训练时扩展面临着巨大的计算成本和高质量人类生成数据有限的挑战。在这种情况下，测试时扩展（TTS）提供了一种有前景的替代方案，它通过在推理阶段增加计算来提升性能。

测试时扩展技术主要分为两类：内部扩展和基于采样的扩展。内部扩展专注于优化单一生成轨迹，如让模型思考更多步骤；而基于采样的扩展则通过探索多个候选生成结果来提高性能，就像是让多个模型一起解决同一个问题然后选择最好的答案。这两种方法是互补的，可以结合使用以获得更高的性能。

在这些测试时扩展策略中，"验证"扮演着关键角色。验证通常通过学习型奖励模型或评分函数实现，用于评估生成内容的质量。当前最先进的基于采样的方法，如多样化验证器树搜索（DVTS）和验证器引导的Beam Search，都利用一个独立的验证器LLM来指导生成器LLM的生成过程，从而提高采样效率和准确性。

在这些方法中，生成步骤通常被定义为由特殊标记（如换行符）分隔的文本块，这成为验证的原子单位。然而，这种验证粒度的选择是启发式的，并且保持静态，没有保证是最优的。研究团队的分析表明，验证器评分在多个生成步骤之间通常保持稳定（例如，超过50%的2步评分差异小于1%的评分范围），表明当前验证粒度存在冗余。这种低效导致验证在整体推理延迟中占据越来越大的比例。

这些观察激发研究团队探索两个核心问题：传统验证粒度是否对准确率-计算扩展是最优的？如果不是，如何优化它以实现更好的准确率-计算权衡？

二、可变粒度搜索：统一验证框架

为了系统地研究验证粒度的影响，研究团队提出了"可变粒度搜索"（VG-Search）算法，这是一个统一的框架，通过可调节的粒度参数g将验证器引导的Beam Search和Best-of-N方法统一起来。

想象一下，如果你在解决一个复杂问题时有多种解决方案，你需要定期检查哪条路径最有希望。VG-Search就像是让你灵活决定多久检查一次进展。你可以频繁检查（g=1，类似Beam Search），或者等到完全解决后再比较结果（g等于解决方案的总步骤数，类似Best-of-N）。

VG-Search的关键参数包括： 1. 光束宽度（B1）：验证和选择后保留的候选序列数量 2. 分支因子（B2）：在下一个验证阶段之前，从每个保留的序列生成的替代延续数量 3. 验证粒度（g）：每次验证评估的生成步骤数量，即验证器调用之间的间隔

VG-Search的工作流程如下： 1. 从初始提示开始，初始化B1×B2个候选 2. 使用验证器评估这B1×B2个候选，并保留得分最高的B1个 3. 对每个选定的候选，生成g-1个生成步骤 4. 对每个延长的候选，生成B2个单步延续 5. 重复步骤2-4，直到满足终止条件

这种设计的一个重要特点是早期剪枝：验证在"延伸"步骤之前进行，因此只有B1个候选继续进入延伸阶段，而不是全部B1×B2个候选。这显著降低了生成器的计算负荷。更大的g值进一步减少了验证器和生成器的计算量。

为了分析不同参数设置的计算成本，研究团队还定义了一个计算成本模型，考虑了生成器和验证器的参数数量、每步生成和每次验证调用的计算量等因素。这个模型提供了理解VG-Search计算效率的理论基础，并与实测的推理延迟有良好的对应关系。

三、实验设置与结果分析

研究团队在数学推理基准测试上进行了广泛实验，包括MATH-500、AIME和MATH-250数据集。他们使用了不同类型的生成器模型，包括通用模型（如Llama-3.2-3B-Instruct）和具有内部扩展能力的模型（如Qwen2.5-Math-7B和Qwen2.5-Math-1.5B）。对于验证器，他们采用了辨别式过程奖励模型（PRM），包括Skywork-o1-1.5B和Skywork-o1-7B。

实验结果揭示了一些关键发现，挑战了传统验证粒度的最优性：

第一，强大的生成器倾向于稀疏验证，而弱的生成器需要频繁检查。使用强大的Qwen2.5-Math-7B生成器时，在中等到高计算预算下，较稀疏的验证（g∈{2, 3, 4}）比标准Beam Search（g=1）实现了更高的准确率。特别是，g=3在MATH-500上达到了最高峰值准确率，比g=1高约4%。这表明强大的生成器可以可靠地产生更长的正确部分解决方案，使频繁验证变得不那么关键，并允许将计算重新分配给更宽的光束（通过B1），以获得更好的整体性能。

第二，最优粒度随计算预算变化。在大多数模型和数据集上，随着总计算预算的增加，较稀疏的验证（g>1）往往变得更具竞争力。在非常低的计算预算下，标准Beam Search（g=1）的积极剪枝通常提供更稳健的性能基线。这与直觉相符：当有更多的整体计算可用时，在验证之间投资更长的生成阶段更加可行。

第三，最优粒度可以显著节省计算。使用较稀疏的验证（g>1）的一个关键优势是在保持甚至提高性能的同时，可以大幅节省计算量。例如，在"强生成器，小验证器"设置下的MATH-500上，设置g=3可以以约2^13 FLOPS达到约88%的准确率，而g=1需要约2^15 FLOPS才能达到略低的87.5%准确率。这种效率提升来自于更少的验证器调用和总体减少的分支操作。

此外，研究还揭示了验证粒度与验证器参数和分支因子之间的权衡关系。在固定计算预算下，较强的验证器与较稀疏的验证（更大的g，更大的验证器模型）在高计算预算下表现更好，而简单地增加分支因子B2的收益有限。这表明，将节省的计算投资于验证器参数是比简单增加分支数量更有效的扩展策略。

这些发现表明，当前基于固定分隔符边界（如换行符）的传统验证粒度是次优的。更大的g可以被解释为定义更实质性和语义上更连贯的"思考步骤"，延迟验证和分支直到这些扩展段结束可能避免通过评估不完整的推理片段注入噪声，从而实现更有效的搜索。

四、自适应验证粒度策略

基于上述发现，研究团队提出了自适应调整验证粒度的策略，以解决如何优化验证粒度以实现更好的准确率-计算边界的问题。他们提出了两种互补的策略：

1. 计算最小化与性能平衡策略（CM-g）：该策略寻找可以在保持准确率在可接受范围内的同时最大化g的值，从而减少计算量。具体而言，给定生成器、难度d和生成数量n，首先计算基线准确率Acc(g=1, d, n)，然后增加g，只要Acc(g, d, n) ≥ Acc(g=1, d, n) - ε（ε是容忍度），就选择满足准确率约束的最大g值。

2. 准确率最大化与预算约束策略（AM-g）：该策略在固定计算预算下选择能最大化准确率的g值。形式上，g* = argmaxg∈{1,...,gmax} Acc(g, d, n)。

研究团队在MATH-500测试集上将这些自适应策略与Beam Search、DVTS和Best-of-N基线进行了比较。结果显示，AM-g和CM-g都提高了性能和效率。AM-g始终实现更高的准确率，比Beam Search高出3.1%，比Best-of-N高出3.6%；而CM-g提供了显著的计算节省，在保持或提高准确率的同时减少了超过50%的计算量。例如，在n=128时，CM-g（验证）达到了89.9%的准确率，仅使用11086 FLOPS——只有基线预算的46%。

虽然在测试集上调整的策略表现略好，但在验证集上调整的版本（CM-g（验证）和AM-g（验证））仍然优于固定g方法，表明了强大的泛化能力和实用性。根据成本模型，生成器计算CG占主导地位，因此大多数计算节省来自在延伸步骤中剪枝候选路径。

总的来说，根据任务难度和计算预算调整验证粒度g提供了一种简单而有效的方法，能够更高效、更高性能地使用大型语言模型进行推理。

五、研究的更广泛意义

这项研究挑战了我们对验证在大型语言模型推理中的理解，提出了一个新的视角：验证不应该是静态固定的，而应该根据模型能力、任务特性和计算资源进行动态调整。

就像一个好老师知道何时应该检查学生的工作，何时应该让学生独立思考一样，最优的验证策略需要在频繁验证和较少干预之间找到平衡。对于高能力的模型，可以给予更多"自主权"，减少验证频率；而对于能力较弱的模型，则需要更频繁的"指导"。

这项研究的意义不仅限于学术界。在实际应用中，计算资源通常是有限的，特别是在边缘设备或需要低延迟响应的场景中。自适应验证粒度策略为如何在有限资源下最大化模型性能提供了一种实用方法。例如，在移动设备上运行大型语言模型时，可以根据设备算力和任务复杂度动态调整验证频率，在保证质量的同时减少电池消耗和响应延迟。

此外，这项研究还为未来的测试时扩展技术指明了方向。它表明，我们应该超越固定的验证范式，探索更灵活、更自适应的方法。例如，未来的研究可能会探索在单个问题解决过程中动态调整验证粒度，根据解决方案的不同阶段或模型的不确定性级别调整验证频率。

最后，这项研究强调了"思考步骤"定义的重要性。传统方法中简单地使用换行符等分隔符作为思考步骤的边界可能无法捕捉真正的推理结构。通过重新思考什么构成一个有意义的思考单元，我们可以设计出更符合人类推理过程的模型交互方式，进一步提高大型语言模型的推理能力。

总的来说，这项研究不仅提供了一种立即可用的方法来提高大型语言模型的效率和性能，还为我们重新思考验证和推理在人工智能系统中的角色开辟了新的视角。

大型语言模型测试时扩展验证粒度优化

分享至