微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 EquivPruner:通过行动剪枝提升大型语言模型搜索的效率与质量

EquivPruner:通过行动剪枝提升大型语言模型搜索的效率与质量

2025-05-30 09:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 09:43 科技行者

在人工智能领域中,大型语言模型(LLM)的性能一直是研究热点。最近,来自中国科学技术大学和科大讯飞研究院的合作团队,包括刘家伟、陈祺思、张健舒、刘全和连德富等研究者,在提升LLM推理搜索效率方面取得了重要突破。他们于2025年5月在arXiv上发表的论文《EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning》提出了一种新颖的方法,通过识别和剪除语义等价的行动来大幅提高LLM搜索的效率和质量。有兴趣深入了解的读者可以通过GitHub(https://github.com/Lolo1222/EquivPruner)访问他们的代码。

一、为什么我们需要更高效的LLM推理搜索?

想象一下,你在玩一个复杂的迷宫游戏。为了找到正确的出口,你可能会尝试多条不同的路径,但如果你反复探索实际上通向同一个地方的不同路径,那就是在浪费时间和精力。大型语言模型(LLM)在解决复杂问题时也面临类似的挑战。

目前的LLM在处理复杂推理任务时通常依靠搜索算法,比如束搜索或蒙特卡洛树搜索(MCTS)。这些方法会生成多条可能的推理路径并探索它们,就像在迷宫中尝试不同的路径一样。然而,这种方法存在一个重大问题:模型经常浪费大量计算资源去探索表面上看起来不同,但实际上语义等价的路径。

以数学推理为例,考虑如下场景:模型可能会生成三个不同的候选步骤: 1. "为了求解f(-2),我们将x = -2代入f(x)的表达式:f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4" 2. "步骤1:为了求解f(-2),我们将x = -2代入f(x)的表达式:f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4" 3. "我们可以通过将x = -2代入方程来求解f(-2):f(-2) = (-2)?+2/(-2)+2 = 4-2+2 = 4"

虽然这三种表述在文字上有所不同,但它们表达的是完全相同的数学操作和结论。现有的搜索算法会将它们视为三条完全不同的路径,分别投入资源进行探索,这导致了大量的重复工作和资源浪费。

研究团队通过实验发现,现有的语义相似度检测方法(如SBERT、MathBERT等)在识别数学语句等价性方面表现不佳。即使是领域特定的模型,也往往只能捕捉到表面的相似性,而无法理解深层的功能等价性。这就像是能够识别两条路径看起来相似,但无法判断它们是否真的通向同一个终点。

二、EquivPruner:一把智能的剪刀

为了解决这个问题,研究团队提出了EquivPruner方法,它就像一把智能的剪刀,能够识别出语义等价的推理路径并进行剪枝,只保留其中一条代表性路径进行后续探索。这大大减少了计算资源的浪费,同时还能提高推理的准确性。

### 数学等价性的界定

首先,研究团队明确了数学语句等价性的精确定义。两个数学语句被认为是语义等价的,当且仅当它们满足以下全部标准: - 概念一致性:语句必须表达相同的数学概念、定义或命题,没有任何歧义。 - 结构等价性:它们的逻辑结构,包括假设、推导和结论,必须完全一致。 - 符号精确性:所有变量、符号和数学表达式必须一致使用,在不同语句中保持相同的含义。 - 方法一致性:语句背后的推理方法和思路必须相同。即使最终结果相同,如果通过不同方法得出,也不被视为完全等价。

这就像判断两条迷宫路径是否真正相同:不仅要看它们是否到达同一个地点(结果),还要看它们是否经过相同的转弯和路口(推导过程)。

### MathEquiv:首个数学语句等价性数据集

由于缺乏专门用于数学语句等价性评估的数据集,研究团队创建了MathEquiv,这是首个专门为数学语句等价性设计的数据集。他们采用步骤级别的束搜索算法收集候选行动,并将这些候选项组织成步骤级别的语句对。

为了评估等价性,团队采用了五级分类系统: - 级别4(完全等价):语句在所有方面都可互换,表现出完全相同的含义和形式。 - 级别3(可能等价):可能存在微小的语法差异,但核心数学内容和逻辑是一致的。 - 级别2(无法判断):没有足够信息做出明确判断。 - 级别1(可能不等价):虽然可能有部分一致,但在逻辑、定义或数学结构上存在关键差异。 - 级别0(完全不等价):语句在数学含义、推导或结果上有根本性差异。

MathEquiv数据集通过一个迭代优化的过程进行标注:首先使用GPT-4o进行初步标注,然后由人类专家审核。对于存在差异的情况,人类判断的标签及其理由会被整合到GPT-4o的提示中作为少样本示例。这个过程不断重复,直到模型输出与人类共识一致。这种方法确保了数据集的高质量标注和准确的语义等价性评估。

### 轻量级剪枝器:快速识别等价路径

有了MathEquiv数据集后,研究团队训练了一个轻量级的等价性检测模型,用于在LLM的搜索过程中进行动态剪枝。这个轻量级模型是基于Longformer-base微调的,选择它是因为其效率适合实时剪枝应用。

剪枝过程是这样工作的:当LLM在推理过程中生成多个候选步骤时,剪枝器会识别这些兄弟节点中语义等价的候选项集合。对于每组等价步骤,它只保留一个代表性节点进行后续探索,有效地剪除冗余分支并大大减少搜索空间。

在训练剪枝器模型时,研究团队面临一个挑战:MathEquiv数据集中的步骤级别语句对通常包含多个句子,而被标记为宏观层面不等价的步骤对中可能仍然包含语义等价的子句对。这种特性可能引入歧义并阻碍模型学习细粒度的区别。

为了解决这个问题,团队采用了期望最大化(EM)算法来训练轻量级剪枝器。该算法通过交替进行期望步骤(E-step)和最大化步骤(M-step)来处理数据中潜在的等价关系: - E-步骤:模型预测多句样本中每个子句对的等价概率,超过阈值的高置信度等价对会从样本中移除,以优化下一步的数据集。 - M-步骤:基于E-步骤中得到的期望,更新模型参数以最大化观察数据的似然。

这种训练方法使模型能够更好地关注学习微妙或具有挑战性的区别,这对于有效剪枝至关重要。

三、EquivPruner的实验效果:惊人的效率提升

研究团队在多个模型和任务上进行了广泛的实验,以验证EquivPruner的有效性。实验主要使用了三个LLM模型:Qwen2.5-Math-7B-Instruct、Mistral-7B-SFT和Qwen2.5-Math-1.5B-Instruct,以及两个广受认可的数学推理基准:GSM8K和MATH。

### 显著的效率提升

实验结果令人印象深刻。以Qwen2.5-Math-7B-Instruct在GSM8K上的表现为例,集成了EquivPruner的蒙特卡洛树搜索(MCTS)相比原始MCTS减少了48.1%的token消耗(从34,826降至18,071)。更令人惊喜的是,这种显著的效率提升不仅没有降低准确率,反而还将准确率从96.44%提高到了96.59%。

在MATH数据集上,EquivPruner同样表现出色,将token消耗减少了30.51%(从106,773降至74,194),同时将准确率从83.40%提高到了84.00%。

其他模型的情况也类似。对于Mistral-7B-SFT,EquivPruner在GSM8K上将token消耗减少了37.99%,同时将准确率从83.78%提高到了85.06%;在MATH上,token减少了22.31%,准确率从36.60%提高到了37.40%。对于Qwen2.5-Math-1.5B-Instruct,在GSM8K上token减少了39.62%,准确率略微下降了0.3%(从91.05%降至90.75%),这是一个考虑到近40%的token减少后可以接受的权衡;在MATH上,token减少了21.71%,准确率保持不变。

### 在步骤级束搜索中的应用

研究团队还在步骤级束搜索(SBS)上评估了EquivPruner的有效性。与MCTS不同,SBS不构建广泛的搜索树,而是在扩展过程中动态选择top-k个子节点。在这种情况下,应用EquivPruner的目的不是主要减少总生成token数,而是通过消除冗余节点来提高搜索质量。

实验证明,即使在SBS这种已经限制了搜索广度的算法中,EquivPruner仍然能带来好处。在MATH数据集上,EquivPruner将准确率从82.00%提高到了82.20%,在GSM8K上从96.06%提高到了96.13%。与此同时,token消耗基本保持不变(比例分别为98.18%和99.04%)。这表明EquivPruner通过确保束中的限制槽位被语义不同的推理步骤占据,促进了更多样化和潜在更有成效的解决方案空间探索。

### 不同组件的贡献

为了调查EquivPruner不同组件的个别贡献,研究团队进行了消融研究,比较了四种设置: 1. 无剪枝(原始MCTS):作为基线。 2. 使用原始Longformer剪枝:使用未经任务特定微调的预训练Longformer-base进行剪枝。 3. 使用微调Longformer剪枝(无EM):标准监督微调但不使用EM算法。 4. EquivPruner(使用EM微调):完整方法。

结果表明,使用原始Longformer(设置2)相比无剪枝(设置1)减少了token(从106,773降至89,998),但代价是准确率下降(从83.4%降至82.4%),说明通用模型不足以胜任这项任务。不使用EM的标准微调(设置3)将准确率提高到83.8%(超过无剪枝),同时将token进一步减少到85,451,凸显了任务特定训练的必要性。最关键的是,带有EM微调的完整EquivPruner方法(设置4)既达到了最高的准确率(84.0%),又实现了最显著的token减少(从106,773降至74,194)。这突显了微调过程和具体的EM算法对于最大化EquivPruner在提高准确率和token效率方面的效果都是至关重要的。

四、EquivPruner的泛化能力:跨模型与跨领域适应性

一个特别值得注意的发现是,EquivPruner展现出了良好的泛化能力。虽然它是在Qwen2.5-Math-7B-Instruct生成的数据上训练的,但它在不同模型(如Mistral-7B-SFT和Qwen2.5-Math-1.5B-Instruct)和不同数据集(如GSM8K,它是一个分布外数据集)上仍然表现出色。这表明EquivPruner学到的等价性检测能力是通用的,可以跨不同的模型和任务进行迁移。

值得一提的是,研究团队目前主要专注于数学推理领域,部分原因是开源过程奖励模型(PRM)主要针对数学推理优化。然而,EquivPruner的框架设计为通用性考虑,可以很容易地扩展到其他领域,如代码生成和常识性推理。只要有适当的等价性检测训练数据和相应的过程奖励模型,EquivPruner就可以应用于各种不同的任务。

五、总结与未来展望

总的来说,EquivPruner方法通过识别和剪除语义等价的行动,显著提高了LLM推理搜索的效率和质量。实验表明,它能够大幅减少token消耗(在某些情况下接近50%),同时通常能维持或甚至提高推理准确率。该方法的有效性在多个模型和数据集上得到了验证,展现出良好的泛化能力。

研究团队还创建了MathEquiv,这是首个专门为数学语句等价性设计的数据集,为未来的研究提供了宝贵资源。

当然,这项研究也存在一些局限性。首先,由于计算资源限制,EquivPruner没有在显著大于7B参数规模的语言模型上进行评估。其次,研究主要聚焦于EquivPruner在推理时的应用,其与迭代LLM训练或优化策略的潜在集成仍有待探索。最后,虽然设计考虑了通用性,但目前的实证验证主要集中在数学推理领域,将评估扩展到科学任务或常识推理等其他领域是未来研究的有希望方向。

将EquivPruner应用于实际情境,可以大大提高LLM在各种复杂任务中的效率和表现。例如,在教育辅助系统中,它可以帮助LLM更快地生成高质量的解答;在自动编程中,它可以避免探索功能上等价的代码路径;在科学研究辅助中,它可以更高效地探索可能的假设和推理链。

随着LLM在各个领域的应用不断扩展,像EquivPruner这样能够显著提高效率和质量的方法将变得越来越重要。我们期待看到未来研究如何进一步改进这一方法,以及它如何被应用到更广泛的任务和更大规模的模型中。

分享至
1赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-