微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

黑暗中探索：北京通用人工智能研究院团队提出基于潜在空间策略梯度的测试时推理新方法

人工智能测试时优化潜在空间探索

黑暗中探索：北京通用人工智能研究院团队提出基于潜在空间策略梯度的测试时推理新方法

作者：科技行者

2025-05-23 07:52

分享至：

这篇论文介绍了一种名为LATENTSEEK的创新框架，它通过在潜在空间进行测试时实例级政策梯度优化，显著提升了大型语言模型的推理能力。研究团队在GSM8K、MATH-500和AIME2024等基准测试上评估了该方法，结果显示LATENTSEEK比思维链方法平均提升了10.75%的准确率。该方法无需更新模型参数，计算高效，平均只需1-2次迭代即可收敛，同时证明了潜在空间中的测试时扩展可行性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-23 07:52 • 科技行者

大型语言模型（LLM）的推理能力是人工智能走向通用智能的关键，但仍然面临着严重的挑战。近日，来自北京通用人工智能研究院、北京大学、清华大学、上海交通大学等机构的研究团队在2025年5月19日发表了一篇题为《Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space》（《黑暗中探索：潜在空间中基于测试时实例级策略梯度的推理》）的论文，提出了一种名为LATENTSEEK的创新框架，通过潜在空间的测试时实例级适应（TTIA）来提升大型语言模型的推理能力。

想象一下，当我们试图在黑暗中找到通往出口的路时，传统方法就像是不断尝试不同的走法，而每次都要从头开始。而这个新方法LATENTSEEK则像是在黑暗中带着一个能感知周围环境的特殊装置，可以根据每一步的反馈微调下一步的方向，不断接近目标。这种方法不需要修改语言模型的任何参数，却能显著提升其解决复杂问题的能力。

传统上，提升大型语言模型的推理能力主要有两种方式：一是通过大量数据和复杂算法训练更强大的模型，这需要巨大的计算资源；二是通过提示工程（Prompt Engineering）引导模型更好地思考，但这依赖于人工设计的提示。LATENTSEEK开辟了第三条道路：它不改变模型参数，也不依赖复杂的提示，而是直接在模型的"思考空间"——潜在空间中进行探索和优化。

这项研究的核心创新在于将测试时的优化从词汇空间（即直接优化生成的词语）转移到了潜在空间（模型内部的表示空间）。这就像是不再关注人说出的具体句子，而是直接调整人脑中的思维过程。研究团队发现，在这个潜在空间中进行优化，能够更有效地引导模型进行推理，并且符合"测试时扩展定律"（test-time scaling law），即随着测试时计算量的增加，模型性能会持续提升。

研究团队在多个推理基准测试上评估了LATENTSEEK，包括GSM8K、MATH-500和AIME2024，并在多种LLM架构上进行了测试。结果表明，LATENTSEEK在所有测试中都显著优于强基线方法，如思维链（Chain-of-Thought）提示和基于微调的方法。特别是在GSM8K数据集上，LATENTSEEK相比思维链方法平均提升了10.75%的准确率；在MATH-500上提升了3.93%；在AIME2024上提升了4.73%。

更令人惊讶的是，当使用LlaMA3.1-8B-Instruct作为底层模型时，LATENTSEEK在GSM8K和MATH-500数据集上的表现分别超过了SimpleRL-Zoo（+18.1%）和Genius（+12.7%）等先前的方法。这些结果充分证明了该方法的有效性。

一、潜在空间测试时实例级适应（TTIA）的基本原理

传统的强化学习方法通常需要更新模型参数，这不仅计算成本高，还可能导致灾难性遗忘等问题。而LATENTSEEK采用的测试时实例级适应（TTIA）方法则不需要修改模型参数，而是在测试阶段针对每个具体问题进行适应。

想象你是一位导航员，在帮助驾驶员找到目的地。传统方法就像是每次出发前都要重新培训这位驾驶员的驾驶技术（更新模型参数）。而LATENTSEEK的做法则是：驾驶员的技术保持不变，但你作为导航员可以根据路况实时调整行驶路线（优化潜在表示）。

具体来说，LATENTSEEK的工作原理可以描述为：给定一个推理问题实例作为上下文提示c，以及一个预训练的自回归语言模型π，该模型会生成一个推理序列x = (x?, x?, ..., x?)，其概率分布为π(x|c)。解决问题的目标是找到一个推理序列x，使得最终答案a ~ π(·|x, c)与真实答案一致。然而，在测试时，真实答案是未知的，因此引入了一个奖励函数R(x, c)来评估推理序列。TTIA的目标就是找到一个最大化这个奖励函数的推理序列：x* = argmax R(x, c)。

LATENTSEEK的创新之处在于将优化目标从词汇空间转移到了潜在空间。对于给定的输入序列x，我们可以得到一个对应的潜在表示序列z = (z?, z?, ..., z?)，其中z?是在潜在空间中表示x?的向量。LATENTSEEK的目标是找到最优的潜在表示序列：z* = argmax E[R(x, c)]，其中x是从π(x|z)采样得到的。

二、LATENTSEEK算法的工作流程

LATENTSEEK算法的工作流程就像一位侦探在黑暗中寻找线索，不断调整搜索方向，最终找到真相。整个流程可以概括为初始化、迭代优化和解码三个主要步骤。

首先是初始化阶段。给定一个问题实例c，算法使用预训练模型生成初始的潜在表示z???。这就像侦探根据初步信息形成的第一个调查方向。为了提高效率，研究团队采用了思维链（CoT）推理序列作为初始潜在表示，这相当于利用一些已知的调查经验作为起点。

接下来是迭代优化阶段。在每次迭代中，算法使用策略梯度方法更新潜在表示：z ← z + η?J(z)，其中η是学习率，?J(z)是目标函数关于z的梯度。这个过程就像侦探根据新发现的线索不断调整调查方向。值得注意的是，由于假设潜在表示之间是独立的（研究团队在附录A中提供了理论支持），每个位置的潜在表示可以独立更新。

最后是解码阶段。将优化后的潜在表示解码成词汇，形成最终的推理序列。这就像侦探最终整理证据，形成完整的案件报告。

为了提高优化效率，研究团队还引入了两个创新技术。一是分数序列优化：不是优化整个序列的潜在表示z = [z?, z?, ..., z?]，而是只优化其中的一部分[z?, z?, ..., zρ?]，其中ρ ∈ (0, 1]是一个超参数。二是奖励机制设计：使用自奖励机制，即模型自己评估生成的答案质量，无需外部信息。

实际操作中，算法首先将上下文提示输入预训练模型，得到初始潜在表示。然后通过贪婪解码生成初始推理序列，并计算奖励。接着进入迭代优化阶段，每次迭代使用策略梯度更新潜在表示，然后解码生成新的推理序列，再计算奖励。这个过程持续到达到最大迭代次数或奖励超过预设阈值。

三、实验设置与实施细节

研究团队设计了一系列实验来评估LATENTSEEK的性能。实验使用了三个推理基准测试：GSM8K（基础数学问题集）、MATH-500（高级数学问题集）和AIME2024（美国高中数学邀请赛问题）。这三个数据集代表了不同难度级别的数学推理任务，从基础到高级，再到竞赛级别。

为了评估方法的通用性，研究团队使用了多种大型语言模型作为底层模型，包括Qwen2-7B-Instruct、Qwen2.5-1.5B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct、LLaMA3.1-8B-Instruct和Mistral-7B-Instruct-v0.3。这些模型代表了不同参数规模（从1.5B到14B）和不同模型系列的语言模型。

研究团队将LATENTSEEK与多种基线方法进行了比较，包括： 1) 提示方法：思维链（CoT）和少样本思维链（Few-Shot CoT）； 2) 显式搜索方法：Best-of-N（BoN）； 3) 强化学习方法：自奖励（Self-Rewarding）、ScPO、CoH、Genius、SimpleRL-Zoo、GRPO和SPIN； 4) 潜在思维链方法：iCoT； 5) 监督微调方法：SFT。

为了公平比较，研究团队使用了两种不同的提示模板进行评估。第一种提示要求模型使用\boxed{}包装答案，第二种提示要求模型以JSON格式输出答案。这两种提示分别代表了不同的输出格式要求。

在奖励机制方面，研究团队采用了Lifshitz等人提出的数学推理提示来引导模型进行自奖励计算。同样的提示结构被一致地应用于所有任务和模型。对于特定任务和模型，研究团队还引入了基于格式的奖励。为了进一步说明该方法的潜力，研究团队还引入了一个完美稀疏奖励模型（PSRM）。

四、实验结果与性能分析

LATENTSEEK在所有测试基准上都表现出色。在GSM8K数据集上，使用LLaMA3.1-8B-Instruct作为底层模型时，LATENTSEEK比思维链方法提升了14.6个百分点，比训练无关的BoN方法提升了7.7个百分点。与SFT（Magpie 25K）相比，LATENTSEEK在GSM8K和MATH-500上的最低提升也达到了12.9个百分点。

更值得注意的是，LATENTSEEK超越了最先进的自奖励强化学习方法Genius，在GSM8K上领先5.4个百分点，在MATH-500上领先20个百分点。它还大幅超过了iCoT（一种在增强GSM8K数据集上训练的潜在方法）在GSM8K测试集上的表现，提升了36.6个百分点。

在更具挑战性的AIME2024基准测试上，LATENTSEEK也展现出了优异的性能。它在所有模型家族和提示配置上平均比思维链方法提升了4.73个百分点。即使是较弱的模型，如Mistral和Qwen2.5-1.5B-Instruct，也从LATENTSEEK中受益，与思维链相比分别平均提升了1.67和3.33个百分点。

研究团队还发现，LATENTSEEK表现出良好的跨模型通用性。它在多个模型家族上都取得了优异的性能，包括Qwen2、Qwen2.5和LLaMA3.1系列。在1.5B参数规模上，LATENTSEEK在GSM8K数据集（提示2）上比思维链基线提升了显著的28.89个百分点。在7-8B规模上，基于Qwen2、Qwen2.5和LLaMA3.1的模型也普遍超过所有基线。

更有趣的是，研究团队观察到模型在测试时的性能随着迭代次数的增加而提升。特别是当配备理想的验证器时，LATENTSEEK能够将1.5B参数模型在MATH-500数据集上的性能从54.8%提升到82.8%，接近OpenAI的o1-preview模型的性能。这表明测试时扩展可以在潜在空间中有效实现，为传统的词汇空间扩展策略提供了一种可行的替代方案。

五、深入理解LATENTSEEK的工作原理

为了更深入地理解LATENTSEEK的工作原理，研究团队分析了模型生成的推理过程。通过分析使用LLaMA3.1-8B-Instruct模型在GSM8K数据集上生成的前三个词的分布，研究团队发现了一些有趣的现象。

非语义或晦涩词汇（如"thecy"、"theella"和"Sid"）的频繁出现表明，模型的推理机制可能与人类的认知策略存在显著差异，即使在表面上生成的输出看起来连贯。一个代表性的例子更进一步说明了这种差异：尽管生成了语言上异常的表达（如"下载的总下载量"、"下步两步andLet"），模型仍然能够得出正确的答案。

这些发现表明，语言模型的最优推理轨迹可能与人类的推理轨迹根本不同，更有效的探索方式可能是在模型的潜在空间中进行。这就像是每个人都有自己独特的思考方式，强迫模型按照人类的推理模式思考可能反而会限制它的潜力。LATENTSEEK正是利用了这一点，在模型自己的"思维空间"中进行探索，从而获得更好的性能。

此外，研究团队还报告了一些算法统计数据。在几乎所有情况下，最终答案的词汇量与原始思维链相比并没有显著增加，这表明LATENTSEEK不依赖于生成更长的输出来提高性能。关于更新迭代次数，GSM8K和MATH-500在各种模型上的平均迭代次数分别为0.86和1.23，都低于2，这表明潜在空间中的搜索过程通常在不到两次迭代内就能收敛，对于平均难度的问题而言。这凸显了该方法的计算效率和快速收敛行为。

六、LATENTSEEK的意义与未来展望

LATENTSEEK框架的提出标志着大型语言模型推理能力提升方法的一个重要突破。它展示了在不修改模型参数的情况下，如何通过在潜在空间中的实例级适应显著提升模型的推理性能。

相比于需要大量计算资源的参数更新方法（如监督微调和强化学习）或依赖人工设计提示的方法，LATENTSEEK提供了一种计算效率高、适应性强的替代方案。它不需要训练数据，不会导致灾难性遗忘，也不会产生过于冗长的输出。

这项研究还开辟了测试时扩展的新方向。传统上，测试时扩展主要通过增加生成的词汇数量来实现，而LATENTSEEK表明，增加潜在空间中的迭代次数也是一种有效的扩展策略。特别是在配备完美稀疏奖励的情况下，LATENTSEEK能够显著提升小型模型的性能，使其接近甚至超过大型模型的表现。

未来的研究方向可能包括：1）开发更有效的奖励模型，特别是基于结果的奖励模型；2）探索更高级的强化学习算法在潜在空间优化中的应用；3）将LATENTSEEK扩展到更大的基础模型上；4）将该方法应用于更广泛的任务，如文本生成、代码生成等。

总的来说，LATENTSEEK为增强大型语言模型的推理能力提供了一种轻量级、可扩展且有效的解决方案，对推动人工智能在复杂推理任务中的能力具有重要意义。正如作者在论文结尾所说："LATENTSEEK代表了在测试时实例级适应推理领域迈出的重要一步。"

人工智能测试时优化潜在空间探索

分享至