微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海AI实验室推出φ-Decoding：让AI在推理时学会"深思熟虑"的新方法

推理时优化前瞻性采样自适应剪枝

上海AI实验室推出φ-Decoding：让AI在推理时学会"深思熟虑"的新方法

作者：科技行者

2025-07-31 14:57

分享至：

上海AI实验室等多所高校联合提出φ-Decoding方法，通过让AI在推理时进行前瞻性采样和智能剪枝，解决了传统自回归生成的短视性问题。该方法在多个推理任务上显著提升了大语言模型性能，平均改进超过14%，同时保持了6倍的计算效率优势，为推理时优化提供了实用的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-31 14:57 • 科技行者

这项由上海AI实验室的徐方志、西安交通大学的严航以及香港大学、北京大学、新加坡国立大学等多所知名高校研究团队合作完成的研究，发表于2025年3月17日的arXiv预印本平台。有兴趣深入了解的读者可以通过论文编号arXiv:2503.13288v1访问完整论文。

当我们面对一道复杂的数学题时，通常不会马上给出答案，而是会在心里盘算一番，考虑不同的解题方法，甚至会在脑海中模拟几种可能的解题路径，然后选择最有把握的那一条。这就是人类在解决问题时的"深思熟虑"过程。但对于目前的大语言模型来说，它们更像是一个"急性子"的学生，看到问题后立刻开始回答，一个字接着一个字地生成答案，而无法像人类那样先思考再行动。

这种"急性子"的问题在学术界被称为"自回归生成的短视性"。就好比一个人走路时只看脚下这一步，而看不到前方的路况。虽然每一步可能都走得很稳，但整体路线可能并不是最优的，甚至可能走进死胡同。研究人员发现，这正是当前AI系统在处理复杂推理任务时的一个重要局限。

为了解决这个问题，研究团队提出了一种全新的解码策略，他们称之为"φ-Decoding"（phi-Decoding）。这个名字听起来很学术，但其核心思想其实很简单：让AI在生成每一步答案之前，先在"心里"模拟一下接下来可能的几步，然后基于这种"预见性"来选择当前最优的步骤。

这种方法就像是给AI装上了一双"千里眼"，让它能够看到未来几步的可能结果，从而做出更明智的选择。而且这个过程是自适应的，意思是AI可以根据问题的难易程度，自动调整需要"深思熟虑"的程度。对于简单的问题，它可能只需要简单思考一下就够了；对于复杂的问题，它会花更多的计算资源来仔细考虑。

研究团队在多个推理任务上测试了这种方法，结果显示φ-Decoding能够显著提升AI的推理能力。在使用LLaMA3.1-8B模型的实验中，平均性能提升了超过14%，而且在计算效率上也比传统的搜索方法高出6倍。这意味着AI不仅变得更聪明了，而且还更加高效。

一、让AI学会"向前看"：前瞻性采样的原理

要理解φ-Decoding的工作原理，我们可以把它比作一个象棋大师的思维过程。当面对棋盘上的局面时，象棋大师不会立即移动棋子，而是会在脑海中模拟几种可能的走法，考虑对手可能的回应，甚至预想几步之后的局面。只有在心中权衡了各种可能性之后，他才会做出实际的移动。

传统的AI推理方式更像是一个初学者，看到当前的局面后，基于已有的经验直接选择看起来最好的一步。这种方法虽然每一步都可能是合理的，但缺乏全局视野，容易陷入局部最优的陷阱。

φ-Decoding的创新在于引入了"前瞻性采样"的概念。具体来说，当AI需要生成推理过程中的某一步时，它不是立即做出选择，而是先在内部模拟几种可能的后续步骤。这就像是在下棋时，先在心里试走几步，看看每种走法会导致什么样的后果。

这个过程可以用一个数学公式来描述，但用更直观的方式来理解就是：AI会综合考虑当前步骤的直接价值和它对未来步骤的潜在影响。如果一个步骤看起来不错，但会导致后续的推理陷入困境，那么AI就会降低选择这个步骤的概率。相反，如果一个步骤虽然看起来普通，但能为后续的推理铺平道路，AI就会更倾向于选择它。

研究团队设计了一个巧妙的评估系统来量化每个步骤的价值。这个系统包含两个重要组成部分：优势估计和一致性评估。优势估计就像是评估一个决策的直接收益，而一致性评估则是看这个决策是否与其他可能的优秀决策保持一致。

优势估计的计算方式是比较当前步骤和前一步骤的"前瞻概率"差异。这里的前瞻概率指的是基于模拟的未来步骤，AI对当前推理路径成功概率的估计。如果这个差异很大且为正，说明当前步骤显著提升了成功的可能性；如果差异为负或很小，则说明这个步骤可能不是最佳选择。

一致性评估则采用了聚类的方法。AI会将所有模拟的未来路径进行分组，看哪些路径最终会导向相似的结果。如果某个当前步骤对应的未来路径能够与大多数其他优秀路径归为一类，那么这个步骤就被认为具有较高的一致性价值。这种做法的妙处在于，它能够避免AI过度自信于某个看似完美但实际上可能存在风险的路径。

最终，AI会将优势估计和一致性评估结合起来，形成一个综合的步骤价值评分。然后，它会基于这个评分进行概率采样，选择最有前景的步骤作为实际的输出。这整个过程就像是一个经验丰富的决策者，既考虑immediate gains（即时收益），也考虑long-term benefits（长期利益），还会参考collective wisdom（集体智慧）来做出最终的选择。

二、智能剪枝：让AI学会适度思考

虽然前瞻性采样能够显著提升AI的推理质量，但它也带来了一个新的挑战：计算成本的增加。毕竟，为每一步都模拟多种可能的未来路径需要大量的计算资源。这就像是要求一个人在做每个决定之前都要深思熟虑十分钟，虽然决策质量可能会提高，但效率却会大大降低。

研究团队意识到，在现实应用中，并不是每一步都需要如此深度的思考。有些步骤是显而易见的，就像走路时遇到平坦的直路，我们不需要过多思考就能迅速通过。而有些步骤则比较关键，需要仔细考虑，就像在十字路口选择方向时需要慎重决策。

基于这一观察，研究团队设计了两种"智能剪枝"策略：宽度剪枝和深度剪枝。这两种策略就像是给AI装上了一个"思考调节器"，让它能够根据情况自动调整思考的强度和深度。

宽度剪枝的工作原理是过滤掉那些明显不合理的候选步骤。在生成每一步的候选选项时，AI会首先评估每个候选步骤的基础合理性。如果某个步骤的生成概率过低，明显不符合上下文的逻辑，那么就没有必要为它进行复杂的前瞻性模拟。这就像是在考试时，如果某个选项一看就明显是错误的，我们就不需要浪费时间去详细分析它。

具体的实现方法是计算所有候选步骤生成概率的均值和标准差，然后将那些概率低于"均值减去一个标准差"的候选步骤直接排除。这个标准可以根据需要进行调整，如果设置得更严格（比如均值减去两个标准差），就会过滤掉更多的候选步骤，从而节省更多的计算资源；如果设置得较宽松，则会保留更多的可能性，但需要更多的计算。

深度剪枝则是解决另一个问题：并不是每个推理问题都需要从头到尾进行深度思考。研究发现，在许多推理任务中，前面的步骤往往更加关键，需要仔细考虑；而随着推理的进行，后面的步骤通常会变得越来越明确，不需要太复杂的分析。

这种现象可以用爬山的比喻来理解：在山脚下选择路线时，我们需要仔细观察地形，考虑各种可能的路径；但当我们已经爬到半山腰，距离山顶很近时，路线通常会变得相对明确，不需要太多的犹豫。

深度剪枝的实现采用了一个巧妙的"早停"机制。AI会持续监控前瞻性模拟的结果分布。当它发现大部分模拟路径都指向相似的结论时（具体来说，是当最大聚类的规模超过总路径数量的70%时），就会认为当前的选择已经足够明确，不需要继续进行复杂的前瞻性分析，转而采用更简单高效的自回归生成方式来完成剩余的推理步骤。

这两种剪枝策略的结合使用，让φ-Decoding能够在保持高质量推理的同时，显著降低计算成本。实验结果显示，相比于不使用剪枝策略的版本，这些优化措施不仅大幅减少了计算资源的消耗，甚至还略微提升了推理性能。这是因为剪枝过程实际上起到了"去噪"的作用，帮助AI专注于真正重要的选择，避免被一些干扰性的低质量选项分散注意力。

三、实验验证：在多个智能测试中的表现

为了验证φ-Decoding的实际效果，研究团队进行了一系列comprehensive experiments（全面实验）。他们选择了七个不同类型的推理任务作为测试平台，这些任务就像是AI的"智商测试题"，涵盖了数学计算、逻辑推理、科学问答等多个方面。

首先是GSM8K数据集，这是一个包含小学数学应用题的集合。这些题目对人类来说可能不算太难，但对AI来说却充满挑战，因为它们需要多步骤的逻辑推理和数值计算。使用φ-Decoding后，LLaMA3.1-8B模型在这个数据集上的准确率从70.28%提升到了86.58%，提升幅度超过16个百分点。

MATH-500数据集包含了更高难度的数学竞赛题目，相当于高中到大学水平的数学问题。在这个更具挑战性的任务上，φ-Decoding同样展现出了显著的改进效果，准确率从31.00%提升到38.20%。虽然绝对准确率看起来不是很高，但要知道这些都是相当有难度的题目，7个百分点的提升实际上代表了相当大的进步。

GPQA（Graduate-level Google-Proof Q&A）是一个研究生水平的科学问答数据集，包含了生物、化学、物理等领域的专业问题。这些问题的特点是即使使用搜索引擎也很难直接找到答案，需要深度的科学推理能力。φ-Decoding在这个数据集上将准确率从26.56%提升到34.60%，显示出它在处理需要专业知识和复杂推理的问题上的优势。

在逻辑推理方面，研究团队测试了ReClor和LogiQA两个数据集。ReClor专注于阅读理解中的逻辑推理，而LogiQA则包含了各种类型的逻辑题目。在这两个数据集上，φ-Decoding分别实现了从49.40%到64.00%，以及从33.33%到48.39%的提升。

ARC-Challenge数据集包含了小学科学题目，但这些题目都经过精心设计，需要一定的科学知识和推理能力才能正确回答。在这个数据集上，φ-Decoding的表现同样出色，准确率从58.91%提升到85.41%。

最令人印象深刻的是在AIME 2024竞赛级数学题目上的表现。AIME是美国数学竞赛的高级阶段，题目难度相当高。即使是经过专门训练的DeepSeek R1模型，在使用φ-Decoding后也获得了进一步的性能提升，从37.81%提高到46.67%。这说明φ-Decoding的方法具有很好的通用性，即使是已经很强的模型也能从中受益。

为了更好地理解φ-Decoding的效率优势，研究团队还进行了inference-time scaling（推理时计算量缩放）实验。他们发现，φ-Decoding在不同的计算预算下都能保持性能优势。更重要的是，当控制性能达到相同水平时，φ-Decoding的计算效率比传统的搜索方法高出6倍。这意味着用户可以用更少的计算资源获得更好的推理效果。

研究团队还测试了φ-Decoding在不同规模模型上的表现。从3B参数的小模型到70B参数的大模型，φ-Decoding都能带来consistent improvements（一致的改进）。这种跨模型规模的稳定表现，说明了这种方法的robust nature（稳健特性）和broad applicability（广泛适用性）。

四、技术创新：两个分布的巧妙结合

φ-Decoding的核心创新在于它对步骤价值的估计方法。传统的方法通常依赖单一的评价标准，比如某个步骤的生成概率或者外部奖励模型的评分。但这种approach往往存在局限性：仅仅依靠生成概率可能会陷入模型的偏见陷阱，而外部奖励模型又不是对所有任务都available（可获得的）。

研究团队提出了一种更sophisticated（精妙）的方法，通过结合两个不同维度的分布来评估步骤价值。这种做法就像是在评价一个员工的表现时，既要看他的individual performance（个人表现），也要看他与团队的collaborative harmony（协作和谐度）。

第一个分布来自于advantage estimation（优势估计）。这个概念borrowed from（借鉴于）强化学习领域，用来衡量某个行动相对于平均水平的优势。在φ-Decoding中，优势估计通过比较当前步骤和前一步骤的前瞻概率来计算。如果当前步骤能够显著提升后续推理成功的概率，那么它就具有正的优势值；反之，如果它会降低成功概率，则具有负的优势值。

这种计算方式的巧妙之处在于它capture了（捕捉了）每个步骤的marginal contribution（边际贡献）。就像在接力赛中，我们不仅要看每个队员的绝对速度，更要看他相对于前一个队员的速度提升。一个步骤可能本身看起来不错，但如果它没有在前一步的基础上带来进一步的改进，那么它的实际价值就不高。

第二个分布来自于alignment assessment（一致性评估），这是通过clustering technique（聚类技术）实现的。具体做法是将所有的前瞻路径根据它们的content similarity（内容相似性）进行分组。如果某个当前步骤对应的前瞻路径能够与大多数其他路径聚集在一起，那么这个步骤就被认为具有较高的一致性价值。

这种一致性评估的重要性可以用"群体智慧"的概念来理解。当多个independent reasoning paths（独立推理路径）都指向相似的方向时，这通常是一个strong signal（强信号），表明这个方向是正确的。相反，如果某个路径completely isolated（完全孤立）于其他路径，即使它看起来很有道理，也可能存在hidden risks（隐藏风险）。

为了实现聚类，研究团队采用了TF-IDF（Term Frequency-Inverse Document Frequency）方法来表示文本内容，然后使用standard clustering algorithms（标准聚类算法）进行分组。聚类的数量K是一个可调节的超参数，通常设置为3，这意味着前瞻路径会被分为三个主要的类别。

最终的步骤价值是通过combining（结合）这两个分布计算得出的。研究团队采用了一个simple but effective（简单但有效）的策略：将两个分布分别进行normalization（归一化），然后以equal weight（相等权重）进行加权平均。这种结合方式确保了最终的选择既考虑了individual merit（个体价值），也考虑了collective consensus（集体共识）。

这种双分布的设计philosophy（设计哲学）体现了一个重要的insight（洞察）：好的决策不仅要locally optimal（局部最优），还要globally consistent（全局一致）。在complex reasoning tasks（复杂推理任务）中，一个步骤的价值不能仅仅由它自身的特性决定，还要考虑它与整个推理链条的coordination（协调性）和compatibility（兼容性）。

五、性能分析：深入理解改进的来源

为了更深入地理解φ-Decoding为什么能够取得如此显著的性能提升，研究团队进行了详细的ablation studies（消融研究）。这些研究就像是医生进行病因分析，通过systematically removing（系统性移除）方法的某些组成部分，来understand（理解）每个部分的具体贡献。

首先，他们测试了移除前瞻性采样后的效果。结果显示，没有前瞻性采样的版本性能大幅下降，在LLaMA3.1-8B模型上平均性能从59.53%降到了56.55%。这证实了"向前看"能力确实是性能提升的关键因素。这个结果符合我们的直觉：如果AI只能基于已有信息做决策，而无法预见可能的后果，那么它很容易陷入short-sighted mistakes（短视错误）。

接下来，他们测试了移除聚类（一致性评估）的影响。虽然影响相对较小，但仍然导致了约1-2个百分点的性能下降。这说明collective wisdom（集体智慧）确实起到了important calibration role（重要校准作用），帮助AI避免过度依赖某些可能存在bias（偏见）的individual judgments（个体判断）。

最有趣的发现是关于动态剪枝策略的效果。研究团队原本期望剪枝主要是为了提高效率，可能会sacrifice（牺牲）一些性能。但实验结果显示，剪枝不仅大幅降低了计算成本（FLOPS减少了约20-25%），还略微提升了推理性能。

这个counter-intuitive（反直觉）的结果揭示了一个深刻的道理：有时候less is more（少即是多）。通过过滤掉明显不合理的选项和在适当时机停止过度思考，AI实际上能够更好地focus on（专注于）truly important decisions（真正重要的决策）。这就像是一个好的老师不会给学生提供无穷多个选择，而是会carefully curate（精心筛选）最relevant options（最相关的选项），帮助学生做出更好的决策。

研究团队还进行了step-wise analysis（逐步分析），追踪AI在推理过程中每一步的计算资源分配。他们发现了一个有趣的模式：φ-Decoding会自动将更多的计算资源分配给推理链条的early stages（早期阶段），而随着推理的进展逐渐减少资源投入。这种adaptive allocation（自适应分配）模式与人类专家的思维模式高度一致。

为了验证步骤价值估计的准确性，研究团队设计了一个clever evaluation metric（巧妙的评估指标）。他们将AI估计的步骤价值与actual outcomes（实际结果）进行比较，发现φ-Decoding的估计准确率显著高于其他baseline methods（基线方法）。这证明了双分布设计确实能够provide more reliable guidance（提供更可靠的指导）。

研究团队还分析了不同类型任务上的性能差异。他们发现φ-Decoding在需要multi-step reasoning（多步推理）的任务上表现特别突出，而在相对简单的single-step tasks（单步任务）上改进相对有限。这符合方法的设计初衷：前瞻性思考在complex scenarios（复杂场景）中更有价值。

特别值得注意的是inference-time scaling的分析结果。研究团队发现，随着计算预算的增加，φ-Decoding的性能提升呈现stable upward trend（稳定上升趋势），而且efficiency advantage（效率优势）在不同预算水平下都能保持。这说明这种方法具有良好的scalability（可扩展性），能够accommodate（适应）不同的computational constraints（计算约束）。

六、广泛适用：跨模型和跨任务的一致表现

φ-Decoding的一个突出特点是它的generalizability（通用性）。研究团队在多种不同规模和类型的语言模型上进行了测试，从compact（紧凑）的3B参数模型到massive（庞大）的70B参数模型，都观察到了consistent improvements（一致的改进）。

在Qwen2.5-3B模型上的实验结果尤其令人印象深刻。尽管这是一个相对较小的模型，φ-Decoding仍然能够带来平均3.80%的性能提升。这说明前瞻性推理的benefits（益处）并不仅限于large-scale models（大规模模型），smaller models（较小模型）同样可以通过better reasoning strategies（更好的推理策略）来enhance their capabilities（增强能力）。

在LLaMA3.1-70B这样的大型模型上，φ-Decoding同样表现出色。在四个测试任务上，平均性能提升达到了7.00%以上。特别是在ReClor逻辑推理任务上，性能从67.60%跃升至84.80%，提升幅度超过17个百分点。这种dramatic improvement（戏剧性改进）表明，即使是已经很强大的模型，也能通过更sophisticated reasoning approaches（更精妙的推理方法）获得significant benefits（重大收益）。

最令人惊讶的是在DeepSeek R1-Distill-LLaMA-8B模型上的结果。这个模型本身就是专门为推理任务优化的，已经具备了相当强的思维能力。但即使在这样一个already highly optimized（已经高度优化）的模型上，φ-Decoding仍然能够带来8.86个百分点的性能提升。这证明了方法的fundamental value（根本价值）：它不是依赖于模型的特定缺陷，而是提供了一种universally applicable（普遍适用）的推理增强机制。

跨任务的robustness（鲁棒性）同样值得关注。从basic arithmetic（基础算术）到advanced scientific reasoning（高级科学推理），从logical puzzles（逻辑谜题）to reading comprehension（阅读理解），φ-Decoding在各种不同类型的认知任务上都展现出了positive effects（积极效果）。这种broad applicability（广泛适用性）是特别valuable（有价值的），因为它意味着用户不需要为不同类型的任务develop specialized solutions（开发专门解决方案）。

研究团队还注意到一个有趣的现象：performance gains（性能增益）的magnitude（幅度）与task complexity（任务复杂性）呈现positive correlation（正相关关系）。在相对简单的任务上，改进可能只有几个百分点；但在highly challenging tasks（高度挑战性任务）上，改进可能达到十几个甚至二十几个百分点。这个pattern（模式）符合方法的theoretical foundation（理论基础）：前瞻性思考在complex decision-making scenarios（复杂决策场景）中更有价值。

为了确保结果的reliability（可靠性），研究团队还进行了extensive hyperparameter sensitivity analysis（广泛的超参数敏感性分析）。他们发现φ-Decoding对大多数hyperparameters（超参数）都相对robust（鲁棒），这意味着用户不需要进行exhaustive tuning（详尽调优）就能获得good performance（良好性能）。这种user-friendly characteristic（用户友好特性）对于practical deployment（实际部署）来说非常重要。

特别值得一提的是computational efficiency（计算效率）方面的consistent advantages（一致优势）。无论在哪种模型或任务上，φ-Decoding都能在提升性能的同时保持reasonable computational overhead（合理的计算开销）。在某些情况下，由于effective pruning strategies（有效剪枝策略），它甚至比简单的baseline methods（基线方法）更加efficient（高效）。

这种综合表现使得φ-Decoding成为一个practically viable solution（实际可行的解决方案）。它不仅在research benchmarks（研究基准）上表现出色，更重要的是具备了real-world deployment（真实世界部署）所需的versatility（多功能性）、efficiency（效率）和reliability（可靠性）。

总的来说，这项研究代表了推理时优化领域的一个重要进步。通过巧妙结合前瞻性模拟、双分布评Estimation（估计）和adaptive pruning（自适应剪枝），φ-Decoding为AI系统提供了一种更加intelligent（智能）和efficient（高效）的推理方式。它不仅解决了传统方法的短视性问题，还在保持计算效率的同时显著提升了推理质量。

更重要的是，这种方法的成功为未来的研究指明了方向：通过模拟人类的thinking patterns（思维模式），AI系统可以在不需要额外训练的情况下获得更强的推理能力。这为那些computational resources limited（计算资源有限）但希望提升AI性能的用户提供了一个practical and effective solution（实用有效的解决方案）。

随着大语言模型在各个领域的广泛应用，像φ-Decoding这样的推理增强方法将变得越来越重要。它们不仅能够帮助现有的模型发挥更大的potential（潜力），还能为未来更加intelligent（智能）的AI系统奠定foundation（基础）。我们有理由相信，这种让AI学会"深思熟虑"的研究方向将在未来带来更多exciting breakthroughs（令人兴奋的突破）。有兴趣进一步了解技术细节的读者，可以访问研究团队即将发布的开源代码库（https://github.com/xufangzhi/phi-Decoding），并关注他们计划推出的PyPI工具包。

Q&A

Q1：φ-Decoding是什么？它能解决什么问题？ A：φ-Decoding是一种让AI在推理时学会"深思熟虑"的新方法。它解决了传统AI只能"一步看一步"的短视问题，通过让AI在每一步之前先模拟未来几步的可能结果，从而做出更明智的选择。就像下棋时会提前考虑几步棋一样。

Q2：这种方法会不会让AI变得很慢？ A：不会。虽然φ-Decoding需要额外的计算来模拟未来步骤，但研究团队设计了智能剪枝策略，让AI只在必要时进行深度思考。实际上，它比传统的搜索方法效率高出6倍，既提升了推理质量，又保持了合理的计算成本。

Q3：普通用户能使用φ-Decoding吗？ A：目前φ-Decoding还是一个研究阶段的技术，但研究团队计划很快发布开源代码和PyPI工具包。一旦发布，开发者就可以将这种方法集成到自己的AI应用中，让各种语言模型都能获得更强的推理能力。

推理时优化前瞻性采样自适应剪枝

分享至