微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

预提示工程：为强化微调注入不同行为模式的全新方法

人工智能强化微调语言模型训练

预提示工程：为强化微调注入不同行为模式的全新方法

作者：科技行者

2025-05-27 15:31

分享至：

这项研究探索了预提示工程（pPE）在强化微调（RFT）中的作用，证明不同类型的预提示可以引导语言模型习得不同行为模式。研究者将五种推理时提示策略转化为训练时预提示，发现所有pPE训练的模型都优于仅用推理时提示的基线，其中零示例型pPE意外地取得最高平均性能提升。此外，不同pPE方法引导模型表现出各自独特的行为特征，表明pPE是RFT中一个被低估但强大的训练维度，可用于培养多样化的AI思维模式。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 15:31 • 科技行者

在人工智能发展的热潮中，一项来自泰国SCB 10X集团和Vidyasirimedhi科技学院的创新研究正在改变我们对大型语言模型训练的认识。2025年5月，由Pittawat Taveekitworachai、Potsawee Manakul、Sarana Nutanong和Kunat Pipatanakul组成的研究团队在arXiv上发表了题为《Prior Prompt Engineering for Reinforcement Fine-Tuning》的论文，为语言模型的强化学习训练提出了一种全新视角。这篇发表于arXiv:2505.14157v1的研究可能会改变我们训练AI模型的方式。

想象你正在训练一只聪明的小狗。你可以用不同的口令引导它做出各种行为—"坐下"、"握手"或"翻滚"。在AI世界中，研究人员一直在使用类似的"口令"（即提示词）在推理阶段引导大型语言模型表现出特定行为。但这篇研究提出了一个新问题：如果我们在训练过程中就使用这些不同类型的口令，能否让AI学会不同的"技能"？

这就是"预提示工程"（pPE）的核心思想。与传统的推理时提示工程（iPE）不同，pPE发生在模型的强化微调阶段。简单来说，强化微调（RFT）是一种训练方法，通过给予模型正确回答的奖励，引导它产生更好的回答。而这项研究的创新之处在于探索了不同类型的预提示如何影响模型最终习得的行为模式。

研究团队从五种常见的推理时提示方法入手：思考链（chain-of-thought）、计划和解决（plan-and-solve）、代码推理（program-of-thought）、知识回忆（knowledge recall）和零示例（null-shot）提示。他们将这些方法转化为相应的预提示，用于强化微调过程，看看模型是否会表现出不同的行为特征和性能水平。

结果令人惊喜：所有通过预提示工程训练的模型都优于仅在推理时使用提示的基线模型。特别有趣的是，基于零示例的预提示方法—在传统推理设置中表现最差的一种—在强化微调后反而取得了最大的平均性能提升，并在AIME2024和GPQA-Diamond基准测试中表现最佳，超过了常用的思考链方法。

这项研究就像发现了训练AI的新"教学法"，不仅改变了模型的表现，还能影响其思考和解决问题的方式。让我们深入了解这项研究的细节，看看它如何可能改变AI模型的训练方式。

一、强化微调与预提示：理解研究背景

想象你是一位钢琴老师。传统的方法是在学生弹完曲子后给予指导（就像推理时提示工程）。而新方法则是在学习过程中就给学生设定特定的练习模式和思维框架（预提示工程）。研究者们想知道：不同的教学方法是否会塑造出具有不同技能和思维方式的钢琴家？

强化微调（RFT）是近年来语言模型训练的热门方向。它通过奖励信号引导模型产生更好的输出，特别是在数学推理等需要深入思考的任务中。以往的RFT研究主要关注算法、奖励设计和数据选择，但很少有人关注"预提示"的设计—即训练过程中附加在查询前的指令文本。

预提示的作用类似于给学生的学习指南，它告诉模型应该如何思考和回答问题。例如，一个预提示可能会要求模型"先思考推理过程，然后给出答案"，这会鼓励模型进行逐步推理。研究团队注意到，虽然一些研究提到预提示对训练稳定性和性能有影响，但还没有人系统地研究不同预提示方法如何影响最终模型的行为。

由此产生了研究的核心问题：不同的预提示工程方法能否引导语言模型在强化微调后内化不同的行为？

研究团队从推理时提示工程（iPE）的广泛应用中获得灵感。他们观察到，不同的iPE方法能够从语言模型中引出不同的行为，从而产生不同的性能影响。例如，思考链提示会引导模型进行逐步推理；计划和解决提示会让模型先制定计划再执行；代码推理提示则会通过代码来解决问题。

研究团队提出了"预提示工程"（pPE）的概念，指在RFT中修改预提示的方法。就像iPE在推理过程中引导行为一样，他们推测pPE可以在训练过程中塑造模型行为。通过将pPE与RFT的激励机制相结合，他们希望得到的模型能表现出多样化的行为，并在不同任务上实现不同程度的性能提升。

二、研究方法：从推理提示到训练指南的转变

研究团队将五种代表性的iPE方法转化为相应的pPE方法，并将它们应用于Qwen2.5-7B模型的训练中。这些方法包括：

思考链（思考型）：鼓励模型在给出最终答案前进行逐步推理。在pPE中，这转化为使用``标签包裹推理过程。这种方法已被广泛用于RFT研究，因此作为基线。

计划和解决（计划型）：引导模型先生成计划（如列出步骤）再执行计划。在pPE中，使用``标签标记计划部分。研究者预期，训练后的模型会在回答前生成计划。

代码推理（代码型）：通过代码进行结构化推理，在解决数学和逻辑任务时表现出色。在pPE中，使用``标签标记代码部分。预期模型会生成解决任务的代码和注释。

知识回忆（知识型）：要求模型在回答前回忆或合成相关知识，模拟自我检索过程。在pPE中，使用``标签标记知识部分。预期模型会在进行最终回答前回忆定义、定理或公式。

零示例利用（示例型）：提示模型利用与问题相关的非存在示例，不提供实际示范但利用模型的归纳偏好。在pPE中，使用``标签标记示例部分。预期模型会生成或参考与查询相关的说明性示例。

研究团队采用标准的RFT设置，使用GRPO（Group Relative Policy Optimization）算法和STILLv3数据集（包含约30K数学问题）进行训练。他们的奖励函数包含两个同等权重的组成部分：(1)准确性奖励，基于模型是否产生正确答案；(2)格式奖励，评估模型输出是否遵循预期格式（例如``后跟``）。

对于每种pPE方法，他们训练了一个独特的模型变体，只在pPE方法上有所不同。为了全面评估这些模型，研究团队进行了定量和定性分析：

在定量分析中，他们测试了模型在数学推理（AIME2024、AMC12和MATH-500）、编码（HumanEval+）和问答（GPQA-Diamond）基准测试上的表现。

在定性分析方面，他们分析了训练动态、平均响应长度，以及模型表现出的四种基本认知行为（验证、回溯、子目标设置和反向链接）和五种特定于pPE的行为类别的比例。

研究团队还在更小的模型（Qwen2.5-3B）、不同的模型家族（Llama 3.1-8B）和专门的代码模型（Qwen2.5-Coder-7B）上进行了泛化性测试，以验证他们的发现是否适用于不同的模型架构和规模。

三、研究发现：不同提示方法塑造不同AI思维模式

研究团队的实验结果令人惊讶。首先，所有通过pPE训练的模型都优于仅在推理时使用iPE的基线模型。这表明，在训练过程中引入特定的行为指导比在推理时临时提示更有效。

更有趣的是，不同pPE方法之间存在显著差异。虽然传统的思考型pPE（即``）提供了强大的基线性能，但零示例型pPE（即``）取得了最高的平均性能提升（+6.98分），超过了思考型方法（+6.37分）。这一发现特别引人注目，因为在iPE设置中，零示例提示在某些任务上完全失效（如在HumanEval+上得分为0）。

研究还发现，iPE设置中表现最佳的知识回忆方法在pPE设置中反而收益最小。这表明iPE中观察到的性能趋势并不直接转化为pPE设置，强调了研究pPE作为RFT独特轴心的必要性。

不同的pPE方法在不同基准测试上表现各异。例如，代码型pPE在编码基准测试HumanEval+上表现最佳，但也在数学基准测试AMC上取得意外的最佳性能。相比之下，知识型pPE在问答基准测试GPQA上的表现甚至不如基线模型。这些结果表明，pPE的影响比简单地将领域特定提示与领域特定任务对齐更为复杂。

在行为差异方面，研究团队发现不同的pPE方法导致模型在训练后表现出不同的行为模式。例如，思考型和零示例型pPE生成的模型在平均响应长度上最短，但性能提升最大，表明这些方法在测试时计算预算使用上更有效率。

分析四种基本认知行为时，研究发现反向链接是所有模型中最突出的行为，不论是iPE还是pPE设置。然而，pPE方法倾向于减少所有四种基本认知行为的存在，而iPE则增加了这些行为。

最引人注目的是，不同pPE方法导致的模型表现出与其特定pPE方法相符的行为实例数量最多。例如，计划型pPE导致计划行为实例数量最多，知识型和思考型也是如此。然而，代码型iPE和pPE都引发了更多的代码行为实例，这是意料之中的。

有趣的是，零示例型pPE产生的知识回忆实例最少，但在GPQA上取得了最高性能，同时也表现出最少的零示例行为实例。这表明pPE方法可能不会总是导致模型表现出预期的行为—相反，模型可能在RFT过程中发现更有效的行为模式。

在泛化性研究中，研究团队发现思考型pPE在不同模型家族和规模上表现出一致的稳健性，这可能是因为它与模型从之前的类思考链数据微调中已熟悉的行为模式一致。相比之下，较小或较弱的模型家族在非思考型pPE方法上的成功有限，这与之前的研究发现一致，即这类模型从推理型RFT中获益较少。

四、案例分析：不同预提示如何影响AI解题方式

为了直观展示不同pPE方法的效果，让我们看一个具体例子。研究团队让所有训练后的模型回答同一个数学问题："196有多少个正整数约数？"

通过思考型pPE训练的模型展示了详细的逐步推理：它首先确定196的质因数分解（196 = 2? × 7?），然后应用约数公式（2+1）×（2+1）= 9，得出正确答案。整个过程清晰地展示了每一步的思考过程。

计划型pPE训练的模型则先制定了明确的两步计划：1)确定196的质因数分解，2)使用质因数分解找出约数个数。然后它按计划执行，最终得出正确答案。这种方法展示了清晰的规划思维。

代码型pPE模型（特别是代码专业的Qwen2.5-Coder-7B）生成了Python代码来解决问题，通过循环遍历可能的约数。这展示了结构化的代码思维方式。