微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 预提示工程:为强化微调注入不同行为模式的全新方法

预提示工程:为强化微调注入不同行为模式的全新方法

2025-05-27 15:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 15:31 科技行者

在人工智能发展的热潮中,一项来自泰国SCB 10X集团和Vidyasirimedhi科技学院的创新研究正在改变我们对大型语言模型训练的认识。2025年5月,由Pittawat Taveekitworachai、Potsawee Manakul、Sarana Nutanong和Kunat Pipatanakul组成的研究团队在arXiv上发表了题为《Prior Prompt Engineering for Reinforcement Fine-Tuning》的论文,为语言模型的强化学习训练提出了一种全新视角。这篇发表于arXiv:2505.14157v1的研究可能会改变我们训练AI模型的方式。

想象你正在训练一只聪明的小狗。你可以用不同的口令引导它做出各种行为—"坐下"、"握手"或"翻滚"。在AI世界中,研究人员一直在使用类似的"口令"(即提示词)在推理阶段引导大型语言模型表现出特定行为。但这篇研究提出了一个新问题:如果我们在训练过程中就使用这些不同类型的口令,能否让AI学会不同的"技能"?

这就是"预提示工程"(pPE)的核心思想。与传统的推理时提示工程(iPE)不同,pPE发生在模型的强化微调阶段。简单来说,强化微调(RFT)是一种训练方法,通过给予模型正确回答的奖励,引导它产生更好的回答。而这项研究的创新之处在于探索了不同类型的预提示如何影响模型最终习得的行为模式。

研究团队从五种常见的推理时提示方法入手:思考链(chain-of-thought)、计划和解决(plan-and-solve)、代码推理(program-of-thought)、知识回忆(knowledge recall)和零示例(null-shot)提示。他们将这些方法转化为相应的预提示,用于强化微调过程,看看模型是否会表现出不同的行为特征和性能水平。

结果令人惊喜:所有通过预提示工程训练的模型都优于仅在推理时使用提示的基线模型。特别有趣的是,基于零示例的预提示方法—在传统推理设置中表现最差的一种—在强化微调后反而取得了最大的平均性能提升,并在AIME2024和GPQA-Diamond基准测试中表现最佳,超过了常用的思考链方法。

这项研究就像发现了训练AI的新"教学法",不仅改变了模型的表现,还能影响其思考和解决问题的方式。让我们深入了解这项研究的细节,看看它如何可能改变AI模型的训练方式。

一、强化微调与预提示:理解研究背景

想象你是一位钢琴老师。传统的方法是在学生弹完曲子后给予指导(就像推理时提示工程)。而新方法则是在学习过程中就给学生设定特定的练习模式和思维框架(预提示工程)。研究者们想知道:不同的教学方法是否会塑造出具有不同技能和思维方式的钢琴家?

强化微调(RFT)是近年来语言模型训练的热门方向。它通过奖励信号引导模型产生更好的输出,特别是在数学推理等需要深入思考的任务中。以往的RFT研究主要关注算法、奖励设计和数据选择,但很少有人关注"预提示"的设计—即训练过程中附加在查询前的指令文本。

预提示的作用类似于给学生的学习指南,它告诉模型应该如何思考和回答问题。例如,一个预提示可能会要求模型"先思考推理过程,然后给出答案",这会鼓励模型进行逐步推理。研究团队注意到,虽然一些研究提到预提示对训练稳定性和性能有影响,但还没有人系统地研究不同预提示方法如何影响最终模型的行为。

由此产生了研究的核心问题:不同的预提示工程方法能否引导语言模型在强化微调后内化不同的行为?

研究团队从推理时提示工程(iPE)的广泛应用中获得灵感。他们观察到,不同的iPE方法能够从语言模型中引出不同的行为,从而产生不同的性能影响。例如,思考链提示会引导模型进行逐步推理;计划和解决提示会让模型先制定计划再执行;代码推理提示则会通过代码来解决问题。

研究团队提出了"预提示工程"(pPE)的概念,指在RFT中修改预提示的方法。就像iPE在推理过程中引导行为一样,他们推测pPE可以在训练过程中塑造模型行为。通过将pPE与RFT的激励机制相结合,他们希望得到的模型能表现出多样化的行为,并在不同任务上实现不同程度的性能提升。

二、研究方法:从推理提示到训练指南的转变

研究团队将五种代表性的iPE方法转化为相应的pPE方法,并将它们应用于Qwen2.5-7B模型的训练中。这些方法包括:

思考链(思考型):鼓励模型在给出最终答案前进行逐步推理。在pPE中,这转化为使用``标签包裹推理过程。这种方法已被广泛用于RFT研究,因此作为基线。

计划和解决(计划型):引导模型先生成计划(如列出步骤)再执行计划。在pPE中,使用``标签标记计划部分。研究者预期,训练后的模型会在回答前生成计划。

代码推理(代码型):通过代码进行结构化推理,在解决数学和逻辑任务时表现出色。在pPE中,使用``标签标记代码部分。预期模型会生成解决任务的代码和注释。

知识回忆(知识型):要求模型在回答前回忆或合成相关知识,模拟自我检索过程。在pPE中,使用``标签标记知识部分。预期模型会在进行最终回答前回忆定义、定理或公式。

零示例利用(示例型):提示模型利用与问题相关的非存在示例,不提供实际示范但利用模型的归纳偏好。在pPE中,使用``标签标记示例部分。预期模型会生成或参考与查询相关的说明性示例。

研究团队采用标准的RFT设置,使用GRPO(Group Relative Policy Optimization)算法和STILLv3数据集(包含约30K数学问题)进行训练。他们的奖励函数包含两个同等权重的组成部分:(1)准确性奖励,基于模型是否产生正确答案;(2)格式奖励,评估模型输出是否遵循预期格式(例如``后跟``)。

对于每种pPE方法,他们训练了一个独特的模型变体,只在pPE方法上有所不同。为了全面评估这些模型,研究团队进行了定量和定性分析:

在定量分析中,他们测试了模型在数学推理(AIME2024、AMC12和MATH-500)、编码(HumanEval+)和问答(GPQA-Diamond)基准测试上的表现。

在定性分析方面,他们分析了训练动态、平均响应长度,以及模型表现出的四种基本认知行为(验证、回溯、子目标设置和反向链接)和五种特定于pPE的行为类别的比例。

研究团队还在更小的模型(Qwen2.5-3B)、不同的模型家族(Llama 3.1-8B)和专门的代码模型(Qwen2.5-Coder-7B)上进行了泛化性测试,以验证他们的发现是否适用于不同的模型架构和规模。

三、研究发现:不同提示方法塑造不同AI思维模式

研究团队的实验结果令人惊讶。首先,所有通过pPE训练的模型都优于仅在推理时使用iPE的基线模型。这表明,在训练过程中引入特定的行为指导比在推理时临时提示更有效。

更有趣的是,不同pPE方法之间存在显著差异。虽然传统的思考型pPE(即``)提供了强大的基线性能,但零示例型pPE(即``)取得了最高的平均性能提升(+6.98分),超过了思考型方法(+6.37分)。这一发现特别引人注目,因为在iPE设置中,零示例提示在某些任务上完全失效(如在HumanEval+上得分为0)。

研究还发现,iPE设置中表现最佳的知识回忆方法在pPE设置中反而收益最小。这表明iPE中观察到的性能趋势并不直接转化为pPE设置,强调了研究pPE作为RFT独特轴心的必要性。

不同的pPE方法在不同基准测试上表现各异。例如,代码型pPE在编码基准测试HumanEval+上表现最佳,但也在数学基准测试AMC上取得意外的最佳性能。相比之下,知识型pPE在问答基准测试GPQA上的表现甚至不如基线模型。这些结果表明,pPE的影响比简单地将领域特定提示与领域特定任务对齐更为复杂。

在行为差异方面,研究团队发现不同的pPE方法导致模型在训练后表现出不同的行为模式。例如,思考型和零示例型pPE生成的模型在平均响应长度上最短,但性能提升最大,表明这些方法在测试时计算预算使用上更有效率。

分析四种基本认知行为时,研究发现反向链接是所有模型中最突出的行为,不论是iPE还是pPE设置。然而,pPE方法倾向于减少所有四种基本认知行为的存在,而iPE则增加了这些行为。

最引人注目的是,不同pPE方法导致的模型表现出与其特定pPE方法相符的行为实例数量最多。例如,计划型pPE导致计划行为实例数量最多,知识型和思考型也是如此。然而,代码型iPE和pPE都引发了更多的代码行为实例,这是意料之中的。

有趣的是,零示例型pPE产生的知识回忆实例最少,但在GPQA上取得了最高性能,同时也表现出最少的零示例行为实例。这表明pPE方法可能不会总是导致模型表现出预期的行为—相反,模型可能在RFT过程中发现更有效的行为模式。

在泛化性研究中,研究团队发现思考型pPE在不同模型家族和规模上表现出一致的稳健性,这可能是因为它与模型从之前的类思考链数据微调中已熟悉的行为模式一致。相比之下,较小或较弱的模型家族在非思考型pPE方法上的成功有限,这与之前的研究发现一致,即这类模型从推理型RFT中获益较少。

四、案例分析:不同预提示如何影响AI解题方式

为了直观展示不同pPE方法的效果,让我们看一个具体例子。研究团队让所有训练后的模型回答同一个数学问题:"196有多少个正整数约数?"

通过思考型pPE训练的模型展示了详细的逐步推理:它首先确定196的质因数分解(196 = 2? × 7?),然后应用约数公式(2+1)×(2+1)= 9,得出正确答案。整个过程清晰地展示了每一步的思考过程。

计划型pPE训练的模型则先制定了明确的两步计划:1)确定196的质因数分解,2)使用质因数分解找出约数个数。然后它按计划执行,最终得出正确答案。这种方法展示了清晰的规划思维。

代码型pPE模型(特别是代码专业的Qwen2.5-Coder-7B)生成了Python代码来解决问题,通过循环遍历可能的约数。这展示了结构化的代码思维方式。

知识型pPE模型首先回忆了相关知识—约数和质因数分解的定义,以及如何用质因数分解来计算约数数量的公式,然后应用这些知识解决问题。

零示例型pPE模型生成了一个详细的示例,展示如何分解196并应用约数公式,类似于一个教学演示。

这些不同回应方式清晰地展示了各种pPE方法如何引导模型采用不同的问题解决策略和思维模式,尽管它们都能够得出正确答案。

五、研究启示与未来方向

这项研究的核心启示是,pPE可以作为RFT的一个强大且被低估的轴心,用于塑造模型的行为。不同的pPE方法不仅影响模型的性能,还影响其响应结构、冗长性和行为类型。

研究结果表明,pPE不仅可以用于训练推理模型,还可以培养其他专业行为。例如,可以通过特定的pPE方法训练一个生成计划的模型,或者一个依靠代码推理的模型。在这种情况下,奖励信号作为计划质量或代码有效性的代理。

研究团队还指出了几个有前途的未来方向:

动态pPE:基于任务或问题难度动态选择预提示,类似于测试时缩放范式,为更难的输入分配更多资源。

结构化思维:使用多标签结构(例如,结合``和``)引导模型通过更结构化的多阶段推理过程。

通过可验证奖励激励行为:利用RFT的可验证奖励作为训练行为的替代信号,无需直接监督信号。例如,如果我们在``或``后停止生成,我们可以将这些模型重新用作计划生成器或代码合成器。

研究的局限性主要与计算资源约束有关,这限制了他们进行更大规模、更多数据集或更多步骤的实验。此外,他们固定了训练数据领域(数学)、强化学习算法(GRPO)和其他实验配置,以隔离pPE方法的效果。未来的工作应该研究不同领域、RL算法和奖励方案如何与pPE交互。

总体而言,这项研究开辟了一个新的研究方向,强调了预提示工程作为RFT关键组成部分的重要性。通过精心设计的预提示,研究人员可以训练出具有不同行为特征和性能优势的模型,拓展了当前以推理为中心的RFT范式的边界。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-