微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

UFT：统一监督式和强化式微调，打破大语言模型学习与思考的隔阂

大语言模型微调方法推理能力

UFT：统一监督式和强化式微调，打破大语言模型学习与思考的隔阂

作者：科技行者

2025-05-30 11:15

分享至：

这篇来自麻省理工学院研究团队的论文提出了"统一微调"(UFT)方法，创新性地融合了监督式微调(SFT)和强化式微调(RFT)的优势。传统上，SFT擅长让模型"记忆"标准答案但易过拟合，RFT则培养模型"思考"能力但依赖基础模型强度。UFT通过部分解答提示和混合目标函数，让模型同时获得"学习"和"思考"的能力，实验证明它在不同规模模型和各类推理任务上均优于现有方法，且理论上能将RFT的指数级采样复杂度降至多项式级，大幅提升训练效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 11:15 • 科技行者

大语言模型（LLMs）在完成训练后，经常需要进一步的"后训练"阶段来增强其推理能力。麻省理工学院电气工程与计算机科学系（EECS）LIDS实验室的研究团队Mingyang Liu、Gabriele Farina和Asuman Ozdaglar在2025年5月22日发表于arXiv（arXiv:2505.16984v1）的论文中，提出了一种创新性的后训练方法——统一微调（Unified Fine-Tuning，UFT）。这项研究旨在解决当前大语言模型微调中的一个根本性问题：如何在"记忆"和"思考"之间取得平衡。

正如论文开篇引用的孔子名言所说："学而不思则罔，思而不学则殆"（Learning without thinking leads to confusion; thinking without learning is perilous）。这句古老的智慧恰好点明了当前大语言模型后训练的核心挑战。目前，大语言模型的后训练主要分为两大类：监督式微调（Supervised Fine-Tuning，SFT）和强化式微调（Reinforcement Fine-Tuning，RFT）。简单来说，SFT就像是让模型"死记硬背"标准答案，而RFT则是让模型"自己思考"并从尝试中学习。

在人类学习过程中，我们通常会结合这两种方式：在做题时自己思考（类似RFT），遇到困难时参考解答（类似SFT）。然而，在当前的大语言模型训练中，这两种学习方式却被人为地分离开来。传统做法要么全程使用SFT，要么全程使用RFT，或者先用SFT再用RFT（称为SFT-RFT），就像是强制学生要么只做题不看答案，要么只看答案不做题，这显然不是最佳的学习方式。

研究团队提出的UFT方法巧妙地将这两种学习模式融合起来，让模型既能通过自己探索答案获得思考能力，又能从标准答案中获取知识。这就像给学生一道数学题，先让他自己尝试解决，但同时提供部分解题步骤作为提示，随着学习的深入，逐渐减少提示的数量，最终让学生能够完全独立思考。

研究表明，无论模型大小如何，UFT都能取得比SFT和RFT更好的表现。对于较小的模型（如0.5B参数），UFT能帮助模型更好地"记忆"解题步骤；对于较大的模型（如3B参数），UFT则能保持RFT的泛化能力，避免SFT容易导致的过拟合问题。更令人兴奋的是，研究团队通过理论证明，UFT能够将RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别，这意味着训练效率的极大提升。

让我们一起深入了解这项创新研究，看看它如何改变大语言模型的训练方式，以及为什么这种"学习"与"思考"的统一方法对于未来AI的发展具有重要意义。

一、问题背景：大语言模型微调中的两难困境

目前，大语言模型的微调主要有两种方法：监督式微调（SFT）和强化式微调（RFT）。这两种方法各有优缺点，就像学习中的"记忆"和"思考"两种能力。

SFT就像是传统的教科书学习法。想象一下，老师给你一道数学题和它的完整解答，然后让你反复记忆这个解答过程。SFT的做法是让模型通过最大化已知解答的对数似然（log-likelihood）来"记住"标准答案。这种方法简单高效，特别适合参数量较小的模型。但问题是，如果模型只会"背诵"而不会"思考"，遇到稍微变形的新问题就可能束手无策。

RFT则像是鼓励自主探索的学习方法。想象老师只告诉你一道题的最终答案是对是错，但不告诉你解题步骤，你需要通过不断尝试来找到正确的解法。RFT让模型自己探索解决方案，然后根据最终结果的正确与否来调整自己的策略。这种方法能够培养模型的"思考能力"，对于较大的模型来说，通常能获得更好的泛化效果。但RFT的问题是，如果模型基础知识不够扎实（比如参数量太小），可能会因为探索空间太大而难以找到正确答案。

研究者们发现，当模型较小时（如Qwen2.5-0.5B），SFT往往表现更好，因为这些模型通过预训练获得的知识有限，难以通过自主探索找到正确答案。而当模型较大时（如Qwen2.5-3B），RFT则通常更胜一筹，因为这些模型已经具备了足够的基础知识，能够更好地进行自主推理。

这就形成了一个两难困境：对于不同规模的模型，我们需要使用不同的微调策略。而业界常见的解决方案是先使用SFT再使用RFT（即SFT-RFT），就像先让学生背诵公式，再让他们自己解题。但这种方法仍然是将"记忆"和"思考"人为分开，而不是像人类学习那样自然地融合两者。

这正是UFT要解决的核心问题：如何设计一种微调方法，能够融合SFT的知识获取能力和RFT的推理泛化能力，让模型既能"学"又能"思"？

二、UFT方法：统一"记忆"与"思考"的创新框架

UFT（统一微调）的核心思想是将监督学习和强化学习融合在一个统一的框架中，就像将"看答案"和"自己做题"这两种学习方式有机结合。这种方法主要包含两个关键创新：一是基于提示的探索机制，二是混合目标函数。

### 基于提示的探索机制

在传统的RFT中，模型需要从头开始生成整个解决方案，这就像让学生完全靠自己解决一道复杂的数学题。对于基础知识不足的小模型来说，这个任务太过艰巨，导致很难找到正确答案。

而UFT引入了"提示"（hint）的概念，它是完整解答的一部分。想象一下，老师不是直接给你整个解答，而是根据你的学习进度，提供部分解题步骤作为提示，让你在此基础上继续思考。这种方式既给了你一定的指导，又保留了思考的空间。

具体来说，UFT在训练过程中，会将问题和部分解答（提示）连接起来，让模型从这个部分解答的位置开始，继续生成剩余的解题步骤。这样，模型就能更容易地探索到正确的解决方案，大大提高了强化学习的效率。

为了让模型逐渐学会独立思考，UFT采用了一种平滑的提示长度调度策略。在训练初期，提供较长的提示，让模型容易成功；随着训练的进行，提示长度逐渐减少，直到最后模型完全不依赖提示，能够独立生成完整解答。这就像学习骑自行车时，开始时有辅助轮，随着技能的提升，逐渐减少辅助，最终独立骑行。

研究团队采用了余弦退火（cosine annealing）策略来调度提示长度，比起阶段性调整提示长度（如Xi等人的R?方法）或固定提示长度分布（如均匀分布），这种平滑过渡的方式避免了训练过程中的剧烈分布变化，使得模型学习更加稳定。

### 混合目标函数

UFT的第二个创新是混合目标函数，它将SFT的监督学习信号和RFT的强化学习信号融合在一起。

传统的RFT只关注最终答案是否正确，而忽略了解题过程的正确性。这就像老师只告诉你"答案错了"，但不指出哪一步出了问题。这种反馈信息太少，学习效率低下。

而UFT的混合目标函数包含三部分： 1. 最大化模型在探索过程中获得的奖励（RFT的目标） 2. 最小化模型策略与参考策略的KL散度（保持探索的稳定性） 3. 最大化提示部分的对数似然（SFT的目标）

第三部分是UFT的关键创新，它让模型不仅关注最终答案的正确性，还要学习解题的正确步骤。这就像老师不仅告诉你答案对错，还指导你解题的方法。

通过这种混合目标函数，UFT使得模型能够同时从监督信号和强化信号中学习，既获取知识，又培养推理能力。当提示长度为零时，UFT等同于标准的RFT；当提示长度等于解答全长时，UFT等同于标准的SFT。这种平滑过渡的设计，使得UFT能够兼顾两种方法的优点。

### UFT的技术细节

从技术角度看，UFT的目标函数可以表示为：

J_UFT = E[J_value - β∑(KL(π(·|s_h)∥π_ref(·|s_h))) + β∑(log π(a*_h|s*_h))]

其中，第一项J_value代表强化学习的价值函数，第二项是策略与参考策略的KL散度（常见于RLHF），第三项是提示部分的对数似然（SFT的目标）。

通过这个统一的目标函数，UFT在训练过程中自然地将"记忆"（监督学习）和"思考"（强化学习）融合在一起，让模型能够在探索的同时学习已知的知识，提高学习效率。

三、理论突破：从指数级到多项式级的效率提升

UFT的一个重要理论贡献是证明了它能够将传统RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别，这意味着训练效率的巨大提升。

想象一下，你在玩一个迷宫游戏，每个十字路口有多个方向可以选择。如果你完全随机地探索，那么找到出口的难度将随着迷宫的复杂度指数级增加。这就是RFT面临的问题：解题步骤越长，探索空间就呈指数级增长，找到正确解法的难度也随之飙升。

研究团队通过理论分析证明，对于任何分支因子为B、高度为H的搜索树（可以理解为一个解题过程），标准RFT需要至少B^H/4次探索才能达到50%的成功率。这意味着，解题步骤每增加一步，所需的探索次数就会乘以分支因子B。

然而，当引入UFT方法后，研究团队证明所需的探索次数可以降低到O(B·H^5·(log B)^2/Δ^2)，其中Δ是子最优解与最优解之间的奖励差距。这是一个多项式级别的复杂度，意味着解题步骤增加时，所需的探索次数不再呈指数级增长，而是以一个更加可控的速度增长。

这一理论突破解释了为什么UFT在长序列推理任务上能够取得如此显著的性能提升。通过提供部分解答作为提示，UFT大大缩小了模型需要探索的空间，使得即使是小模型也能有效地学习复杂的推理任务。

四、实验结果：UFT在各种模型和任务上的优势

研究团队在多种模型和任务上进行了广泛的实验，以验证UFT的有效性。他们使用了不同规模的模型，包括Qwen2.5-0.5B/1.5B/3B和Llama3.2-1B/3B，在三种典型的推理任务上进行测试：

1. Countdown（倒计时游戏）：使用给定的数字和基本算术运算（加、减、乘、除）得到目标数字。 2. MATH(3,4,5)：难度等级为3-5的数学问题集。 3. Logic（Knights and Knaves逻辑谜题）：需要复杂的逻辑推理能力的谜题。

实验结果令人印象深刻：UFT在不同规模的模型和不同类型的任务上，都表现出了显著的优势。

对于小模型（如Qwen2.5-0.5B），传统的RFT几乎无法有效学习，因为模型难以通过随机探索找到正确答案。而UFT通过提供部分解答作为提示，大大提高了探索的成功率，使得即使是小模型也能有效地学习复杂的推理任务。实验显示，在Logic任务上，RFT几乎无法探索到正确答案，而UFT能够在每一步都成功探索，从而实现有效学习。

对于大模型（如Qwen2.5-3B），SFT容易导致过拟合，而RFT则能获得更好的泛化效果。UFT继承了RFT的优势，同时通过混合目标函数进一步提升了性能。

研究者还对Llama3.2系列模型进行了测试，发现UFT能够显著提升这些模型的表现，特别是在Countdown任务上，甚至让Llama3.2-1B的表现超过了经过RFT训练的Llama3.2-3B。这说明UFT不仅能提高模型的推理能力，还能帮助模型获取新知识，突破模型预训练时获得的知识上限。

与其他方法的比较也很有说服力。UFT不仅优于传统的SFT和RFT，还超过了SFT-RFT组合方法和R?（反向课程强化学习）方法。这表明，UFT的统一框架确实能够更有效地融合监督学习和强化学习的优势。

五、UFT的实现细节：让"学习"与"思考"自然融合

UFT的实现涉及几个关键技术细节，这些细节共同保证了方法的有效性。

首先是提示长度的调度策略。UFT采用余弦退火（cosine annealing）策略，使提示长度从训练初期的较高值平滑地降低到训练后期的零。具体来说，在每一步训练中，提示长度的期望值p按以下公式计算：

p(t) = plow + (phigh - plow)/2 · (1 + cos((t+1)/Thint · π))

其中，plow和phigh分别是提示长度的最低和最高比例，Thint是设定的有提示训练步数。这种平滑过渡的方式避免了训练过程中的剧烈分布变化，使得模型学习更加稳定。

实际的提示长度是从二项分布中采样得到的，即l ~ Binomial(L, p)，其中L是解答的总长度。这确保了提示长度的期望值与设定的比例p一致，同时引入了一定的随机性，有助于模型的泛化能力。

其次是混合目标函数的实现。UFT的目标函数包含三部分：最大化奖励、保持策略稳定性和最大化提示部分的对数似然。在实现上，研究者使用了GRPO（一种策略梯度算法）作为基础强化学习算法，并在其目标函数中添加了提示部分的对数似然项。

最后是训练过程的设计。UFT的训练分为两个主要阶段：有提示阶段和无提示阶段。在有提示阶段（t < Thint），模型会获得长度逐渐减少的提示；在无提示阶段（t ≥ Thint），模型完全依靠自己的能力生成解答。这种设计使得模型能够平滑地从依赖提示过渡到完全独立推理。

通过这些技术细节的精心设计，UFT实现了"学习"与"思考"的自然融合，使得模型既能从监督信号中获取知识，又能通过强化学习培养推理能力。

六、UFT对不同大小模型的影响：适应性强的统一框架

一个特别有趣的发现是，UFT对不同大小的模型都能起到积极作用，但作用机制有所不同。

对于小模型（如Qwen2.5-0.5B），UFT主要是通过提高"记忆"能力来提升性能。这些模型通过预训练获得的知识有限，难以通过纯粹的探索找到正确解法。UFT通过提供部分解答作为提示，大大提高了探索的成功率，同时通过混合目标函数中的监督学习项，帮助模型更有效地"记住"正确的解题步骤。

实验数据显示，在Countdown任务上，Qwen2.5-0.5B经过UFT训练后的准确率达到了13.18%，远高于RFT的3.78%和SFT的4.92%。这说明对于小模型来说，UFT主要是通过提高"记忆"能力来弥补其"思考"能力的不足。

对于大模型（如Qwen2.5-3B），UFT则主要是通过保持"思考"能力来避免过拟合。这些模型通过预训练已经获得了相当丰富的知识，具备一定的推理能力。SFT容易导致这些模型过度拟合训练数据，失去泛化能力。而UFT通过强化学习组件保持了模型的探索能力，避免了过拟合问题。

实验数据显示，在MATH(3,4,5)任务上，Qwen2.5-3B经过UFT训练后的准确率达到了47.04%，高于RFT的45.74%和SFT的24.32%。这说明对于大模型来说，UFT主要是通过保持"思考"能力来提升其性能。

最令人惊喜的是，UFT对Llama3.2系列模型也表现出强大的提升效果。特别是在Countdown任务上，经过UFT训练的Llama3.2-1B在250步训练后的表现甚至超过了经过RFT训练的Llama3.2-3B。这表明UFT不仅能提高模型的推理能力，还能帮助模型获取新知识，突破模型预训练时获得的知识上限。

这些结果表明，UFT作为一个统一的微调框架，能够根据模型的不同特性，自动平衡"记忆"和"思考"的比例，为不同大小的模型提供最适合的学习方式。这种适应性强的特性，使得UFT在各种场景下都能发挥优势。

七、总结与展望：统一"学习"与"思考"的未来方向

UFT的提出，标志着大语言模型微调技术的一个重要进步。通过统一监督学习和强化学习，UFT创造性地解决了"记忆"与"思考"之间的平衡问题，使得模型能够更有效地学习复杂的推理任务。

回顾UFT的主要贡献：

首先，UFT提出了一种统一的微调框架，将监督信号和奖励信号融合在一起。这种框架不仅保留了SFT的知识获取能力和RFT的推理泛化能力，还通过两者的互补作用，创造了1+1>2的效果。

其次，UFT在理论上证明了，通过引入提示机制，可以将传统RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别。这一突破性的理论结果，解释了为什么UFT能够在实践中取得如此显著的性能提升。

第三，UFT在各种模型和任务上的广泛实验，验证了其方法的有效性和稳健性。无论是小模型还是大模型，无论是简单任务还是复杂任务，UFT都表现出了显著的优势。

从更广泛的角度来看，UFT的成功提示我们，大语言模型的训练不应该将"学习"和"思考"人为分开，而应该像人类学习那样，自然地融合这两种能力。这种思路不仅适用于微调阶段，也可能对预训练和其他训练范式有所启发。

当然，UFT也有一些局限性。首先，它需要高质量的人类标注解答作为监督信号，这在某些领域可能难以获取。其次，当前的实验主要集中在数学和逻辑推理任务上，UFT在其他类型任务上的效果还需要进一步验证。

未来的研究方向可能包括：将UFT与其他先进的SFT和RFT技术结合，如使用大模型生成的长链式思考（long chain-of-thoughts）作为监督信号，或者采用更先进的强化学习算法如REINFORCE++和DAPO；探索UFT在更广泛的任务类型上的应用；研究如何减少对人类标注数据的依赖，可能通过半监督或自监督的方式获取监督信号。

总的来说，UFT开创了一种新的思路，将大语言模型的"学习"与"思考"能力有机地融合在一起，为未来的模型训练提供了一个更加自然、更加高效的范式。正如孔子所言："学而不思则罔，思而不学则殆"，只有将学习和思考有机结合，才能培养出真正智能的系统。

大语言模型微调方法推理能力

分享至