微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 UFT:统一监督式和强化式微调,打破大语言模型学习与思考的隔阂

UFT:统一监督式和强化式微调,打破大语言模型学习与思考的隔阂

2025-05-30 11:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 11:15 科技行者

大语言模型(LLMs)在完成训练后,经常需要进一步的"后训练"阶段来增强其推理能力。麻省理工学院电气工程与计算机科学系(EECS)LIDS实验室的研究团队Mingyang Liu、Gabriele Farina和Asuman Ozdaglar在2025年5月22日发表于arXiv(arXiv:2505.16984v1)的论文中,提出了一种创新性的后训练方法——统一微调(Unified Fine-Tuning,UFT)。这项研究旨在解决当前大语言模型微调中的一个根本性问题:如何在"记忆"和"思考"之间取得平衡。

正如论文开篇引用的孔子名言所说:"学而不思则罔,思而不学则殆"(Learning without thinking leads to confusion; thinking without learning is perilous)。这句古老的智慧恰好点明了当前大语言模型后训练的核心挑战。目前,大语言模型的后训练主要分为两大类:监督式微调(Supervised Fine-Tuning,SFT)和强化式微调(Reinforcement Fine-Tuning,RFT)。简单来说,SFT就像是让模型"死记硬背"标准答案,而RFT则是让模型"自己思考"并从尝试中学习。

在人类学习过程中,我们通常会结合这两种方式:在做题时自己思考(类似RFT),遇到困难时参考解答(类似SFT)。然而,在当前的大语言模型训练中,这两种学习方式却被人为地分离开来。传统做法要么全程使用SFT,要么全程使用RFT,或者先用SFT再用RFT(称为SFT-RFT),就像是强制学生要么只做题不看答案,要么只看答案不做题,这显然不是最佳的学习方式。

研究团队提出的UFT方法巧妙地将这两种学习模式融合起来,让模型既能通过自己探索答案获得思考能力,又能从标准答案中获取知识。这就像给学生一道数学题,先让他自己尝试解决,但同时提供部分解题步骤作为提示,随着学习的深入,逐渐减少提示的数量,最终让学生能够完全独立思考。

研究表明,无论模型大小如何,UFT都能取得比SFT和RFT更好的表现。对于较小的模型(如0.5B参数),UFT能帮助模型更好地"记忆"解题步骤;对于较大的模型(如3B参数),UFT则能保持RFT的泛化能力,避免SFT容易导致的过拟合问题。更令人兴奋的是,研究团队通过理论证明,UFT能够将RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别,这意味着训练效率的极大提升。

让我们一起深入了解这项创新研究,看看它如何改变大语言模型的训练方式,以及为什么这种"学习"与"思考"的统一方法对于未来AI的发展具有重要意义。

一、问题背景:大语言模型微调中的两难困境

目前,大语言模型的微调主要有两种方法:监督式微调(SFT)和强化式微调(RFT)。这两种方法各有优缺点,就像学习中的"记忆"和"思考"两种能力。

SFT就像是传统的教科书学习法。想象一下,老师给你一道数学题和它的完整解答,然后让你反复记忆这个解答过程。SFT的做法是让模型通过最大化已知解答的对数似然(log-likelihood)来"记住"标准答案。这种方法简单高效,特别适合参数量较小的模型。但问题是,如果模型只会"背诵"而不会"思考",遇到稍微变形的新问题就可能束手无策。

RFT则像是鼓励自主探索的学习方法。想象老师只告诉你一道题的最终答案是对是错,但不告诉你解题步骤,你需要通过不断尝试来找到正确的解法。RFT让模型自己探索解决方案,然后根据最终结果的正确与否来调整自己的策略。这种方法能够培养模型的"思考能力",对于较大的模型来说,通常能获得更好的泛化效果。但RFT的问题是,如果模型基础知识不够扎实(比如参数量太小),可能会因为探索空间太大而难以找到正确答案。

研究者们发现,当模型较小时(如Qwen2.5-0.5B),SFT往往表现更好,因为这些模型通过预训练获得的知识有限,难以通过自主探索找到正确答案。而当模型较大时(如Qwen2.5-3B),RFT则通常更胜一筹,因为这些模型已经具备了足够的基础知识,能够更好地进行自主推理。

这就形成了一个两难困境:对于不同规模的模型,我们需要使用不同的微调策略。而业界常见的解决方案是先使用SFT再使用RFT(即SFT-RFT),就像先让学生背诵公式,再让他们自己解题。但这种方法仍然是将"记忆"和"思考"人为分开,而不是像人类学习那样自然地融合两者。

这正是UFT要解决的核心问题:如何设计一种微调方法,能够融合SFT的知识获取能力和RFT的推理泛化能力,让模型既能"学"又能"思"?

二、UFT方法:统一"记忆"与"思考"的创新框架

UFT(统一微调)的核心思想是将监督学习和强化学习融合在一个统一的框架中,就像将"看答案"和"自己做题"这两种学习方式有机结合。这种方法主要包含两个关键创新:一是基于提示的探索机制,二是混合目标函数。

### 基于提示的探索机制

在传统的RFT中,模型需要从头开始生成整个解决方案,这就像让学生完全靠自己解决一道复杂的数学题。对于基础知识不足的小模型来说,这个任务太过艰巨,导致很难找到正确答案。

而UFT引入了"提示"(hint)的概念,它是完整解答的一部分。想象一下,老师不是直接给你整个解答,而是根据你的学习进度,提供部分解题步骤作为提示,让你在此基础上继续思考。这种方式既给了你一定的指导,又保留了思考的空间。

具体来说,UFT在训练过程中,会将问题和部分解答(提示)连接起来,让模型从这个部分解答的位置开始,继续生成剩余的解题步骤。这样,模型就能更容易地探索到正确的解决方案,大大提高了强化学习的效率。

为了让模型逐渐学会独立思考,UFT采用了一种平滑的提示长度调度策略。在训练初期,提供较长的提示,让模型容易成功;随着训练的进行,提示长度逐渐减少,直到最后模型完全不依赖提示,能够独立生成完整解答。这就像学习骑自行车时,开始时有辅助轮,随着技能的提升,逐渐减少辅助,最终独立骑行。

研究团队采用了余弦退火(cosine annealing)策略来调度提示长度,比起阶段性调整提示长度(如Xi等人的R?方法)或固定提示长度分布(如均匀分布),这种平滑过渡的方式避免了训练过程中的剧烈分布变化,使得模型学习更加稳定。

### 混合目标函数

UFT的第二个创新是混合目标函数,它将SFT的监督学习信号和RFT的强化学习信号融合在一起。

传统的RFT只关注最终答案是否正确,而忽略了解题过程的正确性。这就像老师只告诉你"答案错了",但不指出哪一步出了问题。这种反馈信息太少,学习效率低下。

而UFT的混合目标函数包含三部分: 1. 最大化模型在探索过程中获得的奖励(RFT的目标) 2. 最小化模型策略与参考策略的KL散度(保持探索的稳定性) 3. 最大化提示部分的对数似然(SFT的目标)

第三部分是UFT的关键创新,它让模型不仅关注最终答案的正确性,还要学习解题的正确步骤。这就像老师不仅告诉你答案对错,还指导你解题的方法。

通过这种混合目标函数,UFT使得模型能够同时从监督信号和强化信号中学习,既获取知识,又培养推理能力。当提示长度为零时,UFT等同于标准的RFT;当提示长度等于解答全长时,UFT等同于标准的SFT。这种平滑过渡的设计,使得UFT能够兼顾两种方法的优点。

### UFT的技术细节

从技术角度看,UFT的目标函数可以表示为:

J_UFT = E[J_value - β∑(KL(π(·|s_h)∥π_ref(·|s_h))) + β∑(log π(a*_h|s*_h))]

其中,第一项J_value代表强化学习的价值函数,第二项是策略与参考策略的KL散度(常见于RLHF),第三项是提示部分的对数似然(SFT的目标)。

通过这个统一的目标函数,UFT在训练过程中自然地将"记忆"(监督学习)和"思考"(强化学习)融合在一起,让模型能够在探索的同时学习已知的知识,提高学习效率。

三、理论突破:从指数级到多项式级的效率提升

UFT的一个重要理论贡献是证明了它能够将传统RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别,这意味着训练效率的巨大提升。

想象一下,你在玩一个迷宫游戏,每个十字路口有多个方向可以选择。如果你完全随机地探索,那么找到出口的难度将随着迷宫的复杂度指数级增加。这就是RFT面临的问题:解题步骤越长,探索空间就呈指数级增长,找到正确解法的难度也随之飙升。

研究团队通过理论分析证明,对于任何分支因子为B、高度为H的搜索树(可以理解为一个解题过程),标准RFT需要至少B^H/4次探索才能达到50%的成功率。这意味着,解题步骤每增加一步,所需的探索次数就会乘以分支因子B。

然而,当引入UFT方法后,研究团队证明所需的探索次数可以降低到O(B·H^5·(log B)^2/Δ^2),其中Δ是子最优解与最优解之间的奖励差距。这是一个多项式级别的复杂度,意味着解题步骤增加时,所需的探索次数不再呈指数级增长,而是以一个更加可控的速度增长。

这一理论突破解释了为什么UFT在长序列推理任务上能够取得如此显著的性能提升。通过提供部分解答作为提示,UFT大大缩小了模型需要探索的空间,使得即使是小模型也能有效地学习复杂的推理任务。

四、实验结果:UFT在各种模型和任务上的优势

研究团队在多种模型和任务上进行了广泛的实验,以验证UFT的有效性。他们使用了不同规模的模型,包括Qwen2.5-0.5B/1.5B/3B和Llama3.2-1B/3B,在三种典型的推理任务上进行测试:

1. Countdown(倒计时游戏):使用给定的数字和基本算术运算(加、减、乘、除)得到目标数字。 2. MATH(3,4,5):难度等级为3-5的数学问题集。 3. Logic(Knights and Knaves逻辑谜题):需要复杂的逻辑推理能力的谜题。

实验结果令人印象深刻:UFT在不同规模的模型和不同类型的任务上,都表现出了显著的优势。

对于小模型(如Qwen2.5-0.5B),传统的RFT几乎无法有效学习,因为模型难以通过随机探索找到正确答案。而UFT通过提供部分解答作为提示,大大提高了探索的成功率,使得即使是小模型也能有效地学习复杂的推理任务。实验显示,在Logic任务上,RFT几乎无法探索到正确答案,而UFT能够在每一步都成功探索,从而实现有效学习。

对于大模型(如Qwen2.5-3B),SFT容易导致过拟合,而RFT则能获得更好的泛化效果。UFT继承了RFT的优势,同时通过混合目标函数进一步提升了性能。

研究者还对Llama3.2系列模型进行了测试,发现UFT能够显著提升这些模型的表现,特别是在Countdown任务上,甚至让Llama3.2-1B的表现超过了经过RFT训练的Llama3.2-3B。这说明UFT不仅能提高模型的推理能力,还能帮助模型获取新知识,突破模型预训练时获得的知识上限。

与其他方法的比较也很有说服力。UFT不仅优于传统的SFT和RFT,还超过了SFT-RFT组合方法和R?(反向课程强化学习)方法。这表明,UFT的统一框架确实能够更有效地融合监督学习和强化学习的优势。

五、UFT的实现细节:让"学习"与"思考"自然融合

UFT的实现涉及几个关键技术细节,这些细节共同保证了方法的有效性。

首先是提示长度的调度策略。UFT采用余弦退火(cosine annealing)策略,使提示长度从训练初期的较高值平滑地降低到训练后期的零。具体来说,在每一步训练中,提示长度的期望值p按以下公式计算:

p(t) = plow + (phigh - plow)/2 · (1 + cos((t+1)/Thint · π))

其中,plow和phigh分别是提示长度的最低和最高比例,Thint是设定的有提示训练步数。这种平滑过渡的方式避免了训练过程中的剧烈分布变化,使得模型学习更加稳定。

实际的提示长度是从二项分布中采样得到的,即l ~ Binomial(L, p),其中L是解答的总长度。这确保了提示长度的期望值与设定的比例p一致,同时引入了一定的随机性,有助于模型的泛化能力。

其次是混合目标函数的实现。UFT的目标函数包含三部分:最大化奖励、保持策略稳定性和最大化提示部分的对数似然。在实现上,研究者使用了GRPO(一种策略梯度算法)作为基础强化学习算法,并在其目标函数中添加了提示部分的对数似然项。

最后是训练过程的设计。UFT的训练分为两个主要阶段:有提示阶段和无提示阶段。在有提示阶段(t < Thint),模型会获得长度逐渐减少的提示;在无提示阶段(t ≥ Thint),模型完全依靠自己的能力生成解答。这种设计使得模型能够平滑地从依赖提示过渡到完全独立推理。

通过这些技术细节的精心设计,UFT实现了"学习"与"思考"的自然融合,使得模型既能从监督信号中获取知识,又能通过强化学习培养推理能力。

六、UFT对不同大小模型的影响:适应性强的统一框架

一个特别有趣的发现是,UFT对不同大小的模型都能起到积极作用,但作用机制有所不同。

对于小模型(如Qwen2.5-0.5B),UFT主要是通过提高"记忆"能力来提升性能。这些模型通过预训练获得的知识有限,难以通过纯粹的探索找到正确解法。UFT通过提供部分解答作为提示,大大提高了探索的成功率,同时通过混合目标函数中的监督学习项,帮助模型更有效地"记住"正确的解题步骤。

实验数据显示,在Countdown任务上,Qwen2.5-0.5B经过UFT训练后的准确率达到了13.18%,远高于RFT的3.78%和SFT的4.92%。这说明对于小模型来说,UFT主要是通过提高"记忆"能力来弥补其"思考"能力的不足。

对于大模型(如Qwen2.5-3B),UFT则主要是通过保持"思考"能力来避免过拟合。这些模型通过预训练已经获得了相当丰富的知识,具备一定的推理能力。SFT容易导致这些模型过度拟合训练数据,失去泛化能力。而UFT通过强化学习组件保持了模型的探索能力,避免了过拟合问题。

实验数据显示,在MATH(3,4,5)任务上,Qwen2.5-3B经过UFT训练后的准确率达到了47.04%,高于RFT的45.74%和SFT的24.32%。这说明对于大模型来说,UFT主要是通过保持"思考"能力来提升其性能。

最令人惊喜的是,UFT对Llama3.2系列模型也表现出强大的提升效果。特别是在Countdown任务上,经过UFT训练的Llama3.2-1B在250步训练后的表现甚至超过了经过RFT训练的Llama3.2-3B。这表明UFT不仅能提高模型的推理能力,还能帮助模型获取新知识,突破模型预训练时获得的知识上限。

这些结果表明,UFT作为一个统一的微调框架,能够根据模型的不同特性,自动平衡"记忆"和"思考"的比例,为不同大小的模型提供最适合的学习方式。这种适应性强的特性,使得UFT在各种场景下都能发挥优势。

七、总结与展望:统一"学习"与"思考"的未来方向

UFT的提出,标志着大语言模型微调技术的一个重要进步。通过统一监督学习和强化学习,UFT创造性地解决了"记忆"与"思考"之间的平衡问题,使得模型能够更有效地学习复杂的推理任务。

回顾UFT的主要贡献:

首先,UFT提出了一种统一的微调框架,将监督信号和奖励信号融合在一起。这种框架不仅保留了SFT的知识获取能力和RFT的推理泛化能力,还通过两者的互补作用,创造了1+1>2的效果。

其次,UFT在理论上证明了,通过引入提示机制,可以将传统RFT在长序列推理任务上的指数级采样复杂度降低到多项式级别。这一突破性的理论结果,解释了为什么UFT能够在实践中取得如此显著的性能提升。

第三,UFT在各种模型和任务上的广泛实验,验证了其方法的有效性和稳健性。无论是小模型还是大模型,无论是简单任务还是复杂任务,UFT都表现出了显著的优势。

从更广泛的角度来看,UFT的成功提示我们,大语言模型的训练不应该将"学习"和"思考"人为分开,而应该像人类学习那样,自然地融合这两种能力。这种思路不仅适用于微调阶段,也可能对预训练和其他训练范式有所启发。

当然,UFT也有一些局限性。首先,它需要高质量的人类标注解答作为监督信号,这在某些领域可能难以获取。其次,当前的实验主要集中在数学和逻辑推理任务上,UFT在其他类型任务上的效果还需要进一步验证。

未来的研究方向可能包括:将UFT与其他先进的SFT和RFT技术结合,如使用大模型生成的长链式思考(long chain-of-thoughts)作为监督信号,或者采用更先进的强化学习算法如REINFORCE++和DAPO;探索UFT在更广泛的任务类型上的应用;研究如何减少对人类标注数据的依赖,可能通过半监督或自监督的方式获取监督信号。

总的来说,UFT开创了一种新的思路,将大语言模型的"学习"与"思考"能力有机地融合在一起,为未来的模型训练提供了一个更加自然、更加高效的范式。正如孔子所言:"学而不思则罔,思而不学则殆",只有将学习和思考有机结合,才能培养出真正智能的系统。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-