微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学研究团队找到了让AI学习更聪明的秘诀：GFT方法让大模型不再"死记硬背"

大语言模型强化学习分组优势学习

浙江大学研究团队找到了让AI学习更聪明的秘诀：GFT方法让大模型不再"死记硬背"

作者：科技行者

2026-04-29 11:47

分享至：

这项由浙江大学软件技术学院完成的研究（arXiv:2604.14258，2026年4月）提出了一种名为GFT（分组微调）的大语言模型训练方法。研究从数学理论层面证明，传统监督微调（SFT）存在"单路径依赖"和"梯度爆炸"两个根本缺陷，会导致模型死记硬背、丧失灵活性，并阻碍后续强化学习的效果。GFT通过分组对比学习和动态权重修正两个机制解决上述问题，在五种模型、十一个数学基准的测试中，以十分之一的数据量超越了多种现有方法，同时大幅降低了模型的遗忘程度并保持了解题多样性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 11:47 • 科技行者

这项由浙江大学软件技术学院OmniAI研究组完成的研究，以预印本形式于2026年4月发布，论文编号为arXiv:2604.14258。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台上查阅完整论文。

一个老师在教学生解数学题时，有两种截然不同的策略。第一种是让学生死记硬背标准答案，每道题都必须照着模板来；第二种是让学生接触各种不同的解题思路，理解哪些方法好、哪些方法差，逐渐培养出真正的数学直觉。这两种策略带来的结果天差地别——死记硬背的学生遇到变化题型就容易手足无措，而真正理解了思路的学生则能举一反三、灵活应对。

大型语言模型的训练，正面临着类似的困境。浙江大学的研究团队深入研究了这个问题，并提出了一套名为"分组微调"（Group Fine-Tuning，简称GFT）的全新训练方法，试图让AI既能快速学到知识，又不会因为死记硬背而丧失灵活性。

一、AI训练中那个被忽视的隐患

要理解这项研究，首先要了解大语言模型是怎么被"教"出来的。当前最主流的做法分为两个阶段：第一个阶段叫做监督微调（Supervised Fine-Tuning，SFT），类似于让学生照着标准答案练习；第二个阶段叫做强化学习（Reinforcement Learning，RL），类似于让学生在不断尝试和反馈中摸索出正确策略。

理论上，这两个阶段应该相辅相成——先通过照着标准答案练习打好基础，再通过强化学习提升灵活性。但浙江大学的研究团队发现，现实并非如此理想。他们在实验中观察到两个让人担忧的现象。

第一个现象是"遗忘"问题。经过SFT训练之后，模型在某些任务上的表现甚至比训练之前还要差。在数学推理任务上，他们发现用标准SFT训练Qwen2.5-Math-1.5B这个模型之后，该模型在高考2023英语数学题上的准确率下降了1.73个百分点，在Minerva Math（一个更难的数学基准）上更是下降了2.69个百分点。换句话说，死记硬背式的训练反而让模型"忘掉"了原本掌握的一些能力，这种现象在学术上被称为"灾难性遗忘"。

第二个现象更加微妙，研究团队将其称为"协同失效"问题。按理说，先用SFT打基础、再用强化学习提升，效果应该比单独用强化学习更好才对。但实验结果显示，"SFT+强化学习"的组合，在AMC23、Math和OlympiadBench等多个数学评测上，其准确率均低于单独使用强化学习（GRPO算法）。具体数字是：AMC23上单独GRPO达到44.84%，但SFT+GRPO只有35.78%，差了整整9个百分点。这意味着，SFT的训练不但没有帮助后续的强化学习，反而拖了它的后腿。

正是这两个现象，促使研究团队决定从根源上弄清楚SFT究竟出了什么问题。

二、数学揭秘：SFT的两个致命弱点

研究团队没有停留在表面观察，而是从数学原理层面对SFT进行了深刻的剖析，最终发现SFT可以被理解为一种特殊的强化学习——但是一种带有两个严重缺陷的强化学习。

在强化学习中，模型生成一个答案，然后根据这个答案的好坏获得"奖励信号"，再据此调整自己的参数。标准的SFT训练则是：给模型一个专家提供的标准答案，让模型尽量向这个标准答案靠拢。研究团队通过数学推导证明，SFT的训练过程其实等价于一种特殊的强化学习：奖励信号只有在模型生成的答案和专家答案完全一致时才为1，否则为0；同时，每个词的更新幅度被一个"重要性权重"所缩放，这个权重等于该词概率的倒数——也就是说，如果模型觉得某个词出现的概率很低，那么这个词的权重就会非常大。

这两个特性共同制造了麻烦。第一个麻烦是"单路径依赖"。由于奖励信号极度稀疏——只有和专家答案完全一样才能得到正反馈——模型的学习信号被锁死在专家提供的那一条路径上，完全没有机会去探索和比较其他可能的解题路径。就好像一个学生做练习题，只有在每个步骤都和参考答案完全相同时才算对，写出了同样正确但形式不同的解法反而会被判错。长此以往，模型就会陷入机械复制、失去灵活性的困境。

第二个麻烦是"梯度爆炸"。当专家答案中出现一个模型不熟悉的词语时，模型对这个词的预测概率会很低，对应的重要性权重就会变得极大。这就好像用一个放大镜来调整参数，放大镜的倍数高达几百甚至几千倍，导致训练过程极不稳定，模型会因为几个"意外"的词而发生剧烈震荡，走向机械记忆和过拟合。

这两个数学层面的根本缺陷，从理论上解释了为什么SFT容易导致遗忘和泛化能力下降，也解释了为什么SFT之后进行强化学习的效果反而会变差——因为SFT已经把模型压缩进了一个狭窄的"解题模式"空间，强化学习没有足够的探索余地。

三、GFT：用"对比评分"代替"死记硬背"

找到了病根，研究团队便对症下药，设计了GFT（分组微调）框架。这个框架包含两个核心机制，分别对应SFT的两个根本缺陷。

第一个机制叫做"分组优势学习"（Group Advantage Learning，GAL），专门用来解决单路径依赖问题。具体做法是：对于每一个训练问题，不再只使用一个专家标准答案，而是同时准备一组多样化的回答，共8个。这8个回答来自三种不同来源：1个来自人类专家的标准示范，用于保证学习方向的正确性；3个来自强大的教师模型（Qwen2.5-Math-72B）的输出，引入多样的解题思路；4个来自当前被训练的模型自己生成的答案，让模型从自己的实际尝试中学习。

有了这8个候选答案，下一步是对每个答案打分，然后计算"相对优势"。所谓相对优势，就是把每个答案的得分减去这8个答案的平均分，再除以得分的标准差，得到一个标准化的相对评分。这样做的好处是，模型不再是简单地被要求"照着专家答案抄"，而是被告知"在这批答案中，哪些比较好，哪些比较差，请向好的靠拢、向差的疏远"。这种相对比较的学习信号，给了模型丰富得多的信息，也保留了足够的探索空间。

就像一个厨艺比赛评委，不是说"这道菜必须和我做的一模一样"，而是对一桌菜点评"这道比那道更鲜美，那道比这道更有层次感"，厨师通过对比理解好坏，而非机械复制某一份菜谱。

第二个机制叫做"动态系数修正"（Dynamic Coefficient Rectification，DCR），专门用来解决梯度爆炸问题。思路非常直观：设定一个信心阈值τ，如果模型对某个词的预测概率高于τ，就正常更新；如果低于τ，就对这个词施加一个特殊处理，让它对应的重要性权重不再无限膨胀，从而防止训练过程因为几个低概率词汇而发生剧烈震荡。这就好像给汽车的油门加了一个限速装置——普通速度下油门完全有效，但防止油门踩到底时速度失控造成事故。

这两个机制结合在一起，形成了GFT的最终训练目标：以分组内的相对优势作为学习信号，同时对低概率词汇的更新幅度进行限制。数学上，这个目标既是SFT的严格泛化（当只有一个专家示范时，GFT退化为标准SFT），也是强化学习的稳定化变体。

四、实验验证：五类模型、十一个测试，结果如何？

研究团队在5种不同的语言模型上进行了全面测试，涵盖了不同规模和不同架构：Qwen2.5-Math-1.5B、Qwen2.5-Math-7B（数学专用模型）、DeepSeekMath-7B、LLaMA-3.2-3B和LLaMA-3.1-8B（通用模型）。测试基准包括AMC23（美国数学竞赛）、College Math（大学数学）、高考2023英语数学题、MATH（综合数学基准）、Minerva Math（复杂推理题）、TabMWP（表格数学问题）、OlympiadBench（奥数竞赛题）等11个不同难度的评测。

在公平对比的设置上，GFT使用10000个训练样本（每个样本对应8个候选回答），而SFT等单路径方法使用100000个训练样本。也就是说，GFT在训练数据量只有竞争对手十分之一的情况下进行比较。

结果显示GFT几乎在所有模型和所有评测上都超越了基线方法。以Qwen2.5-Math-1.5B为例，GFT在AMC23上达到46.09%，比标准SFT的31.25%高出近15个百分点，比DFT（另一种改进SFT的方法）的36.40%高出约10个百分点，甚至还略微超过了单独使用强化学习（GRPO）的44.84%。在MATH和Gaokao2023En等多个基准上，GFT同样保持领先。对于更大的7B规模模型Qwen2.5-Math-7B，GFT在Minerva Math上达到39.86%，远超SFT的31.82%和GRPO的32.60%，在TabMWP上也以93.81%的成绩排名第一。

一个细节值得关注：研究团队还测试了一个变体叫做"GFT(no mix)"，即只用专家数据和模型自生成样本，不引入教师模型的输出。对比发现，混入教师输出数据的完整GFT效果更好，但两者的差距远小于GFT与普通SFT之间的差距。这说明GFT的核心收益来自训练机制本身（分组对比和动态修正），而不仅仅是因为用了更多的多样化数据。

对于LLaMA-3.2-3B这个通用小模型，GFT的效果尤为突出。标准SFT在几乎所有数学测试上都让这个模型变得更差（例如AMC23从23.78%降至19.53%，Gaokao2023En从38.06%降至36.33%），而GFT(no mix)则让模型的AMC23成绩从23.78%提升至27.66%，MATH从44.63%提升至51.71%，Minerva Math从14.83%提升至21.29%。

五、分离实验：两个机制各自贡献了什么？

为了弄清楚GAL和DCR各自的贡献，研究团队在Qwen2.5-Math-1.5B上做了消融实验——分别去掉某一个机制，看效果如何变化。

去掉GAL（只用DCR），相当于回到单路径训练，只是加上了梯度稳定。在AMC23上得到35.78%，MATH上63.91%，OlympiadBench上26.63%，相比完整GFT（46.09%/70.50%/30.52%）有明显差距，尤其是在最难的奥数题上，差距最为显著。这说明分组对比学习对于提升复杂推理能力至关重要。

去掉DCR（只用GAL），训练过程则容易出现剧烈波动，最终在AMC23上达到42.81%，MATH上65.97%，OlympiadBench上27.82%，虽然成绩已经好于单独去掉GAL，但不稳定性更高，且天花板低于完整GFT。学习曲线图显示，去掉DCR的训练曲线剧烈震荡，难以平稳收敛，而去掉GAL的训练虽然相对平稳，但收敛速度慢且最终精度低。完整GFT同时具备两个机制，才能实现既稳定又高效的训练。

六、GFT能让SFT和强化学习"和平共处"吗？

研究团队特别设计了一组实验，专门研究GFT能否改善SFT与强化学习之间的"协同失效"问题。他们比较了三种不同的训练路径：SFT之后接GRPO（强化学习算法）、GFT之后接GRPO，以及SFT加GFT再加GRPO三段式流程。

结果在Pass@16（从16次生成中至少得一个正确答案的概率，代表模型的探索能力上限）这个指标上呈现出鲜明差异。在Math OAI测试上，SFT单独训练得62.4，GRPO单独训练得65.2，SFT+GRPO得69.7，GFT+GRPO得72.4，而SFT+GFT+GRPO三段流程则达到了最高的71.7（在Mmlu Stem上）和90.2（在SAT Math上）。在AMC23评测上，SFT+GFT+GRPO以48.4%排名最高。

训练动态曲线显示，SFT+GFT+GRPO的三段式流程能够最稳定、最持续地提升模型性能，而SFT+GRPO的组合则会遭遇平台期，性能提升幅度受限。研究团队对此给出的解释是：SFT提供了良好的格式和对齐起点；GFT在此基础上恢复了模型的多路径探索能力，防止策略过度收窄；GRPO则在更高质量的轨迹基础上进一步优化，达到更高的性能上限。三者各司其职，形成良性配合。

七、"遗忘"减少了多少？多样性保住了吗？

研究团队还专门测试了GFT在防止遗忘和保持多样性上的表现。

在遗忘测试上，他们用LLaMA-3.2-3B这个通用模型，在数学数据上训练后，测试其在MAWPS、SVAMP和MMLU-STEM（非数学任务）上的表现变化。SFT训练之后，MAWPS下降4.09个百分点，SVAMP下降7.63个百分点，MMLU-STEM下降5.98个百分点，遗忘非常显著。GRPO训练则对这些通用能力的损伤较小。而GFT的表现更令人满意：MAWPS只下降0.27个百分点，SVAMP下降1.71个百分点，MMLU-STEM甚至提升了2.86个百分点。

为了量化遗忘程度，研究团队计算了各方法训练前后模型输出分布之间的KL散度（可以理解为模型"变化了多少"的度量）。SFT训练使模型的分布变化最大，GRPO其次，GFT的变化最小，与GRPO相当甚至更低。训练步骤数达到100步时，SFT的KL散度接近40，而GFT稳定在5左右。这证明GFT能在有效注入新知识的同时，最大限度保留模型原有能力。

在多样性测试上，研究团队使用Pass@128和Pass@256指标（从128次或256次生成中至少得一个正确答案的概率），比较了知识蒸馏（Distillation）、GRPO和GFT三种方法。结果GFT在SAT Math、Minerva和TabMWP三个测试上均获得最高的Pass@128和Pass@256成绩，平均分别为62.16%和61.91%，超过知识蒸馏的56.32%/56.11%和GRPO的49.87%/49.16%。这说明GFT在提高准确率的同时，还保持了解题思路的多样性，没有让模型陷入"只会用一种方法解题"的固化模式。

八、超参数怎么选才最好？

研究团队还系统测试了两个关键超参数的影响。

第一个是8个候选答案中，教师示范和模型自生成样本的比例。测试结果显示，2个教师示范搭配6个自生成样本（记为2:6）的组合效果最好，在Minerva Math、OlympiadBench和SAT Math的平均分上达到45.59%，显著优于只用教师示范（8:0，24.84%）或只用自生成（0:8，30.84%）的极端情况。这个结果的含义是：少量专家示范用于确保学习方向正确，大量自生成样本用于提供丰富的对比信号，二者缺一不可，但自生成样本的数量多一些效果更好。

第二个是动态系数修正中的阈值τ。实验显示，当τ很小（如0.01）时，几乎没有词被修正，训练仍然不稳定，AMC23准确率只有42.81%；随着τ增大，被修正的词越来越多，性能先上升后下降，在τ≈0.7时达到峰值46.09%；当τ很大（如0.9）时，太多词被限制更新，模型学习效率下降，准确率回落至42.19%。重要的是，即使在τ从0.01到0.9的整个范围内，GFT的准确率都高于基础模型（30.16%），说明DCR机制对超参数选择具有较强的鲁棒性。

归根结底，GFT这项研究所揭示的核心问题，其实和教育哲学中的经典争论如出一辙：死记硬背和真正理解，哪个更重要？答案当然是后者，但如何实现后者，才是真正的挑战。

研究团队通过严谨的数学分析，把这个直觉性问题落地成了可以操作的技术方案——用分组对比代替单一模仿，用动态稳定代替任由梯度爆炸。更难得的是，GFT不是一个需要大量额外资源的方案。用十分之一的训练数据，它就能超越使用全部数据的标准方法，这对于资源有限的研究团队来说是极具吸引力的特性。

当然，这项研究也坦承了自身的局限。目前所有实验都集中在数学推理任务上，而数学问题有客观正确答案，奖励信号相对明确。对于写作、对话、创意等需要主观判断的开放式任务，GFT能否同样有效，还有待进一步研究。此外，实验规模最大只到8B参数的模型，在更大规模（如70B以上）的模型上验证，也是未来的重要方向。

这项研究对于关心AI发展的普通人来说，最直接的意义或许是这样的：未来我们使用的AI助手，不必再是那种只会"背答案"的学生，而可以成为真正理解问题、灵活应对的思考者。当AI能够保持探索能力、不轻易遗忘旧知识时，它才能真正成为可靠的工作伙伴，而不是一个一旦遇到陌生问题就手足无措的"书呆子"。

对这项研究感兴趣的读者，可以通过arXiv编号2604.14258找到完整论文，标题为"GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification"。

Q&A

Q1：GFT和SFT的根本区别是什么？

A：SFT（监督微调）要求模型照着唯一的专家标准答案学习，只有完全一致才有正反馈，导致模型死记硬背、失去灵活性。GFT（分组微调）则同时准备多个不同质量的候选回答，通过评分对比告诉模型哪些回答相对更好，模型从比较中学习而非机械复制。这种对比式学习让模型保留了探索不同解法的能力。

Q2：GFT训练所需的数据量为什么只有SFT的十分之一？

A：GFT用8个候选回答覆盖一个问题，而SFT每个问题只用一个答案。GFT实验使用10000个问题（每个8条回答），SFT使用100000个单一答案样本，总样本量相当，但GFT充分利用了每个问题的多样性信息，信息密度更高，因此用更少的问题数量就能取得更好的效果。

Q3：动态系数修正（DCR）具体是怎么防止训练崩溃的？

A：在SFT中，当模型对某个词的预测概率很低时，该词对应的更新系数（重要性权重）会变得极大，导致训练参数剧烈震荡。DCR设定一个阈值τ，对预测概率低于τ的词，用一种特殊处理方式让其更新系数不再无限增大，相当于给"高风险"的词加了一个保险，让训练保持平稳，而预测概率正常的词则不受影响、正常学习。

大语言模型强化学习分组优势学习

分享至