微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学研究团队找到了让AI学习更聪明的秘诀:GFT方法让大模型不再"死记硬背"

浙江大学研究团队找到了让AI学习更聪明的秘诀:GFT方法让大模型不再"死记硬背"

2026-04-29 11:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-29 11:47 科技行者

这项由浙江大学软件技术学院OmniAI研究组完成的研究,以预印本形式于2026年4月发布,论文编号为arXiv:2604.14258。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台上查阅完整论文。

一个老师在教学生解数学题时,有两种截然不同的策略。第一种是让学生死记硬背标准答案,每道题都必须照着模板来;第二种是让学生接触各种不同的解题思路,理解哪些方法好、哪些方法差,逐渐培养出真正的数学直觉。这两种策略带来的结果天差地别——死记硬背的学生遇到变化题型就容易手足无措,而真正理解了思路的学生则能举一反三、灵活应对。

大型语言模型的训练,正面临着类似的困境。浙江大学的研究团队深入研究了这个问题,并提出了一套名为"分组微调"(Group Fine-Tuning,简称GFT)的全新训练方法,试图让AI既能快速学到知识,又不会因为死记硬背而丧失灵活性。

一、AI训练中那个被忽视的隐患

要理解这项研究,首先要了解大语言模型是怎么被"教"出来的。当前最主流的做法分为两个阶段:第一个阶段叫做监督微调(Supervised Fine-Tuning,SFT),类似于让学生照着标准答案练习;第二个阶段叫做强化学习(Reinforcement Learning,RL),类似于让学生在不断尝试和反馈中摸索出正确策略。

理论上,这两个阶段应该相辅相成——先通过照着标准答案练习打好基础,再通过强化学习提升灵活性。但浙江大学的研究团队发现,现实并非如此理想。他们在实验中观察到两个让人担忧的现象。

第一个现象是"遗忘"问题。经过SFT训练之后,模型在某些任务上的表现甚至比训练之前还要差。在数学推理任务上,他们发现用标准SFT训练Qwen2.5-Math-1.5B这个模型之后,该模型在高考2023英语数学题上的准确率下降了1.73个百分点,在Minerva Math(一个更难的数学基准)上更是下降了2.69个百分点。换句话说,死记硬背式的训练反而让模型"忘掉"了原本掌握的一些能力,这种现象在学术上被称为"灾难性遗忘"。

第二个现象更加微妙,研究团队将其称为"协同失效"问题。按理说,先用SFT打基础、再用强化学习提升,效果应该比单独用强化学习更好才对。但实验结果显示,"SFT+强化学习"的组合,在AMC23、Math和OlympiadBench等多个数学评测上,其准确率均低于单独使用强化学习(GRPO算法)。具体数字是:AMC23上单独GRPO达到44.84%,但SFT+GRPO只有35.78%,差了整整9个百分点。这意味着,SFT的训练不但没有帮助后续的强化学习,反而拖了它的后腿。

正是这两个现象,促使研究团队决定从根源上弄清楚SFT究竟出了什么问题。

二、数学揭秘:SFT的两个致命弱点

研究团队没有停留在表面观察,而是从数学原理层面对SFT进行了深刻的剖析,最终发现SFT可以被理解为一种特殊的强化学习——但是一种带有两个严重缺陷的强化学习。

在强化学习中,模型生成一个答案,然后根据这个答案的好坏获得"奖励信号",再据此调整自己的参数。标准的SFT训练则是:给模型一个专家提供的标准答案,让模型尽量向这个标准答案靠拢。研究团队通过数学推导证明,SFT的训练过程其实等价于一种特殊的强化学习:奖励信号只有在模型生成的答案和专家答案完全一致时才为1,否则为0;同时,每个词的更新幅度被一个"重要性权重"所缩放,这个权重等于该词概率的倒数——也就是说,如果模型觉得某个词出现的概率很低,那么这个词的权重就会非常大。

这两个特性共同制造了麻烦。第一个麻烦是"单路径依赖"。由于奖励信号极度稀疏——只有和专家答案完全一样才能得到正反馈——模型的学习信号被锁死在专家提供的那一条路径上,完全没有机会去探索和比较其他可能的解题路径。就好像一个学生做练习题,只有在每个步骤都和参考答案完全相同时才算对,写出了同样正确但形式不同的解法反而会被判错。长此以往,模型就会陷入机械复制、失去灵活性的困境。

第二个麻烦是"梯度爆炸"。当专家答案中出现一个模型不熟悉的词语时,模型对这个词的预测概率会很低,对应的重要性权重就会变得极大。这就好像用一个放大镜来调整参数,放大镜的倍数高达几百甚至几千倍,导致训练过程极不稳定,模型会因为几个"意外"的词而发生剧烈震荡,走向机械记忆和过拟合。

这两个数学层面的根本缺陷,从理论上解释了为什么SFT容易导致遗忘和泛化能力下降,也解释了为什么SFT之后进行强化学习的效果反而会变差——因为SFT已经把模型压缩进了一个狭窄的"解题模式"空间,强化学习没有足够的探索余地。

三、GFT:用"对比评分"代替"死记硬背"

找到了病根,研究团队便对症下药,设计了GFT(分组微调)框架。这个框架包含两个核心机制,分别对应SFT的两个根本缺陷。

第一个机制叫做"分组优势学习"(Group Advantage Learning,GAL),专门用来解决单路径依赖问题。具体做法是:对于每一个训练问题,不再只使用一个专家标准答案,而是同时准备一组多样化的回答,共8个。这8个回答来自三种不同来源:1个来自人类专家的标准示范,用于保证学习方向的正确性;3个来自强大的教师模型(Qwen2.5-Math-72B)的输出,引入多样的解题思路;4个来自当前被训练的模型自己生成的答案,让模型从自己的实际尝试中学习。

有了这8个候选答案,下一步是对每个答案打分,然后计算"相对优势"。所谓相对优势,就是把每个答案的得分减去这8个答案的平均分,再除以得分的标准差,得到一个标准化的相对评分。这样做的好处是,模型不再是简单地被要求"照着专家答案抄",而是被告知"在这批答案中,哪些比较好,哪些比较差,请向好的靠拢、向差的疏远"。这种相对比较的学习信号,给了模型丰富得多的信息,也保留了足够的探索空间。

就像一个厨艺比赛评委,不是说"这道菜必须和我做的一模一样",而是对一桌菜点评"这道比那道更鲜美,那道比这道更有层次感",厨师通过对比理解好坏,而非机械复制某一份菜谱。

第二个机制叫做"动态系数修正"(Dynamic Coefficient Rectification,DCR),专门用来解决梯度爆炸问题。思路非常直观:设定一个信心阈值τ,如果模型对某个词的预测概率高于τ,就正常更新;如果低于τ,就对这个词施加一个特殊处理,让它对应的重要性权重不再无限膨胀,从而防止训练过程因为几个低概率词汇而发生剧烈震荡。这就好像给汽车的油门加了一个限速装置——普通速度下油门完全有效,但防止油门踩到底时速度失控造成事故。

这两个机制结合在一起,形成了GFT的最终训练目标:以分组内的相对优势作为学习信号,同时对低概率词汇的更新幅度进行限制。数学上,这个目标既是SFT的严格泛化(当只有一个专家示范时,GFT退化为标准SFT),也是强化学习的稳定化变体。

四、实验验证:五类模型、十一个测试,结果如何?

研究团队在5种不同的语言模型上进行了全面测试,涵盖了不同规模和不同架构:Qwen2.5-Math-1.5B、Qwen2.5-Math-7B(数学专用模型)、DeepSeekMath-7B、LLaMA-3.2-3B和LLaMA-3.1-8B(通用模型)。测试基准包括AMC23(美国数学竞赛)、College Math(大学数学)、高考2023英语数学题、MATH(综合数学基准)、Minerva Math(复杂推理题)、TabMWP(表格数学问题)、OlympiadBench(奥数竞赛题)等11个不同难度的评测。

在公平对比的设置上,GFT使用10000个训练样本(每个样本对应8个候选回答),而SFT等单路径方法使用100000个训练样本。也就是说,GFT在训练数据量只有竞争对手十分之一的情况下进行比较。

结果显示GFT几乎在所有模型和所有评测上都超越了基线方法。以Qwen2.5-Math-1.5B为例,GFT在AMC23上达到46.09%,比标准SFT的31.25%高出近15个百分点,比DFT(另一种改进SFT的方法)的36.40%高出约10个百分点,甚至还略微超过了单独使用强化学习(GRPO)的44.84%。在MATH和Gaokao2023En等多个基准上,GFT同样保持领先。对于更大的7B规模模型Qwen2.5-Math-7B,GFT在Minerva Math上达到39.86%,远超SFT的31.82%和GRPO的32.60%,在TabMWP上也以93.81%的成绩排名第一。

一个细节值得关注:研究团队还测试了一个变体叫做"GFT(no mix)",即只用专家数据和模型自生成样本,不引入教师模型的输出。对比发现,混入教师输出数据的完整GFT效果更好,但两者的差距远小于GFT与普通SFT之间的差距。这说明GFT的核心收益来自训练机制本身(分组对比和动态修正),而不仅仅是因为用了更多的多样化数据。

对于LLaMA-3.2-3B这个通用小模型,GFT的效果尤为突出。标准SFT在几乎所有数学测试上都让这个模型变得更差(例如AMC23从23.78%降至19.53%,Gaokao2023En从38.06%降至36.33%),而GFT(no mix)则让模型的AMC23成绩从23.78%提升至27.66%,MATH从44.63%提升至51.71%,Minerva Math从14.83%提升至21.29%。

五、分离实验:两个机制各自贡献了什么?

为了弄清楚GAL和DCR各自的贡献,研究团队在Qwen2.5-Math-1.5B上做了消融实验——分别去掉某一个机制,看效果如何变化。

去掉GAL(只用DCR),相当于回到单路径训练,只是加上了梯度稳定。在AMC23上得到35.78%,MATH上63.91%,OlympiadBench上26.63%,相比完整GFT(46.09%/70.50%/30.52%)有明显差距,尤其是在最难的奥数题上,差距最为显著。这说明分组对比学习对于提升复杂推理能力至关重要。

去掉DCR(只用GAL),训练过程则容易出现剧烈波动,最终在AMC23上达到42.81%,MATH上65.97%,OlympiadBench上27.82%,虽然成绩已经好于单独去掉GAL,但不稳定性更高,且天花板低于完整GFT。学习曲线图显示,去掉DCR的训练曲线剧烈震荡,难以平稳收敛,而去掉GAL的训练虽然相对平稳,但收敛速度慢且最终精度低。完整GFT同时具备两个机制,才能实现既稳定又高效的训练。

六、GFT能让SFT和强化学习"和平共处"吗?

研究团队特别设计了一组实验,专门研究GFT能否改善SFT与强化学习之间的"协同失效"问题。他们比较了三种不同的训练路径:SFT之后接GRPO(强化学习算法)、GFT之后接GRPO,以及SFT加GFT再加GRPO三段式流程。

结果在Pass@16(从16次生成中至少得一个正确答案的概率,代表模型的探索能力上限)这个指标上呈现出鲜明差异。在Math OAI测试上,SFT单独训练得62.4,GRPO单独训练得65.2,SFT+GRPO得69.7,GFT+GRPO得72.4,而SFT+GFT+GRPO三段流程则达到了最高的71.7(在Mmlu Stem上)和90.2(在SAT Math上)。在AMC23评测上,SFT+GFT+GRPO以48.4%排名最高。

训练动态曲线显示,SFT+GFT+GRPO的三段式流程能够最稳定、最持续地提升模型性能,而SFT+GRPO的组合则会遭遇平台期,性能提升幅度受限。研究团队对此给出的解释是:SFT提供了良好的格式和对齐起点;GFT在此基础上恢复了模型的多路径探索能力,防止策略过度收窄;GRPO则在更高质量的轨迹基础上进一步优化,达到更高的性能上限。三者各司其职,形成良性配合。

七、"遗忘"减少了多少?多样性保住了吗?

研究团队还专门测试了GFT在防止遗忘和保持多样性上的表现。

在遗忘测试上,他们用LLaMA-3.2-3B这个通用模型,在数学数据上训练后,测试其在MAWPS、SVAMP和MMLU-STEM(非数学任务)上的表现变化。SFT训练之后,MAWPS下降4.09个百分点,SVAMP下降7.63个百分点,MMLU-STEM下降5.98个百分点,遗忘非常显著。GRPO训练则对这些通用能力的损伤较小。而GFT的表现更令人满意:MAWPS只下降0.27个百分点,SVAMP下降1.71个百分点,MMLU-STEM甚至提升了2.86个百分点。

为了量化遗忘程度,研究团队计算了各方法训练前后模型输出分布之间的KL散度(可以理解为模型"变化了多少"的度量)。SFT训练使模型的分布变化最大,GRPO其次,GFT的变化最小,与GRPO相当甚至更低。训练步骤数达到100步时,SFT的KL散度接近40,而GFT稳定在5左右。这证明GFT能在有效注入新知识的同时,最大限度保留模型原有能力。

在多样性测试上,研究团队使用Pass@128和Pass@256指标(从128次或256次生成中至少得一个正确答案的概率),比较了知识蒸馏(Distillation)、GRPO和GFT三种方法。结果GFT在SAT Math、Minerva和TabMWP三个测试上均获得最高的Pass@128和Pass@256成绩,平均分别为62.16%和61.91%,超过知识蒸馏的56.32%/56.11%和GRPO的49.87%/49.16%。这说明GFT在提高准确率的同时,还保持了解题思路的多样性,没有让模型陷入"只会用一种方法解题"的固化模式。

八、超参数怎么选才最好?

研究团队还系统测试了两个关键超参数的影响。

第一个是8个候选答案中,教师示范和模型自生成样本的比例。测试结果显示,2个教师示范搭配6个自生成样本(记为2:6)的组合效果最好,在Minerva Math、OlympiadBench和SAT Math的平均分上达到45.59%,显著优于只用教师示范(8:0,24.84%)或只用自生成(0:8,30.84%)的极端情况。这个结果的含义是:少量专家示范用于确保学习方向正确,大量自生成样本用于提供丰富的对比信号,二者缺一不可,但自生成样本的数量多一些效果更好。

第二个是动态系数修正中的阈值τ。实验显示,当τ很小(如0.01)时,几乎没有词被修正,训练仍然不稳定,AMC23准确率只有42.81%;随着τ增大,被修正的词越来越多,性能先上升后下降,在τ≈0.7时达到峰值46.09%;当τ很大(如0.9)时,太多词被限制更新,模型学习效率下降,准确率回落至42.19%。重要的是,即使在τ从0.01到0.9的整个范围内,GFT的准确率都高于基础模型(30.16%),说明DCR机制对超参数选择具有较强的鲁棒性。

归根结底,GFT这项研究所揭示的核心问题,其实和教育哲学中的经典争论如出一辙:死记硬背和真正理解,哪个更重要?答案当然是后者,但如何实现后者,才是真正的挑战。

研究团队通过严谨的数学分析,把这个直觉性问题落地成了可以操作的技术方案——用分组对比代替单一模仿,用动态稳定代替任由梯度爆炸。更难得的是,GFT不是一个需要大量额外资源的方案。用十分之一的训练数据,它就能超越使用全部数据的标准方法,这对于资源有限的研究团队来说是极具吸引力的特性。

当然,这项研究也坦承了自身的局限。目前所有实验都集中在数学推理任务上,而数学问题有客观正确答案,奖励信号相对明确。对于写作、对话、创意等需要主观判断的开放式任务,GFT能否同样有效,还有待进一步研究。此外,实验规模最大只到8B参数的模型,在更大规模(如70B以上)的模型上验证,也是未来的重要方向。

这项研究对于关心AI发展的普通人来说,最直接的意义或许是这样的:未来我们使用的AI助手,不必再是那种只会"背答案"的学生,而可以成为真正理解问题、灵活应对的思考者。当AI能够保持探索能力、不轻易遗忘旧知识时,它才能真正成为可靠的工作伙伴,而不是一个一旦遇到陌生问题就手足无措的"书呆子"。

对这项研究感兴趣的读者,可以通过arXiv编号2604.14258找到完整论文,标题为"GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification"。

Q&A

Q1:GFT和SFT的根本区别是什么?

A:SFT(监督微调)要求模型照着唯一的专家标准答案学习,只有完全一致才有正反馈,导致模型死记硬背、失去灵活性。GFT(分组微调)则同时准备多个不同质量的候选回答,通过评分对比告诉模型哪些回答相对更好,模型从比较中学习而非机械复制。这种对比式学习让模型保留了探索不同解法的能力。

Q2:GFT训练所需的数据量为什么只有SFT的十分之一?

A:GFT用8个候选回答覆盖一个问题,而SFT每个问题只用一个答案。GFT实验使用10000个问题(每个8条回答),SFT使用100000个单一答案样本,总样本量相当,但GFT充分利用了每个问题的多样性信息,信息密度更高,因此用更少的问题数量就能取得更好的效果。

Q3:动态系数修正(DCR)具体是怎么防止训练崩溃的?

A:在SFT中,当模型对某个词的预测概率很低时,该词对应的更新系数(重要性权重)会变得极大,导致训练参数剧烈震荡。DCR设定一个阈值τ,对预测概率低于τ的词,用一种特殊处理方式让其更新系数不再无限增大,相当于给"高风险"的词加了一个保险,让训练保持平稳,而预测概率正常的词则不受影响、正常学习。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-