微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

2025-05-26 08:10
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:10 科技行者

这项由北科(Beike)内部研究团队a-m-team在2025年5月发表于arXiv(arXiv:2505.14464v1)的研究探讨了一个有趣而重要的问题:在大语言模型的知识蒸馏过程中,"教师模型"的选择到底有多重要?就像在学校里,不同的老师教同一门课,学生的学习效果可能天差地别,这项研究发现,即使都是给出正确答案的大模型,它们作为"老师"的教学质量也存在显著差异。

想象一下,三位数学老师都知道100+100=200这个正确答案,但一位老师只告诉你答案,另一位详细解释计算过程,第三位则根据题目难度灵活调整讲解方式。北科研究团队就发现了类似的情况——在大语言模型的世界里,不同的"教师模型"传授知识的方式各不相同,这直接影响了"学生模型"的推理能力。

研究团队选择了当前最先进的三个大型语言模型作为"教师":AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1。他们让这三位"老师"回答完全相同的189万个问题,收集它们的详细推理过程,然后用这些回答来训练新的模型。这就像是让三位名师分别辅导三组学生,最后比较哪组学生表现更好。

研究结果令人惊讶:接受AM-Thinking-v1模型"教导"的学生模型在各项推理测试中表现最佳,包括高难度的数学竞赛题和编程挑战。更有趣的是,这个模型还表现出一种"适应性输出行为"——面对复杂问题时,它会给出更详细的推理过程;而对于简单问题,它则能简明扼要地回答,非常像一位懂得因材施教的优秀教师。

为了促进开源大语言模型的发展,研究团队公开发布了基于AM-Thinking-v1和Qwen3-235B-A22B的蒸馏数据集,让更多研究者能够基于这些高质量数据训练出更强大的推理模型。这项研究告诉我们:在人工智能的学习过程中,不仅答案的正确与否重要,答案背后的推理过程和表达方式同样关键。

一、背景:为什么大语言模型需要"老师"?

近年来,开源大语言模型的发展引起了广泛关注。虽然这些模型在规模上可能不及闭源的商业巨头,但研究者们发现了一种有效提升它们能力的方法——知识蒸馏。这听起来可能有些陌生,但其实这个概念非常接近我们熟悉的"传帮带"。

知识蒸馏是什么呢?简单来说,就是让一个强大的"教师模型"(通常是计算资源丰富的大公司开发的顶级AI)解答各种问题,然后将这些问题和解答过程作为学习材料,教给资源较少的"学生模型"。这有点像请来一位顶尖大学教授,把他的授课内容录制下来,让更多学生通过这些视频学习,从而获得接近名师亲授的效果。

北科的a-m-team研究团队注意到,虽然已有不少研究证明知识蒸馏非常有效,但很少有人探究不同"教师模型"在教学质量上的差异。就像现实中的教育一样,仅仅因为教师都掌握正确知识,并不意味着他们教学效果相同。一位善于分析思路的教师可能比仅仅给出标准答案的教师更能启发学生的思考能力。

研究团队产生了一个大胆的想法:如果让当前最先进的几个大型语言模型同时担任"教师",让它们教授完全相同的知识点,然后比较哪一位"教师"培养出的"学生"更优秀,会不会发现有趣的现象?

于是,他们选择了三个强大的大语言模型作为"教师":AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1。这些模型就像是不同风格的顶尖教授,他们在各自领域都有出色表现,但教学方法和风格可能大相径庭。研究人员精心设计了一个包含约189万个问题的"课程表",涵盖数学推理、代码编写、科学问答等多种挑战性任务,让这三位"教师"逐一解答。

这个实验设计非常聪明,因为它创造了一个绝佳的对照环境——相同的问题,不同的解答者,从而可以直接比较不同"教师模型"的推理风格和教学效果。就像让三位数学教授分别解答同一套题目,然后分析谁的解题思路更清晰,更容易被学生理解和模仿。

二、数据准备:精心打造高质量的"教学材料"

要确保这项研究的科学性,研究团队首先需要构建一个高质量的问题库。这就像准备一套全面而有挑战性的教材,涵盖不同难度和类型的问题,才能全面评估学生的学习效果。

研究人员从多个公开可用的数据集中精心挑选了问题,并将它们分类为六大类:数学推理(占29.5%)、代码生成(17.1%)、科学推理(8.4%)、指令遵循(3.1%)、多轮对话,以及一般推理(后两类合计41.8%)。这样的分类让人联想到一所综合性大学的课程设置,从严谨的理科到灵活的人文学科,全面覆盖各种知识类型。

数据收集完成后,研究团队进行了严格的预处理,确保数据质量。他们首先去除了完全重复的问题,就像教材编委会会避免在同一本书中重复出现相同题目。然后,他们过滤掉了不完整或格式混乱的问题,比如那些包含大量特殊字符或网址的内容。这就像确保每个测试题目都清晰明了,没有印刷错误一样。

特别值得一提的是"防污染"措施。研究人员特别注意避免数据中包含将来用于测试的问题,比如AIME2024数学竞赛题。他们不仅检查完全相同的问题,还使用先进的语义相似度检测技术(bge-m3嵌入模型),识别并移除那些表述不同但本质相同的问题。这就像防止考试题目提前泄露,确保最终的测试结果真实可信。

准备好问题后,研究团队让三个"教师模型"分别作答。但他们并不是简单接受任何回答,而是建立了严格的"验证机制"。对于每个回答,他们要求必须达到至少0.9的验证分数才被接受,这相当于教育系统中的"质量审核"。如果第一次回答不够好,系统会让模型重新尝试,直到产生高质量的解答。

针对不同类型的问题,研究团队采用了不同的验证方法:

对于数学问题,他们使用了Math-Verify工具和Qwen2.5-7B-Instruct模型进行二阶段验证,确保推理过程和最终答案都正确。这就像让两位数学老师交叉检查学生的解题过程和答案。

代码问题则在实际的计算环境中运行测试,确保代码不仅看起来合理,还能正确执行。这相当于不只看编程作业的格式是否规范,还要实际运行看结果是否正确。

对于科学推理和指令遵循类问题,研究团队使用专门的评估模型检查回答的准确性和完整性。而对于一般对话类问题,则评估回答的连贯性、正确性和有用性。

通过这一系列严格的筛选和验证,研究团队最终获得了约189万个高质量问题-答案对,每个问题都有来自三个不同"教师模型"的优质解答。这些数据成为后续训练和分析的坚实基础。

三、数据分析:揭示不同"教师"的教学风格差异

拥有了三位"教师"的详细解答后,研究团队进行了深入分析,试图理解它们的"教学风格"有何不同。这就像教育研究者分析不同教师的教学录像,寻找成功教学的关键因素。

首先,研究团队对比了三个模型在不同类型问题上的输出分布。从实例层面看,所有模型面对的是相同的问题集,自然没有差异。但从生成的令牌(tokens,可以理解为文字量)层面看,差异就显现出来了。

AM-Thinking-v1在数学问题上投入了33.4%的文字量,Qwen3则是38.0%,DeepSeek-R1则高达41.0%。这表明DeepSeek-R1在解答数学问题时更为详尽,像是那种会写很多中间步骤的数学老师。相比之下,AM-Thinking-v1在一般对话上投入的文字比例较高(33.1%),表明它在日常交流上可能更加自然流畅。

更有趣的是令牌长度分布的分析。研究团队发现,AM-Thinking-v1的回答长度分布非常有特点——它既有大量非常简短的回答(少于1024个令牌),也有相当比例的超长回答(超过10240个令牌)。这表明AM-Thinking-v1能够根据问题难度灵活调整回答长度,就像一位懂得"因材施教"的好老师,简单问题简洁作答,复杂问题详细解释。

相比之下,Qwen3-235B-A22B的回答普遍较长,平均令牌数达到4196.7,而AM-Thinking-v1为3757.3,DeepSeek-R1为3784.8。这说明Qwen3倾向于提供更详尽的解释,就像那种喜欢讲解大量细节的教授。但更多的文字不一定意味着更好的教学效果,关键是内容的质量和针对性。

研究人员还分析了每个模型生成内容的困惑度(perplexity,可理解为文本的流畅度和自然度,越低越好)。令人惊讶的是,AM-Thinking-v1生成的内容平均困惑度最低(2.5),而Qwen3和DeepSeek-R1分别为3.0和2.9。这表明AM-Thinking-v1的输出在语言表达上更为自然流畅,就像一位表达清晰、逻辑连贯的教师,更容易被学生理解。

这些数据分析揭示了三个模型截然不同的"教学风格":AM-Thinking-v1像是一位善于因材施教的老师,能够灵活调整讲解深度,且表达清晰自然;Qwen3-235B-A22B则像是详尽细致的教授,倾向于提供丰富的解释;DeepSeek-R1则在数学问题上尤为专注,投入了大量篇幅解释数学推理过程。

这种教学风格的差异会对"学生模型"的学习效果产生怎样的影响呢?这正是研究的下一步要揭晓的谜题。

四、实验设计:公平比较"学生模型"的学习效果

有了三位风格各异的"教师"提供的教学材料,研究团队接下来要做的就是培养三组"学生",并公平评估他们的学习成果。这就像一场教育实验,使用相同的基础条件和测试标准,比较不同教学方法的效果。

研究团队选择了Qwen2.5-32B作为所有"学生模型"的起点,这就像让三组学生从相同的知识水平开始学习。为确保实验公平,所有模型都使用完全相同的训练参数:学习率8e-5,最大序列长度32k,全局批量大小64,训练2个周期(epochs)。这就像确保三组学生接受相同的学习时长和相同的学习强度,唯一的区别就是他们学习的教材来源不同——分别是AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1的解答。

训练完成后,研究团队设计了一套全面的测试来评估这三个"学生模型"的能力。他们选择了四个具有挑战性的基准测试,涵盖不同难度和类型的推理任务:

AIME2024:这是2024年美国数学邀请赛题目,包含30道高难度整数答案问题,用于测试精确的数学问题解决能力。这相当于数学奥林匹克竞赛的水平,能够测试模型的高级数学推理能力。

AIME2025:来自2025年AIME第一部分和第二部分的30个新问题,提供了一个面向未来的高级数学推理基准。这些题目对于模型来说是全新的挑战,能够测试其真正的数学推理能力而非记忆能力。

MATH500:包含500个具有挑战性的数学应用题,涵盖代数、几何、微积分和数论等多个数学领域,要求模型进行多步推理和符号操作。这相当于大学数学课程的综合测试。

LiveCodeBench:一个动态演进、无污染的代码生成基准测试,任务来自LeetCode、Codeforces和AtCoder等平台。研究团队使用了2024年10月至2025年2月期间提交的查询作为测试集。这相当于软件工程的实际编程挑战。

为了确保评估的一致性,所有测试都在统一条件下进行:生成长度上限为49,152个令牌,随机生成采用0.6的温度参数和0.95的top-p值。不同的测试任务采用不同的采样策略:AIME题目每个问题生成64个输出以估计pass@1准确率,LiveCodeBench每个提示生成16个完成以计算pass@1,而MATH500则对每个提示回答一次,采样4次计算pass@1。

研究团队还统一了所有任务的系统提示,鼓励模型先思考推理过程,再给出答案,并使用特定的标签格式:推理过程 答案。这就像要求学生在考试中不仅写出答案,还要展示解题过程,这样才能全面评估他们的理解水平。

通过这种精心设计的实验框架,研究团队确保了评估的公平性和全面性,为揭示不同"教师模型"教学效果的差异奠定了坚实基础。

五、实验结果:AM-Thinking-v1培养出最优秀的"学生"

经过一系列严格测试,研究结果揭晓了:由AM-Thinking-v1"教导"的学生模型在所有测试中都取得了最佳成绩,展现出卓越的推理能力。

在高难度的AIME2024数学竞赛题上,AM-Thinking-v1蒸馏的模型得分高达84.3,远超Qwen3-235B-A22B蒸馏模型的79.4和DeepSeek-R1蒸馏模型的70.9。在AIME2025测试中,这三个模型的分数分别是72.2、62.2和52.8,差距更为明显。这就像在数学奥林匹克比赛中,AM老师的学生获得了金牌,其他老师的学生分别获得银牌和铜牌。

在MATH500测试中,三个模型的表现都很出色,但AM-Thinking-v1蒸馏模型依然领先,得分为98.4,而Qwen3和DeepSeek-R1蒸馏模型分别为93.9和95.8。在LiveCodeBench编程测试中,AM-Thinking-v1蒸馏模型同样以65.9的成绩领先,而Qwen3和DeepSeek-R1蒸馏模型分别为59.6和57.0。

这些结果清晰地表明,AM-Thinking-v1提供的"教学材料"质量最高,能够帮助"学生模型"建立更强大的推理能力。但为什么会这样呢?研究团队通过分析模型的生成行为,找到了一些可能的答案。

他们发现,AM-Thinking-v1蒸馏的模型表现出了一种独特的"适应性输出行为"——在面对复杂问题时,它会生成更长的回答。例如,在AIME2024和AIME2025这样的高难度数学题上,它的平均生成长度分别达到15273.8和18199.2个令牌,明显高于其他两个模型。在要求详细编程解答的LiveCodeBench上,它的平均生成长度更是达到惊人的23426.9个令牌。

然而,在相对简单的MATH500测试中,AM-Thinking-v1蒸馏模型的平均生成长度只有3495.7个令牌,甚至低于Qwen3蒸馏模型的6429.4个令牌。这表明它能够根据任务难度灵活调整回答长度,就像一位优秀教师知道何时需要详细解释,何时可以简明扼要。

这种适应性行为与之前的数据分析结果完全吻合——AM-Thinking-v1的训练数据包含了更多比例的超短回答和超长回答,这种多样性使得学生模型学会了根据问题复杂度调整回答详细程度的能力。

研究团队还比较了三个模型在训练过程中的损失曲线。结果显示,AM-Thinking-v1蒸馏模型在整个训练过程中始终保持最低的损失值,表明它的学习过程更加顺畅高效。这就像在课堂上,有些学生能够更快地吸收和理解知识,学习曲线更加平滑。

这些发现表明,AM-Thinking-v1之所以能成为最好的"教师",不仅因为它提供的答案正确,更因为它的解答过程具有更高的质量和更灵活的适应性。它就像那种既懂得深入浅出地解释复杂概念,又不会在简单问题上浪费过多时间的优秀教师,能够有效培养学生的推理思维能力。

六、结论与未来展望:不是所有正确答案都能教出好学生

通过这项全面而系统的研究,北科a-m-team团队得出了一个重要结论:在大语言模型的知识蒸馏过程中,教师模型的选择至关重要。即使所有模型都能给出正确答案,但它们的推理过程质量和表达方式的差异,会对学生模型的最终能力产生显著影响。

就像在现实教育中,好的教师不仅知道正确答案,还能根据学生的不同需求和问题的难度,灵活调整教学方法和解释深度。AM-Thinking-v1之所以成为最佳"教师",正是因为它展现出这种灵活适应的能力——对简单问题简洁作答,对复杂问题详细解释,而且表达清晰自然,更容易被"学生模型"理解和学习。

这项研究的意义不仅限于学术价值,还对开源大语言模型的实际发展提供了重要指导。研究团队慷慨地公开发布了基于AM-Thinking-v1和Qwen3-235B-A22B的蒸馏数据集,为社区提供了宝贵的高质量训练资源。这些数据集可以帮助更多研究者训练出具有强大推理能力的开源模型,推动整个领域的进步。

未来的研究方向可能包括进一步优化这些模型,例如使用强化学习技术(如近端策略优化PPO或广义群相对策略优化GRPO)来增强模型的推理能力和对齐性。也许还可以探索不同教师模型的优势互补,创造出更全面的"课程",就像在学校里结合不同教师的教学长处,为学生提供最优化的学习体验。

这项研究让我们重新思考了AI学习过程中"教师质量"的重要性。在人工智能的世界里,就像在人类教育中一样,不仅答案的正确与否重要,答案的呈现方式、推理的清晰度、表达的灵活性同样关键。正如研究题目所言:并非所有正确答案都是平等的,你的蒸馏源确实至关重要。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-