微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MLM还是CLM?欧洲多所知名大学联合解开大语言模型预训练之谜

MLM还是CLM?欧洲多所知名大学联合解开大语言模型预训练之谜

2025-07-16 23:12
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-16 23:12 科技行者

在人工智能技术迅猛发展的今天,一个看似技术性却影响深远的问题困扰着研究界:究竟应该如何训练机器来理解和处理人类语言?这项由法国中央理工大学、里斯本高等技术学院等多家欧洲知名机构联合开展的研究,发表于2025年7月的arXiv预印本平台,为这个问题提供了重要答案。有兴趣深入了解的读者可以通过论文编号arXiv:2507.00994v2访问完整研究内容。

要理解这项研究的意义,我们可以把机器学习语言比作教孩子阅读的过程。传统的方法就像让孩子看一篇文章,但故意遮住其中一些词,然后让孩子猜测被遮住的词是什么。这种方法叫做"掩码语言建模"(MLM),就好比一个填空游戏,孩子需要根据上下文来推断缺失的信息。另一种方法则像是让孩子按顺序一个词一个词地阅读文章,每次只能看到前面的内容来预测下一个词,这叫做"因果语言建模"(CLM),类似于一个接龙游戏。

长期以来,学术界普遍认为填空游戏(MLM)更适合训练专门用来理解文本的机器,因为它能让机器同时看到一个词的前后文信息,就像人类阅读时会综合考虑整个句子的意思一样。然而,最近出现的一些大型语言模型,比如GPT系列,它们主要通过接龙游戏(CLM)的方式训练,却在改造后展现出了令人惊讶的文本理解能力。这就引发了一个关键问题:到底是训练方法本身更重要,还是这些模型恰好规模更大、训练数据更多才表现出色?

为了回答这个问题,研究团队设计了一个规模庞大的对比实验。他们训练了38个不同的模型,参数规模从2.1亿到10亿不等,进行了超过15000次的微调和评估实验,总共消耗了11万个GPU小时的计算资源。这相当于让一台高性能计算机连续运行12年多的时间,可以说是一次真正的"马拉松式"研究。

一、传统认知的验证:填空游戏依然占据优势

研究团队首先验证了一个基本问题:在完全相同的条件下,填空游戏(MLM)和接龙游戏(CLM)哪种方法能让机器更好地理解文本?他们就像是在进行一场严格控制的科学实验,确保两组模型除了训练方法不同外,其他条件完全相同——相同的模型规模、相同的训练数据、相同的训练时间。

结果证实了传统观点:填空游戏确实在大多数文本理解任务上表现更好。具体来说,在文本分类任务中,填空游戏训练的模型表现出明显优势,特别是在问答任务上,这种优势更加明显。这就好比在考试中,能够同时看到问题前后文的学生往往比只能按顺序阅读的学生答得更好。

不过,有趣的发现是,在某些特定任务上,比如识别文本中的人名、地名等实体信息时,接龙游戏训练的模型居然表现得同样出色,甚至在某些情况下还略胜一筹。这提示我们,接龙游戏虽然看似简单,但在学习某些语言模式方面可能有其独特优势。

二、掩码比例的艺术:没有万能的黄金比例

在填空游戏中,一个关键问题是应该遮住多少个词。研究团队测试了20%、30%、40%和50%四种不同的遮词比例,就像是在烹饪时调整配料的比例一样,寻找最佳的"配方"。

结果发现,并没有一个适用于所有情况的完美比例。这就像不同的菜需要不同的调料比例一样,不同规模的模型和不同类型的任务都有各自的最佳遮词比例。较大的模型往往能够处理更高的遮词比例,就好比经验丰富的厨师能够在缺少更多原料的情况下依然做出美味的菜肴。信息检索类任务通常偏好较高的遮词比例,而涉及词汇级别的任务(如实体识别)则在较小模型上更适合较低的遮词比例。

这个发现对实际应用很重要,因为它告诉我们在训练模型时需要根据具体的模型规模和预期用途来调整训练策略,而不能盲目套用统一的标准。

三、效率的对决:接龙游戏的隐藏优势

虽然填空游戏在最终表现上占优,但研究团队发现了接龙游戏的一个重要优势:它学得更快。在训练的早期阶段,接龙游戏训练的模型在多数任务上都能更快地达到较好的性能水平。这就像是两个学生学习同一门课程,虽然最终一个学生可能考得更好,但另一个学生在学习初期进步得更快。

具体来说,在序列分类和问答任务上,接龙游戏训练的模型在训练1万步内就能超越填空游戏训练的模型,在信息检索任务上这种优势甚至能保持到2万步,而在实体识别任务上,接龙游戏的优势甚至能持续到训练结束。这种快速学习的特点使得接龙游戏在计算资源有限或需要快速原型开发的场景下具有实用价值。

此外,研究还发现接龙游戏训练的模型在后续微调时表现出更好的稳定性。就像是一个基础更扎实的学生在面对新知识时适应得更快一样,这些模型对学习率等超参数的选择不那么敏感,这意味着在实际应用中可能需要更少的调参工作。

四、创新的双阶段策略:先接龙后填空的智慧

基于前面的发现,研究团队提出了一个创新的想法:既然接龙游戏学得快,填空游戏效果好,那么能不能结合两者的优势?他们设计了一种双阶段训练策略,就像是先让学生快速浏览课本建立基础认知,然后再进行深入的理解训练。

实验结果验证了这种策略的有效性。在固定的计算预算下,先用接龙游戏训练一段时间,再切换到填空游戏的双阶段方法,比单纯使用填空游戏的传统方法表现更好。最佳的时间分配大约是25%-75%到50%-50%之间,也就是说,总训练时间的1/4到1/2用于接龙游戏,剩余时间用于填空游戏。

这种策略的成功可以这样理解:接龙游戏帮助模型快速建立了语言的基本模式和规律,就像是先画出了一幅画的轮廓,然后填空游戏再来完善细节和提升理解深度。这种组合充分利用了两种方法的互补优势,实现了效率和效果的平衡。

五、现实应用的智慧选择:从现有模型开始

在实际应用中,很多研究者和工程师并不是从零开始训练模型,而是基于已有的预训练模型进行继续训练。研究团队专门测试了这种情况:如果我们已经有了一个用接龙游戏训练的模型(比如GPT系列)和一个用填空游戏训练的模型(比如BERT系列),继续用填空游戏训练哪一个效果更好?

答案出人意料:在接龙游戏预训练的模型基础上继续进行填空游戏训练,比在填空游戏模型基础上继续填空游戏训练效果更好。这就像是一个已经学会了基本写作技巧的学生,在学习阅读理解时可能比一个一直专注阅读理解的学生进步得更快。

这个发现具有重要的实用价值。当前有很多高质量的开源大语言模型都是通过接龙游戏训练的,这个结果告诉我们,如果想要训练一个专门的文本理解模型,从这些现有的接龙游戏模型开始,然后用填空游戏继续训练,可能是比从头训练更好的选择。

实验数据显示,这种策略在不同任务上都展现出了优势。在序列分类任务上,改进效果最为显著;在实体识别任务上,原本接龙游戏就有优势的特点得以保持;在问答和信息检索任务上,性能差距也被有效缩小。更重要的是,即使只进行相对较短时间的继续训练,比如1.2万步,就能获得接近最优的效果。

六、训练动态的深入洞察

研究团队不仅关注最终结果,还仔细观察了训练过程中的各种变化,就像医生不仅要看病人的最终康复情况,还要监控治疗过程中的各项指标变化。

他们发现,当在接龙游戏模型基础上进行填空游戏继续训练时,模型的损失函数下降得更快更稳定。这表明先前的接龙游戏训练为模型提供了一个更好的起点,使得后续的填空游戏训练能够更高效地进行。相比之下,从头开始的填空游戏训练或者在填空游戏模型基础上继续训练,收敛速度都要慢一些。

在不同任务的表现曲线上,研究团队观察到了一个有趣的现象:接龙游戏预训练的模型在进行填空游戏继续训练时,在训练后期仍然保持着持续改进的趋势,而纯填空游戏训练的模型则较早就出现了性能平台期。这进一步证实了双阶段策略的有效性。

另一个重要发现是关于训练稳定性。接龙游戏预训练的模型在面对不同的掩码比例时表现出更好的鲁棒性,也就是说,即使掩码比例不是最优的,性能下降也相对较小。这种稳定性在实际应用中非常有价值,因为它降低了超参数调优的复杂度。

七、实验设计的严谨性

为了确保结论的可靠性,研究团队在实验设计上下了很大功夫。他们确保所有对比实验都在完全相同的条件下进行,包括使用相同的数据集(来自FineWeb-Edu的英文文本)、相同的模型架构、相同的训练时长和相同的计算资源。

在评估方面,研究团队选择了四大类共12个不同的任务,涵盖了文本理解的主要应用场景。序列分类任务包括情感分析、自然语言推理和问题相似度判断;实体识别任务涉及不同领域的命名实体识别;问答任务包括抽取式问答和常识推理;信息检索任务则测试了模型在不同长度文档中找到相关信息的能力。

特别值得一提的是,为了处理神经网络训练中常见的随机性问题,研究团队对每个实验都进行了多次重复,使用不同的随机种子,并报告了置信区间。这种严谨的实验方法确保了结果的统计学意义。

八、计算资源与规模的考量

这项研究的一个突出特点是其庞大的计算规模。研究团队使用了法国ADASTRA超级计算机,总共消耗了11万个MI250X GPU小时。为了让读者更好地理解这个规模,这相当于让一台高性能GPU连续运行超过12年的时间。

在模型规模的选择上,研究团队测试了三种不同大小的模型:2.1亿参数、6.1亿参数和10亿参数。这种多规模的测试确保了结论的普适性,因为不同规模的模型可能表现出不同的特征。事实上,研究确实发现了一些与模型规模相关的有趣现象,比如较大的模型在某些任务上能够更好地利用较高的掩码比例。

训练数据量也是一个重要考量。研究团队使用了1000亿个训练token,这个数量是计算最优训练比例建议值的5倍。这种"过训练"的策略确保了模型能够充分学习到语言的各种模式,避免了因训练不足而导致的性能差异。

说到底,这项研究为我们理解大语言模型的训练策略提供了重要的实证依据。它不仅证实了传统填空游戏方法的有效性,还揭示了接龙游戏的独特优势,更重要的是,它提出了一种融合两者优点的新策略。

对于普通读者来说,这项研究的意义在于它可能会影响未来AI助手和语言处理工具的性能。采用更优的训练策略意味着我们可能会看到更强大、更高效的AI系统,它们能够更好地理解人类语言,提供更准确的翻译、更智能的文档分析和更自然的对话体验。

对于AI从业者而言,这项研究提供了具体的指导建议:如果要从零开始训练文本理解模型,双阶段策略值得尝试;如果要基于现有模型进行改进,从接龙游戏模型开始可能是更好的选择。研究还告诉我们,训练策略的选择不应该一刀切,而需要根据具体的应用场景、模型规模和计算资源来灵活调整。

研究团队承认他们的工作也有一些局限性。实验主要在英文数据上进行,在其他语言上的结论可能需要进一步验证。此外,他们使用的是1000亿token的训练规模,在更大规模的训练中,不同策略的相对优势可能会发生变化。不过,这些局限性也为未来的研究指明了方向。

总的来说,这项研究以其严谨的实验设计、庞大的计算投入和实用的发现,为大语言模型训练领域贡献了宝贵的知识。它提醒我们,在追求更大更强的模型的同时,优化训练策略同样重要,有时候聪明的方法比暴力的资源投入更有效。对于有兴趣了解更多技术细节的读者,可以通过arXiv:2507.00994v2获取完整的研究论文。

Q&A

Q1:MLM和CLM是什么意思?有什么区别? A:MLM(掩码语言建模)就像填空游戏,遮住文章中的一些词让机器猜测;CLM(因果语言建模)像接龙游戏,机器只能根据前面的词预测下一个词。MLM能同时看到前后文信息,CLM只能看到前文,这是两种不同的语言模型训练方法。

Q2:双阶段训练策略会不会成为主流? A:很可能会。研究证明先用CLM再用MLM的策略既保持了训练效率又提升了最终性能,特别是在计算资源有限的情况下更有优势。加上现在已有很多优质的CLM预训练模型,这种策略的实用性很强。

Q3:普通人能不能从这项研究中受益? A:当然可以。虽然这是技术性研究,但更优的训练策略意味着未来的AI助手、翻译工具、搜索引擎等会变得更聪明更准确。比如语音助手理解你的话更准确,翻译软件翻译更自然,这些改进最终都会体现在我们的日常使用体验中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-