微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MIT和UCLA联手破解AI训练难题:为什么越来越大的模型总是训练不好?

MIT和UCLA联手破解AI训练难题:为什么越来越大的模型总是训练不好?

2025-12-03 09:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-03 09:53 科技行者

当我们想要训练一个人工智能模型时,就像在调配一道复杂的菜肴。你需要掌握火候(学习率)、调味料的分量(各种参数),还要知道什么时候该减少某些成分的用量(权重衰减)。问题在于,当你想要做一份更大的菜(训练更大的模型)时,原来的配方往往就不管用了。这正是来自麻省理工学院(MIT)电气工程与计算机科学系的范志远、加州大学洛杉矶分校(UCLA)计算机科学系的刘一峰、赵青越、袁安琪,以及通讯作者顾全全教授面临的挑战。

这项研究发表于2025年10月17日的arXiv预印本平台,论文编号为arXiv:2510.15262v1。研究团队发现了一个在AI训练领域长期存在却被忽视的问题:当我们把神经网络模型做得越来越大时,原本在小模型上调好的训练参数就会失效,就像用小锅炒菜的调料配比直接用到大锅上,结果往往是要么太淡要么太咸。

在深度学习的世界里,有一套被广泛认可的训练准则叫做"最大更新参数化"(μP),它的核心思想是确保模型在训练过程中每一步的变化幅度保持合理。这就像开车时要保持合适的速度,既不能太快导致失控,也不能太慢影响效率。μP的巧妙之处在于,它能让我们在小模型上找到最佳的学习率,然后直接应用到大模型上,大大节省了调参的时间和计算资源。

然而,研究团队发现了一个关键问题:μP虽然在训练初期工作得很好,但当训练进入稳定阶段后,情况就变得复杂了。在这个阶段,模型的行为不再主要由初始设置决定,而是由优化器(特别是AdamW)的内在机制主导。这就像一辆车在起步时需要司机精心控制,但上了高速公路后,路况和车辆性能就成了主要影响因素。

研究团队通过大量实验发现了一个有趣的现象:在训练的稳定阶段,每个权重矩阵的奇异值谱(可以理解为矩阵的"指纹")会按照学习率与权重衰减比值的平方根进行缩放,而且形状保持基本不变。这个发现让他们意识到,要保持不同大小模型的训练效果一致,关键不仅在于调整学习率,更在于同时调整权重衰减。

权重衰减是深度学习中的一个重要概念,可以理解为给模型参数施加一种"拉回力",防止它们变得过大而导致过拟合。就像给一个容易冲动的人戴上理性的枷锁,让他们的行为更加稳定和可控。传统的μP理论主要关注学习率的调整,但对权重衰减的处理相对简单。

通过深入分析,研究团队提出了一个新的权重衰减缩放规则:对于矩阵型参数(如神经网络中的线性变换层),权重衰减应该按照模型宽度的平方根进行缩放。具体来说,如果模型宽度增加4倍,那么权重衰减就应该增加2倍。这个规则确保了不同大小模型在训练过程中的"内在平衡"保持一致。

为了验证这个理论,研究团队进行了大量的实验。他们使用了类似LLaMA的Transformer模型,在FineWeb数据集上进行训练,模型大小从256维到2048维不等。实验结果清楚地显示,当使用新的权重衰减缩放规则时,不同大小模型的奇异值谱能够很好地对齐,这意味着它们的"内在结构"保持了一致性。

更重要的是,这种对齐直接转化为实际的性能提升。研究团队发现,使用新的缩放规则后,在小模型上调优的超参数能够成功地迁移到大模型上,而不需要重新进行耗时耗力的参数搜索。这就像找到了一个通用的菜谱比例转换公式,让厨师能够轻松地将小份菜谱扩展到大份制作。

为了进一步验证理论的普适性,研究团队还设计了一个极简的合成实验。他们创建了一个两层的前馈神经网络,使用完全随机的数据进行训练。即使在这种人工设计的环境中,平方根权重衰减缩放规则依然有效。这个结果特别有意义,因为它表明这个规则不是数据特有的现象,而是源于模型架构本身的内在性质。

研究团队的贡献不仅在于发现了新的缩放规则,还在于提供了一个简单的诊断工具。他们建议通过比较不同大小模型的顶部奇异值来检查"子层增益不变性"。如果这些值能够对齐,就说明缩放是成功的;如果不能,就需要调整权重衰减的设置。这为实践者提供了一个直观、易用的验证方法。

这项研究的意义远不止于技术细节的改进。在当前大模型训练成本日益高昂的背景下,任何能够减少重复调参需求的方法都具有巨大的实用价值。传统上,每当我们想要训练一个更大的模型时,都需要重新进行大量的超参数搜索,这不仅消耗计算资源,也延长了研发周期。新的缩放规则让我们能够更加自信地将小模型的成功经验直接应用到大模型上。

当然,这项研究也有其局限性。目前的结果主要基于AdamW优化器和LLaMA风格的Transformer架构。对于其他优化器、混合专家模型,或者当批次大小和训练token数量也随模型大小缩放时,这些规则是否依然适用,还需要进一步的研究。研究团队也承认,将这些经验规律转化为严格的理论预测,仍然是一个有待解决的挑战。

研究团队特别强调了一个重要观点:他们主张将大语言模型的训练视为一个动态物理系统来研究,使用动力学系统和统计物理的工具。这种观点认为,理论的作用类似于流体力学,不需要在每个细节上都完全精确,但能够在适当的尺度上提供预测性的洞察。这种"有用的模型胜过完美的模型"的研究哲学,为未来的工作指明了方向。

此外,研究还揭示了学习率和权重衰减之间存在有趣的权衡关系。实验显示,最优的学习率会随着权重衰减的增加而减少,形成一个近似对角线的"最优脊"。这意味着这两个参数不是独立的,而是紧密相关的。了解这种关系不仅有助于更有效的参数调优,也为理解深度学习的内在机制提供了新的视角。

说到底,这项研究解决的是一个看似简单却极其重要的问题:如何让AI模型的训练变得更加可预测和高效。虽然表面上只是调整了权重衰减的计算方式,但背后体现的是对深度学习动力学更深入的理解。随着模型规模持续增长,这种理解变得越来越宝贵。

对于普通人来说,这项研究的意义在于它可能会加速AI技术的发展和应用。当研究人员和工程师能够更高效地训练大模型时,新的AI应用就能更快地从实验室走向实际应用。无论是更智能的语音助手、更准确的翻译软件,还是更强大的内容生成工具,都可能因为训练效率的提升而更快地惠及普通用户。

这项研究也提醒我们,即使在AI快速发展的今天,仍然有许多基础问题等待解决。每一个看似微小的技术改进,都可能在整个行业产生连锁反应。正如研究团队所说,未来的工作还包括将这些规则扩展到其他优化器、研究模型深度的缩放规律,以及建立数据分布、优化器统计和谱形状之间的预测性联系。

有兴趣深入了解技术细节的读者可以通过arXiv:2510.15262v1查询完整论文,其中包含了详细的实验设计、数学推导和补充结果。这项由MIT和UCLA联合完成的研究,为深度学习领域贡献了一个既实用又优雅的解决方案,展现了基础研究在推动技术进步中的重要作用。

Q&A

Q1:权重衰减缩放规则具体是什么?

A:权重衰减缩放规则是指当模型宽度增加时,权重衰减参数应该按照宽度的平方根进行缩放。比如模型宽度从256增加到1024(增加4倍),权重衰减就应该从原来的值增加到2倍(4的平方根)。这个规则确保不同大小模型在训练过程中保持一致的内在平衡。

Q2:这项研究对普通AI用户有什么影响?

A:这项研究能够让AI模型训练变得更加高效,减少重复的参数调优工作。这意味着新的AI应用能够更快地开发出来,从语音助手到翻译软件再到内容生成工具,都可能因为训练效率的提升而更快地普及和改进,最终让普通用户受益。

Q3:为什么之前的μP方法在大模型上会失效?

A:μP方法主要针对训练初期进行优化,但当训练进入稳定阶段后,模型行为主要由优化器内在机制决定,而不是初始设置。在这个阶段,不同大小模型的内在结构会发生偏离,导致原本在小模型上有效的参数设置在大模型上失效,就像小锅炒菜的调料比例直接用到大锅上会出问题一样。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-