微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 韩国大学团队发明"防晕倒"训练法:让AI大模型在4位量化下依然强壮如牛

韩国大学团队发明"防晕倒"训练法:让AI大模型在4位量化下依然强壮如牛

2025-06-30 17:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 17:57 科技行者

当我们把一个高清视频压缩成模糊的低画质版本时,虽然文件变小了,但观看体验也大打折扣。类似的问题在人工智能领域也存在:为了让大型语言模型能在手机、平板等设备上运行,研究人员需要对模型进行"瘦身"——这个过程叫做量化。然而,传统的量化方法就像把一个身强力壮的人突然节食减肥,虽然体重下来了,但也变得虚弱无力。

这项由韩国大学的朴正宇、李泰宇、尹昌雄、黄炫、姜在宇团队(同时隶属于AIGEN Sciences)在2025年6月发表的研究,提出了一种全新的解决方案。有兴趣深入了解技术细节的读者可以通过arXiv:2506.19697v1访问完整论文。研究团队不再试图在训练完成后给模型"减肥",而是从一开始就用特殊的方法训练模型,让它天生就具备在低精度环境下保持强劲性能的能力。

研究团队发现,传统训练方法产生的模型就像一个习惯了精细操作的工匠,突然要求他用粗糙的工具工作时就会手忙脚乱。而他们的新方法——被称为"无异常值安全预训练"(Outlier-Safe Pre-Training,简称OSP)——就像从小就训练一个人适应各种恶劣环境,让他在任何条件下都能发挥出色。

在传统的模型训练过程中,某些神经元会变得异常活跃,就像一个团队中总有几个特别"跳脱"的成员。这些异常活跃的神经元被称为"异常值"或"离群值",它们虽然在正常情况下能发挥作用,但在模型被压缩时却成了最大的麻烦制造者。研究团队通过分析发现,这些异常值的出现主要源于三个方面:优化器的选择、模型架构的设计,以及训练过程中的一些细节处理。

针对这些问题,研究团队设计了一套三管齐下的解决方案。第一个关键改进是采用了名为Muon的新型优化器。如果把传统的Adam优化器比作一个只会按部就班的管家,那么Muon就像一个经验丰富的调酒师,能够巧妙地平衡各种成分,避免某些"口味"过于突出。Muon优化器的核心特点是使用了牛顿-舒尔茨算法来处理梯度信息,这种方法能够防止某些神经元获得过多的"特权",从而有效抑制异常值的产生。

第二个改进涉及模型的归一化层设计。传统的RMSNorm就像给每个房间都配备不同功率的空调,虽然能精确控制,但也容易造成某些房间过热或过冷。研究团队提出的Single-Scale RMSNorm(SSNORM)则像使用一个中央空调系统,所有房间共享同一个温度控制参数,这样就避免了某些"房间"获得过多关注的问题。

第三个关键组件是可学习的嵌入投影层。由于词汇表嵌入层通常非常庞大,直接对其应用Muon优化器会带来巨大的计算开销。研究团队采用了一种巧妙的折中方案:继续使用Adam优化器来训练嵌入层,但在嵌入层之后添加一个特殊的投影层来"重新分配"激活值,就像在水管系统中安装一个分流器,确保水流均匀分布而不会在某些地方形成过大的压力。

为了验证这种方法的有效性,研究团队进行了大规模的实验。他们训练了一个包含14亿参数的模型,使用了高达1万亿个训练样本——这是首个在如此大规模下验证无异常值训练方法的研究。实验结果令人振奋:使用OSP框架训练的模型在经过激进的4位量化后,在10个标准测试任务上的平均得分达到35.7分,而使用传统Adam优化器训练的同等规模模型仅能达到26.5分。

更令人印象深刻的是,这种改进并非以牺牲训练效率为代价。OSP框架的训练时间仅比传统方法增加2%,同时内存使用量还减少了33%。这就像找到了一种既能让食物更营养又能降低烹饪成本的神奇食谱。

研究团队还深入分析了异常值产生的根本原因。他们发现,之前许多研究将异常值归咎于"注意力汇聚"现象——即模型在处理序列时会过度关注某些特定位置的词汇。但通过对无异常值模型的分析,研究团队发现注意力汇聚现象依然存在,但并不会产生异常值。这说明注意力汇聚本身不是问题的根源,真正的问题在于训练过程中某些神经元获得了过度的"特权地位"。

在无异常值的模型中,注意力机制采用了一种更加"民主"的工作方式。传统模型为了实现"忽略某些信息"的效果,会将相关的注意力权重推向极端的负值,这个过程就像用力过猛的刹车,虽然能停下车但会产生强烈的震动。而OSP训练的模型则学会了更加温和的方式来实现同样的效果,就像一个熟练的司机能够平稳地减速停车。

从技术角度来看,这项研究的意义远不止于提高量化性能。它展示了一种全新的思路:与其在模型训练完成后费力地"修补"问题,不如从源头上预防问题的产生。这种预防性的方法不仅更加有效,而且与现有的后处理量化技术完全兼容,可以实现1+1>2的效果。

研究团队的工作还揭示了一个重要的认知转变:异常值并非大语言模型的固有特性,而是训练策略的副产品。这个发现就像发现某种被认为是遗传疾病的症状其实是由环境因素造成的一样,为整个领域开辟了新的研究方向。

在实际应用层面,这项技术的价值不言而喻。随着大语言模型越来越多地部署在移动设备、边缘计算设备和嵌入式系统中,模型的压缩和优化变得至关重要。OSP框架为这些部署场景提供了一条更加可靠的技术路径,让强大的AI能力真正走进千家万户。

值得注意的是,这项研究还公开了完整的源代码和预训练模型,为学术界和工业界的进一步研究提供了宝贵的资源。这种开放的态度体现了研究团队对推动整个领域发展的责任感,也为其他研究者验证和改进这一方法提供了便利。

从更广阔的视角来看,这项工作代表了AI优化领域的一个重要里程碑。它不仅解决了一个具体的技术问题,更重要的是展示了一种系统性思考和解决复杂技术挑战的方法论。通过从训练的最初阶段就考虑最终部署的需求,研究团队实现了一种真正意义上的端到端优化。

研究团队的下一步计划包括将这种方法扩展到更大规模的模型,特别是30亿和70亿参数级别的模型,这些规模通常是移动部署的主要目标。同时,他们也在探索如何将OSP框架与其他模型压缩技术结合,以实现更加极致的优化效果。

说到底,这项研究的核心价值在于它改变了我们对AI模型优化的根本认知。它告诉我们,真正的优化不是在出现问题后亡羊补牢,而是在问题萌芽阶段就将其扼杀在摇篮中。这种思维方式的转变,或许会在未来几年中催生更多创新性的解决方案,让AI技术变得更加高效、可靠和普惠。对于普通用户而言,这意味着未来我们将能够在自己的手机和电脑上运行更加强大的AI助手,而不必担心性能折损或电池快速耗尽的问题。

Q&A

Q1:什么是量化?为什么需要对AI模型进行量化? A:量化就像把高清视频压缩成标清版本,目的是让AI模型变得更小、更省电,能在手机等设备上运行。但传统量化会导致模型性能大幅下降,就像压缩视频会变模糊一样。

Q2:OSP框架和传统训练方法有什么不同? A:传统方法是先训练好模型再压缩,就像先做好精细手工再要求用粗糙工具重做。OSP框架从一开始就用特殊方法训练,让模型天生适应压缩环境,就像从小训练适应各种恶劣条件的运动员。

Q3:这项技术对普通用户有什么实际意义? A:这意味着未来手机上的AI助手会更强大但不会更耗电,你可以在自己的设备上运行接近云端级别的AI功能,而且响应更快、隐私更安全,不需要总是联网使用AI服务。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-