微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

人工智能训练新突破：Anthropic团队破解大模型微调内存瓶颈难题

人工智能模型优化内存管理

人工智能训练新突破：Anthropic团队破解大模型微调内存瓶颈难题

作者：科技行者

2026-04-01 10:05

分享至：

Anthropic团队针对大型AI模型微调中的内存瓶颈问题，开发了创新的因式分解规范化和融合内核技术。该方法将DoRA技术的内存需求理论上减少15倍，在实际测试中实现1.5-2倍的速度提升和高达7GB的显存节省，同时保持与原方法完全一致的计算精度，为在有限硬件资源下训练更大规模AI模型提供了重要突破。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-01 10:05 • 科技行者

这项由Anthropic公司Alexandra Zelenin团队主导的研究发表于2026年3月的机器学习顶级期刊arXiv，论文编号为arXiv:2603.22276v1，为解决大型AI模型训练中的内存消耗问题提供了创新性解决方案。

在人工智能快速发展的今天，训练大型AI模型就像在厨房里烹饪一道复杂大餐。厨师需要同时处理众多食材，而厨房空间和工具又极其有限。同样地，AI研究人员在训练那些拥有数百亿参数的超大模型时，也面临着计算资源极度稀缺的挑战。

目前最流行的模型微调技术叫做DoRA（权重分解低秩适应），这种方法就像是给原有的复杂菜谱添加新的调料和步骤。虽然这种方法能够显著提升模型性能，但它有一个致命缺陷：需要消耗大量的临时存储空间。具体来说，当研究人员想要微调一个8192维度、rank为384的模型模块时，仅仅计算一个模块的规范化就需要占用约512MB的临时内存。而一个完整的大模型可能包含数百个这样的模块，累积的内存需求很快就会超出现有GPU的承载能力。

这就好比一位厨师在准备宴席时，每道菜都需要占用大量的备菜台空间，而厨房的操作台面积却是固定的。当菜品数量增加时，厨房很快就会被堆满，无法继续工作。对于AI研究人员来说，这种内存瓶颈严重限制了他们使用高rank配置进行模型微调的能力，而高rank配置恰恰是获得最佳性能的关键。

Anthropic团队的这项研究为这一难题提供了两个关键的解决方案。他们的方法就像是重新设计了厨房的工作流程，既能保持菜品质量，又能大幅减少对操作空间的需求。

第一个创新是"因式分解规范化"技术。研究团队发现，原本需要大量临时存储的计算过程实际上可以拆解成三个更小的部分：基础项、交叉项和格拉姆项。这就像是将一道复杂的菜分解成几个简单步骤，每个步骤只需要少量工具和空间，但最终效果完全一致。通过这种分解，他们将内存需求从原来的O(输出维度×输入维度)降低到O(输出维度×rank + rank?)。在实际应用中，当维度为8192、rank为512时，理论上的持久内存减少了15倍。

第二个创新是"融合Triton内核"技术。如果说第一个创新解决了存储问题，那么第二个创新就是提升了处理速度。原本的DoRA组合过程需要启动四个独立的GPU计算内核，就像需要四个厨师分别处理不同的工序。新方法将这四个步骤合并成一个内核，相当于一个技艺精湛的厨师一次性完成所有操作，不仅减少了协调成本，还大幅提升了效率。

研究团队在六个不同的GPU上测试了他们的方法，涵盖了从L40S到最新B300的多个架构。测试结果令人印象深刻：在六个8到32B参数规模的视觉语言模型上，融合实现方案在推理速度上比原有的HF PEFT DoRA实现快1.5到2.0倍，在梯度计算上快1.5到1.9倍，同时还能节省高达7GB的显存。

更重要的是，研究团队严格验证了新方法的数学正确性。他们通过多种测试确保新方法与原方法在计算结果上保持高度一致，最终输出的余弦相似度超过0.9999。他们还进行了多次独立的训练实验，证明使用新方法训练的模型与使用原方法训练的模型在性能上没有显著差异，平均每步损失差异仅为7.1×10??。

这项技术创新的实际意义远超学术范畴。在实际部署中，研究团队发现他们的方法特别适合那些同时进行训练和推理的复杂AI系统。比如在一个使用4个B200 GPU（每个192GB）的大规模视觉语言模型系统中，当推理服务需要预留大量显存用于KV缓存时，训练过程的显存余量就变得极其紧张。每个模块在梯度重计算过程中都会重新分配临时显存，这些瞬时分配会导致缓存分配器的碎片化。他们的因式分解方法完全消除了这些临时分配，显著改善了系统的稳定性。

研究团队还设计了一个智能的三层调度系统，能够根据具体情况自动选择最优的执行路径。在训练场景下，系统优先使用融合后向内核，这样既能获得最大加速，还能节省显存。在推理场景下，系统使用仅前向的融合内核，避免了不必要的内存开销。对于CPU或者过小的计算任务，系统会自动回退到传统的PyTorch实现，确保广泛的兼容性。

这种智能调度就像一个经验丰富的项目经理，能够根据当前的资源状况和任务需求，自动选择最合适的工作方式。当资源充足时选择高效模式，当资源紧张时选择节约模式，始终确保任务能够顺利完成。

从技术架构角度来看，研究团队的解决方案展现了深度的工程智慧。他们不仅解决了计算问题，还考虑了数值稳定性。在接近单位比例缩放的区域（当缩放因子接近1时），朴素的计算方法会遭遇灾难性抵消问题，导致精度损失。研究团队采用了稳定的数学形式(g-1)⊙base + g⊙s⊙lora，将小的修正项(g-1)明确保留，避免了这种数值问题。

他们在一个Qwen2-VL-7B适配器上的测量显示，100%的缩放值都落在bf16崩溃区域内，20%落在fp16区域内。如果使用朴素方法在bf16精度下计算，基础修正项将对每个元素都消失；在fp16精度下，五分之一的情况会出现这种问题。通过采用稳定形式并使用fp32中间计算，他们将接近g≈1时的峰值误差降低了3倍。

研究团队对内存优化效果进行了详细分析。理论上的减少幅度比实测结果更大，这是因为实测结果包含了与rank无关的基础规范化瞬时开销。在默认预算和维度为8192的情况下，分块的基础规范化累积创建了一个接近256MB的fp32缓冲区，这占据了实测241MB差值的大部分。这个成本与rank无关：在rank为16和rank为768时完全相同。理论减少量只计算与rank相关的张量（U和G），正确预测了随着rank增长的渐近收益。

由于基础权重W是固定的，基础规范化项实际上可以预先计算并存储在一个很小的缓冲区中（在输出维度为4096时仅需16KB），这样就能完全消除这个瞬时开销。研究团队将这种缓存优化留给了未来的工作。

在兼容性方面，这项技术已经与主流的分布式训练框架实现了良好整合。它支持DeepSpeed ZeRO-2/3和FSDP1，可以与torch.compile无缝协作，在dropout为0时实现无图中断。研究团队通过torch.library将融合组合注册为自定义操作，使得整个调度图在符合条件时能够保持无中断状态。

值得注意的是，这项技术的优化效果在不同GPU架构上表现出了良好的一致性。从GDDR6（0.86 TB/s）到HBM3e（7.7 TB/s）的全带宽范围内，性能提升都保持稳定，这证明了性能增益来源于减少的内存访问而非特定架构的优化效果。在带宽利用率方面，融合内核在所有架构上都达到了约50%的峰值带宽利用率，而原始方法仅达到约20%。

研究团队还进行了广泛的收敛等价性验证。他们使用Qwen3.5-9B-Base模型，在DoRA rank为384、使用rsLoRA、bf16精度、AdamW优化器、ZeRO-2、梯度检查点、批大小为3、梯度累积为2、序列长度为5120的设置下，在单个RTX 6000 PRO上运行了2000步训练。通过三个不同种子的对比实验，他们发现最坏情况下的单步差异（1.1×10??）是一个早期训练的瞬时分歧，并不会传播：到第1000步时，所有差异都降低到3.3×10??以下。梯度规范的跟踪完全一致，证实了dmag减少顺序差异不会在2000步内累积。

这项研究的实际价值不仅体现在技术指标的改善上，更重要的是它为AI研究社区打开了新的可能性。通过显著降低内存需求，研究人员现在可以在相同的硬件条件下使用更高的rank配置，或者在相同的rank下处理更大规模的模型。这种能力的提升将直接推动整个领域向更强大、更精确的AI模型发展。

从长远来看，这类系统级优化技术的重要性可能会超过许多算法层面的创新。随着AI模型规模的不断扩大，如何在有限的计算资源下高效地训练和部署模型将成为决定技术发展速度的关键因素。Anthropic团队的这项工作为这一挑战提供了一个优雅而实用的解答，其影响力将在未来的AI发展进程中持续显现。

Q&A

Q1：DoRA技术是什么，为什么需要这么多内存？

A：DoRA是一种AI模型微调技术，它需要计算复杂的权重规范化。原本的实现方式需要创建大量临时数据来完成计算，就像做菜时需要很多备菜盘子一样，每个模块都要占用约512MB内存，而大模型有数百个模块，很快就会耗尽GPU内存。

Q2：Anthropic的新方法具体是如何节省内存的？

A：他们开发了两个核心技术：因式分解规范化和融合内核。第一个技术将复杂计算拆分成三个小部分，避免创建大型临时数据；第二个技术将四个分离的计算步骤合并成一个，减少了内存访问次数。理论上可以减少15倍的内存使用。

Q3：这个优化对普通AI开发者有什么实际意义？

A：最直接的好处是可以在相同的GPU上训练更大的模型或使用更高的rank配置，训练速度提升1.5-2倍，还能节省高达7GB显存。这意味着原本需要昂贵高端GPU才能完成的训练任务，现在用相对便宜的设备也能实现。

人工智能模型优化内存管理

分享至