微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

电脑AI能跑得更快吗？ISTA团队发现微缩浮点数格式的隐秘陷阱与突破之道

人工智能浮点数量化GPU加速

电脑AI能跑得更快吗？ISTA团队发现微缩浮点数格式的隐秘陷阱与突破之道

作者：科技行者

2025-10-31 13:15

分享至：

奥地利科学技术研究院团队深入研究微缩浮点数格式NVFP4和MXFP4的实际性能，发现现有量化方法效果不佳。他们开发了微旋转GPTQ算法和QuTLASS计算库，在保持模型精度的同时实现显著加速：B200芯片上达到2.2倍端到端提升，RTX5090上实现4倍加速，为AI推理优化提供了新的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-31 13:15 • 科技行者

这项由奥地利科学技术研究院（ISTA）的Roberto L. Castro、Vage Egiazarian等研究团队与Red Hat AI合作完成的研究发表于2025年9月，论文编号arXiv:2509.23202v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈论让人工智能模型跑得更快时，就像在讨论如何让一辆载重卡车在保持载重能力的同时提升速度一样。这个看似简单的需求却隐藏着复杂的技术挑战。最近，英伟达和AMD等芯片巨头推出了一种叫做"微缩浮点数格式"的新技术，号称能让大型语言模型的推理速度提升数倍，同时保持模型精度。然而，实际情况真的如宣传的那样美好吗？

研究团队深入研究了两种主要的微缩浮点数格式：英伟达的NVFP4和开放计算项目的MXFP4。这两种格式都采用4位数据存储，相比传统的16位浮点数能大幅减少存储需求。就像用更小的包装盒运输同样多的货物，理论上能提升运输效率。不过，当研究团队实际测试这些格式时，发现了一个令人意外的现象：尽管硬件支持已经到位，但现有的量化算法在这些新格式上的表现却差强人意。

为了解决这个问题，研究团队开发了一种名为"微旋转GPTQ"（MR-GPTQ）的新算法，并配套开发了专门的GPU计算核心QuTLASS。这套解决方案不仅在理论上有所突破，在实际测试中也取得了显著成效：在英伟达B200芯片上实现了最高3.6倍的单层加速和2.2倍的端到端加速，在RTX5090上更是达到了6倍单层和4倍端到端的加速比。

一、量化就像压缩行李箱的艺术

要理解微缩浮点数格式的重要性，我们可以把大型语言模型想象成一个装满精密仪器的巨大行李箱。每个参数就像行李箱里的一件物品，需要占用一定的存储空间。传统的FP16格式就像给每件物品都用厚厚的泡沫包装，虽然保护得很好，但占用空间巨大。而4位量化就像学会了巧妙的打包技巧，用四分之一的空间装下同样的东西。

然而，压缩并不是简单的缩小包装那么容易。就像压缩衣物时需要考虑哪些衣服容易起皱，哪些可以叠得更紧一样，数据压缩也需要精心设计。研究团队发现，现有的量化方法在面对这两种新格式时遇到了前所未有的挑战。

NVFP4格式采用16个元素为一组的分组策略，每组共享一个缩放因子。这就像把行李按类别分组，每组使用相同的压缩比例。这种设计的优势在于能够更好地处理数据中的异常值，就像给易碎物品单独分组一样。相比之下，MXFP4使用32个元素为一组，并且将缩放因子限制为2的幂次，这样做虽然简化了硬件计算，但可能在精度上有所牺牲。

研究团队通过大量实验发现，这两种格式各有优劣。NVFP4在精度保持方面表现更佳，平均能恢复原始模型95%以上的性能。而MXFP4虽然在存储效率上略胜一筹（平均每个元素占用4.25位，而NVFP4需要4.5位），但在精度方面的表现相对较差，尤其是在没有专门优化的情况下。

二、数学建模揭示格式差异的根本原因

为了深入理解这两种格式的性能差异，研究团队建立了详细的数学模型。他们发现，神经网络中的权重和激活值在经过特定变换后会呈现不同的分布特征。原始数据通常遵循类似拉普拉斯分布的重尾分布，这意味着数据中存在少量极大或极小的异常值。而经过哈达玛变换等旋转操作后，数据分布会变得更接近正态分布。

这个发现非常关键，因为不同的分布特征适合不同的量化策略。就像不同材质的衣物需要不同的折叠方法一样，不同分布的数据需要相应的处理方式。研究团队证明，对于拉普拉斯分布的数据，直接量化通常能取得较好效果，而对于正态分布的数据，则需要更精细的处理策略。

通过理论分析，研究团队发现NVFP4的小分组设计在处理异常值方面具有天然优势，因为异常值被限制在较小的组内，不会影响其他数据的量化精度。而MXFP4的大分组设计虽然在计算效率上有优势，但可能导致异常值影响整组数据的量化质量。

更有趣的是，研究团队发现旋转变换对这两种格式的影响截然相反。对于MXFP4，哈达玛旋转能显著改善量化精度，而对于NVFP4，同样的旋转操作可能会带来负面影响。这种现象可以用一个生动的比喻来理解：如果把数据量化比作整理一个混乱的房间，那么对于大房间（MXFP4），先重新布局家具（旋转）再整理效果更好；而对于小房间（NVFP4），直接整理可能更有效率。

三、微旋转GPTQ算法的创新突破

基于理论分析的洞察，研究团队开发了微旋转GPTQ算法。这个算法的核心思想是根据不同格式的特点采用相应的优化策略，就像为不同类型的车辆设计专门的维修方案一样。

算法的第一个创新点是自适应的网格优化。传统的量化方法使用固定的量化网格，就像用统一尺寸的盒子装不同大小的物品。而MR-GPTQ会根据数据的实际分布动态调整量化网格，确保每个数据都能找到最合适的"位置"。对于NVFP4，算法会优化全局和分组两级的缩放因子；对于MXFP4，算法则采用静态值策略，避免过度优化带来的不稳定性。

第二个创新是静态激活重排序技术。原始的GPTQ算法使用动态重排序，虽然能提升精度，但会在实际运行时带来10-20%的性能损失。MR-GPTQ采用静态重排序策略，在量化阶段完成重排序操作，运行时无需额外计算，既保持了精度提升又避免了性能损失。这就像提前规划好最优路线，避免在行驶过程中临时改道。

第三个关键创新是融合在线旋转技术。传统方法需要分别进行旋转和量化操作，而MR-GPTQ将这两步合并为一个融合操作。这种设计的巧妙之处在于，权重的旋转在离线阶段预先完成并融合到权重中，而激活值的旋转通过轻量级内核实时计算，整个过程几乎没有额外开销。

算法在具体实现上针对两种格式采用了差异化策略。对于NVFP4，算法重点优化缩放因子的精度，采用16×16的小块旋转；对于MXFP4，算法更注重通过较大的旋转块（如128×128）来改善数据分布，弥补格式本身的精度损失。

四、QuTLASS：专为新格式设计的计算引擎

仅有优秀的算法还不够，还需要高效的硬件实现才能发挥真正的性能优势。研究团队开发了名为QuTLASS的GPU计算库，专门为微缩浮点数格式优化。这就像为新型燃油设计专门的发动机一样，确保硬件能够充分利用新格式的优势。

QuTLASS的设计考虑了英伟达Blackwell架构的特殊要求。该架构对4位浮点数运算有硬件加速支持，但需要特定的数据布局和缩放因子排列。QuTLASS通过定制的内核完成这些预处理工作，并将量化、缩放计算和旋转操作融合到单一内核中，大幅减少了内存访问和计算开销。

特别值得一提的是，QuTLASS针对不同的旋转块大小进行了优化。研究发现，对于小于256的块大小，密集变换操作主要受内存带宽限制，这意味着任何旋转变换（不仅仅是哈达玛变换）都可以以几乎相同的成本完成。基于这个发现，QuTLASS设计了模板化的内核架构，支持16、32、64、128等多种块大小，用户可以根据具体需求选择最优配置。

在实际性能测试中，QuTLASS展现出了令人印象深刻的效果。在英伟达B200芯片上，MXFP4格式竟然能够达到比NVFP4更高的吞吐量，最高提升15%。这主要得益于MXFP4使用的2的幂次缩放因子和较大的分组尺寸，减少了硬件处理的复杂度。

五、实验验证：从理论到实践的完整验证

研究团队进行了全面的实验验证，涵盖了从理论模拟到实际硬件部署的各个环节。他们选择了Llama-3和Qwen-3系列模型作为测试对象，这些模型在规模和架构上具有代表性，能够充分验证算法的普适性。

在准确性测试中，研究团队使用了包括数学推理、常识理解、阅读理解等多个维度的评估任务。结果显示，对于较大的模型（如70B参数的模型），两种格式都能恢复原始模型98-99%的性能。这个结果令人鼓舞，表明微缩浮点数格式确实能够在大幅减少存储需求的同时保持模型的核心能力。

然而，对于较小的模型，格式之间的差异更加明显。NVFP4在各种规模的模型上都表现出更好的稳定性，而MXFP4在小模型上的性能损失相对较大。这种现象可以用"规模效应"来解释：大模型拥有更多的冗余参数，能够更好地容忍量化误差；而小模型的每个参数都更加关键，对精度损失更加敏感。

在性能测试方面，研究团队不仅测试了理论峰值性能，还进行了端到端的实际应用测试。结果显示，虽然理论上4位量化应该带来4倍的性能提升，但实际加速比通常在2-3倍之间。这是因为现实中的计算不仅包括矩阵乘法，还涉及内存访问、数据重排、激活函数计算等多个环节，每个环节都可能成为性能瓶颈。

特别有趣的是，研究团队发现MXFP4在某些硬件配置上反而能够达到比NVFP4更高的实际性能。这再次证明了硬件设计与算法优化之间的微妙平衡关系。

六、深入分析：为什么有些方法不再有效

研究过程中的一个重要发现是，许多在传统量化格式上表现优异的方法在微缩浮点数格式上却失效了。这种现象背后隐藏着深刻的技术原理。

以异常值处理为例，传统的方法通常依赖大分组尺寸来稀释异常值的影响。然而，微缩浮点数格式的小分组设计使得这种策略失效。就像在小容器中无法稀释高浓度溶液一样，小分组内的异常值无处"藏身"，必须采用更直接的处理方式。

另一个失效的技术是基于均匀量化网格的方法。传统的整数量化使用等间距的量化点，而浮点数量化的网格本身就是非均匀的。这种差异使得原本为整数量化设计的优化技术无法直接应用。

研究团队还发现，旋转变换对不同格式的影响机制完全不同。对于大分组格式（如MXFP4），旋转能够改善数据分布的均匀性，减少量化误差；而对于小分组格式（如NVFP4），旋转可能会增加分组内数据的复杂性，反而降低量化效果。这种"双刃剑"效应要求我们重新审视传统的优化策略。

七、实际应用场景与未来展望

微缩浮点数格式的成功应用将对人工智能的发展产生深远影响。在数据中心场景中，这种技术能够显著降低推理成本，使得大规模AI服务变得更加经济可行。对于边缘计算设备，4位量化能够让更强大的模型在资源受限的环境中运行，推动AI技术的普及应用。

研究团队的工作也揭示了一个重要趋势：硬件和软件的协同设计变得越来越重要。随着专用AI芯片的发展，量化算法需要更加紧密地结合硬件特性，而不是简单地追求通用性。这种趋势要求研究人员在算法设计时就要考虑硬件实现的约束和优化机会。

当然，这项研究也存在一些局限性。目前的工作主要集中在推理阶段的优化，训练阶段的4位浮点数应用仍然面临挑战。此外，对于某些特殊类型的神经网络（如卷积神经网络或循环神经网络），微缩浮点数格式的效果还需要进一步验证。

展望未来，研究团队认为微缩浮点数格式将逐步成为AI推理的标准配置。随着硬件支持的完善和算法的持续优化，我们有理由期待更高的压缩比和更好的性能表现。同时，这种技术也可能催生新的AI应用模式，让更多人能够享受到先进AI技术带来的便利。

说到底，这项研究告诉我们一个朴素的道理：技术进步从来不是一蹴而就的，每一个看似简单的改进背后都蕴含着复杂的技术挑战。微缩浮点数格式的故事还在继续，而研究团队的工作为这个故事贡献了重要的一章。他们不仅解决了当前的技术难题，更为未来的发展指明了方向。对于普通用户而言，这意味着我们将能够享受到更快、更便宜、更智能的AI服务，而这一切的背后，是无数研究者在技术细节上的精益求精。

Q&A

Q1：什么是微缩浮点数格式？它和普通的数据格式有什么区别？

A：微缩浮点数格式是一种新的4位数据存储方式，主要有NVFP4和MXFP4两种。与传统的16位浮点数相比，它们能将存储需求减少到四分之一，就像用更小的包装盒装同样的货物。这两种格式都采用分组策略，多个数据共享一个缩放因子，但NVFP4使用16个元素一组，MXFP4使用32个元素一组，各有优劣。

Q2：为什么现有的量化方法在微缩浮点数格式上效果不好？

A：主要原因是微缩浮点数格式的工作机制与传统整数量化完全不同。传统方法依赖大分组来稀释异常值影响，但微缩浮点数的小分组设计使这种策略失效。另外，浮点数的非均匀量化网格也与整数量化的等间距设计不兼容。就像用管理大仓库的方法来整理小储物柜，效果当然不会理想。

Q3：微旋转GPTQ算法如何解决这些问题？普通用户能感受到什么变化？

A：微旋转GPTQ算法针对不同格式采用专门的优化策略，包括自适应网格优化、静态重排序和融合旋转技术。对普通用户来说，最直观的变化就是AI应用响应更快了。在英伟达B200芯片上能实现2.2倍的加速，在RTX5090上甚至达到4倍加速，同时保持几乎相同的AI回答质量。这意味着聊天机器人回复更快，图像生成等待时间更短。

人工智能浮点数量化GPU加速

分享至