
这项由KAIKAKU研究机构完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.30571v1,归档于计算机架构(cs.AR)领域。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。
花了十倍的钱买了一块顶级显卡,结果运行速度只快了两三倍——这听起来像是一个令人沮丧的购物故事,但对于正在快速发展的"物理AI"行业来说,这恰恰是真实发生的事情。机器人、自动驾驶汽车、随身AI助手,这些设备在工作时都需要不断地"思考"并给出下一个输出,而这个思考过程背后的计算代价,远比人们想象的更复杂。
这篇研究的核心发现可以用一句话来概括:买更贵的显卡不一定让AI跑得更快,因为瓶颈根本不在你以为的地方。研究团队用严谨的实验拆解了这个问题,把长期以来被工程师们默认为常识的结论推翻了一部分,同时也给出了真正有效的优化方向。
一、为什么机器人和自动驾驶需要特别的AI计算方式
绝大多数关于AI计算效率的研究,针对的都是"云端大规模服务"这种场景——比如一个服务器同时处理一千个用户的问题,拼命提高每秒能处理多少请求。但物理AI设备的工作方式完全不同。
以一台送餐机器人为例。它在走廊里导航时,需要持续不断地生成下一步的动作指令。这个过程是单线程的:没有其他机器人在旁边等待共享计算资源,就是这一台机器人,等着AI给出下一个动作,然后执行,然后再等下一个。这种模式在技术上叫"批次大小为1的自回归解码",通俗地说就是"一次只服务一个用户的逐字生成"。
研究团队关注的正是这种场景——7到8亿参数规模的大语言模型(一种常见的中等规模AI模型),在四种不同的英伟达显卡上,以这种单流单任务的方式运行时,各自表现如何。他们测试了H100 SXM5(顶级数据中心卡)、A100-80GB(主流数据中心卡)、L40S(工作站级别)和L4(边缘计算级别)这四张卡,测量了不同对话上下文长度(从2048到16384个词)下每生成一个词所需的时间,共得到44组有效数据。
这四张卡之间的峰值内存带宽相差悬殊:最慢的L4只有300 GB/s,而最快的H100达到3350 GB/s,足足相差超过11倍。按照工程界长期以来的主流判断,这种差距应该基本直接对应到速度差距——毕竟,生成每个词都需要把模型权重从显卡内存里读一遍,内存读得越快,生成越快。然而实验结果令人意外。
二、一个被低估的"内存带宽利用率"指标
研究团队设计了一个叫做"观测值与理论下限之比"的指标,用英文缩写写作R_floor。这个指标的含义非常直观:假设显卡把全部内存带宽都用来读模型数据,最快能在多少时间内完成一步生成?这个理论上的最短时间就是"地板值"。然后把实际观测到的生成时间和这个地板值做比较,得到的比值就是R_floor。
如果R_floor等于1,说明显卡已经跑满了内存带宽,达到理论极限;如果R_floor远小于1,比如0.3,意味着实际耗时是理论最短时间的三倍多,大量时间被浪费在了其他地方。
实验结果非常清晰:L4的R_floor大约在0.7到0.8之间,意味着它实际用到了自身内存带宽的约70%到80%,表现相当接近理论极限。而H100的R_floor只有大约0.2到0.3,也就是说H100只用到了自身峰值带宽的约27%。
换一种方式来理解:L4这匹"慢马"几乎被骑到了极限,而H100这匹"快马"只发挥出不到三成的潜力。多出来的七成时间被什么吃掉了?这正是这篇研究要回答的核心问题。
三、真正的瓶颈:每个计算步骤启动时的"排队等候"
在显卡上运行AI模型时,整个计算过程被分解成数百个小的计算步骤,每一步都是一个独立的"计算核"(kernel)。每次启动一个计算核之前,运行在CPU上的程序需要先发一道指令过去,告诉GPU"准备好了,开始算"。这个发指令的过程需要大约30微秒(百万分之三十秒)。
听起来很短,但对于H100来说,这30微秒是个大问题。H100的内存速度极快,实际计算一个步骤可能只需要10微秒,但在这10微秒的实际工作之前,需要先等待30微秒的启动命令。对于整个生成过程来说,一个词的生成涉及Qwen-2.5-7B模型(研究中使用的一个具体模型)的28层网络,每层大约10个计算步骤,加上少量全局步骤,总计约283个计算步骤。每个步骤都要等待那30微秒的启动时间,累加起来就是大约8.4毫秒,而实际的内存读取计算只需要约3.8毫秒。换句话说,H100每生成一个词,有超过一半的时间是在等待CPU发出启动指令,而不是在真正做计算。
L4的情况则截然相反。同样的30微秒启动等待时间,对L4来说简直微不足道——因为L4的内存较慢,实际计算每个步骤需要约200微秒。这就好比一家餐厅的厨师很慢,顾客在服务台等待下单的那点时间根本不是问题,反正都要等厨师慢慢做菜。而H100就像一位闪电般快速的厨师,但每道菜上桌之前都要在服务台等半天才能下单,厨师的速度优势就这样被浪费掉了。
这个解释被称为"启动开销假说",而研究团队用一个专门设计的实验来验证它。
四、CUDA图技术:一次性下全部订单,省掉反复排队
英伟达开发了一种叫做"CUDA图"(CUDA Graphs)的技术,它的原理很简单:与其每个计算步骤都单独发一次启动指令,不如提前把整个生成流程的所有步骤打包成一张"执行计划图",一次性告诉GPU"按照这张图执行",后续每次生成只需要"回放"这张图即可,彻底省去了逐步发令的开销。
这就像餐厅里的熟客,每次来都点同样的菜。第一次来的时候需要翻菜单、对话下单;但如果建立了"老客套餐",以后直接说"照旧"就行,服务时间大大缩短。CUDA图做的就是把"照旧"这件事自动化。
研究团队用这个技术做了一个对照实验:在完全相同的条件下,先测量不用CUDA图时每个词的生成时间,再测量用了CUDA图之后的时间,对比提速幅度。关键的预设判断是:如果H100真的是被启动开销卡住的,那CUDA图应该显著提速;如果L4真的是被内存带宽卡住的,那CUDA图几乎不应该有什么帮助。
实验结果完美地验证了这个判断。研究团队在H100上用同一个设置跑了10次独立测试(每次都是全新启动的容器环境),结果极为稳定:不用CUDA图时平均每步14.83毫秒,用了CUDA图后降到11.78毫秒,提速1.259倍,10次测试的变化幅度极小,95%置信区间为1.253到1.267。
而在L4上做同样的对照实验,结果几乎毫无变化:不用CUDA图时64.48毫秒,用了之后62.50毫秒,提速仅1.028倍,三次独立测试的结果稳定到小数点后四位。
值得说明的是,研究团队事先设定了"证伪门槛":如果H100的提速不到1.15倍,或者L4的提速超过1.15倍,就认为启动开销假说被推翻。两个条件都没有触发,假说得到了有力支持。此外,CUDA图从H100每步中移除的那3.05毫秒,并不完全是"每个计算步骤等待30微秒"的简单加总——它还包括Python和C++框架的调度开销、内存分配锁定等多种CPU侧的隐性耗时,本质上是整个启动链路的综合节省。
五、注意力计算内核:换个引擎,不一定跑得更快
AI模型在处理上下文信息时有一个核心计算模块叫做"注意力机制"——简单来说,它负责让模型在回答问题时"看"一遍之前所有的对话记录,决定哪些信息更重要。工程界开发了多种不同的方法来高效地做这个计算,比如FlashAttention-2、FlashAttention-3、FlashInfer等,都号称能让注意力计算更快。
研究团队在H100上做了一个细致的对照实验,把这些不同的注意力计算方式在"单个词生成"这个场景下逐一测试,结果出人意料。PyTorch框架默认的注意力计算方式(叫做scaled dot-product attention,简称SDPA)每层耗时36微秒;而专门为高效解码设计的FlashAttention-2耗时44微秒,反而更慢;FlashInfer需要48微秒;FlashAttention-3需要79微秒;数学回退方案需要177微秒;还有一种叫cuDNN的后端甚至完全不支持这个计算形状。
也就是说,在H100单词生成这个具体场景下,换成任何"更先进"的注意力计算方式,不但不能加速,反而会拖慢整体速度。原因在于这些优化方案大多是为处理大量词语的"预填充"阶段设计的,而不是为每次只生成一个词的"解码"阶段优化。在解码阶段,注意力计算本身的工作量非常小(Qwen-2.5-7B在2048词上下文时,注意力的内存读取约118MB,相比模型权重的15GB几乎可以忽略),那些复杂的注意力内核反而带来了更多的启动开销和选择逻辑开销。
这个发现进一步印证了主要结论:在H100的单词生成场景下,启动开销才是瓶颈,注意力计算内核的选择远不是决定性因素。
六、量化压缩:省内存的承诺能否兑现,取决于谁来执行
明确了L4的瓶颈是内存带宽之后,研究团队转向了一个自然的优化方向:量化压缩。简单来说,模型权重默认用16位浮点数(bf16)存储,如果改用4位整数(int4)存储,理论上能把内存占用压缩到原来的约四分之一,内存读取速度也应该快大约四倍。
研究团队在L4上用Qwen-2.5-7B测试了三种不同的量化方案。首先是bitsandbytes的nf4方案,这是一种广泛使用的4位量化工具,结果每步生成耗时59.36毫秒,几乎和原始的bf16(62.32毫秒)没什么区别,提速只有约1.05倍。原因在于这个工具的实现方式:它并没有真正用4位格式做矩阵乘法,而是先把4位数据现场解压回16位,再用16位做计算——等于说数据读进内存时还是4位,节省了读取时间,但解压和计算又把时间还回去了。
AutoAWQ加上Marlin内核的组合表现好一些,耗时45.24毫秒,提速约1.38倍。这种方案确实在4位格式下直接做矩阵乘法,但问题在于Marlin内核是为英伟达Ampere架构(SM80,即A100那一代)优化的,而L4使用的是Ada Lovelace架构(SM89),两者的硬件指令集有差异,Marlin在L4上无法发挥出最佳效率。
真正的突破来自第三个方案:ExLlamaV2,一个专门为Ada架构的4位整数矩阵计算优化的运行时。它把每步生成时间压缩到了17.36毫秒,相比bf16的62.32毫秒,提速达3.59倍,三次独立测试的结果精确到小数点后三位(17.361、17.368、17.360毫秒),极其稳定。此时R_floor也从bf16的0.82提升到了0.754,说明ExLlamaV2确实把4位量化的带宽节省落实到了实际速度提升上。
这个结果揭示了一个重要的工程现实:量化压缩的理论收益能否变成实际速度提升,关键不在于用了几位的量化,而在于具体的内核实现是否针对运行的硬件做了优化。同样是4位量化,三种实现方案的实际速度相差高达3.4倍。对于部署在L4这类Ada架构设备上的团队来说,工具选择的重要性远超显卡升级。
七、把这一切放在一起:被颠倒的成本效益排名
把上述所有发现综合起来,就得到了这篇研究最具实用价值的结论:常规意义上的"硬件升级路径",在单流单任务的AI推理场景下,并不是成本效益的最优路径。
以Modal云平台2026年5月的公开定价为参考,H100每小时3.50美元,L4每小时0.30美元,相差约11.7倍。从性能上看,L4用ExLlamaV2的最佳配置可以做到17.36毫秒每步,H100用CUDA图的最佳配置可以做到11.78毫秒每步,H100只比L4快约1.47倍。但H100的价格是L4的约11.7倍。换算成每百万个词的服务成本,L4约需1.44美元,而H100约需11.45美元,相差约8倍。
这意味着,对于机器人、车载语言助手、边缘设备这类只需要单流推理的应用场景,用8台L4(配合合适的量化方案)所能提供的算力,远远超过1台H100,而成本几乎相同。
研究中还包含了一个细节:H100在批次大小为4(同时服务4个对话)时,CUDA图的提速效果从1.259倍下降到了1.110倍,随着上下文长度增加进一步下降到1.036倍。这是因为批次越大,每步计算的实际工作量越多,相对而言启动开销的占比就越小。而L4在批次4时直接因为内存不足而无法运行(模型权重加上4个会话的缓存超过了24GB显存上限)。这也说明,文中的颠倒成本排名只在批次为1的单流场景下成立,一旦进入大批次高吞吐场景,H100的优势重新显现。
八、实验设计的严谨性与局限性
这篇研究在方法论上做了相当细致的控制。每组测量都先进行5次预热,再连续测量30步取中位数,有效排除了偶发性的噪声。H100的核心数据还跑了10次独立容器测试来确认稳定性,其中"热身变异系数"(反映同一次测试内的波动)仅0.9%(普通模式)和0.2%(CUDA图模式)。
不过研究团队也明确指出了若干限制。所有测量都在Modal云平台的特定容器环境中完成,底层驱动版本未知,存在宿主机噪声。所有结果都局限于7到8B参数量的GQA架构模型、128维注意力头、bf16数据类型(量化实验仅限L4),以及单词逐一生成的解码模式,不涵盖推测解码、并行采样等变体。测试的GPU也只有英伟达四款,不包括AMD、苹果或英伟达新一代Blackwell架构。
此外,有一项竞品技术FlashDecoding++在论文中被提及但无法复现——该技术的论文声称在某些场景下能实现1.37倍的加速,但其源码至今未公开,相关集成请求在社区也均无进展,研究团队只能用FlashAttention-3和FlashInfer作为替代对比,无法直接与FlashDecoding++的结果对比。
研究还观察到一个有趣的现象:Qwen-2.5-7B在L4的长上下文测试中出现了内存溢出(OOM),但理论上模型和缓存的总大小应该在L4的24GB显存范围内。深入调查后发现,这是测试脚本的协议问题:CUDA图测试需要先分配一块静态缓存,但这个分配发生在普通模式测试结束、内存尚未释放的时刻,导致双重占用而溢出——并非显卡真的装不下,而是测试程序的设计问题。单独跑普通模式时,L4 ctx=8192的Qwen-2.5-7B能正常运行,峰值显存23.24GB。
说到底,这篇研究做的是一件非常务实的事:把长期以来工程界"买更好的卡就更快"这个直觉拿出来仔细检查,发现它在单流AI推理这个关键场景下是不完整的。H100的内存确实快得多,但快到它自己的CPU指令调度跟不上趟,大量时间在等待而不是在算。L4的内存虽然慢,但只要把量化工具选对了——具体来说是用ExLlamaV2而不是AutoAWQ或bitsandbytes——它能以八分之一的价格提供非常接近H100的单会话响应速度。
对于正在为机器人、自动驾驶、边缘AI设备规划推理算力的团队来说,这个发现很可能直接影响硬件采购决策。当然,一旦业务需要同时服务多个并发用户(批次大于1),这个结论就要重新评估了,因为L4的显存上限会率先成为障碍。
这项研究提醒我们,在AI系统工程领域,直觉往往需要用数据来校正。对速度的承诺最终要落实到具体硬件、具体软件、具体使用方式的交叉点上,任何一个环节没有对齐,理论上的优势就可能消失在排队等候里。感兴趣的读者可以通过arXiv编号2605.30571查阅完整原文,所有实验的原始数据文件也随论文一并公开。
---
Q&A
Q1:L4显卡运行大语言模型比H100慢多少?
A:在单个用户、逐词生成的场景下,L4配合ExLlamaV2量化方案每步约17.36毫秒,H100配合CUDA图约11.78毫秒,H100只比L4快约1.47倍,但H100价格是L4的近12倍,所以L4的成本效益反而更高。
Q2:CUDA图技术在所有显卡上都有效吗?
A:不是。CUDA图在H100上效果显著,能提速约1.26倍,因为H100的瓶颈正好是CPU指令启动开销。但在L4上几乎无效,提速只有1.028倍,因为L4的瓶颈是内存带宽,减少启动等待对整体速度帮助甚微。
Q3:AutoAWQ和ExLlamaV2都是4位量化,为什么速度差这么多?
A:AutoAWQ使用的Marlin内核是为英伟达Ampere架构(A100那代)优化的,在L4所用的Ada Lovelace架构上效率不足,实际提速只有1.38倍。ExLlamaV2的整数矩阵计算内核专门针对Ada架构调优,能真正把4位量化的带宽节省转化为速度,实现3.59倍提速。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。