
这项由Meta平台公司的KernelEvolve团队完成的研究发表于2025年12月30日,论文编号为arXiv:2512.23236v1。团队的核心成员包括Gang Liao、Carole-Jean Wu和Gaoxiang Liu等研究人员,他们开发出了一个名为KernelEvolve的系统,能够让AI自动编写出运行在不同硬件上的高性能计算代码。
想象一下,你需要为不同品牌的烤箱编写烘焙食谱。每个烤箱品牌的加热方式都不太一样——有些用电热管,有些用燃气,还有些用蒸汽。传统做法是雇佣专门的烘焙师为每种烤箱单独设计食谱,这需要几周时间才能完成。但现在,Meta的研究团队创造出了一个AI"烘焙大师",它能在几小时内自动为所有不同类型的烤箱生成完美的烘焙食谱,而且效果比人工编写的还要好。
这个比喻完美地概括了KernelEvolve的核心价值。在计算机世界里,不同的AI芯片就像不同品牌的烤箱,而"计算内核"就像是烘焙食谱——它们告诉芯片如何处理数据。Meta每天要处理数千亿次广告推荐计算,这些计算运行在包括自家的MTIA芯片、NVIDIA GPU和AMD GPU在内的各种硬件上。就像烘焙师需要为不同烤箱调整食谱一样,程序员也需要为不同芯片编写专门的代码。
传统的代码编写过程就像手工制作一样费时费力。每当Meta推出新的推荐算法或者采用新型AI芯片时,工程师们就需要花费2-8周时间手工编写和优化代码。更麻烦的是,为一种芯片编写的代码通常无法直接在另一种芯片上运行,就像为电烤箱设计的食谱不能直接用在燃气烤箱上一样。
KernelEvolve的突破在于它采用了一种全新的"配方生成"方式。这个AI系统不是简单地翻译现有代码,而是像一位经验丰富的烘焙大师一样,能够理解不同"烤箱"(AI芯片)的特性,并据此创造出量身定制的"食谱"(计算代码)。系统在测试中表现惊人:在包含250个问题的标准测试集上达到100%通过率,在480个不同的操作-硬件组合上全部正确运行,最高实现了17倍的性能提升。
一、系统如何像大脑一样思考和学习
KernelEvolve的工作方式很像一个不断学习的烘焙大师。传统的AI代码生成工具就像只会按照固定食谱做菜的机器人,而KernelEvolve更像一位能够根据每次烘焙结果不断改进技艺的大厨。
整个系统的核心是一个"决策树"架构,就像一棵不断分叉的大树。树的根部是最初的问题——比如"为MTIA芯片编写一个矩阵运算代码"。然后系统会从这个根部开始,探索各种可能的解决方案,每个分支代表一种不同的编程策略。有些分支可能通向成功的解决方案,有些则可能是死胡同。
系统采用了四个关键组件来指导这个探索过程。首先是"选择策略",就像大厨决定先尝试哪种调料搭配一样,系统会智能地选择最有希望的分支进行深入探索。接着是"通用操作器",这是系统的核心创新——不像传统方法为每种情况准备固定的处理方式,KernelEvolve有一个能够灵活适应各种情况的"万能工具"。
第三个组件是"适应度函数",它负责评判每次尝试的好坏,就像品尝师评判菜品味道一样。系统会比较生成的代码与标准实现的性能,速度快的得高分,出错的得零分。最后是"终止规则",当系统找到足够好的解决方案或者尝试次数达到上限时,搜索就会停止。
系统最独特的地方在于它会"记住"每次尝试的结果。就像经验丰富的厨师会记住哪些食材搭配效果好,哪些会失败一样,KernelEvolve维护着一个庞大的"经验数据库"。当遇到新问题时,它会先查询以前是否处理过类似情况,然后在已有经验基础上进行创新。
二、知识检索系统:AI的超级图书馆
KernelEvolve的另一个关键创新是它的知识管理系统,这就像为AI配备了一个超级图书馆管理员。传统的AI代码生成工具就像只能靠记忆工作的学生,而KernelEvolve更像是可以随时查阅资料的研究员。
这个"图书馆"按照严格的层次结构组织知识。最顶层是不同硬件平台的分类——NVIDIA GPU、AMD GPU和Meta自家的MTIA芯片,就像图书馆按照学科分区一样。每个分区下面又细分为不同的主题:硬件架构特点、编程语言规范、优化技巧、调试方法等等。
系统配备了两个专门的"图书管理员"——深度搜索子智能体和上下文记忆子智能体。深度搜索子智能体负责根据当前遇到的具体问题,快速找到图书馆中最相关的资料。比如当系统在为NVIDIA H100芯片优化矩阵运算时遇到内存带宽瓶颈,它会自动检索出关于张量内存加速器、共享内存优化等专门文档。
上下文记忆子智能体则像一位善于总结的助理,它会分析每次代码生成的执行结果——包括性能数据、错误信息、编译状态等,然后生成结构化的分析报告。这些报告不仅帮助系统理解当前代码的问题所在,还为后续优化指明方向。
特别值得一提的是系统对Meta自家MTIA芯片的知识处理。由于MTIA是专有硬件,在公开的AI训练数据中几乎没有相关信息,就像要为一个全新发明的烤箱写食谱一样困难。研究团队通过系统性地将MTIA的硬件特性、编程接口、优化技巧等专门知识注入到知识库中,让AI能够学会为这种专有硬件生成高质量代码。
三、多平台代码生成的技术魔法
KernelEvolve最令人印象深刻的能力是它可以为完全不同的硬件平台生成优化代码,这就像一位厨师能够同时掌握中餐、法餐和日餐的精髓,并且能够根据不同厨房设备的特点调整烹饪方法。
现代AI计算就像一个大型连锁餐厅,每个分店都可能配备不同品牌、不同型号的厨房设备。NVIDIA GPU就像配备了强大燃气灶的西式厨房,AMD GPU像配备大容量蒸箱的亚洲厨房,而MTIA则像专门为某种特色菜设计的定制化厨房。每种"厨房"都有自己的独特之处和最擅长的烹饪方式。
NVIDIA GPU的特点是拥有多层次的存储系统,就像厨房里有各种大小不同的储物柜。它们还有被称为"张量核心"的专用计算单元,专门用于AI运算的矩阵操作,就像专门切菜的机器一样高效。AMD GPU则拥有被称为"无限缓存"的大容量存储结构,就像有一个超大冰箱可以存放更多食材。
MTIA芯片的设计更加独特,它采用了8x8的处理单元阵列,就像64个小厨师在一个开放式厨房里协作。每个处理单元都有专门的功能模块:内存布局单元负责整理食材,点积引擎负责核心计算,约简引擎负责汇总结果,SIMD引擎负责批量处理。这种设计使得MTIA在处理推荐系统的特定计算模式时特别高效。
更复杂的是,即使是同一厂商的芯片,不同代际之间也可能存在巨大差异。就像NVIDIA从Ampere架构升级到Hopper架构时,引入了全新的张量内存加速器和128线程的warp-group执行模型,这就要求代码编写者完全重新设计算法结构。
KernelEvolve通过其知识库系统解决了这个挑战。系统为每种硬件平台维护详细的"设备手册",记录了各种硬件的特性、限制和最佳实践。当需要为特定硬件生成代码时,系统会自动检索相关的硬件知识,确保生成的代码充分利用该硬件的独特优势。
四、真实世界的性能突破
KernelEvolve在Meta的生产环境中取得了令人瞩目的性能提升,这些改进直接影响着数十亿用户的日常体验。系统在各种实际应用场景中都展现出了显著的优势,就像一位全能厨师能够在任何厨房里都做出美味佳肴。
在大语言模型推理方面,KernelEvolve为Llama-3.1-8B模型优化的注意力机制代码实现了4.6倍的性能提升。这意味着原本需要100毫秒完成的AI对话生成,现在只需要约22毫秒就能完成。对于每天处理数千万次对话请求的Meta来说,这样的提升能够显著降低服务器成本,同时让用户感受到更快的响应速度。
在卷积变换器的优化中,系统展现出了更加惊人的能力。一维卷积操作获得了6.54倍加速,二维卷积也达到了4.71倍提升。这些操作是视频处理和图像识别的基础,优化后的代码让Instagram的视频推荐和Facebook的图像识别功能都变得更加流畅。
最具挑战性的数据预处理操作也获得了大幅改进。MapId变换实现了4.07倍加速,MBDT(合并分桶密集变换)更是达到了9.25倍的惊人提升。这些看似不起眼的预处理操作实际上是推荐系统的关键瓶颈。原本每次推荐计算都需要花费大量时间将用户的各种行为数据转换为AI模型能理解的格式,现在这个过程变得快如闪电。
在Meta自家的MTIA芯片上,系统的表现更加出色。RMS标准化的反向传播运算获得了17倍的性能提升,这是整个测试中最高的加速比。这个结果特别令人兴奋,因为它证明了KernelEvolve不仅能为成熟的商用芯片生成优化代码,还能为全新的专有硬件创造出超越人工编写的高性能实现。
五、解决三重挑战的技术智慧
Meta面临的技术挑战可以用一个更大规模的餐厅连锁比喻来理解。这家"餐厅"需要同时满足三个层面的多样性需求:菜品种类繁多(不同的AI模型架构),烹饪方法各异(各种计算操作),厨房设备复杂(异构硬件平台)。
在模型架构多样性方面,Meta的推荐系统就像一个多层次的餐厅。一楼是快餐区(检索阶段),需要快速处理数百万个候选项目,就像麦当劳需要在几分钟内服务大量顾客一样,这里优先考虑的是处理速度和吞吐量。二楼是正餐区(早期排序阶段),对数千个候选项进行更精细的处理,就像需要更多时间准备的正式餐点。三楼是高端餐厅(最终排序阶段),使用最复杂的深度神经网络对数百个最终候选项进行精确评分,每个请求可能消耗高达80 GFLOPS的计算量,相当于传统方法的10-100倍。
在计算操作多样性方面,推荐系统不仅需要传统的矩阵乘法运算,更需要超过200种数据预处理操作。这些预处理就像餐厅的备菜工作——虽然不如主菜制作那么引人注目,但却是整个用餐体验的基础。如果备菜工作跟不上,整个餐厅的服务质量都会受到影响。
Meta的工程师发现了一个关键问题:如果某些预处理操作无法在AI芯片上直接执行,就必须将它们安排到普通CPU上处理,然后再将结果传输给AI芯片。这就像餐厅的备菜工作必须在另一个地方完成,然后运送过来一样,不仅增加了额外的运输时间(10-20毫秒的网络延迟),还增加了整个系统的复杂性和故障风险。
硬件异构性的挑战可能是最复杂的。不同硬件平台之间的差异不仅仅是性能高低的区别,更像是完全不同的烹饪哲学。NVIDIA的编程模型基于"线程块"概念,AMD使用ROCm/HIP扩展,而MTIA则有自己的C++内核语言。这些差异不只是语法不同,而是代表着根本不同的计算思维方式。
更困难的是,即使同一厂商的不同代际芯片也可能存在根本性变化。NVIDIA从Ampere架构升级到Hopper架构时,引入了全新的异步批量张量传输功能,还添加了支持新型矩阵运算的128线程执行模型。这就像餐厅从传统燃气灶升级到全自动智能厨房设备,厨师必须学会完全不同的操作方式。
六、核心算法:像探险家一样寻找最优解
KernelEvolve的搜索算法就像一支装备精良的探险队在未知领域寻找宝藏。传统的代码优化方法就像按照地图上的固定路线行走,而KernelEvolve则能够根据实地情况灵活调整路线,甚至开辟全新的道路。
探险的起点是一个基础的代码实现或者详细的功能描述。探险队(搜索算法)会在这个起点建立大本营,然后开始向四面八方派遣小队探索不同的优化方向。每支小队代表一种不同的编程策略——有的专注于内存访问优化,有的专攻计算密集型操作,还有的探索算子融合的可能性。
探险过程中,系统会遇到各种"地形"——有些代码变更能够带来显著的性能提升,就像发现了一条捷径;有些变更可能导致程序出错,就像遇到了危险的沼泽地;还有些变更看似有希望但实际效果一般,就像看起来平坦但实际崎岖的道路。
系统的独特之处在于它使用了一个"通用向导"而不是多个专门的向导。传统方法通常会为不同类型的问题配备不同的专家:调试专家专门解决程序错误,性能专家专门进行速度优化。但这种固定分工有一个问题——现实中的优化问题往往需要同时考虑正确性、性能和硬件特性,固定的专家分工可能会错过最佳的综合解决方案。
KernelEvolve的通用向导能够根据当前的具体情况动态调整策略。当程序出现错误时,它不仅会关注如何修复错误,还会考虑修复方案对性能的影响。当优化性能时,它也会确保不会引入新的错误。这种全局视角让系统能够找到真正最优的解决方案。
探险队还配备了强大的"通讯设备"——实时执行反馈系统。每当尝试一种新的代码实现,系统会立即在真实硬件上运行测试,收集详细的性能数据、错误信息和资源使用情况。这些反馈信息会立即传递给所有探险小队,让它们能够实时调整探索方向。
七、多样化硬件平台的终极测试
为了验证KernelEvolve的通用性,研究团队在多个完全不同的硬件平台上进行了全面测试,就像让一位厨师在世界各地的不同厨房里展示厨艺一样。
团队精心挑选了160个基础计算操作进行测试,这些操作包括基本的数学运算(加法、除法)、超越函数(余弦、指数)、约简操作(求最大值、全等判断)和激活函数(ELU等)。虽然这些操作相对简单,但它们是所有复杂AI模型的基础构建块,就像字母表是所有文章的基础一样。
测试在三个不同的硬件平台上进行:NVIDIA H100(目前最先进的AI训练芯片)、AMD MI350(AMD的旗舰AI芯片)和Meta自家的MTIA v3。每个操作在每个平台上都需要生成对应的优化代码,总共形成了480个不同的操作-平台组合,这相当于要为480种不同的"菜品-厨房"组合各自制定完美的烹饪方案。
结果令人振奋:KernelEvolve在所有480个配置上都实现了100%的正确性。这意味着生成的每一行代码都能正确运行,没有出现任何功能错误。更重要的是,系统还在著名的KernelBench基准测试中取得了完美成绩,这个测试包含250个不同难度级别的问题,从单个操作到复杂的算子融合,再到完整的模型组件。
性能方面的表现同样出色。以一维卷积操作为例,系统生成的代码在不同硬件上都实现了显著的速度提升:在AMD MI300上提升1.75倍,在NVIDIA H100上提升2.3倍,在AMD MI350上提升2.64倍,在NVIDIA A100上提升1.77倍,而在MTIA v3上更是达到了6.54倍的惊人加速。
这些性能差异反映了不同硬件平台的特性。MTIA作为专门为推荐系统设计的芯片,在相关计算上表现最佳。成熟的NVIDIA平台由于有完善的软件生态,基准性能本来就很高,所以提升空间相对有限,但仍然获得了可观的改进。
八、生产环境中的实际价值
KernelEvolve的真正价值体现在Meta的实际生产环境中。研究团队选择了几个具有代表性的真实应用场景来展示系统的实用性,就像让一位厨师在真正的餐厅里为真实顾客烹饪,而不是在实验室里做演示。
卷积变换器是Meta推荐系统中的关键组件,它结合了卷积神经网络和变换器架构的优势,能够同时捕捉用户行为的局部模式和全局趋势。这种架构的核心是一系列一维卷积层,通过不同大小的滑动窗口来分析用户的行为序列。由于卷积操作占据了整个计算负载的主要部分,对其进行优化至关重要。
在生产环境的测试中,KernelEvolve生成的卷积代码相比标准的PyTorch实现获得了2.30倍的速度提升,相比经过手工优化的2D卷积变通方案也有1.62倍的改进。这个提升的关键在于算子融合——传统方法需要启动五个独立的计算内核来完成整个卷积过程,而KernelEvolve生成的代码将整个操作融合为两个内核,大大减少了内存访问和同步开销。
在WuKong推荐模型的优化FM(优化因子分解机)操作中,系统展现了对复杂数学运算的优化能力。传统的因子分解机计算具有O(N?D)的复杂度,对于有数千个特征的实际数据集来说计算量过大。WuKong通过引入可学习的投影矩阵将复杂度降低到O(NKD),但仍需要两次矩阵乘法运算。
KernelEvolve生成的融合内核将两次矩阵运算合并为一个,让中间结果保持在芯片的高速缓存中,避免了昂贵的内存读写操作。在生产配置下,这个优化实现了4倍的性能提升。有趣的是,当特征数量较少(N≤64)时,优化效果最明显,能够达到3-4倍加速;当特征数量增加时,由于内存管理的开销逐渐增大,加速比会下降到2倍左右。
InterFormer模型中的个性化前馈网络(PFFN)优化展现了系统处理序列学习任务的能力。推荐系统需要理解用户的历史行为,但用户行为序列本质上是嘈杂和随机的,纯粹的序列建模效果有限。InterFormer通过让非序列特征(用户年龄、地理位置)和序列特征(浏览历史)之间进行双向信息交换来解决这个问题。
PFFN模块包含五个连续的操作:前馈神经网络、GELU激活、RMS标准化、另一个前馈层和最终的RMS标准化。KernelEvolve生成的融合内核将这个复杂的操作链合并为单一的GPU调用,在生产配置下实现了2.5倍的性能提升。
九、专有硬件的突破性成就
KernelEvolve在Meta自家的MTIA芯片上的表现最能体现其技术价值,这就像一位厨师不仅能在标准厨房里烹饪,还能快速掌握全新的烹饪设备一样令人印象深刻。
MTIA芯片为KernelEvolve带来了独特的挑战。与被广泛研究和文档化的GPU架构不同,MTIA作为专有硬件,其架构细节和编程模型在公开的AI训练语料中几乎不存在。这就像要为一个从未见过的全新烹饪设备编写操作手册一样困难。
研究团队通过系统性的知识注入解决了这个问题。他们将MTIA的硬件特性、扩展的编程语言构造和优化模式详细记录在知识库中。MTIA-Triton扩展了基础的Triton语言,添加了许多GPU上不存在的功能。
比如,MTIA暴露了专门的函数单元(SFU),可以通过查找表快速计算复杂的数学函数。当代码需要计算GELU激活函数时,传统GPU需要使用数学近似计算,而MTIA可以直接调用硬件查找表,获得更高的性能。类似地,MTIA还提供了处理单元间通信原语,让多个处理核心能够高效协作。
在MapId变换的测试中,MTIA v2i上的性能提升特别显著。这个操作将稀疏的高基数分类ID映射为密集的连续整数,是推荐系统中的关键预处理步骤。由于MTIA v2i缺乏一些PyTorch原生操作的支持,标准PyTorch实现必须回退到CPU执行,导致昂贵的主机-设备同步开销。KernelEvolve生成的融合Triton内核完全在设备上执行,在大批量工作负载下实现了高达4.07倍的加速。
MBDT(合并分桶密集变换)的优化展现了系统处理复杂数据结构的能力。这个操作将连续特征映射为离散的桶索引,需要对每个输入值执行二分搜索。KernelEvolve生成的内核使用了SIMD向量化计数而不是标量二分搜索,并采用自适应块大小来最大化处理单元利用率,在MTIA v2i上实现了2.94-9.25倍的性能提升。
十、从理论到实践的产业化部署
KernelEvolve不仅仅是一个研究原型,而是已经在Meta的生产基础设施中连续运行的工业级系统。这就像从实验室的小型烹饪测试升级为真正的大型连锁餐厅运营一样,需要考虑可靠性、可扩展性和运营效率等诸多现实因素。
系统的部署架构充分考虑了生产环境的复杂需求。代码生成过程主要消耗CPU资源,不需要占用昂贵的AI加速器,而代码评估和性能测试则需要在目标硬件上执行。为了最大化资源利用效率,KernelEvolve采用了分离式架构:代码生成在通用服务器上进行,生成的代码通过函数即服务(FaaS)平台分发到配备不同AI芯片的专用测试环境中。
这种架构带来了多重优势。首先是资源解耦,生成智能体可以在CPU上持续工作,同时将评估任务分发到远程加速器池,避免了本地硬件资源的竞争。其次是弹性容量,评估工作可以分布到数百个GPU和MTIA设备组成的FaaS工作池中,而不是串行等待少量本地硬件。这种架构最大化了CPU(生成)和加速器(评估)的利用率。
为了确保生产安全性,系统集成了多层验证机制。所有生成的代码都必须通过严格的正确性检查,包括数值精度验证和边界条件测试。性能分析不仅测量执行时间,还包括内存使用、资源占用等多个维度的指标。系统还维护着详细的执行日志,包括编译状态、运行时错误和优化轨迹,确保任何问题都能快速定位和解决。
自动化部署流水线确保了系统的持续更新和维护。当底层依赖(Triton编译器、运行时库、硬件驱动)更新时,系统会自动重建和部署新版本的解释器环境。这消除了人工环境维护的负担,确保内核工件始终在最新的软件栈上执行。
十一、突破性成果的深度分析
KernelEvolve在多个关键维度上都取得了突破性成果,这些成就不仅体现在性能数字上,更重要的是证明了AI自动化代码生成在真实生产环境中的可行性。
在开发效率方面,系统将传统的内核开发周期从数周缩短到数小时。传统方法中,一个经验丰富的内核工程师为单一硬件平台优化一个复杂操作通常需要2-8周时间,包括算法设计、编码实现、调试优化和性能调优等多个环节。而KernelEvolve能够在几小时内为多个硬件平台同时生成优化代码,效率提升了几十倍。
这种效率提升的意义远超表面的开发成本节约。在快速发展的AI领域,新硬件架构的发布周期通常为12-18个月,每次架构更新都会使现有的优化失效,需要重新开发。手工优化根本无法跟上这种硬件演进速度,而自动化生成为快速适配新硬件提供了可能。
系统在算子覆盖率方面的突破同样重要。推荐系统需要200多种不同的数据预处理操作,这些操作的可用性直接决定了整个模型能否部署在新硬件上。一个缺失的预处理操作就可能迫使整个系统采用分离式架构,带来10-20毫秒的额外网络延迟。KernelEvolve通过自动生成这些"看起来不重要"的预处理内核,消除了部署障碍,使得单体化部署成为可能。
性能优化的深度也达到了专家级水平。在卷积变换器的案例中,系统不仅发现了操作融合的机会,还自动探索出了针对生产数据分布的专门瓦片配置。在300步搜索过程中,适应度分数从初始的2000逐步提升到最终的6889,展现出了系统持续学习和改进的能力。
跨平台优化策略的自动发现可能是最令人印象深刻的成就。系统能够自动识别不同硬件的特性并生成相应的优化策略:在NVIDIA GPU上利用张量核心,在AMD GPU上优化无限缓存的使用,在MTIA上利用专门的函数单元和处理器间通信。这些硬件特定的优化策略过去只能通过人工分析和手动编码实现,现在可以通过自动化搜索发现。
十二、实际部署的挑战与解决方案
将KernelEvolve从研究原型转变为生产系统需要解决许多现实世界的工程挑战,这就像将实验室里的烹饪创新搬到真正的商业厨房中一样复杂。
首要挑战是确保生成代码的绝对可靠性。在实验环境中,偶尔的程序崩溃或数值错误是可以接受的,但在每天处理数千亿次推荐请求的生产系统中,任何错误都可能影响用户体验或造成服务中断。为此,系统实现了多层防护机制。
正确性验证采用了严格的数值对比测试。每个生成的内核都必须在多种输入条件下与PyTorch参考实现产生完全一致的结果,误差必须在严格的容差范围内。系统还会进行边界条件测试,确保在极端输入情况下代码也能正确处理。
性能回归防护同样重要。虽然KernelEvolve的目标是提升性能,但在某些情况下,自动生成的代码可能不如手工优化的基线实现。为了避免性能倒退,系统采用了形状感知调度策略:为每个硬件平台,系统会在离线阶段生成和验证平台特定的内核,然后部署性能最佳的变体,同时保持对供应商库的回退路径。
持续集成和部署(CI/CD)流水线确保了系统的持续更新。底层依赖的任何变化——Triton编译器更新、硬件驱动升级、运行时库修改——都会触发自动重建和测试流程。这个流程包括解释器环境重建、回归测试套件执行和性能基准验证。
故障恢复机制让系统具备了工业级的鲁棒性。搜索过程可能需要数小时甚至更长时间,系统会自动保存中间状态,在出现硬件故障或服务中断时能够从最后的检查点恢复,而不是从头开始。这种持久化存储架构还支持分布式并行搜索,多个搜索智能体可以同时探索解决方案空间的不同区域。
十三、对AI基础设施的深远影响
KernelEvolve的成功部署预示着AI基础设施发展的一个重要转折点,就像从手工制作转向工业化生产的历史变革一样。这种转变的影响将远超单纯的性能优化,而是为整个AI生态系统带来了根本性的改变。
首先,它解决了异构硬件部署中的"鸡生蛋还是蛋生鸡"问题。过去,新硬件的采用往往受到软件生态不完善的制约——没有足够的优化代码,硬件性能无法充分发挥;硬件市场份额小,软件开发商又缺乏投资动力。KernelEvolve通过自动化生成,让新硬件能够快速获得高质量的软件支持,加速了硬件创新的商业化进程。
其次,它改变了AI模型开发的成本结构。传统上,将一个新模型架构部署到生产环境需要大量的底层优化工作,这限制了算法研究人员的创新空间。现在,算法研究人员可以更自由地探索新架构,因为底层优化工作可以由AI系统自动完成。这种解耦加速了从研究到产品的转化过程。
环境影响方面的改进也值得关注。数据中心是巨大的能耗来源,计算效率的提升直接转化为能源节约。KernelEvolve实现的性能改进意味着完成相同计算任务需要更少的电力消耗,这在全球日益关注碳足迹的背景下具有重要意义。
系统还展现了"推理时计算扩展"的强大潜力。传统的AI优化主要依赖于训练时的模型改进,而KernelEvolve证明了在推理阶段投入更多计算资源进行代码优化能够带来显著回报。这种方法为AI性能优化开辟了一个新的维度。
不过,系统的成功也提出了一些值得思考的问题。随着AI系统越来越多地参与底层系统软件的开发,我们需要新的方法来确保代码质量和安全性。自动生成的代码虽然性能出色,但其复杂性可能让人工审查变得更加困难。
十四、技术创新的深层逻辑
KernelEvolve的成功背后体现了几个重要的技术发展趋势,这些趋势正在重新塑造软件开发的未来面貌。
第一个趋势是从静态优化向动态适应的转变。传统的编译器优化就像按照固定食谱烹饪,无论面对什么样的食材和烹饪条件,都执行相同的处理步骤。KernelEvolve则更像一位经验丰富的主厨,能够根据当前的具体情况——硬件特性、输入数据特征、性能目标等——动态调整优化策略。这种适应性让系统能够在千变万化的实际应用场景中保持最佳性能。
第二个趋势是知识系统的重要性提升。现代AI系统的能力不再仅仅取决于模型本身的智能水平,更重要的是如何有效地组织和利用外部知识。KernelEvolve的知识库系统就像为AI配备了一个专业图书馆,让它能够快速获取和应用专门的领域知识。这种架构在处理专有硬件时尤其重要,因为这些硬件的相关知识在通用AI训练数据中很少见。
第三个趋势是搜索算法与大语言模型的深度融合。单纯的大语言模型在处理需要大量试验和优化的任务时能力有限,就像仅凭理论知识的厨师可能无法做出完美的菜肴。KernelEvolve通过将搜索算法与语言模型结合,让AI既具备了理解和生成代码的能力,又具备了系统性探索和优化的能力。
反馈循环的设计也体现了重要的技术思想。系统不是一次性生成代码就结束,而是建立了完整的"感知-行动-学习"循环。每次代码执行的结果都会被分析和记录,为后续的优化提供指导。这种持续学习的机制让系统能够不断积累经验,逐渐接近甚至超越人类专家的优化水平。
十五、未来发展的无限可能
KernelEvolve的成功仅仅是AI辅助系统软件开发的开始,研究团队已经勾画出了更宏大的发展蓝图。就像第一台个人电脑的出现开启了整个信息时代一样,自动化内核生成可能会引发更广泛的软件开发变革。
在硬件多样性方面,随着Meta的AI基础设施发展到包含下一代MTIA、AMD MI系列、ARM CPU和未来NVIDIA架构,优化目标的多样性将呈指数级增长。团队设想KernelEvolve成为这个异构硬件舰队的统一内核生成层,通过更新规范自动适配新硬件,而不需要人工工程开发。
从单个操作优化扩展到整体模型优化是另一个激动人心的方向。目前的优化主要针对单个操作和小模块,但最大的性能提升往往来自模型层面的全局优化。未来的KernelEvolve将能够推理跨层融合、全局内存分配和端到端计算图优化,结合模型变换技术如量化、稀疏化和架构搜索,这可能会发现既不是人类也不是传统编译器能够识别的全新操作组合。
更深层的代码生成能力也在规划中。虽然Triton提供了高效的抽象,但某些优化需要更底层的控制。将KernelEvolve扩展到修改MLIR方言、直接PTX/SASS或硬件诊断例程,将解锁性能关键场景下Triton抽象变得受限的情况。这种垂直集成——从高层DSL到裸机代码——将把LLM智能体定位为通用编译器而不是领域特定工具。
大规模并行搜索是另一个令人兴奋的可能性。当前的树搜索是顺序探索候选方案,但内核生成本质上是可并行的。放松一致性保证,允许在分布式基础设施上同时评估数千个候选方案,最终收敛到最优解。这种"无限宽度"搜索范式,结合推理时扩展定律,表明内核质量可能随着计算投资的增加而可预测地改进。
十六、对整个行业的启示
KernelEvolve的成功不仅仅是Meta的技术突破,更为整个AI行业提供了重要的发展启示。这项研究证明了在专业性极强的系统软件开发领域,AI也能够达到甚至超越人类专家的水平。
最重要的启示是自动化代码生成已经从"可能"变成了"现实"。过去几年,业界对AI编程助手的讨论更多停留在帮助程序员提高效率的层面,但KernelEvolve证明了AI可以完全自主地处理最复杂的底层系统开发任务。这预示着软件开发范式的根本性转变——从人工编写代码转向人机协作,甚至在某些领域实现完全自动化。
另一个重要启示是专有知识注入的有效性。许多人担心AI系统只能处理训练数据中存在的问题,对于全新的技术或专有系统无能为力。KernelEvolve通过系统性的知识库建设,证明了AI可以快速学习和应用全新领域的专门知识,这为AI在更多专业领域的应用打开了大门。
从商业角度看,这项技术可能会重新定义技术公司的竞争优势。传统上,拥有大量专业工程师是技术公司的重要护城河,但自动化系统的出现可能会改变这种局面。能够快速构建和部署自动化开发工具的公司可能会获得显著的竞争优势,特别是在新技术快速迭代的领域。
环境可持续性也是一个不容忽视的方面。随着AI计算规模的爆炸式增长,提高计算效率对于控制能源消耗变得越来越重要。KernelEvolve实现的性能改进直接转化为能源节约,为构建更可持续的AI基础设施提供了技术路径。
不过,这种技术进步也带来了新的挑战。自动生成的代码可能会变得越来越复杂和难以理解,这可能会给系统维护和问题诊断带来困难。如何在获得自动化好处的同时保持代码的可维护性,将是未来需要重点关注的问题。
说到底,KernelEvolve代表的不仅仅是一个技术工具的进步,更是人工智能能力边界的重大扩展。它证明了AI系统已经能够在高度专业化的技术领域达到专家级水平,这为AI在更多专业领域的应用奠定了基础。随着这类技术的不断发展和普及,我们可能正站在软件开发历史上的一个重要转折点上,未来的程序开发可能会更多地依赖人机协作,让人类专注于创意和战略层面的工作,而将技术实现的细节交给AI系统处理。
对于普通人来说,这意味着我们使用的各种应用和服务将变得更快、更流畅、更智能。当你在社交媒体上浏览推荐内容,或者使用AI助手时,背后可能就运行着由类似KernelEvolve这样的系统自动生成的优化代码。技术进步最终会以更好的用户体验的形式回馈给每一个人。
Q&A
Q1:KernelEvolve是什么?
A:KernelEvolve是Meta开发的AI代码生成系统,能够自动为不同的AI芯片(如NVIDIA GPU、AMD GPU、Meta MTIA)编写高性能计算代码。它就像一位能够为不同厨房设备自动编写最佳烹饪食谱的AI大厨,将原本需要专业工程师花费数周完成的代码优化工作缩短到几小时内完成。
Q2:KernelEvolve能带来多大的性能提升?
A:KernelEvolve在各种实际应用中实现了1.25到17倍的性能提升。比如在大语言模型推理中提升4.6倍,在数据预处理操作中最高提升9.8倍,在Meta自家MTIA芯片上某些操作甚至达到17倍加速。这些提升直接转化为更快的应用响应速度和更低的服务器成本。
Q3:普通人会从KernelEvolve中获得什么好处?
A:虽然KernelEvolve是底层技术,但它的改进会直接体现在日常应用体验中。社交媒体推荐会更快更精准,AI对话助手响应更迅速,视频和图片处理更流畅。同时,由于计算效率提升降低了服务成本,这些好处最终可能以更便宜或更丰富的服务形式惠及用户。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。