微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学团队革命性突破：让AI模型运行速度提升3.67倍的"积木式"智能系统

混合专家模型稀疏激活端侧推理

清华大学团队革命性突破：让AI模型运行速度提升3.67倍的"积木式"智能系统

作者：科技行者

2025-07-21 11:30

分享至：

清华大学团队推出BlockFFN架构，通过创新的稀疏激活技术和块级优化训练，实现了AI模型在端侧设备上3.67倍的加速效果。该技术采用ReLU路由器和RMSNorm设计，结合激活稀疏性和推测解码，在保持模型性能的同时大幅提升运行效率，为AI技术在移动设备上的普及应用开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-21 11:30 • 科技行者

这项由清华大学计算机科学与技术系、智能产业研究院的宋晨阳、赵维霖、韩旭、肖朝军、陈颖发、李雨轩、刘知远、孙茂松团队完成的研究，发表于2025年的COLM（机器学习计算会议）。对这项突破性研究感兴趣的读者可以通过论文代码仓库（https://github.com/thunlp/BlockFFN）获取完整代码和模型权重。

在当今这个人工智能飞速发展的时代，大型语言模型已经成为我们日常生活中不可或缺的助手。然而，这些强大的AI系统有一个致命的缺陷：它们就像贪婪的能源巨兽，需要消耗大量的计算资源和电力才能运行。更糟糕的是，当我们想要在手机、平板电脑或其他小型设备上运行这些AI模型时，它们往往会变得像蜗牛一样缓慢，甚至根本无法正常工作。

这就好比我们想要在家用轿车上安装一个需要大卡车引擎才能驱动的设备——理论上可能，但实际上完全不现实。长期以来，研究人员一直在寻找让AI模型变得更加"轻便"的方法，就像工程师们努力让汽车发动机变得更加省油高效一样。

在这个背景下，清华大学的研究团队提出了一种名为"BlockFFN"的创新性解决方案。这个名字听起来很技术化，但它的核心理念其实很简单：就像用积木搭建房子一样，我们可以根据需要选择性地激活AI模型的不同部分，而不是每次都启动整个系统。

传统的AI模型就像一个巨大的工厂，每次处理任务时都需要开启所有生产线，无论实际需要多少。而BlockFFN更像是一个智能的模块化工厂，它能够根据具体任务的需求，只开启必要的生产线，从而大大节省能源和时间。

这项研究的革命性在于它不仅解决了AI模型的效率问题，还首次实现了两种加速技术的完美结合：激活稀疏性和推测解码。如果把AI模型比作一个乐团，激活稀疏性就是让乐团在演奏时只使用必要的乐器，而推测解码则是让乐团能够预测下一个音符，从而演奏得更加流畅。BlockFFN成功地将这两种技术融合在一起，创造出了一个既高效又强大的AI系统。

研究团队通过大量实验证明，BlockFFN在保持AI模型性能的同时，能够实现超过80%的令牌级稀疏性和70%的块级稀疏性。更令人兴奋的是，在真实的终端设备上，BlockFFN实现了高达3.67倍的速度提升。这意味着原本需要一小时才能完成的AI任务，现在只需要不到17分钟就能完成。

一、传统AI模型的困境：当巨象试图在针尖上跳舞

要理解BlockFFN的重要性，我们首先需要了解传统AI模型面临的挑战。现代大型语言模型就像一座拥有数十亿个房间的超级大厦，每个房间都存储着特定的知识和技能。当我们向模型提出问题时，它需要在这座大厦中搜索相关信息，然后组织答案。

然而，传统模型的问题在于，即使只是回答一个简单的问题，它也需要"点亮"大厦中的每一个房间。这就好比你想要在图书馆里找一本特定的书，但是管理员告诉你必须先把整个图书馆的所有灯都打开，然后逐个检查每一个书架。这种做法不仅浪费能源，还会让整个过程变得异常缓慢。

更具体地说，传统的混合专家模型（MoE）虽然试图解决这个问题，但它们采用的路由策略存在两个根本性缺陷。第一个缺陷是不可微分性，这就像是一个开关只能完全打开或完全关闭，无法进行精细调节。第二个缺陷是缺乏灵活性，传统模型要求每个输入都激活相同数量的专家，这就像是规定每个人吃饭时都必须点相同数量的菜，完全不考虑个人的胃口大小。

此外，传统模型还面临着一个更加严重的问题：块级稀疏性较低。这个概念可能听起来比较抽象，但我们可以用一个简单的例子来理解它。假设你正在阅读一本书，每次阅读一个句子（这相当于令牌级处理）。传统模型在处理单个句子时可能很高效，但当需要同时处理多个连续句子时（这相当于块级处理），效率就会大大降低。

这种低块级稀疏性的问题在现实应用中尤为突出。当我们使用推测解码技术时，模型需要同时处理多个连续的输入，这时块级稀疏性的重要性就凸显出来了。如果模型无法在块级别保持高效的稀疏性，那么推测解码技术就无法发挥其应有的作用。

研究团队通过大量的实验数据发现，现有的稀疏激活架构在块级稀疏性方面表现不佳。以DeepSeekMoE-16B模型为例，虽然它在单个令牌级别能够达到较高的稀疏性，但当块大小增加到8个连续令牌时，其稀疏性就会急剧下降。这就像是一个在单人比赛中表现出色的运动员，在团体比赛中却无法发挥同样的水平。

二、BlockFFN的核心创新：打造智能的模块化工厂

面对传统模型的种种局限，清华大学的研究团队提出了BlockFFN这一创新性解决方案。BlockFFN的设计理念可以用一个精妙的比喻来理解：它就像是一个高度智能的模块化工厂，能够根据不同的生产需求，灵活地调配资源和人力。

BlockFFN的第一个核心创新是其专家模块设计。与传统模型不同，BlockFFN的每个专家都是一个简洁而高效的多层感知器（MLP），就像工厂中的一个专业化生产线。这些专家不使用传统的门控机制，而是采用更加直接的Swish激活函数。这种设计选择看似简单，但实际上经过了精心考虑。

研究团队发现，门控机制虽然在某些情况下能够提供更好的性能，但它会破坏路由器的稀疏性。这就像是在工厂中，如果每个生产线都需要额外的管理层级，虽然可能提高单个生产线的效率，但会降低整个工厂的协调效率。因此，BlockFFN选择了更加简洁的非门控MLP设计，以保持整体系统的高效性。

BlockFFN的第二个核心创新是其革命性的路由器模块。传统的TopK路由器就像是一个死板的交通指挥官，无论交通状况如何，都会按照固定的规则指挥交通。而BlockFFN的路由器更像是一个智能的GPS导航系统，能够根据实时的交通状况和目的地需求，动态地选择最优路径。

这个路由器的设计包含两个关键组件：ReLU激活函数和RMSNorm层。ReLU激活函数的选择并非偶然，它具有完全可微分的特性，这意味着模型可以在训练过程中不断优化路由策略。更重要的是，ReLU能够让每个输入自适应地激活不同数量的专家，而不是像传统TopK方法那样强制激活固定数量的专家。

RMSNorm层的加入是BlockFFN的另一个巧妙设计。这个层的作用就像是一个智能的音量控制器，能够自适应地调整激活值的大小。更重要的是，RMSNorm将激活模式和激活强度分离开来，这样当我们对模型进行稀疏化训练时，正则化只会影响激活模式，而不会干扰激活强度。这种设计避免了传统方法中经常出现的激活强度收缩问题，就像是确保了音响系统在调节音量时不会影响音质。

研究团队通过实验验证了这种设计的有效性。他们发现，与传统的ReMoE相比，BlockFFN在保持相同架构的情况下，能够实现更好的性能和更高的稀疏性。这主要归功于RMSNorm层的引入，它帮助模型维持了更稳定和适当的激活强度水平。

三、块级稀疏性感知训练：让AI学会"团队合作"

BlockFFN的另一个重要创新是其块级稀疏性感知训练目标。传统的训练方法就像是教导学生们在单独考试中表现出色，但却忽略了他们在团队项目中的协作能力。BlockFFN的训练方法则更像是一个全面的教育系统，既关注个体表现，也重视团队协作。

这个训练系统包含两个相互补充的目标：激活局部性损失和块稀疏化损失。激活局部性损失的作用就像是教导相邻的工人之间要保持良好的协作关系。在AI模型中，这意味着相邻的输入令牌应该激活相似的专家模式。这种设计的巧妙之处在于，它能够减少令牌级稀疏性和块级稀疏性之间的差距。

具体来说，激活局部性损失通过二元交叉熵来最小化相邻令牌之间的激活模式差异。这个过程就像是训练一个合唱团，让相邻的歌手保持和谐的音调。研究团队使用了一个巧妙的数学公式来实现这一目标，通过LeftShift操作来比较相邻令牌的激活模式，然后使用sharp sigmoid函数来近似激活模式。

块稀疏化损失则承担着更加直接的任务：提高整体的稀疏性水平。传统的稀疏化方法如L1正则化虽然能够提高单个令牌的稀疏性，但对块级稀疏性的改善有限。BlockFFN的块稀疏化损失则直接针对块级稀疏性进行优化，它计算的是在一个包含多个连续令牌的块中，每个专家被激活的概率。

这种方法的数学原理相当精妙。对于一个包含L个连续令牌的块，块稀疏化损失计算每个专家被至少一个令牌激活的概率，然后通过最小化这个概率来增加块级稀疏性。这就像是在一个工厂中，我们希望大多数生产线在处理一批订单时都能保持关闭状态，只有真正需要的生产线才会开启。

研究团队还开发了一个自适应因子调度器来动态调整块稀疏化损失的权重。这个调度器就像是一个智能的项目经理，能够根据训练过程中的实际情况来调整不同目标的重要性。在训练初期，系统会保持相对保守的策略，随着训练的进行，会根据块稀疏化损失的变化情况来动态调整权重。

通过这种精心设计的训练策略，BlockFFN能够同时实现高令牌级稀疏性和高块级稀疏性。实验结果显示，BlockFFN在各种规模的模型上都能达到超过80%的令牌级稀疏性和70%的8令牌块级稀疏性，这一成果在该领域是前所未有的。

四、加速内核：让理论变为现实的工程杰作

拥有了高效的模型架构和训练方法，BlockFFN的下一个挑战是如何在实际的硬件设备上实现加速。这就像是设计出了一辆理论上非常高效的汽车，但还需要为它建造合适的道路和加油站。研究团队开发的加速内核就承担着这个关键角色。

BlockFFN的加速内核最大的创新在于首次将激活稀疏性和推测解码技术结合起来。推测解码技术就像是一个预言家，它能够预测模型接下来可能生成的多个令牌，然后让模型同时验证这些预测。这种技术能够大大提高模型的生成速度，但它需要模型能够高效地处理多个连续的令牌。

传统的稀疏化方法在面对推测解码时往往表现不佳，因为它们的块级稀疏性较低。但BlockFFN的高块级稀疏性使得这种结合成为可能。当推测解码产生多个候选令牌时，BlockFFN能够利用其高块级稀疏性，只激活这些令牌共同需要的专家子集。

这个过程可以用一个生动的比喻来理解：假设你是一个餐厅的厨师长，需要同时为一桌客人准备多道菜。传统的方法是为每道菜都开启所有的厨房设备，而BlockFFN的方法是分析这些菜品的共同需求，只开启必要的设备。例如，如果这桌客人点的都是不需要烤箱的菜，那么烤箱就可以保持关闭状态。

具体的实现过程相当巧妙。当系统处理n个候选令牌时，它首先计算这些令牌激活的专家并集（Union）。由于BlockFFN的高块级稀疏性，这个并集通常只包含总专家数的一小部分。然后，系统只对这些激活的专家进行矩阵乘法运算，最后通过掩码操作来移除不相关的激活。

这种方法的优势在于它能够充分利用GPU的并行计算能力。虽然不同的专家可能被不同的令牌子集激活，但由于BlockFFN的块级稀疏性和令牌级稀疏性相近，大多数激活的专家都会被绝大多数令牌使用。这意味着系统可以对所有n个令牌和所有激活的专家进行批量计算，从而实现更好的GPU利用率。

研究团队基于CUTLASS GEMM库实现了这些加速内核，并充分利用了CUDA张量核心来提升计算效率。他们还对内核进行了精心的优化，包括修改外循环和内循环的扫描策略，以及优化内存访问模式。为了充分利用推测解码的优势，他们将候选令牌数量设置为32，这个数字经过了仔细的调优以匹配CUDA张量核心的要求。

五、实验验证：数据说话的科学精神

科学研究的价值最终要通过实验来验证，BlockFFN也不例外。研究团队设计了一系列全面而严格的实验，从多个角度验证了BlockFFN的有效性。这些实验就像是对一个新产品进行的全方位测试，既要验证其基本功能，也要测试其在各种极端条件下的表现。

在架构合理性验证方面，研究团队将BlockFFN与多种现有的稀疏激活架构进行了比较，包括传统的TopK MoE、DeepSeekMoE、GRIN和ReMoE。为了确保比较的公平性，他们保持了所有模型的参数数量、训练令牌数量和令牌级稀疏性基本一致。这就像是在相同的赛道上，用相同的燃料来比较不同汽车的性能。

实验结果令人印象深刻。在四个不同规模的模型设置中（从0.1B到1.2B参数），BlockFFN在保持相近令牌级稀疏性的情况下，始终能够达到显著更高的块级稀疏性。更重要的是，BlockFFN在困惑度和下游任务评估方面都表现出了优越的性能。这表明BlockFFN不仅在效率上有所提升，在模型质量上也没有妥协。

特别值得关注的是专家选择稳定性的实验结果。在低资源环境下，经常需要使用专家卸载等内存节省技术，这要求模型的专家选择模式在连续令牌之间保持相对稳定。BlockFFN在这方面表现出色，其专家重用率超过85%，这意味着在处理连续令牌时，大部分专家都能够被重复使用，从而节省了频繁的内存加载成本。

研究团队还深入分析了BlockFFN的专家分配模式。他们发现，BlockFFN的ReLU激活路由确实能够根据不同令牌的复杂程度自适应地分配专家。简单的令牌（如数字、单字符）通常激活较少的专家，而复杂的令牌（如代词、汉字）则激活更多的专家。这种双峰分布的专家分配模式证明了BlockFFN路由的智能性和灵活性。

在训练目标的消融研究中，研究团队系统地验证了激活局部性损失和块稀疏化损失的有效性。他们发现，去除任何一个训练目标都会导致性能的显著下降。更重要的是，他们证明了BlockFFN提出的块稀疏化损失比传统的L1正则化和路由器熵损失更加有效，能够在保持模型性能的同时实现更高的稀疏性。

六、实际加速效果：在真实世界中的表现

理论上的优势最终需要在实际应用中得到验证。研究团队在NVIDIA Jetson Orin NX 16GB这一典型的端侧设备上进行了全面的加速测试。这个设备代表了当前主流的边缘计算硬件，其性能水平使得测试结果具有很强的实用价值。

为了确保测试的公平性和可信度，研究团队采用了Spec-Bench这一专为推测解码设计的综合性基准测试。这个基准包含了机器翻译、文本摘要、问答、数学推理、检索增强生成等多种任务，能够全面评估模型在不同应用场景下的性能。

测试结果超出了预期。在与多个基线方法的比较中，BlockFFN的"Ours (32-Tok)"配置（即结合了32令牌块级稀疏性和EAGLE-2推测解码的版本）实现了平均3.67倍的加速比。这意味着原本需要一小时完成的任务，现在只需要大约16分钟就能完成。

更有趣的是，研究团队还测试了仅使用稀疏性的"Ours (1-Tok)"配置和仅使用推测解码的"EAGLE-2"配置。结果显示，仅使用稀疏性就能实现3.14倍的加速，而将两种技术结合使用能够获得更好的性能提升。这证明了BlockFFN的设计确实实现了两种加速技术的协同效应。

在不同任务类型的测试中，BlockFFN展现出了很好的稳定性。在数学推理任务中，加速比甚至达到了4.68倍，而在检索增强生成任务中也实现了3.56倍的加速。这种跨任务的一致性表明，BlockFFN的加速效果并不依赖于特定的任务类型，而是一种通用的性能提升。

研究团队还进行了理论上界分析，发现BlockFFN的加速内核基本达到了理论上的最优性能。他们发现，令牌级稀疏性和块级稀疏性分别对应着不同加速内核的理论加速上界，而BlockFFN的实际表现非常接近这些理论上界。这表明他们的实现是高度优化的，没有留下明显的性能提升空间。

七、技术细节的深入探讨：魔鬼藏在细节中

任何突破性的技术创新都离不开对细节的精心打磨，BlockFFN也不例外。研究团队在论文中详细阐述了许多重要的技术细节，这些细节虽然看似微小，但对最终的成功至关重要。

在专家粒度的选择上，研究团队进行了深入的探索。他们发现，专家数量和专家维度之间存在一个微妙的平衡点。过少的专家会导致模型表达能力不足，而过多的专家则会增加路由的复杂性。通过大量实验，他们发现40个专家的配置在性能和稀疏性之间达到了最佳平衡。

RMSNorm层的引入看似简单，但其背后的原理相当深刻。研究团队发现，传统的正则化方法会直接影响激活值的大小，这种影响往往是有害的。通过将激活模式和激活强度分离，RMSNorm使得正则化只作用于激活模式，而不会干扰激活强度的学习。这种设计避免了激活强度收缩问题，这是许多传统稀疏化方法的通病。

在负载均衡方面，研究团队做出了一个重要的设计决策：不采用传统的负载均衡策略。他们认为，对于端侧部署而言，负载均衡并不是必要的，因为端侧设备通常只服务少数用户，不需要考虑分布式部署中的负载分配问题。相反，他们更关注全局计算成本的降低和激活局部性的提升。

自适应因子调度器的设计体现了研究团队对训练动态的深入理解。这个调度器能够根据块稀疏化损失的变化自动调整其权重，避免了手动调参的繁琐过程。当损失下降时，调度器会增加权重以进一步提高稀疏性；当损失上升时，会减少权重以防止过度稀疏化。

在加速内核的实现中，研究团队充分考虑了硬件特性。他们基于CUTLASS库进行开发，这是NVIDIA官方提供的高性能GEMM库。为了充分利用张量核心的计算能力，他们将候选令牌数量设置为32，这个数字既能满足推测解码的需要，又能最大化硬件利用率。

内存访问优化也是加速内核的重要组成部分。研究团队设计了一个巧妙的两级循环结构：外循环遍历激活的专家，内循环处理批量的矩阵乘法。这种设计能够最大化内存访问的局部性，减少昂贵的内存传输开销。

八、局限性与未来展望：诚实面对挑战

尽管BlockFFN取得了显著的成功，但研究团队也诚实地承认了当前方法的局限性。这种科学的态度体现了严谨的研究精神，也为未来的改进指明了方向。

当前BlockFFN的一个主要限制是它主要针对端侧部署进行了优化。虽然这使得它在资源受限的环境中表现出色，但在大规模云端部署中，传统的专家并行等技术可能仍然有其优势。研究团队认为，未来的工作需要探索如何将BlockFFN的优势扩展到更大规模的部署环境中。

另一个需要关注的问题是模型规模的扩展性。虽然研究团队在多个模型规模上验证了BlockFFN的有效性，但对于更大规模的模型（如数千亿参数的模型），BlockFFN的表现还需要进一步验证。特别是在超大规模模型中，专家的数量和维度都会显著增加，这可能会对路由策略和训练目标提出新的挑战。

在推测解码的结合方面，当前的实现主要针对EAGLE-2算法进行了优化。虽然这种结合取得了很好的效果，但其他推测解码算法可能有不同的特性和需求。未来的研究需要探索BlockFFN与其他推测解码方法的兼容性，以及如何进一步优化这种结合。

训练效率也是一个需要改进的方面。虽然BlockFFN在推理阶段表现出色，但其训练过程由于引入了额外的训练目标，可能会比传统方法稍慢。研究团队正在探索如何通过更好的训练策略和优化技术来提高训练效率。

九、对产业界的深远影响：改变游戏规则的技术

BlockFFN的成功不仅仅是学术研究的突破，它对整个AI产业都具有深远的影响。这种影响可以从多个维度来理解。

首先，BlockFFN大大降低了在端侧设备上部署大型AI模型的门槛。传统上，强大的AI模型只能在配备高端GPU的服务器上运行，这限制了AI技术的普及和应用。BlockFFN的3.67倍加速使得许多原本无法在移动设备上运行的AI应用变成了可能。这就像是将原本只能在大型工厂中使用的设备小型化，使其能够在家庭作坊中使用。

对于AI芯片制造商来说，BlockFFN提供了一种新的设计思路。传统的AI芯片设计往往需要在计算能力和功耗之间进行权衡，而BlockFFN的稀疏性特性使得芯片设计者可以通过优化稀疏计算来实现更好的性能功耗比。这可能会催生新一代专门为稀疏计算优化的AI芯片。

对于软件开发者来说，BlockFFN开辟了新的应用可能性。许多原本因为性能限制而无法实现的AI应用现在变得可行。例如，实时的多语言翻译、复杂的图像理解、智能的语音助手等应用都可以在普通的移动设备上流畅运行。

从成本角度来看，BlockFFN的效率提升直接转化为运营成本的降低。对于云服务提供商来说，3.67倍的加速意味着他们可以用更少的硬件资源服务更多的用户。这种效率提升的经济价值是巨大的，特别是在AI服务规模不断扩大的今天。

BlockFFN也为AI模型的民主化做出了贡献。通过降低部署门槛，它使得更多的研究者和开发者能够访问和使用强大的AI模型。这种技术的普及可能会加速AI研究的进展，并催生更多创新的应用。

环境影响也是一个重要的考虑因素。AI模型的训练和部署消耗大量的电力，这对环境造成了压力。BlockFFN的效率提升意味着更少的能源消耗，这对于构建可持续的AI生态系统具有重要意义。

十、结论：开启AI效率革命的新篇章

回顾整个研究，BlockFFN的成功可以说是多个技术创新的完美结合。从ReLU激活的路由器设计到RMSNorm的引入，从块级稀疏性感知训练到创新的加速内核，每一个组件都经过了精心的设计和优化。

这项研究的价值不仅在于它解决了当前AI部署中的实际问题，更在于它为未来的研究开辟了新的方向。BlockFFN证明了通过巧妙的架构设计和训练策略，我们可以在保持模型性能的同时大幅提高效率。这种思路对于未来的AI系统设计具有重要的启发意义。

从技术角度来看，BlockFFN的成功表明了稀疏性在AI系统中的巨大潜力。传统的密集计算模式虽然简单直观，但在效率上存在明显的局限。BlockFFN通过充分利用激活稀疏性，展示了一种全新的计算范式。

对于普通用户来说，BlockFFN的影响将是渐进但深远的。随着这种技术的普及，我们可能会看到更多智能、更快速、更节能的AI应用出现在我们的日常生活中。手机上的AI助手将变得更加智能，智能家居系统将更加响应迅速，自动驾驶汽车将能够进行更复杂的实时决策。

从研究方法论的角度来看，BlockFFN的成功也体现了跨学科合作的重要性。这项研究不仅涉及机器学习理论，还涉及系统优化、硬件设计、数值计算等多个领域。这种综合性的研究方法为解决复杂的技术问题提供了有效的途径。

展望未来，BlockFFN只是AI效率革命的开始。随着更多研究者加入到这个领域，我们有理由相信，未来的AI系统将变得更加高效、更加智能、更加普及。这种技术进步最终将惠及每一个人，让AI技术真正成为改善人类生活的工具。

说到底，BlockFFN的成功告诉我们一个重要的道理：创新往往来自于对现有技术的深入理解和巧妙的重新组合。研究团队并没有发明全新的技术组件，而是通过对现有技术的深入分析和创新性结合，创造出了一个强大的新系统。这种创新模式对于其他研究者来说是极具启发性的，它表明了在当前技术基础上仍然存在巨大的创新空间。

这项研究也提醒我们，技术创新不能仅仅停留在理论层面，还需要在实际应用中得到验证。BlockFFN的成功很大程度上归功于研究团队对实际部署需求的深入理解和对工程实现的精心优化。这种理论与实践相结合的研究方法值得其他研究者借鉴。

最后，BlockFFN的开源发布体现了学术界的开放精神。通过将代码和模型权重公开，研究团队为整个社区的发展做出了贡献。这种开放的态度将加速技术的传播和应用，让更多的人能够从这项创新中受益。有兴趣的读者可以通过访问https://github.com/thunlp/BlockFFN来获取完整的代码实现和预训练模型，进一步探索这项激动人心的技术。

Q&A

Q1：BlockFFN是什么？它与传统AI模型有什么区别？ A：BlockFFN是清华大学开发的一种新型AI架构，就像智能的模块化工厂，能根据任务需求选择性激活不同部分。与传统模型每次都启动全部组件不同，BlockFFN只激活必要的"专家"，从而大幅提高效率。它实现了80%以上的稀疏性，在保持性能的同时速度提升3.67倍。

Q2：BlockFFN能在普通手机上运行吗？会不会很耗电？ A：是的，BlockFFN专为端侧设备优化设计，能在普通手机、平板等设备上高效运行。由于其高稀疏性设计，实际上更省电。研究显示它能将原本需要1小时的AI任务缩短到16分钟，这意味着用户可以在移动设备上享受更快速、更节能的AI服务。

Q3：这项技术什么时候能普及？会对哪些应用产生影响？ A：BlockFFN已经开源，开发者可以立即使用。预计会首先在智能助手、实时翻译、图像识别等移动应用中普及。长期来看，它将推动AI技术在智能家居、自动驾驶、医疗诊断等领域的广泛应用，让强大的AI能力真正走进每个人的日常生活。

混合专家模型稀疏激活端侧推理

分享至