这项由ByteDance Seed的华凯、吴史蒂文、张戈和沈科领导的研究发表于2025年5月的arXiv预印本平台,论文编号为arXiv:2505.07293v1。有兴趣深入了解的读者可以通过https://arxiv.org/abs/2505.07293访问完整论文。
在人工智能的世界里,训练一个聪明的大型语言模型就像培养一个博学的学者。你需要给它喂养大量高质量的"精神食粮"——也就是训练数据。但是,在浩如烟海的网络文本中,如何挑选出真正有营养的内容呢?传统的做法就像雇佣一群专家来逐一审阅每篇文章,不仅费时费力,还容易带有主观偏见。
现在,ByteDance Seed的研究团队提出了一个颠覆性的想法:为什么不让AI自己来当"质检员"呢?更令人惊讶的是,他们发现一个小巧的13亿参数模型竟然能够为70亿参数的大模型挑选出优质的训练素材,这就像让一个小学生为大学教授筛选学习资料一样不可思议。
这项研究的核心创新在于一种名为"AttentionInfluence"的方法。这个方法的巧妙之处在于,它不需要任何人工标注或者更大模型的指导,完全依靠模型内部的"注意力机制"来判断数据质量。你可以把注意力机制想象成人脑的聚焦能力——当我们阅读一篇文章时,大脑会自动关注最重要的词句。研究团队发现,那些能够激活模型"检索头"(一种特殊的注意力组件)的文本往往包含更丰富的推理内容。
研究团队在包含2410亿个词汇的SmolLM语料库上进行了实验。他们首先用13亿参数的小模型为每个文本样本打分,然后挑选出得分最高的20%内容,大约730亿个词汇。接下来,他们用这些精选数据加上原始语料库一起训练了一个70亿参数的模型,训练总量达到1万亿个词汇。
实验结果令人振奋。在多项基准测试中,使用AttentionInfluence筛选数据训练的模型表现显著优于基准模型。特别是在需要复杂推理的任务上,改进幅度达到了1.4到3.5个百分点。这在AI领域是相当可观的提升,就像一个学生的考试成绩从85分提高到88.5分一样显著。
这项研究不仅在技术层面取得了突破,更重要的是它展示了"弱到强"的泛化能力。传统观念认为,要训练出更强的模型,就需要更强的老师。但这项研究证明,一个相对较小的模型也可以为更大的模型提供有价值的指导,这为AI训练开辟了一条新的道路。
一、小模型的大智慧:注意力机制如何成为数据质量的判官
在深入了解AttentionInfluence方法之前,我们需要先理解什么是注意力机制。如果把语言模型比作一个正在阅读的人,那么注意力机制就是这个人的聚焦能力。当我们阅读"小明吃了一个苹果"这句话时,大脑会自动识别出"小明"是主语,"吃"是动作,"苹果"是宾语,并在理解过程中给予不同程度的关注。
研究团队发现,在众多注意力组件中,有一类被称为"检索头"的特殊结构扮演着关键角色。这些检索头就像图书馆的索引系统,能够在需要时快速定位和提取相关信息。当一个文本包含复杂的推理链条或者需要在文章不同部分之间建立联系时,检索头会变得特别活跃。
AttentionInfluence方法的工作原理相当巧妙。研究团队首先让小模型处理每个文本样本,记录此时的损失值(可以理解为模型的"困惑程度")。然后,他们有意"关闭"模型中的检索头,再次处理同样的文本,记录新的损失值。两次损失值的差异就成为了判断文本质量的关键指标——差异越大,说明这个文本越依赖复杂的推理能力,质量也就越高。
这个过程就像测试一个学生的理解能力。正常情况下,学生可以调动所有的认知资源来理解一篇文章。如果我们限制他的某些思维能力(比如不允许他联想和推理),然后观察理解效果的下降程度,就能判断这篇文章的复杂程度。那些在限制条件下理解效果下降最明显的文章,往往包含最丰富的推理内容。
为了识别这些重要的检索头,研究团队设计了一个巧妙的测试任务。他们构建了800个合成样本,每个样本都包含一个JSON格式的"密码本"和一个查询任务。模型需要根据给定的键值找到对应的内容,这就像在一本词典中查找特定词汇的定义。通过观察哪些注意力头在这个任务中表现最活跃,研究团队成功识别出了负责信息检索的关键组件。
有趣的是,研究团队还发现了一个"镜像效应"。当某个任务因为屏蔽检索头而表现下降时,用AttentionInfluence筛选的数据训练出的大模型往往在该任务上表现更好。这就像一个反向的诊断系统——小模型的"弱点"恰恰指向了大模型的"强项"。
二、数据选择的艺术:从海量文本中淘出真金
在AI训练的世界里,数据就是燃料,而数据质量则决定了最终模型的性能上限。传统的数据筛选方法主要依赖两种策略:要么使用预设的规则和启发式方法,要么训练专门的分类器来识别高质量内容。
第一种方法就像使用筛子淘金,虽然简单直接,但往往过于粗糙。比如,简单地根据文本长度、语法错误数量或特定关键词的出现频率来判断质量,这种方法容易遗漏那些语言简洁但内容深刻的文本,也可能误选那些冗长但实际价值不高的内容。
第二种方法则像训练专业的鉴定师。研究者会先收集一批高质量的种子数据,然后训练一个分类器来学习这些数据的特征,最后用这个分类器去筛选更大规模的数据集。这种方法的准确性更高,但也存在明显的局限性:训练分类器需要大量的人工标注,成本高昂;而且分类器往往带有特定的偏见,可能会过度偏向某种风格或主题的内容。
AttentionInfluence方法的革命性在于它完全跳出了这两种传统思路。它不依赖人工制定的规则,也不需要预先标注的训练数据,而是直接利用语言模型内部的"直觉"来判断数据质量。这就像让一个有经验的读者凭借阅读时的"感觉"来判断文章质量,而不需要明确的评判标准。
在具体实验中,研究团队选择了SmolLM语料库作为测试平台。这个语料库包含四个主要部分:FineWeb-Edu-Dedup(1933亿词汇)、Cosmopedia-V2(279亿词汇)、Python-Edu(38亿词汇)和OpenWebMath(133亿词汇)。每个部分都有不同的特色:教育内容、合成对话、编程代码和数学公式。
研究团队让13亿参数的小模型对每个文本片段进行"体检"。正常情况下,模型处理这些文本时会产生一个损失值。然后,研究团队故意"束缚"住模型的检索头,让它在受限状态下重新处理同样的文本。两次处理的损失差异就成为了质量评分的依据。
令人惊讶的是,这种看似简单的方法选出的数据表现出了明显的质量优势。通过人工评估和自动化分析,研究团队发现AttentionInfluence倾向于选择那些内容更长、结构更复杂、推理链条更丰富的文本。比如在编程教育领域,它会偏向那些不仅包含代码,还包含详细解释和问题描述的样本;在数学领域,它会选择那些包含完整推导过程而非仅仅给出答案的内容。
更有趣的是,AttentionInfluence的选择偏好与传统分类器存在明显差异,但两者之间又有一定的互补性。传统分类器可能更关注语言的规范性和主题的相关性,而AttentionInfluence更看重内容的推理深度和结构复杂性。这种差异性为数据筛选提供了新的维度,也为未来的混合方法奠定了基础。
三、实验验证:小模型指导大模型的惊人效果
为了验证AttentionInfluence方法的有效性,研究团队设计了一个全面的实验方案。他们使用筛选出的730亿词汇数据,结合原始的2410亿词汇语料库,训练了一个70亿参数的语言模型。整个训练过程使用了1万亿个词汇,采用了WSD(Warmup-Stable-Decay)学习率调度策略。
训练过程就像培养一个学生,分为三个阶段。首先是"热身"阶段,占总训练时间的0.1%,就像学生刚开始学习时需要逐步适应;然后是"稳定"阶段,占75%的时间,这是主要的学习期;最后是"衰减"阶段,占24.9%的时间,就像期末复习,巩固所学知识。
实验结果令人振奋。在四大类共18个基准测试中,使用AttentionInfluence筛选数据训练的模型几乎全面超越了基线模型。这些测试涵盖了知识问答、数学推理、代码生成、常识理解等多个方面,就像对一个学生进行全科考试。
在知识密集型任务中,改进最为显著。MMLU(大规模多任务语言理解)测试成绩提升了1.4个百分点,从50.05%提高到51.48%;MMLU-Pro(更具挑战性的版本)提升了2.7个百分点;AGIEval-en(通用智能评估)提升了1.8个百分点。这些提升看似微小,但在AI领域,每一个百分点的改进都代表着巨大的技术进步。
在数学和代码推理任务中,效果更加令人印象深刻。GSM8K(小学数学问题)的准确率从21.00%跃升到23.73%,提升了2.7个百分点;HumanEval(代码生成能力)从23.02%提高到26.55%,提升了3.5个百分点;BBH(大型基准挑战)也有0.9个百分点的改进。这些结果表明,AttentionInfluence确实能够识别并筛选出有助于提高模型推理能力的高质量数据。
更有说服力的是训练过程中的动态表现。研究团队追踪了整个训练过程中模型在各项任务上的表现变化。结果显示,使用AttentionInfluence筛选数据的模型从训练早期(约1000亿词汇后)就开始显示出优势,并且这种优势在整个训练过程中保持稳定。这就像两个学生同时开始学习,其中一个从一开始就使用了更好的教材,不仅起点更高,而且差距随着学习的深入而进一步扩大。
训练损失的对比也很有说服力。使用AttentionInfluence数据的模型在整个训练过程中都保持着较低的损失值,这意味着它能够更好地理解和预测文本内容。这种持续的优势表明,数据质量的提升不是偶然现象,而是一种系统性的改进。
四、深度分析:为什么小模型能够指导大模型
AttentionInfluence方法的成功提出了一个令人深思的问题:为什么一个相对较小的模型能够为更大的模型选择合适的训练数据?这种现象挑战了我们对AI能力的传统认知,也为未来的研究开辟了新的方向。
答案的关键在于"检索头"的特殊性质。研究团队发现,这些检索头在模型训练的早期就开始出现,并且随着训练的进行而逐步强化。即使是13亿参数的小模型,其检索头也已经具备了识别复杂推理模式的基本能力。这就像一个有经验的图书管理员,虽然知识储备可能不如教授丰富,但在识别哪些书籍包含有价值信息方面却有着敏锐的直觉。
研究团队通过对比实验进一步验证了这一发现。他们比较了随机屏蔽非检索头与屏蔽检索头的效果差异。结果显示,屏蔽检索头会显著降低模型在推理任务上的表现,而随机屏蔽其他注意力头的影响则相对较小。这证明了检索头确实承担着特殊的功能,它们是模型推理能力的核心组件。
更令人惊喜的是,研究团队还测试了使用70亿参数模型进行数据筛选的效果。结果表明,更大的模型确实能够选出质量更高的数据,训练出的最终模型在某些任务上表现更佳。这验证了方法的可扩展性:随着筛选模型规模的增大,数据质量会进一步提升。
这种"弱到强"的泛化能力在AI领域具有重要意义。它表明,我们不一定需要最强大的模型来指导训练过程,相对较小但设计合理的模型同样可以发挥重要作用。这为降低AI训练成本、提高训练效率开辟了新的可能性。
研究团队还发现了一个有趣的"镜像效应"。当他们分析哪些任务在屏蔽检索头后表现下降最明显时,发现这些任务恰恰是使用AttentionInfluence筛选数据训练的大模型表现提升最显著的任务。这种现象就像一个诊断工具,小模型的"弱点"精确地预测了大模型的"强项"。这不仅验证了方法的有效性,也为我们理解不同规模模型之间的关系提供了新的视角。
五、数据分析的惊人发现:AI选择的数据有何特别之处
为了深入理解AttentionInfluence到底选择了什么样的数据,研究团队进行了多维度的分析。他们使用GPT-4o作为评估工具,从教育价值和推理强度两个维度对筛选出的数据进行评分。
结果显示,AttentionInfluence选择的数据在推理强度方面显著优于传统分类器的选择。具体来说,在不同的数据领域中,AttentionInfluence的推理评分都明显更高。比如在FineWeb-Edu-Dedup领域,推理评分为0.49,而传统分类器只有0.52;在Python-Edu领域,差距更加明显,AttentionInfluence达到0.87,传统分类器只有0.76。
更有趣的是文本长度的差异。AttentionInfluence明显偏爱更长的文本,特别是在Python-Edu和OpenWebMath领域,选择的样本平均长度几乎是传统分类器的两倍。这并不意味着"越长越好",而是反映了AttentionInfluence对内容完整性和深度的偏好。
通过具体案例分析,这种偏好变得更加清晰。在编程教育领域,AttentionInfluence倾向于选择那些不仅包含代码实现,还包含详细问题描述、解题思路和代码注释的完整样本。相比之下,传统分类器可能更关注代码的语法正确性和主题相关性,而忽略了上下文的完整性。
在数学领域,差异同样明显。AttentionInfluence选择的样本往往包含完整的数学推导过程,从问题陈述到解题步骤,再到最终答案,形成一个完整的逻辑链条。而传统分类器可能会选择那些格式规范但推理过程相对简单的内容。
研究团队还进行了词频分析,发现两种方法在词汇偏好上存在有趣的差异。AttentionInfluence更偏爱与方法论相关的词汇,如"sklearn"(机器学习库)、"method"(方法)、"procedure"(程序)等,这反映了它对程序性知识的偏好。而传统分类器则更关注数值表达和历史性描述,如"19th"(19世纪)、"dimensional"(维度)等。
为了更直观地展示差异,研究团队使用聚类分析将选定的数据分组,并用GPT-4o为每个集群生成描述性标签。结果显示,AttentionInfluence选择的数据在主题分布上更加均衡,而传统分类器则在某些特定主题上过度集中。这种均衡性对于训练通用语言模型非常重要,因为它确保了模型能够接触到多样化的知识领域。
通过主成分分析(PCA)可视化,两种方法选择的数据在特征空间中呈现出不同的分布模式。AttentionInfluence的选择更加分散和均匀,覆盖了更广泛的语义空间,而传统分类器的选择则相对集中在某些特定区域。这种差异表明,两种方法具有很好的互补性,未来可能可以结合使用以获得更好的效果。
六、技术细节:如何让小模型成为大模型的良师
AttentionInfluence方法的技术实现虽然概念简单,但在实际操作中涉及多个精心设计的步骤。整个过程可以分为两个主要阶段:检索头识别和影响力评分计算。
检索头识别阶段的关键在于设计一个合适的代理任务。研究团队构建了800个合成测试样本,每个样本包含一个JSON格式的上下文和一个查询任务。上下文中包含多个键值对,其中键是随机生成的32字符字母数字串,值是从网络文档中采样的自然语言句子。模型需要根据给定的查询键找到对应的值,这个任务完美地模拟了信息检索的本质。
为了确保测试的可控性,研究团队限制了每个样本的总长度不超过4096个词汇,这样可以避免因文本长度差异而产生的干扰。同时,他们采用了3-shot的设置,即为每个查询提供三个示例,帮助模型理解任务格式。
在检索头识别过程中,研究团队计算每个注意力头的检索评分。这个评分基于注意力头执行"复制粘贴"操作的能力。具体来说,当模型生成一个词汇时,如果某个注意力头将最高注意力权重分配给了上下文中包含该词汇的位置,就被认为执行了一次复制操作。检索评分就是成功复制次数与总词汇数的比例。
通过对所有测试样本计算平均检索评分,研究团队识别出得分最高的5%注意力头作为检索头。这个比例是经过实验调优的,既能够识别出最关键的检索组件,又避免了过度选择导致的性能下降。
影响力评分计算阶段则相对直接。对于语料库中的每个文本样本,研究团队首先使用完整的模型计算其交叉熵损失,然后在屏蔽检索头的条件下重新计算损失。两个损失值的相对差异就是该样本的AttentionInfluence评分。具体公式为:评分 = (屏蔽后损失 - 原始损失) / 原始损失。
屏蔽操作的技术细节也很重要。研究团队采用的是"注意力权重均匀化"策略,即将被屏蔽的注意力头的权重设置为均匀分布,而不是简单地置零。这样做的好处是避免了信息的完全丢失,同时确保了屏蔽效果的可控性。
为了处理不同领域数据的差异,研究团队将评分计算限制在同一领域内进行比较。这是因为不同领域的文本(如数学公式与日常对话)在损失分布上存在显著差异,直接比较可能会产生偏差。通过领域内比较,确保了评分的公平性和有效性。
在实际应用中,研究团队选择了评分最高的20%样本作为高质量数据。这个比例是在效果和效率之间的平衡选择,既能够获得足够的数据量来训练大模型,又确保了数据质量的显著提升。
七、验证与对比:多角度证明方法的有效性
为了全面验证AttentionInfluence方法的有效性,研究团队设计了多层次的验证实验。这些实验不仅证明了方法的核心效果,还深入分析了其工作机制和适用范围。
首先是与传统方法的直接对比。研究团队将AttentionInfluence与FineWeb-Edu分类器进行了详细比较。FineWeb-Edu分类器是一个经过精心训练的文本质量评估工具,广泛用于教育内容的筛选。通过对比两种方法选择的数据,研究团队发现了明显的差异和互补性。
在词汇重叠度分析中,两种方法在不同领域的一致性差异很大。在FineWeb-Edu-Dedup和Cosmopedia-v2领域,重叠度超过70%,显示出较高的一致性;但在Python-Edu和OpenWebMath领域,重叠度低于60%,表明两种方法在这些技术性更强的领域中有着不同的选择偏好。
研究团队还进行了消融实验,比较了屏蔽检索头与随机屏蔽非检索头的效果。结果显示,屏蔽检索头会导致模型在推理密集型任务上的性能显著下降,而随机屏蔽其他注意力头的影响相对较小。这个对比实验强有力地证明了检索头的特殊重要性,也验证了AttentionInfluence方法的理论基础。
为了测试方法的可扩展性,研究团队还使用70亿参数的模型进行了数据筛选实验。结果表明,更大的筛选模型确实能够选出质量更高的数据,最终训练出的模型在多个基准测试中表现更佳。这证明了AttentionInfluence不是一个固定的方法,而是一个可以随着计算资源增加而持续改进的框架。
在数据质量的人工评估中,研究团队使用GPT-4o对随机采样的200个样本进行了双盲评估。评估维度包括教育价值和推理强度两个方面。结果显示,AttentionInfluence在推理强度方面的评分明显更高,而在教育价值方面与传统方法相当。这个结果符合方法的设计初衷,也验证了其在识别推理密集型内容方面的有效性。
研究团队还分析了训练过程中的动态表现。通过追踪模型在不同训练阶段的表现变化,他们发现使用AttentionInfluence数据的模型从训练早期就显示出优势,这种优势在整个训练过程中保持稳定,甚至在学习率衰减阶段仍然存在。这种持续的优势表明,数据质量的提升带来的是系统性而非偶然性的改进。
最后,研究团队还测试了方法在不同模型架构上的适用性。虽然主要实验基于LLaMA2架构,但初步测试表明,AttentionInfluence在其他Transformer架构上也显示出类似的效果。这种架构无关性大大扩展了方法的应用范围。
八、实际应用与未来展望:改变AI训练的游戏规则
AttentionInfluence方法的成功不仅仅是一个技术突破,更重要的是它为AI训练领域带来了新的思路和可能性。这种方法的实用价值体现在多个方面,同时也为未来的研究指明了方向。
从成本效益的角度来看,AttentionInfluence具有显著优势。传统的数据筛选方法通常需要大量的人工标注或者训练专门的分类器,这些过程不仅耗时耗力,还需要领域专家的参与。相比之下,AttentionInfluence只需要一个相对较小的预训练模型和适量的计算资源,就能够处理大规模的数据筛选任务。
这种效率优势在处理多语言或特定领域数据时尤为明显。传统方法需要为每种语言或每个领域单独训练分类器,而AttentionInfluence可以直接应用于任何预训练模型能够处理的文本,大大降低了适应新领域的成本。
从数据质量的角度来看,AttentionInfluence展现了独特的价值。它不是简单地复制人类的判断标准,而是基于模型内部的"理解"来评估数据质量。这种方法能够发现那些人类可能忽视但对模型训练有价值的数据模式,也能够避免人类偏见对数据选择的影响。
研究团队还发现,AttentionInfluence与传统方法具有很好的互补性。两种方法选择的数据在特征空间中分布不同,这意味着它们可以结合使用以获得更全面的数据覆盖。未来的研究可能会探索如何最优地组合不同的筛选方法,实现数据质量的进一步提升。
在扩展性方面,AttentionInfluence显示出良好的潜力。研究表明,使用更大的筛选模型可以获得更好的数据选择效果,这为方法的持续改进提供了清晰的路径。随着计算资源的增加和模型技术的发展,AttentionInfluence的效果有望进一步提升。
方法的模块化设计也为未来的创新留下了空间。通过设计不同的代理任务,研究者可以针对特定的能力(如数学推理、代码理解、常识判断等)来筛选相应的训练数据。这种针对性的数据选择可能会为专门领域的AI模型带来更大的性能提升。
当然,AttentionInfluence方法也存在一些局限性。目前的实验主要集中在相对较小的模型和有限的训练规模上,在更大规模的应用中是否仍然有效还需要进一步验证。此外,方法对于非常长的文本的处理能力还有待考察,因为当前的实验主要基于中等长度的文本样本。
研究团队也指出了几个值得进一步探索的方向。首先是检索头之外的其他注意力机制的作用,以及不同类型注意力头的协同效应。其次是方法在后训练阶段(如强化学习)的应用潜力。最后是如何将AttentionInfluence扩展到多模态数据的筛选中。
说到底,AttentionInfluence代表了一种新的思维方式:让AI系统参与到自己的改进过程中。这种"自举"式的改进机制可能会成为未来AI发展的一个重要趋势,不仅在数据筛选领域,在模型架构设计、训练策略优化等方面也可能发挥重要作用。
随着这项技术的进一步发展和应用,我们有理由相信,AI训练的效率和效果都将得到显著提升,这将加速人工智能技术的普及和应用,最终惠及更广泛的用户群体。研究团队已经公开了他们的方法和代码,这将鼓励更多研究者参与到这一领域的探索中,共同推动技术的发展和完善。
对于想要深入了解这项技术的读者,建议访问原论文获取完整的技术细节和实验数据。这项研究不仅在技术层面具有重要价值,也为我们理解AI系统的内在机制提供了新的视角,值得所有对人工智能感兴趣的人关注和学习。
Q&A
Q1:AttentionInfluence是什么?它和传统的数据筛选方法有什么不同? A:AttentionInfluence是一种让小AI模型为大模型挑选训练数据的新方法。传统方法需要人工标注或训练专门的分类器,成本高且容易有偏见。而AttentionInfluence完全不需要人工指导,它通过观察模型内部的"注意力机制"来判断数据质量,就像让AI凭借自己的"直觉"来选择好的学习材料。
Q2:为什么小模型能够指导大模型?这听起来很反直觉。 A:关键在于小模型中的"检索头"已经具备了识别复杂推理的基本能力。就像一个有经验的图书管理员,虽然知识储备不如教授,但在识别哪些书籍有价值方面很有直觉。研究发现,这些检索头在模型训练早期就出现了,即使是13亿参数的小模型也能有效识别高质量的推理内容。
Q3:使用AttentionInfluence筛选的数据训练出的模型效果如何? A:效果非常显著。在18个基准测试中,使用这种方法的模型几乎全面超越了传统方法。特别是在需要推理的任务上,比如数学问题解决提升了2.7%,代码生成能力提升了3.5%。这些提升在AI领域是相当可观的进步,而且从训练早期就显示出优势并持续保持。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。