微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

人工智能联想记忆新型适配算法

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

作者：科技行者

2026-05-20 17:03

分享至：

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-20 17:03 • 科技行者

这项由浙江大学、西湖大学、上海第二工业大学及清华大学联合开展的研究，以预印本形式于2026年5月发布，论文编号为arXiv:2605.04651，题为《FAAST：基于闭合形式快速权重的前向联想学习用于测试时监督适配》。有兴趣深入研究的读者可通过上述编号在arXiv平台上检索到完整论文。

当你用手机上的地图软件导航去一个陌生地方，软件并不需要从零开始学习所有道路——它只需要根据你当前的位置，快速调用已有的地图信息，给出一条合适的路线。这个过程又快又省电，而不是每次导航都要重新训练整个地图系统。AI模型的"任务适配"问题，本质上和这件事非常相似：一个已经训练好的大模型，如何快速、低成本地适应一个新任务？这正是这篇论文要解决的核心问题。

研究团队观察到，当前主流的AI适配方式陷入了一个两难困境。一种方式叫"反向传播微调"，相当于每换一项新任务，就要把整个系统重新训练一遍，耗时耗力，就像每次做一道新菜，都要重新购置厨房设备。另一种方式叫"基于记忆或上下文的适配"，包括把范例直接塞进模型的"视野"（即上下文），或者建立一个巨大的外部参考库随时查阅，这相当于随身带着一本厚重的食谱书，每做一道菜都要翻书找答案，既占地方又费时间。两种方式各有代价，前者训练成本高，后者推理成本高。

这支研究团队提出了第三条路，他们将其命名为FAAST，即"基于谱变换的前向联想适配"。其核心思路是：既不重复训练整个模型，也不在推理时随身携带大量范例，而是像一位经验丰富的厨师——在烹饪之前，只需浏览一遍食谱，在脑海中形成一套烹饪逻辑（也就是"快速权重"），之后做菜时完全凭这套内化的逻辑操作，既不需要反复翻书，也不需要重新学厨艺。

一、为什么现有方法都不够用

要真正理解FAAST的价值，先得搞清楚现有方法的瓶颈在哪里。以反向传播微调为代表的训练类方法，其工作原理像是让一个学生反复做错题本，每次做错一道题，就在整个大脑里留下一条修正的痕迹，这个过程不仅需要大量计算资源，还需要维护复杂的"优化器状态"，相当于学生还要随时记录自己每道题的错误历史。即便是LoRA这样的参数高效微调方法，虽然只训练模型中的一小部分参数，本质上仍然依赖这套繁琐的错题本机制，只是错题本薄了一点而已。

记忆类方法和上下文学习方法走了另一条路。kNN-LM（一种基于最近邻检索的语言模型增强方法）会把训练集中所有样本的中间表示都存起来，推理时对每一个新输入都去这个巨大的参考库里搜索最相似的条目。上下文学习（ICL）则是把示例直接塞进模型的输入序列，让模型在做题时"抄参考答案"。这两种方式的问题在于，随着样本数量的增加，推理时需要查询或处理的信息量线性增长——就像一个厨师，菜单上每多一道菜，他就多带一本食谱，最终背着几十本书进厨房，寸步难行。研究团队计算了一个极端案例：如果用上下文学习处理WikiText-103语言模型任务的全部训练集，理论上需要约29TB的显存来存储上下文缓存，这对任何现实硬件都是无法承受的。

正是这个观察——现有方法要么训练代价高，要么推理代价高——催生了FAAST的设计动机。

二、联想记忆：大脑如何记住"配对关系"

FAAST的核心灵感来自一个古老但强大的概念：联想记忆。这个概念最早由神经科学家赫布（Donald Hebb）在1949年提出，核心思想是"一起激活的神经元，会连接在一起"。通俗地说，当你每次想到"苹果"就同时想到"红色"，久而久之你的大脑就在这两个概念之间建立了一条强烈的联想通路。

FAAST将这个思路数学化了。在适配任务中，模型已经能够把输入（比如一张图片或一段文字）转换成一个高维向量表示，这个过程由预训练的编码器负责，且在适配过程中保持完全冻结——就像厨师已经有了识别食材的本能，这种本能不需要改变。同样，输出（比如类别标签或目标文字）也可以通过预训练的编码器转换成向量。于是，每一个训练样本就变成了一对"键-值对"：键是输入向量，值是输出向量。

适配任务的本质，就变成了找到一个线性映射矩阵W，使得对任意键向量乘以W，都能得到与对应值向量尽可能接近的结果。这就是一个标准的线性回归问题。而线性回归最美妙的地方在于，它有封闭形式的解析解——不需要反复迭代，不需要优化器，只需要一次数学计算就能得到最优答案。这个解就是键矩阵的Moore-Penrose伪逆乘以值矩阵，用符号表示为W? = K+V。这个矩阵就是所谓的"快速权重"，它将所有样本的联想信息以最优方式压缩进了一个固定大小的矩阵里。

三、从数学到实践：如何把快速权重嵌入神经网络

得到快速权重只是第一步，如何把它融入已有的预训练模型才是工程上的关键。研究团队设计了两种集成方案，分别针对图像分类模型和大型语言模型。

对于图像分类任务，集成方式相当直接。以CLIP模型为例，它的图像编码器和文本编码器已经能生成高质量的向量表示。FAAST模块把训练样本的图像向量作为键、对应类别的文字向量作为值，一次性计算出快速权重矩阵W?。在推理时，新图片经过编码器得到向量后，直接乘以W?就能预测出类别，整个过程没有任何记忆查询，也没有任何梯度计算，计算量与样本数量完全无关。此外，为了让快速权重与模型原有的预训练知识平滑融合而非粗暴替换，团队采用了线性插值的方式，用一个与训练样本数量相关的权重系数，在原有的预训练投影矩阵和新计算的快速权重之间做加权平均。随着训练样本越来越多，模型会自然地从"依赖原有知识"过渡到"以新任务为主"。

对于大型语言模型，集成方式更加精巧。在语言模型中，键和值不是来自外部标签，而是来自序列本身：一个位置的隐藏状态向量作为键，下一个位置的隐藏状态向量作为值，这样每个位置都在告诉模型"看到这个上下文之后，接下来应该出现什么"。这些键值对在时间轴上累积，跨越所有层，每一层都有自己独立的快速权重矩阵W?_l。在推理时，当前位置的隐藏状态乘以快速权重，再经过一个轻量级的"读出投影"矩阵，通过残差连接加回原始隐藏状态，从而以一种温和、不破坏原有层间拟合的方式注入记忆信息。这个读出投影初始化为零矩阵，确保在刚开始时不干扰原始模型的行为，之后在多样化文本上预训练，学会如何正确解读快速权重中存储的信息。

考虑到不是所有的位置都值得被记住，团队还引入了一个轻量级的"重要性评分器"，它是一个对键值对的拼接向量做线性分类后接sigmoid激活的小模块，输出0到1之间的权重，在构建快速权重时对每个键值对的贡献进行加权，让记忆更专注于信息丰富的位置，忽略噪声。

四、谱过滤：在记住太多和记得太少之间找平衡

快速权重的计算依赖奇异值分解（SVD），这是一种把矩阵"拆解"成若干个独立成分的数学工具，每个成分有一个对应的"奇异值"表示其重要程度。大奇异值对应的成分捕捉的是数据中普遍存在的、可以泛化的模式，就像一道菜的基本烹饪逻辑；小奇异值对应的成分捕捉的是个别样本的特异性细节，就像某一次烹饪时厨师不小心多放了一克盐的记录。

当训练样本很少时，小奇异值主导的成分往往只是噪声，如果把它们也放大（伪逆运算会对奇异值取倒数，从而放大小奇异值对应的成分），就会导致模型"死记硬背"那几个样本，对新样本表现很差，这就是过拟合。相反，如果过于激进地裁掉所有小奇异值，模型又会丢失有用的细节，导致欠拟合。

研究团队的解决方案是谱过滤：设定一个相对阈值ε，将所有小于最大奇异值乘以ε的奇异值直接置零，不参与伪逆计算。这个阈值被设定为1/N^α，其中N是样本数量，α是一个反映任务复杂度的参数（默认为1）。这样，样本越多，阈值越小，保留的成分越多，模型越精细；样本越少，阈值越大，只保留最主要的成分，防止过拟合。这种机制比经典的岭回归（Ridge Regression，一种通过给所有参数加惩罚项来防止过拟合的方法）更有针对性，因为它直接操作的是对任务有意义的成分，而不是一刀切地压缩所有方向。

五、大规模数据的挑战：增量更新规则

现实任务中，数据量往往大得无法一次性全部存入内存。分类任务可能有百万级样本，语言模型任务可能有数百亿个词元。研究团队提出了一套增量更新规则来应对这个挑战。

核心思路是维护两个"充分统计量"矩阵S = K^T K和T = K^T V，每当新的一批数据到来，就对这两个矩阵做加法更新，然后用S的逆乘以T得到最新的快速权重W? = S^{-1}T。这个过程不需要保留历史样本，也不需要重新计算已处理过的部分，正向扫描一遍数据即可完成。更新S的逆可以利用Sherman-Morrison-Woodbury公式（一种数值代数中的高效更新技巧）高效完成，无需从头重新求逆。

从理论上可以证明，当两批数据对应的充分统计量相互正交或成比例于单位矩阵时，增量融合后的快速权重恰好等于两批权重的线性插值。这意味着FAAST天然支持多任务混合、持续学习等场景，不同任务的快速权重可以平滑融合，而不会出现"灾难性遗忘"（即学了新任务就忘了旧任务的现象）。

在语言模型的训练实践中，团队还引入了一个折扣因子（默认值0.9），在每次更新前对历史权重计数做衰减，防止早期用过时的读出投影计算出来的快速权重在后期仍然占据过高比重，影响整体性能。

六、伪逆注意力：连接FAAST与Transformer的桥梁

从另一个角度看，快速权重的推理过程可以被理解为一种特殊的注意力机制。标准的Transformer注意力机制在推理时通过softmax函数对所有键计算相似度权重，然后对对应的值做加权求和。这是一种"凸组合"操作，所有权重非负且求和为1，相当于只能"混合"已有记忆，不能"抵消"某些记忆。

伪逆注意力则不同。查询向量乘以伪逆矩阵得到的注意力权重可以为负数，这意味着某些键值对可以被主动"减去"，产生抑制效果。这种能力让FAAST能够表达更广泛的线性映射，而不仅仅是凸组合。研究团队从理论上证明，softmax注意力其实是伪逆注意力的一种"熵正则化松弛"——当softmax的温度参数趋向于零时，softmax注意力的结果会收敛到伪逆注意力的结果，前提是键矩阵满秩。这从理论上建立了FAAST与Transformer之间的深层联系：FAAST是Transformer注意力机制在无限压缩极限下的精确版本。

七、实验验证：图像分类任务的表现

研究团队在多个基准数据集上系统验证了FAAST的性能。图像分类实验以冻结的CLIP ResNet-50作为骨干网络，固定图像和文字编码器，仅比较不同的适配机制。测试数据集包括CIFAR-10（10类，5万训练图片，1万测试图片）和mini-ImageNet（100类中取20类，各6000张图片用于支持集和查询集）。

在5-shot设置（每类只有5张训练图片）下，FAAST在CIFAR-10上达到73.8%的准确率，在mini-ImageNet上达到88.6%，分别超过了反向传播训练的线性投影（71.9%和84.5%）以及kNN记忆检索（71.7%和87.1%）。在全量数据设置下，FAAST在CIFAR-10上达到86.7%，与线性投影（88.3%）相当，在mini-ImageNet上达到93.0%，同样接近线性投影（93.2%）的水平。值得一提的是，当类别标签被替换为完全无意义的WordNet ID（如"n02119789"这种机器码）时，CLIP零样本方法因为依赖语义对齐而崩溃到接近随机的6.4%准确率，而FAAST在这种设置下仍能达到85.1%的全量准确率，86.8%是最终结果，充分说明它的适配能力不依赖于预训练的语义先验。

在学习时间方面，FAAST在CIFAR-10上仅需38秒GPU时间，相比线性投影的568秒节省了93.3%；在mini-ImageNet上仅需3秒，相比全量微调的212秒节省了98.6%。在推理阶段，FAAST与线性投影同为O(dx·dy)的计算量，而kNN记忆方法的推理计算量随样本数线性增长到O(N·dx)，内存占用高达80MB，而FAAST只需4MB，节省95%。

八、实验验证：语言模型任务的表现

在语言模型任务上，研究团队以WikiText-103为测试数据集，在GPT-2系列（从117M到1.5B参数）上进行了全面测试。评估指标是困惑度（Perplexity，PPL），这个数值越低，说明模型对文本的预测越准确。

基础GPT2-XL（15亿参数）在零样本设置下的困惑度为17.41。加入FAAST后，即使读出投影只在通用文本（OpenWebText2的1%）上预训练，困惑度就能降到15.35，相对改善11.8%。当读出投影也在WikiText-103训练集上见过目标域数据时，困惑度进一步降到13.23，已经超过了反向传播训练的线性投影（13.60）和LoRA（13.57）。

相比之下，kNN-LM的困惑度为12.70，略优于FAAST，但代价是需要16小时GPU时间进行训练（FAAST仅需0.2小时，节省93.3%），推理时需要存储307GB的键值对缓存（FAAST仅需112MB，节省99.9%），推理速度也比FAAST慢约28倍（660秒对23秒）。理论上如果对WikiText-103全量数据使用上下文学习，需要约29TB显存，完全不可行，也印证了上下文学习在大规模数据场景的根本局限。

模型规模的增大对FAAST有一致的正向效果：GPT2-small的相对困惑度改善为5.8%，GPT2-medium为10.0%，GPT2-large为11.2%，GPT2-XL为11.8%，呈现出随模型规模增大而增强的规律，说明更强的预训练表示确实能为联想学习提供更好的基础。记忆层数的影响则呈边际递减规律：从1层增加到23层时困惑度持续下降，但47层与23层相比几乎没有改善，因此实践中对大模型设置为总层数的一半。

九、实验验证：文本分类和机器翻译的表现

在情感分类任务上，研究团队以GPT2-XL为骨干，在SST-2（67349训练/1821测试）和IMDB（25000训练/25000测试）上测试FAAST对比零样本推理和上下文学习（ICL）的性能，每次实验随机抽取5000条训练样本和5000条测试样本。

结果相当突出。在SST-2的1-shot设置下，ICL只有59.6%的准确率，而FAAST达到78.5%；5-shot时FAAST进一步提升到80.8%；全量数据时达到87.5%，超过GPT2-XL零样本基线的74.3%。IMDB数据集上同样如此，1-shot时FAAST达到86.7%，远超ICL的70.1%，全量数据时达到90.4%，超过零样本的85.7%。这组结果说明，在有标注数据可用的场景下，FAAST能从有限样本中提取出比上下文学习更多的有效信息。

机器翻译实验以Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct为基础模型，在IWSLT2017数据集的四个语言对（英德、德英、英法、法英）上测试，每个语言对使用5000条训练样本和5000条测试样本，评估指标为BLEU分数。FAAST在所有语言对和所有模型规模上均优于零样本和ICL基线。以Qwen2.5-3B为例，德英翻译全量BLEU从零样本的32.92提升到36.40，英法翻译从30.56提升到35.09，法英翻译从39.24提升到42.47，多个语言对提升超过3个BLEU分数点，这在机器翻译领域是相当显著的改进。

十、局限性与未来方向

研究团队对FAAST的局限性保持了诚实的态度。FAAST的效果高度依赖预训练编码器的质量——如果冻结的表示本身无法捕捉任务相关的特征，联想学习就无从施展。这就好比一个厨师如果完全不懂食材的味道，再好的配方逻辑也帮不上忙。因此，FAAST更适合于预训练模型表示已经足够丰富的领域，而在全新领域或分布差异极大的任务上，可能仍然需要一定程度的表示学习。

此外，FAAST目前对需要复杂组合推理、多步骤规划或长程依赖建模的任务效果有限。联想记忆本质上是一种"模式匹配"机制，它擅长在已见过的模式和新输入之间建立对应关系，但对于需要"推理"的任务——比如数学证明、代码调试、复杂逻辑推断——这种机制可能不够。研究团队明确指出，这类任务仍然是梯度优化方法的主场。

现有实验集中于分类和序列建模，对于更复杂的结构化预测（如语义解析、关系抽取）以及多模态任务（如图文理解、视频描述），FAAST的适用性尚待探索。这些方向被列为未来工作的重点。

说到底，这篇研究的意义远不止于"一个更快的适配方法"。它提出了一种全新的思考框架：大模型的预训练已经在内部建立了丰富的表示空间，下游任务的适配本质上只是在这个空间里建立新的映射关系，而这件事完全可以用一次数学计算来完成，不需要反复试错，不需要大量存储，不需要等待梯度流回每一层网络。这个想法如果能在更广泛的任务上得到验证，可能会从根本上改变人们部署和使用大模型的方式——从"每个任务都要微调一次"变成"每个任务只需扫描一遍数据"，从"推理时背着百GB的记忆库"变成"推理时只带一个小巧的权重矩阵"。对于计算资源有限的研究者、企业和开发者来说，这种效率上的飞跃意味着真正意义上的普惠。

这里有一个有趣的问题值得继续思考：如果联想记忆如此有效，未来是否存在一种混合架构，让模型在推理时动态决定"什么时候用联想"、"什么时候用推理"，就像人类既能凭直觉快速判断，也能在需要时放慢脚步认真思考？这或许是通往更自然、更高效的人工智能的一条路径。感兴趣的读者可以通过arXiv编号2605.04651检索原论文，深入了解所有技术细节和实验设置。

Q&A

Q1：FAAST是什么，它和普通的模型微调有什么区别？

A：FAAST是一种不需要反向传播（梯度下降）的模型适配方法。普通微调需要对模型参数反复迭代更新，耗时耗力；FAAST只需对训练样本做一次正向扫描，通过数学公式直接计算出最优的"快速权重"矩阵，整个过程无需梯度计算、无需优化器，速度比传统微调快90%以上，推理时内存占用也比记忆检索方法低约95%。

Q2：FAAST推理时为什么不需要存储训练样本？

A：因为FAAST把所有训练样本的联想信息"压缩"进了一个固定大小的快速权重矩阵。训练样本在计算完这个矩阵之后就可以丢弃，推理时只需要用新输入乘以这个矩阵，不需要再查询任何外部记忆库。这与kNN检索方法根本不同，后者推理时必须把所有训练样本的向量都保留在内存中随时查找。

Q3：FAAST是否适合所有类型的任务？

A：不是所有任务都适合。FAAST对预训练模型的表示质量依赖较强，如果预训练模型的内部表示本身不能捕捉任务相关特征，适配效果就会打折扣。此外，对于需要多步骤推理、组合逻辑判断或复杂规划的任务，FAAST的联想记忆机制不够用，这类任务仍然更适合梯度优化方法。FAAST最擅长的是输入输出对应关系清晰的任务，例如分类、情感分析、语言模型续写和机器翻译。

人工智能联想记忆新型适配算法

分享至