微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI"工具箱"学会按需取用:德克萨斯大学奥斯汀分校的新一代语言模型微调技术

当AI"工具箱"学会按需取用:德克萨斯大学奥斯汀分校的新一代语言模型微调技术

2026-05-18 10:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-18 10:33 科技行者

这项由德克萨斯大学奥斯汀分校计算机科学系、政府系以及统计与数据科学系联合完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.08423,感兴趣的读者可通过该编号在arXiv平台检索完整原文。

**一、 一个精明的厨师,还是一堆固定食谱?**

在讲这项研究之前,先来理解一个让AI研究者头疼已久的问题。

现如今,我们使用的各类AI助手,比如能写代码、能答题、能聊天的大语言模型,都是通过海量数据"预训练"出来的。然而,当我们想让它在某个特定任务上表现得更好——比如专门回答医学问题,或者专门做数学推理——就需要对它进行"微调",也就是用特定任务的数据再训练一遍。

问题来了:这些模型动辄几十亿个参数,全部重新训练一遍代价极高。于是研究者们发明了一种叫做LoRA(低秩适应)的聪明方法。LoRA的核心思路是:与其修改整个模型,不如在每个关键层旁边,悄悄安插一个小型的"修正模块",只训练这个小模块就好。这就像给一栋大楼不做全面翻修,而是在每个房间里加一块小地毯,稍微改变一下室内风格。

LoRA的确省事,但它有一个根本性的局限:每个房间的小地毯都是固定的,不管来的是客人还是主人,不管是白天还是夜晚,这块地毯永远长那个样子。换句话说,LoRA对所有输入都用同一套"修正方式",即使不同问题、不同内容需要完全不同的调整,它也只会机械地套用那固定的一套。

德克萨斯大学奥斯汀分校的研究团队偏偏想打破这个限制。他们希望AI的微调模块能像一个经验丰富的厨师那样,根据今天要做的菜,从厨房里按需取用合适的调料和刀具,而不是每次都只做同一道固定的菜。他们把这个新方法叫做"可查询LoRA"(Queryable LoRA),并在此基础上加入了"指令正则化"机制,使整个系统更加智能和可靠。

**二、 共享工具库:打破"每层一套固定工具"的僵局**

理解这项技术的核心,需要先想清楚传统LoRA的问题到底出在哪里。

一个大型语言模型由许多层神经网络堆叠而成,少则十几层,多则上百层。传统LoRA的做法,是给每一层都分配一套独立的修正模块,这套模块一旦训练完,就永远固定,而且每层的模块互相之间完全独立,老死不相往来。这就像一家大公司的每个部门都有自己的一套工具,部门A有一把专用螺丝刀,部门B也有一把几乎一模一样的螺丝刀,两把螺丝刀从不共享,两个部门也从不互通。这样既浪费资源,又无法在需要时灵活调配。

研究团队提出的解决方案,是建立一个全局共享的"更新原子库"。所谓"更新原子",可以理解为一块块预先准备好的、形状各异的"积木"——每一块积木代表一种基本的调整方向,比如"增强逻辑推理"、"调整语气风格"、"强化数学运算"等。这些积木被放在一个公共工具架上,整个模型的所有层都可以来取用。

关键在于"按需取用"这四个字。每次处理一个输入时,模型会根据当前的计算状态——具体来说,是把多个相邻层打成一组(称为"块"),在每个块的入口处观察当前内容的特征——然后向工具架发出一个"查询",问一句:"现在的情况,我应该用哪几块积木?"工具架根据这个查询,找到最匹配的几块积木,把它们按一定比例组合起来,形成当前这个块所需要的调整方式。

这样一来,两个极大的改进就同时实现了。第一,同一块积木可以被多个层共享,不用重复训练相同的修正知识。第二,对于不同的输入内容,系统会取用不同的积木组合,调整方式因内容而异,不再是千篇一律。

**三、 让"过去的经验"影响"当下的决策"**

除了共享积木库,这项研究还引入了另一个颇为精妙的设计:让模型在做决定时,能够回望自己此前的计算历程。

这个设计的灵感来自人类的思维方式。当一个人在解一道复杂的数学题时,他在解第五步的时候,脑子里一定会有前四步推导出的中间结论,而不是每一步都从零开始。现有的LoRA方法恰恰缺少这一点——每层的修正模块只关注当前层的信息,对前面几十层究竟发生了什么一无所知。

研究团队设计了一套"深度摘要"机制。每当一个块完成计算后,系统会保留一份这个块的"平均状态摘要",就像每个会议结束后都写一份会议纪要。当后续的块需要决定取用哪些积木时,它不仅会看当前输入的状态,还会通过注意力机制翻阅之前所有块的会议纪要,从中提炼出与当前任务最相关的历史信息,然后把这些历史信息融入查询信号中。

具体的技术实现方式是:把当前块的初始状态、历史摘要以及可选的外部指令,三者混合,生成一个综合查询向量,用这个向量在积木库中检索最合适的组合。这整套机制让模型在面对需要多步推理、需要前后文联系的任务时,能够表现得更加连贯和智能。

**四、 用"说明书"指引方向,而不是直接"写答案"**

这项研究的第三个创新点,是引入了"指令正则化"。这个概念稍微抽象一些,但可以用一个贴切的比喻来理解。

在此之前,有另一类方法叫做"文本生成LoRA参数"(Text-to-LoRA),它的思路是:你给模型一段任务描述,比如"请帮我解多步数学推理题",模型就直接根据这段文字,从头生成一整套适配这个任务的参数权重。这就像给厨师一个菜单,厨师直接把整套厨具都换了。这种方法固然灵活,但代价是参数数量呈平方级爆炸式增长,而且直接生成的参数往往不稳定,训练起来容易出问题。

研究团队的做法截然不同。在他们的系统里,任务指令不负责"生成"任何东西,而是扮演"建议者"的角色。系统会把任务指令编码成一个向量,然后用这个向量在积木库中计算一个"语义偏好分布",也就是说,对于这类任务,从语义角度看,哪些积木更可能有用?这个偏好分布会被叠加到基于模型内部状态计算出的查询信号上,对最终的积木选择产生一定的倾向性影响——但仅仅是倾向,而不是完全控制。

最终的积木选择,是内部状态信号和外部指令信号共同决策的结果。有一个参数专门控制外部指令的影响强度:当这个参数设为零时,指令完全不起作用,整个系统退化为纯粹基于内部状态的动态路由;当这个参数趋向于无穷大时,积木选择就完全由指令语义决定,模型内部的状态信号被忽略。在实际使用中,两者之间取一个合理的平衡,让指令既能提供有益的语义引导,又不至于完全压制模型自身的判断。

这套设计的关键价值在于:系统始终在一个有限的、预先学好的积木库中做选择,从未凭空生成新参数,因而更新量天然可控、稳定有界。

**五、 数学保证:为什么这样做是有理论依据的?**

对于喜欢"知其然也知其所以然"的读者来说,这项研究的理论部分相当扎实。研究团队用严格的数学证明,为这套机制提供了三方面的保障。

第一方面是关于积木选择机制的合理性。研究证明,整个路由过程——即如何根据内部状态和外部指令决定使用哪些积木——实际上等价于在解一个有明确最优解的优化问题:在当前内部状态信号的引导下,最大化积木组合的"有用程度",同时把结果保持在尽量靠近指令语义偏好的范围内,两者之间的平衡由KL散度(一种衡量两个概率分布差异的指标)来约束。这说明路由过程不是凑合出来的启发式方法,而是有严格数学基础的最优决策。

第二方面是关于更新幅度的可控性。因为最终生成的调整矩阵,始终是有限个有界积木的凸组合(即加权平均),所以它的大小天然不会超过任何单个积木的大小。这就像用一堆长度有限的绳子拼成一条绳子,最终的绳子不可能比最长的那根还长。这个性质保证了模型在微调过程中不会突然产生巨大的、破坏稳定性的参数变化,而这正是直接生成参数的方法难以保证的。

第三方面是梯度流动的清晰性。研究团队推导出,每个积木接收到的训练梯度信号,等于该积木在当前块中的选择权重乘以块内所有层的梯度信号之和。这意味着被频繁选中的积木会得到来自多个层的丰富监督信号,从而学习到真正具有普遍价值的调整方向;而不被选中的积木梯度为零,不受无关训练数据的干扰。整个学习机制因此清晰、有序,梯度信息的流动方向和强度都有据可查。

**六、 实验室里的对决:在各种考题上比较高下**

光有理论还不够,研究团队用两类实验来检验这套方法的实际效果。

第一类实验是在纯数学问题上进行的。他们选取了九个经典的二维非线性函数——比如像翻滚的波浪一样难以捉摸的Dropwave函数、像密布山峰的Rastrigin函数、以及各种奇形怪状的非凸函数——先用大量数据训练出一个基础模型,然后再用这些方法对该模型进行微调,让它适应同一函数的变体版本。这个实验的精妙之处在于,它把微调方法从语言任务中剥离出来,专门测试"面对形态复杂、局部结构多变的目标,动态调整能否比静态调整更有效"这一核心问题。

结果相当明显。在那些局部结构高度异质、单一线性修正难以覆盖的函数上,新方法的优势格外突出。以Dropwave函数为例,传统LoRA的训练损失约为24,DoRA约为266,某些超网络方法甚至高达1437,而新方法的训练损失仅为0.25,差距达到了数个数量级。在测试集上的表现也类似,LoRA的测试损失约为64,而新方法约为2.2。研究团队也诚实地指出,对于那些结构相对规则、重复性强的函数,静态方法与动态方法的差异就小得多,说明动态路由的优势并非无处不在,而是在特定条件下才能真正发挥作用。

第二类实验是在真实的大语言模型上进行的。研究团队选用了多款参数量在10亿以下的开源模型,在七个通用能力测试(包括科学推理、代码生成、阅读理解等)和四个数学推理测试上,与传统LoRA及多种改进变体展开对比。在通用测试中,带指令正则化的可查询LoRA在七个任务中的六个上超过了基础LoRA,尽管两者的可训练参数数量几乎相同(约444万个,仅比基础LoRA多出约1.3%)。在数学推理测试中,结果稍显混合,但总体上新方法在GSM8K、Orca-Math、Numina-Math等多步推理任务上表现更佳。

特别值得一提的是一项更大规模的批量实验,研究团队在包含LiquidAI、AMD、IBM Granite、HuggingFace SmolLM2等多款不同架构模型上、横跨五个任务进行了测试,总计39组对比中,新方法在34组中表现与LoRA持平或更优。

**七、 梯度地图:为什么新方法训练得更稳?**

除了最终精度,研究团队还深入分析了训练过程中的一个技术细节,这个细节在一定程度上解释了为什么新方法更稳定。

在深层神经网络中,有一个长期存在的难题叫做"梯度消失":离输出层越远的层,接收到的训练信号越弱,几乎学不到任何有用的东西,就像一个指令在层层传递中越来越微弱,到了最远的地方已经几乎听不见。这导致深层网络的浅层部分训练效果很差。

研究团队测量了不同方法在每个网络层的梯度强度,并绘制出"每层适配器梯度范数"的分布图。结果显示,传统LoRA和不含指令正则化的可查询LoRA,在网络的中层和后层梯度信号明显偏弱;而含指令正则化的完整版本,则在更广泛的层上保持了较强的梯度信号,尤其是在中后层,改善最为显著。

他们还引入了一个叫做"梯度集中度指数"的指标,定义为每层梯度的最大值除以平均值。这个指数越低,说明梯度越均匀地分布在各层,而不是集中于少数几层。完整版本的可查询LoRA在整个训练过程中,梯度集中度指数始终最低或接近最低,说明学习信号被更均匀地分配到了整个网络的各个适配器上。

**八、 速度与效率:鱼和熊掌能否兼得?**

引入动态路由机制,自然会带来额外的计算开销。研究团队为此专门做了推理速度测试,以回答一个实际用户最关心的问题:这套方法更聪明,但更慢吗?

结果显示,确实存在速度代价,但幅度在可接受范围内,而且与其他更复杂的方法相比,新方法的优势仍然明显。具体数字如下:基础LoRA的前向传播延迟约为33毫秒,而可查询LoRA约为42毫秒,指令可查询版本约为47毫秒,开销分别约为28%和41%。相比之下,RepLoRA的延迟约为53毫秒,HyRA约为83毫秒,DoRAN约为51毫秒。在生成速度上,基础LoRA每秒可生成约31.8个新词元,可查询LoRA约为22个,指令版本约为20个,而RepLoRA仅约18个,HyRA仅约11.3个。

换句话说,新方法比纯静态LoRA确实慢一些,但比同类具有更强表达能力的动态方法,速度反而更快,在精度与速度的综合表现上处于一个较优的位置。此外,新方法新增的可训练参数数量极少,额外引入的浮点运算量(FLOP)仅比基础LoRA多出约0.6%,可以忽略不计。

**九、 连续学多门课,还能保持井井有条**

研究团队还做了一个"持续学习"实验,测试这套方法在顺序学习多个任务时的表现。具体做法是:先用第一个任务的数据微调模型,不重置任何参数,再接着用第二个任务微调,再接着第三个,就这样依次进行。这是现实世界中很常见的场景——AI系统往往需要不断学习新知识,同时又不能忘记已学会的旧知识。

实验结果在三个层面上验证了方法的合理性。首先,从积木使用的分布上看,路由系统表现出稀疏而不均匀的使用模式:只有少数几块积木被频繁使用,其余积木的选择权重很低。被频繁使用的那些积木,其使用分布在不同任务之间有所差异,说明相同的积木库可以根据任务的不同,通过不同的组合比例来服务于不同的任务,并未陷入"一套打法包打天下"的陷阱。

其次,从历史任务的路由稳定性来看,当引入一个新任务时,已学过的旧任务所对应的积木使用模式会发生变化,但这种变化是局部的、集中于少数几块积木的,而不是整体漂移。这说明模型在获取新知识的同时,有效地保留了旧知识对应的结构。

第三,研究者测量了不同任务之间积木使用分布的"对称KL散度"(一种衡量两个概率分布差异的指标),发现代码生成任务(MBPP)和数学推理任务(GSM8K)在积木使用上比较接近,而研究生水平科学推理任务(GPQA-Diamond)则与前两者差距较大。这与直觉相符:代码生成和数学推理在某些基本结构上有共通之处,而高难度科学推理则需要激活不同的知识方向。

**十、 拆开看看:哪个零件真的起作用了?**

为了搞清楚方法的哪些部分真正贡献了性能提升,研究团队进行了系统的消融实验,把各个组件逐一拆除,观察性能变化。

实验在GPQA-Diamond(一个研究生水平的科学推理基准)上进行,对照条件包括:完全不使用指令信号、使用一个与任务无关的通用指令、使用正确的任务指令、使用打乱顺序的指令(使内容变得无意义)、使用刻意写错的对抗性指令、使用范数相同但语义随机的向量替代指令、只使用指令而不使用内部状态查询,以及只使用内部状态查询而不使用指令。

结果最高的条件是"使用正确任务指令",评估准确率达到0.3125,比"不使用指令"的基础条件(0.2420)高出近七个百分点。"通用指令"和"只用内部状态"均为0.25,说明内部状态查询机制本身有价值,但加入正确的任务语义信息后价值更大。"打乱指令"和"随机向量"均为0.1875,低于所有有意义信号的条件,说明语义内容本身是关键,而不是指令信号的存在本身起到了某种正则化效果。"对抗性错误指令"为0.25,与无指令条件相近,说明明显错误的指令也不会造成严重伤害,系统对噪声具有一定鲁棒性。

在超参数扫描实验中,研究团队系统测试了积木秩数r(4/8/16/32)、积木总数M(4/8/16/32)以及每次激活的积木数量k(1/2/4/8)的各种组合,并绘制出准确率-延迟和准确率-参数量的帕累托前沿图。结论是,性能最优的配置并不来自最大的积木库或最多的激活积木,而是来自适中规模的积木库配合稀疏的top-k路由——少而精、按需取用,比多而滥、无差别激活更有效。

---

说到底,这项研究做的事情,就是让大模型的微调变得更聪明,更节省,也更稳定。它没有走"用更多参数、更复杂的生成器"这条路,而是走了一条相反的路:建立一个精心设计的共享积木库,让模型学会按需组合,而不是重复备份。

归根结底,这告诉我们,AI系统在学习新技能时,也和人类有相似的地方:不是什么都从头学,而是从经验库里按需调取,再根据当下情境灵活组合。当任务说明(指令)和当前思维状态(内部查询)都被合理利用时,学习效果才能最好。

当然,正如研究团队自己在论文中坦承的,这套方法并非万能药。在任务结构比较简单、静态适配器已经足够的场景下,动态路由带来的收益有限,而额外引入的计算开销却是真实存在的。未来的工作还需要在更多样化的任务上验证,以及进一步降低路由延迟。

另一个值得思考的问题是:随着微调工具变得越来越高效、越来越易用,这种技术进步在降低AI开发门槛的同时,也让不良使用者更容易定制出有害的模型,这需要在技术推广的同时认真考虑安全机制和发布规范。有兴趣深入了解完整技术细节的读者,可以通过arXiv:2605.08423查阅原论文。

---

Q&A

Q1:可查询LoRA和传统LoRA相比,多用了多少参数?

A:可查询LoRA(含指令版本)的可训练参数约为444万个,而基础LoRA约为440万个,两者相差约1.3%,几乎可以忽略不计。新方法引入的额外浮点计算量也仅多出约0.6%,但在推理延迟上比基础LoRA高出约28%-41%,比RepLoRA和HyRA等同类动态方法则更快。

Q2:指令正则化中的"任务指令"具体是什么形式的?

A:任务指令是一段描述任务目标的自然语言文本,比如"解决这些多步数学推理题"。系统把这段文字转换成一个向量,用来计算哪些积木从语义角度更可能对该任务有用,然后把这个偏好叠加到模型内部的状态查询信号上,共同影响积木的选择。指令本身不会直接生成任何参数,只是起到"偏好引导"的作用。

Q3:可查询LoRA在什么类型的任务上优势最明显?

A:研究结果表明,当任务目标函数或推理过程具有明显的局部异质性——也就是说不同输入需要截然不同的调整方式时,可查询LoRA的优势最为突出。典型例子包括Dropwave这类局部结构复杂的非线性函数,以及GSM8K、Numina-Math等需要多步推理的数学任务。对于结构相对均匀、规律性强的任务,静态LoRA与可查询LoRA的差距则相对较小。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-