微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"工具箱"学会按需取用：德克萨斯大学奥斯汀分校的新一代语言模型微调技术

大语言模型低秩适应动态路由

当AI"工具箱"学会按需取用：德克萨斯大学奥斯汀分校的新一代语言模型微调技术

作者：科技行者

2026-05-18 10:33

分享至：

德克萨斯大学奥斯汀分校提出可查询LoRA方法，通过共享积木库与动态路由机制，让大模型微调能根据输入内容按需选择调整方式，在参数量与LoRA相当的情况下提升泛化性能与训练稳定性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 10:33 • 科技行者

这项由德克萨斯大学奥斯汀分校计算机科学系、政府系以及统计与数据科学系联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.08423，感兴趣的读者可通过该编号在arXiv平台检索完整原文。

**一、一个精明的厨师，还是一堆固定食谱？**

在讲这项研究之前，先来理解一个让AI研究者头疼已久的问题。

现如今，我们使用的各类AI助手，比如能写代码、能答题、能聊天的大语言模型，都是通过海量数据"预训练"出来的。然而，当我们想让它在某个特定任务上表现得更好——比如专门回答医学问题，或者专门做数学推理——就需要对它进行"微调"，也就是用特定任务的数据再训练一遍。

问题来了：这些模型动辄几十亿个参数，全部重新训练一遍代价极高。于是研究者们发明了一种叫做LoRA（低秩适应）的聪明方法。LoRA的核心思路是：与其修改整个模型，不如在每个关键层旁边，悄悄安插一个小型的"修正模块"，只训练这个小模块就好。这就像给一栋大楼不做全面翻修，而是在每个房间里加一块小地毯，稍微改变一下室内风格。

LoRA的确省事，但它有一个根本性的局限：每个房间的小地毯都是固定的，不管来的是客人还是主人，不管是白天还是夜晚，这块地毯永远长那个样子。换句话说，LoRA对所有输入都用同一套"修正方式"，即使不同问题、不同内容需要完全不同的调整，它也只会机械地套用那固定的一套。

德克萨斯大学奥斯汀分校的研究团队偏偏想打破这个限制。他们希望AI的微调模块能像一个经验丰富的厨师那样，根据今天要做的菜，从厨房里按需取用合适的调料和刀具，而不是每次都只做同一道固定的菜。他们把这个新方法叫做"可查询LoRA"（Queryable LoRA），并在此基础上加入了"指令正则化"机制，使整个系统更加智能和可靠。

**二、共享工具库：打破"每层一套固定工具"的僵局**

理解这项技术的核心，需要先想清楚传统LoRA的问题到底出在哪里。

一个大型语言模型由许多层神经网络堆叠而成，少则十几层，多则上百层。传统LoRA的做法，是给每一层都分配一套独立的修正模块，这套模块一旦训练完，就永远固定，而且每层的模块互相之间完全独立，老死不相往来。这就像一家大公司的每个部门都有自己的一套工具，部门A有一把专用螺丝刀，部门B也有一把几乎一模一样的螺丝刀，两把螺丝刀从不共享，两个部门也从不互通。这样既浪费资源，又无法在需要时灵活调配。

研究团队提出的解决方案，是建立一个全局共享的"更新原子库"。所谓"更新原子"，可以理解为一块块预先准备好的、形状各异的"积木"——每一块积木代表一种基本的调整方向，比如"增强逻辑推理"、"调整语气风格"、"强化数学运算"等。这些积木被放在一个公共工具架上，整个模型的所有层都可以来取用。

关键在于"按需取用"这四个字。每次处理一个输入时，模型会根据当前的计算状态——具体来说，是把多个相邻层打成一组（称为"块"），在每个块的入口处观察当前内容的特征——然后向工具架发出一个"查询"，问一句："现在的情况，我应该用哪几块积木？"工具架根据这个查询，找到最匹配的几块积木，把它们按一定比例组合起来，形成当前这个块所需要的调整方式。

这样一来，两个极大的改进就同时实现了。第一，同一块积木可以被多个层共享，不用重复训练相同的修正知识。第二，对于不同的输入内容，系统会取用不同的积木组合，调整方式因内容而异，不再是千篇一律。

**三、让"过去的经验"影响"当下的决策"**

除了共享积木库，这项研究还引入了另一个颇为精妙的设计：让模型在做决定时，能够回望自己此前的计算历程。

这个设计的灵感来自人类的思维方式。当一个人在解一道复杂的数学题时，他在解第五步的时候，脑子里一定会有前四步推导出的中间结论，而不是每一步都从零开始。现有的LoRA方法恰恰缺少这一点——每层的修正模块只关注当前层的信息，对前面几十层究竟发生了什么一无所知。

研究团队设计了一套"深度摘要"机制。每当一个块完成计算后，系统会保留一份这个块的"平均状态摘要"，就像每个会议结束后都写一份会议纪要。当后续的块需要决定取用哪些积木时，它不仅会看当前输入的状态，还会通过注意力机制翻阅之前所有块的会议纪要，从中提炼出与当前任务最相关的历史信息，然后把这些历史信息融入查询信号中。

具体的技术实现方式是：把当前块的初始状态、历史摘要以及可选的外部指令，三者混合，生成一个综合查询向量，用这个向量在积木库中检索最合适的组合。这整套机制让模型在面对需要多步推理、需要前后文联系的任务时，能够表现得更加连贯和智能。

**四、用"说明书"指引方向，而不是直接"写答案"**

这项研究的第三个创新点，是引入了"指令正则化"。这个概念稍微抽象一些，但可以用一个贴切的比喻来理解。

在此之前，有另一类方法叫做"文本生成LoRA参数"（Text-to-LoRA），它的思路是：你给模型一段任务描述，比如"请帮我解多步数学推理题"，模型就直接根据这段文字，从头生成一整套适配这个任务的参数权重。这就像给厨师一个菜单，厨师直接把整套厨具都换了。这种方法固然灵活，但代价是参数数量呈平方级爆炸式增长，而且直接生成的参数往往不稳定，训练起来容易出问题。

研究团队的做法截然不同。在他们的系统里，任务指令不负责"生成"任何东西，而是扮演"建议者"的角色。系统会把任务指令编码成一个向量，然后用这个向量在积木库中计算一个"语义偏好分布"，也就是说，对于这类任务，从语义角度看，哪些积木更可能有用？这个偏好分布会被叠加到基于模型内部状态计算出的查询信号上，对最终的积木选择产生一定的倾向性影响——但仅仅是倾向，而不是完全控制。

最终的积木选择，是内部状态信号和外部指令信号共同决策的结果。有一个参数专门控制外部指令的影响强度：当这个参数设为零时，指令完全不起作用，整个系统退化为纯粹基于内部状态的动态路由；当这个参数趋向于无穷大时，积木选择就完全由指令语义决定，模型内部的状态信号被忽略。在实际使用中，两者之间取一个合理的平衡，让指令既能提供有益的语义引导，又不至于完全压制模型自身的判断。

这套设计的关键价值在于：系统始终在一个有限的、预先学好的积木库中做选择，从未凭空生成新参数，因而更新量天然可控、稳定有界。

**五、数学保证：为什么这样做是有理论依据的？**

对于喜欢"知其然也知其所以然"的读者来说，这项研究的理论部分相当扎实。研究团队用严格的数学证明，为这套机制提供了三方面的保障。

第一方面是关于积木选择机制的合理性。研究证明，整个路由过程——即如何根据内部状态和外部指令决定使用哪些积木——实际上等价于在解一个有明确最优解的优化问题：在当前内部状态信号的引导下，最大化积木组合的"有用程度"，同时把结果保持在尽量靠近指令语义偏好的范围内，两者之间的平衡由KL散度（一种衡量两个概率分布差异的指标）来约束。这说明路由过程不是凑合出来的启发式方法，而是有严格数学基础的最优决策。

第二方面是关于更新幅度的可控性。因为最终生成的调整矩阵，始终是有限个有界积木的凸组合（即加权平均），所以它的大小天然不会超过任何单个积木的大小。这就像用一堆长度有限的绳子拼成一条绳子，最终的绳子不可能比最长的那根还长。这个性质保证了模型在微调过程中不会突然产生巨大的、破坏稳定性的参数变化，而这正是直接生成参数的方法难以保证的。

第三方面是梯度流动的清晰性。研究团队推导出，每个积木接收到的训练梯度信号，等于该积木在当前块中的选择权重乘以块内所有层的梯度信号之和。这意味着被频繁选中的积木会得到来自多个层的丰富监督信号，从而学习到真正具有普遍价值的调整方向；而不被选中的积木梯度为零，不受无关训练数据的干扰。整个学习机制因此清晰、有序，梯度信息的流动方向和强度都有据可查。

**六、实验室里的对决：在各种考题上比较高下**

光有理论还不够，研究团队用两类实验来检验这套方法的实际效果。

第一类实验是在纯数学问题上进行的。他们选取了九个经典的二维非线性函数——比如像翻滚的波浪一样难以捉摸的Dropwave函数、像密布山峰的Rastrigin函数、以及各种奇形怪状的非凸函数——先用大量数据训练出一个基础模型，然后再用这些方法对该模型进行微调，让它适应同一函数的变体版本。这个实验的精妙之处在于，它把微调方法从语言任务中剥离出来，专门测试"面对形态复杂、局部结构多变的目标，动态调整能否比静态调整更有效"这一核心问题。

结果相当明显。在那些局部结构高度异质、单一线性修正难以覆盖的函数上，新方法的优势格外突出。以Dropwave函数为例，传统LoRA的训练损失约为24，DoRA约为266，某些超网络方法甚至高达1437，而新方法的训练损失仅为0.25，差距达到了数个数量级。在测试集上的表现也类似，LoRA的测试损失约为64，而新方法约为2.2。研究团队也诚实地指出，对于那些结构相对规则、重复性强的函数，静态方法与动态方法的差异就小得多，说明动态路由的优势并非无处不在，而是在特定条件下才能真正发挥作用。

第二类实验是在真实的大语言模型上进行的。研究团队选用了多款参数量在10亿以下的开源模型，在七个通用能力测试（包括科学推理、代码生成、阅读理解等）和四个数学推理测试上，与传统LoRA及多种改进变体展开对比。在通用测试中，带指令正则化的可查询LoRA在七个任务中的六个上超过了基础LoRA，尽管两者的可训练参数数量几乎相同（约444万个，仅比基础LoRA多出约1.3%）。在数学推理测试中，结果稍显混合，但总体上新方法在GSM8K、Orca-Math、Numina-Math等多步推理任务上表现更佳。

特别值得一提的是一项更大规模的批量实验，研究团队在包含LiquidAI、AMD、IBM Granite、HuggingFace SmolLM2等多款不同架构模型上、横跨五个任务进行了测试，总计39组对比中，新方法在34组中表现与LoRA持平或更优。

**七、梯度地图：为什么新方法训练得更稳？**

除了最终精度，研究团队还深入分析了训练过程中的一个技术细节，这个细节在一定程度上解释了为什么新方法更稳定。

在深层神经网络中，有一个长期存在的难题叫做"梯度消失"：离输出层越远的层，接收到的训练信号越弱，几乎学不到任何有用的东西，就像一个指令在层层传递中越来越微弱，到了最远的地方已经几乎听不见。这导致深层网络的浅层部分训练效果很差。

研究团队测量了不同方法在每个网络层的梯度强度，并绘制出"每层适配器梯度范数"的分布图。结果显示，传统LoRA和不含指令正则化的可查询LoRA，在网络的中层和后层梯度信号明显偏弱；而含指令正则化的完整版本，则在更广泛的层上保持了较强的梯度信号，尤其是在中后层，改善最为显著。

他们还引入了一个叫做"梯度集中度指数"的指标，定义为每层梯度的最大值除以平均值。这个指数越低，说明梯度越均匀地分布在各层，而不是集中于少数几层。完整版本的可查询LoRA在整个训练过程中，梯度集中度指数始终最低或接近最低，说明学习信号被更均匀地分配到了整个网络的各个适配器上。

**八、速度与效率：鱼和熊掌能否兼得？**

引入动态路由机制，自然会带来额外的计算开销。研究团队为此专门做了推理速度测试，以回答一个实际用户最关心的问题：这套方法更聪明，但更慢吗？

结果显示，确实存在速度代价，但幅度在可接受范围内，而且与其他更复杂的方法相比，新方法的优势仍然明显。具体数字如下：基础LoRA的前向传播延迟约为33毫秒，而可查询LoRA约为42毫秒，指令可查询版本约为47毫秒，开销分别约为28%和41%。相比之下，RepLoRA的延迟约为53毫秒，HyRA约为83毫秒，DoRAN约为51毫秒。在生成速度上，基础LoRA每秒可生成约31.8个新词元，可查询LoRA约为22个，指令版本约为20个，而RepLoRA仅约18个，HyRA仅约11.3个。

换句话说，新方法比纯静态LoRA确实慢一些，但比同类具有更强表达能力的动态方法，速度反而更快，在精度与速度的综合表现上处于一个较优的位置。此外，新方法新增的可训练参数数量极少，额外引入的浮点运算量（FLOP）仅比基础LoRA多出约0.6%，可以忽略不计。

**九、连续学多门课，还能保持井井有条**

研究团队还做了一个"持续学习"实验，测试这套方法在顺序学习多个任务时的表现。具体做法是：先用第一个任务的数据微调模型，不重置任何参数，再接着用第二个任务微调，再接着第三个，就这样依次进行。这是现实世界中很常见的场景——AI系统往往需要不断学习新知识，同时又不能忘记已学会的旧知识。

实验结果在三个层面上验证了方法的合理性。首先，从积木使用的分布上看，路由系统表现出稀疏而不均匀的使用模式：只有少数几块积木被频繁使用，其余积木的选择权重很低。被频繁使用的那些积木，其使用分布在不同任务之间有所差异，说明相同的积木库可以根据任务的不同，通过不同的组合比例来服务于不同的任务，并未陷入"一套打法包打天下"的陷阱。

其次，从历史任务的路由稳定性来看，当引入一个新任务时，已学过的旧任务所对应的积木使用模式会发生变化，但这种变化是局部的、集中于少数几块积木的，而不是整体漂移。这说明模型在获取新知识的同时，有效地保留了旧知识对应的结构。

第三，研究者测量了不同任务之间积木使用分布的"对称KL散度"（一种衡量两个概率分布差异的指标），发现代码生成任务（MBPP）和数学推理任务（GSM8K）在积木使用上比较接近，而研究生水平科学推理任务（GPQA-Diamond）则与前两者差距较大。这与直觉相符：代码生成和数学推理在某些基本结构上有共通之处，而高难度科学推理则需要激活不同的知识方向。

**十、拆开看看：哪个零件真的起作用了？**

为了搞清楚方法的哪些部分真正贡献了性能提升，研究团队进行了系统的消融实验，把各个组件逐一拆除，观察性能变化。

实验在GPQA-Diamond（一个研究生水平的科学推理基准）上进行，对照条件包括：完全不使用指令信号、使用一个与任务无关的通用指令、使用正确的任务指令、使用打乱顺序的指令（使内容变得无意义）、使用刻意写错的对抗性指令、使用范数相同但语义随机的向量替代指令、只使用指令而不使用内部状态查询，以及只使用内部状态查询而不使用指令。

结果最高的条件是"使用正确任务指令"，评估准确率达到0.3125，比"不使用指令"的基础条件（0.2420）高出近七个百分点。"通用指令"和"只用内部状态"均为0.25，说明内部状态查询机制本身有价值，但加入正确的任务语义信息后价值更大。"打乱指令"和"随机向量"均为0.1875，低于所有有意义信号的条件，说明语义内容本身是关键，而不是指令信号的存在本身起到了某种正则化效果。"对抗性错误指令"为0.25，与无指令条件相近，说明明显错误的指令也不会造成严重伤害，系统对噪声具有一定鲁棒性。

在超参数扫描实验中，研究团队系统测试了积木秩数r（4/8/16/32）、积木总数M（4/8/16/32）以及每次激活的积木数量k（1/2/4/8）的各种组合，并绘制出准确率-延迟和准确率-参数量的帕累托前沿图。结论是，性能最优的配置并不来自最大的积木库或最多的激活积木，而是来自适中规模的积木库配合稀疏的top-k路由——少而精、按需取用，比多而滥、无差别激活更有效。

---

说到底，这项研究做的事情，就是让大模型的微调变得更聪明，更节省，也更稳定。它没有走"用更多参数、更复杂的生成器"这条路，而是走了一条相反的路：建立一个精心设计的共享积木库，让模型学会按需组合，而不是重复备份。

归根结底，这告诉我们，AI系统在学习新技能时，也和人类有相似的地方：不是什么都从头学，而是从经验库里按需调取，再根据当下情境灵活组合。当任务说明（指令）和当前思维状态（内部查询）都被合理利用时，学习效果才能最好。

当然，正如研究团队自己在论文中坦承的，这套方法并非万能药。在任务结构比较简单、静态适配器已经足够的场景下，动态路由带来的收益有限，而额外引入的计算开销却是真实存在的。未来的工作还需要在更多样化的任务上验证，以及进一步降低路由延迟。

另一个值得思考的问题是：随着微调工具变得越来越高效、越来越易用，这种技术进步在降低AI开发门槛的同时，也让不良使用者更容易定制出有害的模型，这需要在技术推广的同时认真考虑安全机制和发布规范。有兴趣深入了解完整技术细节的读者，可以通过arXiv:2605.08423查阅原论文。

---

Q&A

Q1：可查询LoRA和传统LoRA相比，多用了多少参数？

A：可查询LoRA（含指令版本）的可训练参数约为444万个，而基础LoRA约为440万个，两者相差约1.3%，几乎可以忽略不计。新方法引入的额外浮点计算量也仅多出约0.6%，但在推理延迟上比基础LoRA高出约28%-41%，比RepLoRA和HyRA等同类动态方法则更快。

Q2：指令正则化中的"任务指令"具体是什么形式的？

A：任务指令是一段描述任务目标的自然语言文本，比如"解决这些多步数学推理题"。系统把这段文字转换成一个向量，用来计算哪些积木从语义角度更可能对该任务有用，然后把这个偏好叠加到模型内部的状态查询信号上，共同影响积木的选择。指令本身不会直接生成任何参数，只是起到"偏好引导"的作用。

Q3：可查询LoRA在什么类型的任务上优势最明显？

A：研究结果表明，当任务目标函数或推理过程具有明显的局部异质性——也就是说不同输入需要截然不同的调整方式时，可查询LoRA的优势最为突出。典型例子包括Dropwave这类局部结构复杂的非线性函数，以及GSM8K、Numina-Math等需要多步推理的数学任务。对于结构相对均匀、规律性强的任务，静态LoRA与可查询LoRA的差距则相对较小。

大语言模型低秩适应动态路由

分享至