微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙大与美团联手：让AI智能体像老司机一样越练越精——SDAR框架的"精准点拨"之道

强化学习知识蒸馏自适应门控机制

浙大与美团联手：让AI智能体像老司机一样越练越精——SDAR框架的"精准点拨"之道

作者：科技行者

2026-05-21 11:35

分享至：

浙江大学与美团联合提出SDAR框架，通过智能门控机制将知识蒸馏作为辅助目标引入强化学习，解决了多步骤AI智能体训练中的不稳定问题，在三个基准任务上全面超越现有方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 11:35 • 科技行者

这项由浙江大学与美团联合开展的研究，同时联合清华大学共同完成，于2026年5月以预印本形式发布，论文编号为arXiv:2605.15155v1。有兴趣深入了解技术细节的读者，可通过该编号在arXiv平台查阅完整论文。

你有没有想过，一个刚入行的新司机和一个老司机，最大的差别在哪里？老司机不仅会开车，更知道在每一个十字路口该快该慢、该走哪条路——这种判断来自长期积累的"感觉"，而不是死记硬背的交规。现在，AI领域的研究者们面临着类似的挑战：如何让AI智能体也能在复杂的多步骤任务中，像老司机一样越练越精？这篇论文提出的SDAR框架，正是在解答这个问题。

一、为什么AI智能体的训练会"越学越乱"

要理解这项研究的价值，得先明白AI智能体的训练面临什么麻烦。所谓AI智能体，可以理解为一个能在虚拟世界里自主行动的AI程序，比如帮你在网上购物、在文字冒险游戏里完成任务，或者帮你搜索资料并回答问题。与那种只回答一次问题的AI不同，智能体需要一步一步地与环境交互，每一个动作都会影响下一步的局面。

目前训练这类智能体的主流方法，可以分为两大路线。第一条路线叫做强化学习，简单说就是"让AI自己折腾，折腾对了就奖励，折腾错了就惩罚"。AI通过大量尝试，慢慢摸清楚什么样的行为能最终完成任务。这种方法的好处是方向明确，奖励来自真实的任务结果，但缺点也很明显——奖励太稀疏，只有在整个任务结束时才知道做得好不好，中途的每一个小决策到底对不对，强化学习自己也说不清楚。

第二条路线叫做知识蒸馏，可以理解为"给AI配一个懂经的师傅"。这个师傅不是独立的更强大AI，而是同一个AI被赋予了额外的"小抄"之后扮演的角色——比如提前告诉它一些任务相关的技巧和经验。师傅在每个时间点都会对学生的每个词、每个决策给出更精细的指导，而不是只在最后打一个总分。这种密集的词级别指导能帮助AI更快地学到细致的行为模式。

然而，当你把这两条路线直接缝合到一起，用在多步骤任务的智能体训练上时，麻烦就来了。研究团队通过实验发现了两个让人头疼的问题，正是这两个问题催生了SDAR这套新方案。

第一个问题，叫做"多步骤雪球效应"。在多步骤任务里，AI学生和AI师傅一开始还步调一致，但随着任务一步步推进，学生的行为轨迹会逐渐偏离师傅的预期路径。问题在于，师傅的指导是建立在"你按照我的路线走"这个前提上的。一旦学生走岔了路，师傅给出的指导就会越来越水土不服，甚至会把学生往错误的方向带。更糟糕的是，这种偏差会随着步骤增加不断放大，就像滚雪球一样越滚越大，最终导致训练崩溃，AI的表现急剧恶化。研究团队的实验图表清楚地显示，每走一步，师傅和学生之间的分歧就会加大一点，十几步之后，这种分歧已经大到让训练完全失控。

第二个问题，叫做"师傅的小抄不总是可靠的"。这里需要解释一下什么是"特权信息"。在训练阶段，师傅能看到一些学生在真实使用时看不到的辅助材料，比如预先整理好的任务技巧库。问题是，这些技巧不总是恰好适合当前任务的，有时候技巧库里的内容是不相关的，有时候即使是相关的，师傅自己也不一定能把技巧和当前任务恰当地联系起来。结果就是，师傅对某些词的判断——认为学生不该用这个词——其实可能是师傅自己看错了小抄，而不是学生真的做错了。研究团队的数据显示，在一个典型的训练场景里，师傅对超过50%的词给出了"学生不该用这个词"的负面信号，但其中相当一部分是由于小抄质量不稳定造成的误判。

这两个问题加在一起，导致了一个两难困境：强化学习单独用的话，指导太粗糙；知识蒸馏单独用的话，在多步骤场景里容易崩溃；直接把两者叠加使用，则可能两头落空，甚至比单独用更差。

二、SDAR的核心思路：给每个词配一个"智能信号灯"

SDAR的设计思路，可以用一个驾校教练的比喻来理解。假设你在学开车，教练坐在副驾驶，全程观察你的每一个操作。一个好的教练不会对你的每个动作都大声纠正——有些时候你的判断是对的，他就点点头，甚至给你加油；有些时候你的判断他不太确定，他会暂时观察，不急着干预；只有当他非常确定你做错了，而且这个错误是真实的而不是自己误判的，他才会出声纠正。SDAR就是把这种"智能化教练干预"的逻辑，引入到AI训练中去。

具体来说，SDAR的做法是：强化学习依然是主干，就像那个靠实际驾驶考试来评判成绩的过程，稳定可靠，不随便动；而知识蒸馏（师傅的指导）则变成了一个辅助的、有条件触发的信号。辅助信号通过一个叫做"门控机制"的东西来调节，这个门控机制对每一个词单独计算一个"信任度"，决定这个词上的师傅指导有多大程度值得采纳。

信任度的计算方式非常直观。对于任意一个词，师傅看了它之后，如果觉得"这个词挺好的，比我没有小抄时更可能选择它"，那就说明师傅的小抄在这里发挥了正向作用，给出了一个正面的背书信号，这个词上的信任度就会被调高，师傅的指导力度就会增强。反过来，如果师傅觉得"这个词不太对，我不太会选这个词"，那可能是真的应该避免，但也可能是师傅的小抄在这里出了问题。为了稳妥起见，系统不会完全无视这个负面信号，但会把它的影响力软化，让它只有很小的纠正力度，而不是强制推翻学生的判断。

这种机制用的数学工具叫做"sigmoid函数"（可以理解为一种把任意数值平滑压缩到0到1之间的函数），将师傅和学生之间的概率差距变成一个0到1之间的权重，正差距对应高权重，负差距对应低权重，但永远不会变成0或者1，始终保持一种"柔性"的影响力。这样既避免了负面信号被完全无视，也防止了负面信号过强地破坏训练稳定性。

此外，门控机制里还有一个重要的设计细节：这个信任度的计算是"停止梯度"的，也就是说，系统用信任度来决定"这个词的指导力度有多大"，但训练时的梯度（可以理解为AI参数调整的方向和力度）不会通过信任度本身来传播，只会通过学生的词预测来传播。这样做的好处是防止出现一种叫做"自我强化循环"的不稳定现象——如果信任度本身也参与梯度计算，会形成一种自己影响自己的反馈回路，让训练变得不可预测。

三、从理论到实践：三种"信号灯"方案各显神通

SDAR在门控信号的设计上提供了三种不同的思路，可以类比成三种不同的教练风格。

第一种叫做"熵值门控"，关注的是学生自身的不确定性。如果AI在某个词上非常犹豫，不知道该选哪个词，说明这里是学习的薄弱点，这时候师傅的指导就特别有价值，应该加大力度。反过来，如果AI在某个词上已经很自信了，师傅的干预可能就没什么必要了。这就像一个教练只在学员最困惑的弯道处重点讲解，在学员驾轻就熟的直路上保持沉默。

第二种叫做"差距门控"，也是SDAR实验中表现最好的方案。它直接用师傅和学生之间的概率差距来决定信任度，差距为正就加大师傅指导力度，差距为负就削弱师傅指导力度。这种方案最直接地实现了前面说的那种"非对称信任"逻辑——对师傅的正面背书充分信任，对师傅的负面判断持保留态度。

第三种叫做"软性OR门控"，是前两种方案的融合版本，当学生很不确定或者师傅给了正面信号时，就激活强指导。这种方案试图结合两种信号的优势，但在实验中表现介于前两者之间，并不比单纯的差距门控更好，原因在于融合之后信号的"选择性"变弱了，有时会在不太需要指导的地方也触发较强的干预。

研究团队用数学证明了差距门控的几个良好性质。首先，它的权重随着差距增大而单调递增，不会出现"差距越大反而权重越小"的反常情况。其次，权重的变化速度本身是有上限的，不会出现梯度爆炸。第三，辅助训练信号对AI参数的影响力，被证明严格不超过没有门控时的影响力——换句话说，加入了这个门控机制之后，最差情况下只是相当于没有加这个机制，不会比单独强化学习更差。这个保证对于训练稳定性来说非常重要。

四、技能检索：师傅的"小抄"从哪里来

在SDAR的具体实现里，师傅的小抄来自一个预先建立的技能库。这个技能库里存放着针对不同任务类型整理好的经验片段，比如在家务任务中，如何拿取物品、如何在不同房间之间移动等等。训练时，系统会根据当前任务的内容，从技能库里检索一个或多个相关的经验片段，把它们拼接到师傅的输入上，让师傅能看到这些"小抄"，从而给出更有见地的指导。

技能检索本身也有质量高低之分。SDAR在实验中测试了四种不同质量的检索策略，这四种策略形成了一个从精准到随机的梯度。最精准的叫做UCB检索，它把技能库里的每个技能文件当成一个赌博机的摇臂，通过记录每个技能文件在历史上帮助AI完成任务的平均得分以及使用次数，来决定下次应该优先尝试哪个技能文件。这个策略来源于"探索与利用"理论，既会持续尝试那些已知效果好的技能，也会定期给尝试次数少的技能一个机会，避免错过可能有价值的选项。第二精准的叫做关键词匹配，直接根据任务描述中的关键词，对应到预设的任务类别标签，然后取该类别对应的技能文件，简单粗暴但相当有效。第三种叫做全量检索，把整个技能库全都给师傅看，不加筛选。第四种最极端，叫做随机检索，完全不管任务内容，随机抽取一个技能文件。

这四种检索策略的设计，是为了回答一个非常实际的问题：SDAR的效果有多大程度依赖于技能检索的质量？如果必须有高质量的技能才能有效果，那这套方法在技能库不完善的情况下就没什么价值了。

五、实验结果：从家务机器人到网购助手，全线告捷

研究团队在三个差异显著的测试场景上验证了SDAR，使用的基础模型来自阿里巴巴的Qwen2.5系列和Qwen3系列，规模从1.7B到7B（B代表十亿个参数）不等。

第一个场景叫做ALFWorld，这是一个文字版的家务模拟环境，AI需要在虚拟的房子里完成拿取物品、清洁、加热、冷却等各类家务任务，总共有六种任务类型，将近四千个任务实例。第二个场景叫做Search-QA，AI需要通过调用搜索引擎，多次搜索并综合信息，最终回答各种类型的问答题，这个场景包含了七个不同难度的问答数据集，其中有单跳问题（一次搜索就能找到答案），也有多跳问题（需要把多次搜索的信息拼凑起来才能回答）。第三个场景叫做WebShop，AI需要在一个模拟的电商平台上，根据用户需求寻找并购买符合条件的商品，需要连续点击搜索、筛选、查看详情等页面，是一个高度模拟真实网购流程的测试。

实验结果展示了一幅颇为清晰的图景。在ALFWorld上，相比于单纯的强化学习基准（GRPO），SDAR使用2.5B规模的模型时提升了9.4个百分点，使用7B模型时成功率达到了85.9%。在Search-QA上，2.5B模型的平均准确率提升了7个百分点。在WebShop上，7B模型的购物准确率提升了10.2个百分点。这些提升在三个完全不同性质的任务场景上同时出现，说明SDAR的效果是稳健的，而不是针对某一种任务特别调优的结果。

更值得关注的是SDAR与其他混合方案的对比。研究团队专门测试了"直接叠加强化学习和知识蒸馏"的方案（在论文中称为GRPO+OPSD）。在规模较小的1.7B模型上，这个直接叠加方案的成功率甚至低于单纯的强化学习基准，从46.1%下降到了32.0%，印证了前面提到的不稳定风险。SDAR则在1.7B模型上达到了53.9%，不仅稳定，而且是所有方案里最高的。

另外两个对比对象是Skill-SD和RLSD，都是之前其他研究者提出的混合方案。Skill-SD的做法是用一种特殊的散度函数来计算蒸馏损失，并结合重要性权重；RLSD的做法是用师傅和学生的差距来重新加权强化学习的优势信号，相当于让知识蒸馏信号渗透进强化学习的核心计算里。SDAR在几乎所有对比场景里都优于或持平于这两种方案，而且在1.7B这种参数量较少、学习能力相对有限的模型上优势最为突出。

六、技能库质量不够好？门控机制自己会过滤

回到前面那个关键问题：如果技能检索质量很差怎么办？实验给出了一个让人放心的答案。

在Qwen2.5-7B模型上，关键词匹配检索让ALFWorld成功率比纯强化学习基准高了4.7个百分点，让WebShop准确率高了10.2个百分点。随机检索——也就是完全不管任务内容随机挑技能——依然比纯强化学习基准高了1.9/1.6/1.0个百分点（分别对应三个评测场景）。这个结果乍看有些反直觉：随机选的技能，能有什么用？

答案在于门控机制的过滤作用。当技能质量很差时，师傅的指导里负面信号就会增多，门控机制会把这些负面信号的权重压低，实际上起到了"自动过滤噪音"的效果。即使是随机技能，偶尔也有某些词上的正面信号能通过门控，给学生一点有益的微小指引。相比之下，如果没有门控机制，直接用这些随机技能做蒸馏，效果反而可能变差，因为大量噪音会直接干扰训练。

从另一个角度看，技能质量越好，SDAR能利用的正面信号就越多，门控被激活的频率就越高，最终收益也越大。UCB检索方案在WebShop上让准确率提升了8.6个百分点，高于关键词匹配的10.2个百分点这个特例（后者在WebShop上碰巧表现特别好），两者都显著优于随机检索，这说明检索质量确实有价值，只是即使检索质量低，系统也不会变得更差。

七、训练过程中究竟发生了什么

研究团队在训练过程中对SDAR的内部状态进行了全程监测，揭示了一些有趣的现象。

随着训练推进，师傅和学生之间的平均差距（也就是门控信号的平均值）从一开始的很负慢慢朝零靠拢。这个趋势意味着什么？一开始，学生还没有充分学习技能库里的知识，所以学生的行为和师傅（携带技能小抄后）的行为差距很大，师傅更倾向于选择那些体现技能知识的词，而学生还不太会。随着学生逐渐从蒸馏信号中学习，它的行为模式开始向师傅靠拢，差距缩小。当差距趋近于零，说明技能知识已经被学生内化了，即使去掉小抄，学生自己也能做出类似的决策。

与此同时，门控被激活（权重超过0.5）的词的比例，在训练初期约为30%左右，到训练后期上升到50%左右。这与上面的分析完全吻合：前期大量词上师傅给的是负面信号（门控被压低），随着学生进步，越来越多的词上师傅开始给正面信号（门控被激活），蒸馏的有效覆盖范围自然扩大。

这个自动调节的过程，正是研究者们希望看到的"自定步调的课程学习"——不需要人为规定"第几步之前用什么方法，第几步之后切换到什么方法"，系统根据自身的学习进度，自然地调节每种信号的权重，实现了一种从粗到细、从依赖外部指导到自主掌握的学习路径。

八、细节决定成败：超参数如何影响最终效果

研究团队还系统地测试了几个关键参数对效果的影响，这些测试揭示了SDAR的设计裕量和边界条件。

首先是门控的"锐度"参数（用β表示）。这个参数控制sigmoid函数的陡峭程度，β越大，函数越像一个开关（要么全开要么全关）；β越小，函数越平滑（所有词的权重都差不多）。当β设为0时，相当于完全不用门控，对所有词一视同仁地应用蒸馏，效果反而不如设了门控的情况，因为这等于重新退化成了不稳定的直接蒸馏。当β设得过大（比如10），门控变成了硬性二值开关，失去了对边界情况的柔性处理能力，效果也有所下降。实验发现β=5是一个比较合适的中间值，在两个极端之间取得了平衡。

其次是蒸馏损失的权重系数（用λ表示）。这个系数决定了知识蒸馏相对于强化学习的影响力大小。当λ设得太大（比如0.1），蒸馏信号会把强化学习的信号淹没，由于师傅平均来说并不比学生更强（因为总体上差距是负的，师傅的指导带有噪音），这相当于用一个不可靠的信号主导了训练，效果急剧下降。当λ设得太小（比如0.001），蒸馏信号微弱到几乎没有，学习加速的效果很有限。λ=0.01在实验中找到了一个甜蜜点，让蒸馏信号起到辅助作用但不喧宾夺主。

最后是蒸馏的方向选择。知识蒸馏有多种数学形式，大致上分为"让学生靠近师傅"（反向KL散度）和"让师傅靠近学生"（正向KL散度），以及两者的中间状态（JS散度）。SDAR使用的反向KL散度在实验中表现最好，原因在于这种方式倾向于让学生只学习师傅认为可能的选项，而不是强行把学生的概率分散到师傅认为的所有可能选项上。在一个师傅本身并不总是可靠的情况下，"聚焦学习"比"全面覆盖"更安全。正向KL散度表现较差，因为它会强迫学生在所有词上都向师傅靠拢，包括那些师傅判断错误的词；JS散度作为两者的对称平均，继承了正向KL散度的一部分问题，表现居中。

说到底，SDAR这套框架回答了一个看似简单却颇为微妙的问题：如何在给AI智能体配备一个"小抄师傅"的同时，又不让师傅的偶尔失误把学生带偏？答案是给每一个词单独装一个智能信号灯，根据师傅在这个词上的置信程度，动态调节它说话的分量。这种设计既保住了强化学习的稳健底盘，又让密集的知识指导在可靠的地方发挥最大效用，在不可靠的地方自动收声。

这项研究对普通人的意义，可能在于它让未来的AI助手变得更加"善于学习"——不只是靠海量数据堆出来，而是能在少量训练中，精准地从经验中汲取养分，逐步形成自己稳健的判断。当你未来使用某个帮你完成多步骤任务的AI助手时，背后可能就有类似SDAR这样的训练逻辑在支撑它的能力。

一个值得延伸思考的问题是：如果技能库里的经验是由另一个AI生成的，而那个AI本身也并不完美，门控机制能否仍然有效地过滤掉它的失误？SDAR的实验在一定程度上给出了肯定的暗示，但更完整的答案或许还需要进一步的研究来探索。有兴趣深入了解的读者，可以通过arXiv编号2605.15155查阅这篇论文的完整版本，其中包含了详细的数学推导、算法伪代码和完整的实验数据。

Q&A

Q1：SDAR框架和普通强化学习训练AI有什么区别？

A：普通强化学习只在整个任务结束后给AI打一个总分，过程中的每个小决策好不好，AI自己摸不清楚。SDAR在这个基础上，额外给AI配了一个"携带经验小抄的师傅"，师傅对每个词级别的决策给出更细致的指导，同时用一个智能门控机制过滤掉师傅判断不可靠的情况，让指导只在有把握的地方发力，从而让训练更高效也更稳定。

Q2：SDAR的"门控机制"如果遇到质量很差的技能库会不会失效？

A：不会完全失效。实验表明，即使使用完全随机检索的技能（与任务毫无关系），SDAR依然比纯强化学习基准略有提升。原因是门控机制会自动把低质量技能产生的噪音信号压低权重，实际上起到了过滤作用。技能质量越好，能通过门控的正面信号就越多，效果提升也越明显，但质量差的情况下系统也不会因此变得更差。

Q3：SDAR训练出来的AI智能体在使用时还需要技能库吗？

A：不需要。技能库只在训练阶段作为师傅的"小抄"使用，训练完成后，相关知识已经被内化到AI的参数里。使用阶段的AI智能体不需要任何外部技能文件，但依然保留了训练中学到的行为模式。实验显示，SDAR训练出的模型在不使用技能库的情况下，表现甚至超过了那些在使用和不使用技能库两种情况下都经过测试的对比方法。

强化学习知识蒸馏自适应门控机制

分享至