微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

港科大广州等机构提出DRIFT：让AI在对话中边犯错边学习，效率媲美普通训练

大语言模型多轮对话优化重要性加权训练

港科大广州等机构提出DRIFT：让AI在对话中边犯错边学习，效率媲美普通训练

作者：科技行者

2026-06-04 12:05

分享至：

DRIFT方法通过数学等价关系，将多轮对话强化学习目标转化为带权重的监督学习，效率接近普通SFT，性能媲美在线强化学习。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 12:05 • 科技行者

这项由香港科技大学（广州）与香港中文大学（深圳）联合开展的研究，发表于2026年第43届国际机器学习大会（ICML 2026），论文编号为arXiv:2605.31455，有兴趣深入了解的读者可通过该编号查询完整论文。

一、故事的起点：当AI答错了，然后呢？

考虑这样一个场景：你正在辅导一个孩子做数学题，孩子第一次算错了，你告诉他"不对，再想想"，孩子重新算了一遍，这次答对了。对你来说这再自然不过，但对当前的人工智能来说，这个"犯错-接收反馈-改正"的循环，却是一个极其棘手的难题。

目前大多数AI助手在训练时，只学了"被问一次答一次"的单轮对话模式。一旦用户告诉它"你说错了"，它往往要么固执地重复同样的错误，要么胡乱改动却改得更糟，就像一个完全不会接受批评的学生。现实生活中，我们跟AI交流时经常需要来回好几轮——"这不对""换个角度想想""你确定吗"——这种多轮互动的场景，正是当前AI最薄弱的地方。

要让AI学会这种多轮纠错能力，研究者面临一个两难困境。一边是"在线强化学习"（可以理解为让AI在真实对话中反复练习、实时更新自己的策略），这种方法效果好，但代价极高——每次更新都要完整地跑一遍多轮对话，计算成本随着对话轮次增加而急剧膨胀。另一边是"监督微调"（可以理解为直接给AI看大量优质示范答案，让它照着学），这种方法快且省资源，但AI只是在机械模仿，并没有真正学会如何在收到批评后做出有意义的改动，容易导致"第一轮押注过度"的问题——AI把所有精力都放在第一次答对上，后续轮次根本不知道该怎么有效修正。

正是为了破解这个困境，港科大广州等机构的研究团队提出了DRIFT，全称"解耦滚动与重要性加权微调"（Decoupled Rollouts and Importance-Weighted Fine-Tuning）。这个方法的核心思路，是找到一座桥梁，让AI既能享受强化学习"真正学会纠错"的效果，又能保持监督微调"省时省力"的效率。

二、理解DRIFT的核心思想：给对话打分，然后按分数学习

要理解DRIFT是如何工作的，先从一个生活化的类比出发。

假设你是一位厨艺老师，要教学生做一道菜。你有一本参考食谱（这就是AI的"参考策略"），学生按照这本食谱做了16份尝试，每份都略有不同。有些学生第一次就做出了美味的菜，有些学生失败了好几次才成功，还有些学生5次都没做好。现在你要给每份尝试打分：越早做成功的得分越高，一直失败的得分很低。最后，你按照这些分数来决定"这份尝试值得参考多少"——高分的尝试要重点学习，低分的尝试基本忽略。

这正是DRIFT的核心逻辑。研究团队发现了一个关键的数学等价关系：AI训练中常用的一类目标函数（即"KL正则化强化学习目标"，你可以把它理解为"既要表现好又不要跑太偏"的训练目标），在数学上完全等价于一种带权重的监督学习——也就是说，你不需要在每次训练时都实时生成新的对话，只需要事先按照参考策略收集一批对话记录，给每条记录赋予一个反映其"价值"的权重，然后用这个加权数据集来训练AI即可。

这个发现的意义在于：它彻底把"生成对话"和"训练模型"这两件事分开了。生成对话可以一次性离线批量完成，不需要在每次训练更新时都重新跑；训练本身则退化成了一个普通的监督学习问题，速度快、稳定性好。

三、DRIFT的具体运作：两个阶段，一个精妙设计

DRIFT的实际运作分为两个清晰的阶段，就像一个考试准备系统：先批量收集模拟考试记录，再根据每次模拟的成绩决定"这次模拟值得多认真地复习"。

第一个阶段是离线对话生成。研究团队固定了一个"参考模型"（即AI的初始版本，不会在这个阶段更新），针对每道训练题目，让这个参考模型在多轮对话规则下跑16次完整的尝试。规则很简单：AI每次给出答案，如果答对了，本轮对话终止；如果答错了，系统就追加一条固定的反馈信息"不对，请再想想"，然后继续下一轮，最多进行5轮。16次尝试会产生16条不同的对话轨迹，有的轨迹第一轮就成功，有的第三轮才成功，有的5轮全部失败。

接下来，每条轨迹都会被计算一个"回报值"（Return）。这个回报值的设计颇具巧思，包含两个成分。第一个成分是打折扣的成功奖励：越早答对得分越高，第一轮就答对比第三轮才答对得分高很多，这种设计用打折系数γ来实现（γ取0到1之间的值，γ越小折扣越大）。第二个成分是多样性惩罚：如果AI在失败的轮次中一直重复同样的错误答案，就会被额外扣分，这鼓励AI在每次尝试中给出不同的答案，而非陷入"复读机"模式。综合这两个成分，每条轨迹都得到了一个数值化的评分。

然后，每条轨迹的权重按照"指数化的回报值除以同一题目所有轨迹的平均指数化回报值"来计算。这里有两个细节值得注意。其一，采用指数化处理（即e的回报次方）意味着高回报轨迹的权重会被大幅放大，而低回报轨迹几乎被忽略，整体分布向优质轨迹倾斜。其二，用同一题目内的多条轨迹做归一化（研究团队称之为"题目级归一化"），确保不同题目之间的权重可比，避免某些特别容易的题把整个训练拉偏。调节这种倾斜程度的温度参数β非常关键，β越小，权重越集中在最优轨迹上，训练越激进但也越不稳定；β越大，权重越均匀，训练越保守。实验表明β=0.1是一个较好的平衡点。

第二个阶段是加权监督训练。有了带权重的数据集之后，训练本身就非常标准了：对每条轨迹，取出它的最终一轮（即包含完整对话历史的最后一次回答），用它的权重缩放交叉熵损失函数，然后用梯度下降更新模型参数。只训练最终一轮而非所有轮次，是DRIFT的一个有趣设计。这背后的逻辑是：在"答对即停止"的协议下，中间轮次的回答都是被判定为错误的，如果把高权重的轨迹中所有中间轮次都当作学习目标，AI会被迫模仿那些已经被裁判否定的错误答案，这显然会引入噪声。只保留最终轮的做法虽然引入了一些偏差，但更准确地把"好轨迹的成功"归因到真正关键的那一步，在实践中表现更优。研究团队还用数学证明了"全轮次训练"和"仅最终轮次训练"之间的梯度差异是有界的，并通过实验验证了最终轮次训练确实收敛更快、精度更高。

四、为什么这个方法在理论上是严格成立的？

DRIFT不是一个凭直觉拼凑的工程技巧，它有完整的理论支撑链条，研究团队为此证明了一系列定理。

第一块理论基石是"最优轨迹分布"的推导。研究团队证明，如果不考虑模型参数的限制，直接问"什么样的概率分布能最大化期望回报同时又不偏离参考模型太多？"，答案是一个非常优美的闭合公式：最优分布等于参考分布乘以指数化的回报值，再除以归一化因子。这说明，理想中的AI应该按照"表现越好、被选中概率越高"的方式来分配概率质量，而权重的形式恰好就是指数化的回报。

第二块理论基石是"强化学习目标等价于KL散度最小化"。研究团队证明，最大化那个"既要表现好又不偏离参考"的目标函数，完全等价于最小化当前模型分布与上述最优分布之间的"反向KL散度"（一种衡量两个概率分布差异的指标）。反向KL散度的计算需要在当前模型分布下采样，这正是在线强化学习计算成本高的根源——每次模型更新后都必须重新生成数据。

第三块理论基石是"正向KL散度可以作为替代目标"。反向KL难算，但还有一种方向相反的KL散度（正向KL），它的计算是在固定的最优分布下采样，而非在随时变化的当前模型下采样。研究团队证明了两点：在模型足够强大的情况下，正向和反向KL的全局最优点是完全一样的；即使模型不够强大无法精确达到最优，只要当前模型离最优分布不太远，两种KL在局部的几何形状（即二阶导数）也是相同的，这意味着优化方向一致。这个替代就使得"从固定参考策略采样、然后重要性加权"的离线训练方案在理论上是合理的。

对于实际训练中用有限样本估计归一化因子可能引入的误差，研究团队也做了严格分析。他们证明，只要每道题采集的轨迹数量K足够大（具体需要多大取决于β和回报的范围），估计误差就可以以指数速度收敛到零。这也解释了为什么β不能太小：β太小会让指数化后的回报值范围急剧扩大，需要指数级增加的样本量才能保持估计精度，在实践中是不可行的。

五、实验结果：DRIFT表现怎么样？

理论上站得住脚之后，更关键的问题是：实际效果如何？研究团队在两个主流大语言模型上进行了系统性测试：Qwen2.5-3B-Instruct（一个30亿参数规模的中文和英文双语模型）和Llama3.1-8B-Instruct（一个80亿参数的英文模型）。训练数据使用了MetaMathQA数据集中的MATH子集，评测则覆盖了数学推理和通用推理两大类基准。

评测指标采用"multi@5"，即在最多5轮对话的预算内，AI最终答对的概率。这个指标同时测试了AI第一轮的基础能力和后续轮次的纠错能力。数学类基准包括MATH（竞赛数学题集）、MATH500（500题的评测子集）和TheoremQA（需要运用定理的STEM题目）；通用推理基准包括MMLU-Redux（重新标注的通用知识多选题）、MMLU-Pro（更难的多选题版本）和GPQA-diamond（研究生水平的科学问答题）。

对比的基线方法分为四类。第一类是单轮训练方法，包括不做任何微调的基础模型、普通监督微调（SFT）和单轮PPO强化学习。第二类是离线多轮方法，包括直接在多轮对话数据上做监督微调（SFT-5turn）和自我训练方法STaR-2turn（只保留两轮对话中第二轮答对的数据来训练）。第三类是在线多轮强化学习方法，包括SCoRe-2turn（带KL正则化的两轮纠错强化学习）和UFO-5turn（当前最强的多轮试错训练方法）。第四类就是DRIFT-5turn。

实验结果呈现出几个清晰的规律。单轮训练方法在数学基准上因为提升了第一轮准确率，multi@5数字看起来还不错，但在通用推理基准上几乎没有提升，因为它们根本没有学会响应否定反馈。多轮训练方法，无论离线还是在线，都在通用推理基准上取得了显著提升，证明了多轮纠错能力确实可以迁移到训练域之外的任务。在线强化学习方法（SCoRe和UFO）普遍优于离线监督方法（SFT-5turn和STaR），这符合预期。DRIFT-5turn则与UFO-5turn大致相当，在多数基准上持平或略有超越，在Qwen2.5-3B-Instruct上的所有基准平均得分为60.5%，略高于UFO的60.2%；在Llama3.1-8B-Instruct上为55.6%，略低于UFO的56.1%。

逐轮分析揭示了更有趣的细节。研究团队统计了每轮对话的"纠错率"，即上一轮答错的题目中本轮答对的比例。DRIFT在前几轮的纠错率明显高于其他方法，意味着它训练出的AI能更快、更早地从错误中恢复，而不是把希望全部押在后期的轮次上。

六、效率对比：这才是DRIFT最大的惊喜

如果DRIFT只是和UFO性能差不多，那它的价值就是"换了个方式得到了相同结果"，意义有限。DRIFT真正让人眼前一亮的地方在于训练效率。

研究团队在两种硬件配置（4块NVIDIA A800 80G显卡和4块NVIDIA H20 96G显卡）上测量了端到端的GPU时间。以Qwen2.5-3B-Instruct在A800上训练200步为例：标准多轮SFT-5Turn耗时约3.8小时，DRIFT-5Turn耗时约4.2小时，而UFO-5Turn耗时高达14.2小时。也就是说，DRIFT只比普通SFT慢了约10%，却比UFO快了约3.4倍。在Llama3.1-8B-Instruct上，这个差距同样显著：DRIFT约8.4小时，UFO约16.4小时。

随着对话轮数增加，这个效率差距会进一步扩大。在1轮对话的设置下，SFT、DRIFT和UFO的时间差异很小；但在5轮对话下，UFO的时间急剧膨胀，而SFT和DRIFT的增幅则相对温和。这背后的原因在于：DRIFT把多轮对话的生成完全转移到了离线阶段，且只需要进行一次；而UFO每次模型参数更新后都必须重新生成当前策略下的多轮对话，轮次越多、更新越频繁，成本就越高。

七、各种超参数和设计选择的影响

研究团队对DRIFT的多个关键设计选择做了细致的消融实验，这些实验帮助理解为什么DRIFT设计成现在这个样子。

折扣因子γ控制着"早点答对比晚点答对能多得多少分"。γ越小，早成功的奖励和晚成功的奖励差距越大，AI的行为也越倾向于在前几轮就解决问题，在5轮内解决所有能解决题目的速度越快。不同γ值在最终准确率上差异不大，但对每轮的解题分布影响显著。

温度参数β控制着权重的集中程度。β极小时（如0.0001），所有权重几乎集中在最高分的那条轨迹上，训练非常激进，容易不稳定；β极大时（如10.0），所有轨迹权重几乎相同，退化成普通SFT，纠错能力提升有限；β=0.1是一个较好的折中点，兼顾了分布的倾斜程度和训练稳定性。

每道题采集的轨迹数量K也有显著影响。K太小（如4）时，每组内有一半以上的题目要么全部答对、要么全部答错，这种情况下所有轨迹权重相同，方法退化为普通SFT，效果就会下降；K越大，有效的"混合组"（即同一题目内既有成功也有失败的轨迹）比例越高，权重的区分度越大，但K=64和K=128之间的差异已经不大。研究团队最终选择K=16作为效率和效果的平衡点。

多样性惩罚项（即不鼓励重复错误答案的那个额外扣分）对性能也有实质性贡献。去掉这个惩罚后，AI更容易陷入"同一个错误一直重复"的循环，不同轮次间的答案多样性下降，最终的5轮准确率也随之降低。这个设计受到了另一个研究工作UFO的启发。

反馈措辞的影响则出乎意料地小。研究团队测试了多种不同表达的否定反馈，从简单的"Incorrect."到较复杂的"I don't think that's correct. Try again."，结果发现性能差异非常微小，甚至更简单的反馈（如单独的"Incorrect."）有时表现更好。这表明DRIFT学到的不是对特定反馈措辞的机械响应，而是更通用的"接收到否定信号后重新审视并修改答案"的策略。

八、进阶探索：DRIFT还能怎么玩？

除了主实验，研究团队还探索了几个有趣的扩展方向。

第一个扩展是"滚动刷新"变体。DRIFT最明显的局限性之一是：它只用参考策略生成一次数据，如果参考策略生成不出某种有用的纠错轨迹，那这种能力就没有机会被学到。一个简单的应对方案是：先用参考策略训练100步得到一个中间检查点，再用这个检查点重新生成数据，然后继续训练100步。结果显示，这种两阶段刷新方案比单阶段DRIFT的全基准平均得分提高了约0.7个百分点（从60.5%到61.2%），说明定期刷新数据确实有帮助，但单次刷新的收益有限，更系统的刷新策略是未来工作的方向。

第二个扩展是"DRIFT作为在线强化学习的预热"。研究团队发现，先用DRIFT训练100步、再用UFO训练100步，总计200步的混合方案比纯UFO训练200步高出约2.3个百分点（62.5% vs 60.2%）。有趣的是，先用普通SFT训练100步、再用UFO训练100步，并没有带来类似的提升，甚至略差于纯UFO。这说明DRIFT的价值不仅仅在于提供一个"离线热身"，它还切实改善了模型的多轮纠错策略，为后续在线强化学习提供了更好的起点。

第三个扩展是更大模型的测试。研究团队还在Qwen2.5-7B-Instruct（70亿参数）上测试了DRIFT，结果显示全基准平均得分从基础模型的64.8%提升到68.3%，与UFO的67.9%相比高出约0.4个百分点，进一步验证了DRIFT在更大规模模型上同样有效。

九、诚实面对局限：DRIFT不是万能的

研究团队非常坦诚地指出了DRIFT的适用边界，这些局限性值得单独阐述。

DRIFT设计的核心前提是"有一个确定性的答案验证器"，即每次AI给出答案后，系统能明确判断对错并给出一致的反馈。这在数学题、客观知识问答等任务上成立，但在开放性对话、主观评价、偏好类问题等场景下不成立。此外，DRIFT目前只处理"短期内的多轮纠错"，最多5轮对话，每轮对话的内容本身并不复杂。对于需要长达数十轮乃至数百轮深度规划的智能体任务，DRIFT的设计假设就不再合适了。

另一个局限是"知识能力的天花板"。DRIFT能教会AI如何更好地利用负反馈来修正错误，但它无法教给AI它本来就不具备的知识。研究团队在GPQA的有机化学题上做了一个典型案例分析，揭示了一个令人深思的现象：基础模型在第一轮恰好选择了正确答案（C），但推理过程完全错误（用了一个化学上不可能的机制）；UFO在后续轮次中陷入盲目猜答案的循环（依次猜了B→A→B→D→C）；而DRIFT给出的推理虽然也存在事实错误，但至少是合乎情理的启发式猜测，没有陷入无意义的穷举。三个模型都最终做出了某种形式的猜测，因为它们都缺乏回答该问题所需的深度领域知识。DRIFT的价值在于提供了更好的"纠错策略"，但策略的有效性必须建立在模型本身具备相关能力的基础上。

---

归根结底，DRIFT所做的事情，是找到了一条在两个极端之间走平衡木的路：既不像普通监督学习那样完全忽视回报信息、一视同仁地模仿所有示范，也不像在线强化学习那样每次更新都要重新与环境互动、成本高昂。它把"哪些经验更有价值"这个判断，通过精心设计的权重机制，融入了一个本质上简单的训练流程中。

这项研究的意义，不只是让某个具体的AI系统表现更好，更在于它揭示了一个更通用的原理：强化学习的目标和监督学习的目标，在特定的数学框架下是可以精确等价的，这为未来设计高效的AI训练算法提供了新的视角。下一次当你跟AI说"你说错了，重新想想"，背后那个让它能够有效学习这种反馈的训练机制，也许就和DRIFT的思路有着某种共鸣。如果你对完整的数学推导和实验细节感兴趣，可以通过arXiv:2605.31455找到原始论文，完整阅读这项研究的全部内容。

---

Q&A

Q1：DRIFT方法和普通多轮对话监督微调有什么本质区别？

A：普通多轮监督微调（SFT）对所有训练样本一视同仁，无论某条对话轨迹是第一轮就答对还是五轮都答错，学习时的权重都一样。DRIFT的核心区别在于给每条轨迹计算一个基于回报的重要性权重——越早答对、越少重复错误的轨迹权重越高，训练时模型会更多地向这类优质轨迹靠拢。这个权重机制在数学上等价于强化学习目标，但计算方式接近普通SFT，因此兼顾了效果和效率。

Q2：DRIFT训练需要多少计算资源，和在线强化学习相比能省多少？

A：以Qwen2.5-3B模型在4块NVIDIA A800显卡上训练200步为例，DRIFT-5Turn耗时约4.2小时，而同等设置下UFO-5Turn（当前主流在线多轮强化学习方法）耗时约14.2小时，DRIFT约快3.4倍。DRIFT的效率优势来自于将多轮对话生成完全移到离线阶段，且只生成一次，而在线方法每次更新参数后都必须重新生成当前策略的对话，轮次越多成本越高。

Q3：DRIFT在数学之外的任务上能起作用吗？

A：DRIFT在通用推理基准（如MMLU-Redux、MMLU-Pro、GPQA）上同样取得了明显提升，且这些评测任务与训练用的数学题集来自完全不同的领域，说明DRIFT学到的多轮纠错策略有一定的迁移能力。不过，DRIFT的前提是存在一个明确的答案验证器，对于开放性对话、主观评价等没有标准答案的任务，目前的框架并不适用。此外，DRIFT无法弥补模型本身的知识盲区，对于需要深度领域专业知识的问题，效果会受到基础能力的限制。

大语言模型多轮对话优化重要性加权训练

分享至