
这项由香港科技大学(广州)与香港中文大学(深圳)联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.31455,有兴趣深入了解的读者可通过该编号查询完整论文。
一、故事的起点:当AI答错了,然后呢?
考虑这样一个场景:你正在辅导一个孩子做数学题,孩子第一次算错了,你告诉他"不对,再想想",孩子重新算了一遍,这次答对了。对你来说这再自然不过,但对当前的人工智能来说,这个"犯错-接收反馈-改正"的循环,却是一个极其棘手的难题。
目前大多数AI助手在训练时,只学了"被问一次答一次"的单轮对话模式。一旦用户告诉它"你说错了",它往往要么固执地重复同样的错误,要么胡乱改动却改得更糟,就像一个完全不会接受批评的学生。现实生活中,我们跟AI交流时经常需要来回好几轮——"这不对""换个角度想想""你确定吗"——这种多轮互动的场景,正是当前AI最薄弱的地方。
要让AI学会这种多轮纠错能力,研究者面临一个两难困境。一边是"在线强化学习"(可以理解为让AI在真实对话中反复练习、实时更新自己的策略),这种方法效果好,但代价极高——每次更新都要完整地跑一遍多轮对话,计算成本随着对话轮次增加而急剧膨胀。另一边是"监督微调"(可以理解为直接给AI看大量优质示范答案,让它照着学),这种方法快且省资源,但AI只是在机械模仿,并没有真正学会如何在收到批评后做出有意义的改动,容易导致"第一轮押注过度"的问题——AI把所有精力都放在第一次答对上,后续轮次根本不知道该怎么有效修正。
正是为了破解这个困境,港科大广州等机构的研究团队提出了DRIFT,全称"解耦滚动与重要性加权微调"(Decoupled Rollouts and Importance-Weighted Fine-Tuning)。这个方法的核心思路,是找到一座桥梁,让AI既能享受强化学习"真正学会纠错"的效果,又能保持监督微调"省时省力"的效率。
二、理解DRIFT的核心思想:给对话打分,然后按分数学习
要理解DRIFT是如何工作的,先从一个生活化的类比出发。
假设你是一位厨艺老师,要教学生做一道菜。你有一本参考食谱(这就是AI的"参考策略"),学生按照这本食谱做了16份尝试,每份都略有不同。有些学生第一次就做出了美味的菜,有些学生失败了好几次才成功,还有些学生5次都没做好。现在你要给每份尝试打分:越早做成功的得分越高,一直失败的得分很低。最后,你按照这些分数来决定"这份尝试值得参考多少"——高分的尝试要重点学习,低分的尝试基本忽略。
这正是DRIFT的核心逻辑。研究团队发现了一个关键的数学等价关系:AI训练中常用的一类目标函数(即"KL正则化强化学习目标",你可以把它理解为"既要表现好又不要跑太偏"的训练目标),在数学上完全等价于一种带权重的监督学习——也就是说,你不需要在每次训练时都实时生成新的对话,只需要事先按照参考策略收集一批对话记录,给每条记录赋予一个反映其"价值"的权重,然后用这个加权数据集来训练AI即可。
这个发现的意义在于:它彻底把"生成对话"和"训练模型"这两件事分开了。生成对话可以一次性离线批量完成,不需要在每次训练更新时都重新跑;训练本身则退化成了一个普通的监督学习问题,速度快、稳定性好。
三、DRIFT的具体运作:两个阶段,一个精妙设计
DRIFT的实际运作分为两个清晰的阶段,就像一个考试准备系统:先批量收集模拟考试记录,再根据每次模拟的成绩决定"这次模拟值得多认真地复习"。
第一个阶段是离线对话生成。研究团队固定了一个"参考模型"(即AI的初始版本,不会在这个阶段更新),针对每道训练题目,让这个参考模型在多轮对话规则下跑16次完整的尝试。规则很简单:AI每次给出答案,如果答对了,本轮对话终止;如果答错了,系统就追加一条固定的反馈信息"不对,请再想想",然后继续下一轮,最多进行5轮。16次尝试会产生16条不同的对话轨迹,有的轨迹第一轮就成功,有的第三轮才成功,有的5轮全部失败。
接下来,每条轨迹都会被计算一个"回报值"(Return)。这个回报值的设计颇具巧思,包含两个成分。第一个成分是打折扣的成功奖励:越早答对得分越高,第一轮就答对比第三轮才答对得分高很多,这种设计用打折系数γ来实现(γ取0到1之间的值,γ越小折扣越大)。第二个成分是多样性惩罚:如果AI在失败的轮次中一直重复同样的错误答案,就会被额外扣分,这鼓励AI在每次尝试中给出不同的答案,而非陷入"复读机"模式。综合这两个成分,每条轨迹都得到了一个数值化的评分。
然后,每条轨迹的权重按照"指数化的回报值除以同一题目所有轨迹的平均指数化回报值"来计算。这里有两个细节值得注意。其一,采用指数化处理(即e的回报次方)意味着高回报轨迹的权重会被大幅放大,而低回报轨迹几乎被忽略,整体分布向优质轨迹倾斜。其二,用同一题目内的多条轨迹做归一化(研究团队称之为"题目级归一化"),确保不同题目之间的权重可比,避免某些特别容易的题把整个训练拉偏。调节这种倾斜程度的温度参数β非常关键,β越小,权重越集中在最优轨迹上,训练越激进但也越不稳定;β越大,权重越均匀,训练越保守。实验表明β=0.1是一个较好的平衡点。
第二个阶段是加权监督训练。有了带权重的数据集之后,训练本身就非常标准了:对每条轨迹,取出它的最终一轮(即包含完整对话历史的最后一次回答),用它的权重缩放交叉熵损失函数,然后用梯度下降更新模型参数。只训练最终一轮而非所有轮次,是DRIFT的一个有趣设计。这背后的逻辑是:在"答对即停止"的协议下,中间轮次的回答都是被判定为错误的,如果把高权重的轨迹中所有中间轮次都当作学习目标,AI会被迫模仿那些已经被裁判否定的错误答案,这显然会引入噪声。只保留最终轮的做法虽然引入了一些偏差,但更准确地把"好轨迹的成功"归因到真正关键的那一步,在实践中表现更优。研究团队还用数学证明了"全轮次训练"和"仅最终轮次训练"之间的梯度差异是有界的,并通过实验验证了最终轮次训练确实收敛更快、精度更高。
四、为什么这个方法在理论上是严格成立的?
DRIFT不是一个凭直觉拼凑的工程技巧,它有完整的理论支撑链条,研究团队为此证明了一系列定理。
第一块理论基石是"最优轨迹分布"的推导。研究团队证明,如果不考虑模型参数的限制,直接问"什么样的概率分布能最大化期望回报同时又不偏离参考模型太多?",答案是一个非常优美的闭合公式:最优分布等于参考分布乘以指数化的回报值,再除以归一化因子。这说明,理想中的AI应该按照"表现越好、被选中概率越高"的方式来分配概率质量,而权重的形式恰好就是指数化的回报。
第二块理论基石是"强化学习目标等价于KL散度最小化"。研究团队证明,最大化那个"既要表现好又不偏离参考"的目标函数,完全等价于最小化当前模型分布与上述最优分布之间的"反向KL散度"(一种衡量两个概率分布差异的指标)。反向KL散度的计算需要在当前模型分布下采样,这正是在线强化学习计算成本高的根源——每次模型更新后都必须重新生成数据。
第三块理论基石是"正向KL散度可以作为替代目标"。反向KL难算,但还有一种方向相反的KL散度(正向KL),它的计算是在固定的最优分布下采样,而非在随时变化的当前模型下采样。研究团队证明了两点:在模型足够强大的情况下,正向和反向KL的全局最优点是完全一样的;即使模型不够强大无法精确达到最优,只要当前模型离最优分布不太远,两种KL在局部的几何形状(即二阶导数)也是相同的,这意味着优化方向一致。这个替代就使得"从固定参考策略采样、然后重要性加权"的离线训练方案在理论上是合理的。
对于实际训练中用有限样本估计归一化因子可能引入的误差,研究团队也做了严格分析。他们证明,只要每道题采集的轨迹数量K足够大(具体需要多大取决于β和回报的范围),估计误差就可以以指数速度收敛到零。这也解释了为什么β不能太小:β太小会让指数化后的回报值范围急剧扩大,需要指数级增加的样本量才能保持估计精度,在实践中是不可行的。
五、实验结果:DRIFT表现怎么样?
理论上站得住脚之后,更关键的问题是:实际效果如何?研究团队在两个主流大语言模型上进行了系统性测试:Qwen2.5-3B-Instruct(一个30亿参数规模的中文和英文双语模型)和Llama3.1-8B-Instruct(一个80亿参数的英文模型)。训练数据使用了MetaMathQA数据集中的MATH子集,评测则覆盖了数学推理和通用推理两大类基准。
评测指标采用"multi@5",即在最多5轮对话的预算内,AI最终答对的概率。这个指标同时测试了AI第一轮的基础能力和后续轮次的纠错能力。数学类基准包括MATH(竞赛数学题集)、MATH500(500题的评测子集)和TheoremQA(需要运用定理的STEM题目);通用推理基准包括MMLU-Redux(重新标注的通用知识多选题)、MMLU-Pro(更难的多选题版本)和GPQA-diamond(研究生水平的科学问答题)。
对比的基线方法分为四类。第一类是单轮训练方法,包括不做任何微调的基础模型、普通监督微调(SFT)和单轮PPO强化学习。第二类是离线多轮方法,包括直接在多轮对话数据上做监督微调(SFT-5turn)和自我训练方法STaR-2turn(只保留两轮对话中第二轮答对的数据来训练)。第三类是在线多轮强化学习方法,包括SCoRe-2turn(带KL正则化的两轮纠错强化学习)和UFO-5turn(当前最强的多轮试错训练方法)。第四类就是DRIFT-5turn。
实验结果呈现出几个清晰的规律。单轮训练方法在数学基准上因为提升了第一轮准确率,multi@5数字看起来还不错,但在通用推理基准上几乎没有提升,因为它们根本没有学会响应否定反馈。多轮训练方法,无论离线还是在线,都在通用推理基准上取得了显著提升,证明了多轮纠错能力确实可以迁移到训练域之外的任务。在线强化学习方法(SCoRe和UFO)普遍优于离线监督方法(SFT-5turn和STaR),这符合预期。DRIFT-5turn则与UFO-5turn大致相当,在多数基准上持平或略有超越,在Qwen2.5-3B-Instruct上的所有基准平均得分为60.5%,略高于UFO的60.2%;在Llama3.1-8B-Instruct上为55.6%,略低于UFO的56.1%。
逐轮分析揭示了更有趣的细节。研究团队统计了每轮对话的"纠错率",即上一轮答错的题目中本轮答对的比例。DRIFT在前几轮的纠错率明显高于其他方法,意味着它训练出的AI能更快、更早地从错误中恢复,而不是把希望全部押在后期的轮次上。
六、效率对比:这才是DRIFT最大的惊喜
如果DRIFT只是和UFO性能差不多,那它的价值就是"换了个方式得到了相同结果",意义有限。DRIFT真正让人眼前一亮的地方在于训练效率。
研究团队在两种硬件配置(4块NVIDIA A800 80G显卡和4块NVIDIA H20 96G显卡)上测量了端到端的GPU时间。以Qwen2.5-3B-Instruct在A800上训练200步为例:标准多轮SFT-5Turn耗时约3.8小时,DRIFT-5Turn耗时约4.2小时,而UFO-5Turn耗时高达14.2小时。也就是说,DRIFT只比普通SFT慢了约10%,却比UFO快了约3.4倍。在Llama3.1-8B-Instruct上,这个差距同样显著:DRIFT约8.4小时,UFO约16.4小时。
随着对话轮数增加,这个效率差距会进一步扩大。在1轮对话的设置下,SFT、DRIFT和UFO的时间差异很小;但在5轮对话下,UFO的时间急剧膨胀,而SFT和DRIFT的增幅则相对温和。这背后的原因在于:DRIFT把多轮对话的生成完全转移到了离线阶段,且只需要进行一次;而UFO每次模型参数更新后都必须重新生成当前策略下的多轮对话,轮次越多、更新越频繁,成本就越高。
七、各种超参数和设计选择的影响
研究团队对DRIFT的多个关键设计选择做了细致的消融实验,这些实验帮助理解为什么DRIFT设计成现在这个样子。
折扣因子γ控制着"早点答对比晚点答对能多得多少分"。γ越小,早成功的奖励和晚成功的奖励差距越大,AI的行为也越倾向于在前几轮就解决问题,在5轮内解决所有能解决题目的速度越快。不同γ值在最终准确率上差异不大,但对每轮的解题分布影响显著。
温度参数β控制着权重的集中程度。β极小时(如0.0001),所有权重几乎集中在最高分的那条轨迹上,训练非常激进,容易不稳定;β极大时(如10.0),所有轨迹权重几乎相同,退化成普通SFT,纠错能力提升有限;β=0.1是一个较好的折中点,兼顾了分布的倾斜程度和训练稳定性。
每道题采集的轨迹数量K也有显著影响。K太小(如4)时,每组内有一半以上的题目要么全部答对、要么全部答错,这种情况下所有轨迹权重相同,方法退化为普通SFT,效果就会下降;K越大,有效的"混合组"(即同一题目内既有成功也有失败的轨迹)比例越高,权重的区分度越大,但K=64和K=128之间的差异已经不大。研究团队最终选择K=16作为效率和效果的平衡点。
多样性惩罚项(即不鼓励重复错误答案的那个额外扣分)对性能也有实质性贡献。去掉这个惩罚后,AI更容易陷入"同一个错误一直重复"的循环,不同轮次间的答案多样性下降,最终的5轮准确率也随之降低。这个设计受到了另一个研究工作UFO的启发。
反馈措辞的影响则出乎意料地小。研究团队测试了多种不同表达的否定反馈,从简单的"Incorrect."到较复杂的"I don't think that's correct. Try again.",结果发现性能差异非常微小,甚至更简单的反馈(如单独的"Incorrect.")有时表现更好。这表明DRIFT学到的不是对特定反馈措辞的机械响应,而是更通用的"接收到否定信号后重新审视并修改答案"的策略。
八、进阶探索:DRIFT还能怎么玩?
除了主实验,研究团队还探索了几个有趣的扩展方向。
第一个扩展是"滚动刷新"变体。DRIFT最明显的局限性之一是:它只用参考策略生成一次数据,如果参考策略生成不出某种有用的纠错轨迹,那这种能力就没有机会被学到。一个简单的应对方案是:先用参考策略训练100步得到一个中间检查点,再用这个检查点重新生成数据,然后继续训练100步。结果显示,这种两阶段刷新方案比单阶段DRIFT的全基准平均得分提高了约0.7个百分点(从60.5%到61.2%),说明定期刷新数据确实有帮助,但单次刷新的收益有限,更系统的刷新策略是未来工作的方向。
第二个扩展是"DRIFT作为在线强化学习的预热"。研究团队发现,先用DRIFT训练100步、再用UFO训练100步,总计200步的混合方案比纯UFO训练200步高出约2.3个百分点(62.5% vs 60.2%)。有趣的是,先用普通SFT训练100步、再用UFO训练100步,并没有带来类似的提升,甚至略差于纯UFO。这说明DRIFT的价值不仅仅在于提供一个"离线热身",它还切实改善了模型的多轮纠错策略,为后续在线强化学习提供了更好的起点。
第三个扩展是更大模型的测试。研究团队还在Qwen2.5-7B-Instruct(70亿参数)上测试了DRIFT,结果显示全基准平均得分从基础模型的64.8%提升到68.3%,与UFO的67.9%相比高出约0.4个百分点,进一步验证了DRIFT在更大规模模型上同样有效。
九、诚实面对局限:DRIFT不是万能的
研究团队非常坦诚地指出了DRIFT的适用边界,这些局限性值得单独阐述。
DRIFT设计的核心前提是"有一个确定性的答案验证器",即每次AI给出答案后,系统能明确判断对错并给出一致的反馈。这在数学题、客观知识问答等任务上成立,但在开放性对话、主观评价、偏好类问题等场景下不成立。此外,DRIFT目前只处理"短期内的多轮纠错",最多5轮对话,每轮对话的内容本身并不复杂。对于需要长达数十轮乃至数百轮深度规划的智能体任务,DRIFT的设计假设就不再合适了。
另一个局限是"知识能力的天花板"。DRIFT能教会AI如何更好地利用负反馈来修正错误,但它无法教给AI它本来就不具备的知识。研究团队在GPQA的有机化学题上做了一个典型案例分析,揭示了一个令人深思的现象:基础模型在第一轮恰好选择了正确答案(C),但推理过程完全错误(用了一个化学上不可能的机制);UFO在后续轮次中陷入盲目猜答案的循环(依次猜了B→A→B→D→C);而DRIFT给出的推理虽然也存在事实错误,但至少是合乎情理的启发式猜测,没有陷入无意义的穷举。三个模型都最终做出了某种形式的猜测,因为它们都缺乏回答该问题所需的深度领域知识。DRIFT的价值在于提供了更好的"纠错策略",但策略的有效性必须建立在模型本身具备相关能力的基础上。
---
归根结底,DRIFT所做的事情,是找到了一条在两个极端之间走平衡木的路:既不像普通监督学习那样完全忽视回报信息、一视同仁地模仿所有示范,也不像在线强化学习那样每次更新都要重新与环境互动、成本高昂。它把"哪些经验更有价值"这个判断,通过精心设计的权重机制,融入了一个本质上简单的训练流程中。
这项研究的意义,不只是让某个具体的AI系统表现更好,更在于它揭示了一个更通用的原理:强化学习的目标和监督学习的目标,在特定的数学框架下是可以精确等价的,这为未来设计高效的AI训练算法提供了新的视角。下一次当你跟AI说"你说错了,重新想想",背后那个让它能够有效学习这种反馈的训练机制,也许就和DRIFT的思路有着某种共鸣。如果你对完整的数学推导和实验细节感兴趣,可以通过arXiv:2605.31455找到原始论文,完整阅读这项研究的全部内容。
---
Q&A
Q1:DRIFT方法和普通多轮对话监督微调有什么本质区别?
A:普通多轮监督微调(SFT)对所有训练样本一视同仁,无论某条对话轨迹是第一轮就答对还是五轮都答错,学习时的权重都一样。DRIFT的核心区别在于给每条轨迹计算一个基于回报的重要性权重——越早答对、越少重复错误的轨迹权重越高,训练时模型会更多地向这类优质轨迹靠拢。这个权重机制在数学上等价于强化学习目标,但计算方式接近普通SFT,因此兼顾了效果和效率。
Q2:DRIFT训练需要多少计算资源,和在线强化学习相比能省多少?
A:以Qwen2.5-3B模型在4块NVIDIA A800显卡上训练200步为例,DRIFT-5Turn耗时约4.2小时,而同等设置下UFO-5Turn(当前主流在线多轮强化学习方法)耗时约14.2小时,DRIFT约快3.4倍。DRIFT的效率优势来自于将多轮对话生成完全移到离线阶段,且只生成一次,而在线方法每次更新参数后都必须重新生成当前策略的对话,轮次越多成本越高。
Q3:DRIFT在数学之外的任务上能起作用吗?
A:DRIFT在通用推理基准(如MMLU-Redux、MMLU-Pro、GPQA)上同样取得了明显提升,且这些评测任务与训练用的数学题集来自完全不同的领域,说明DRIFT学到的多轮纠错策略有一定的迁移能力。不过,DRIFT的前提是存在一个明确的答案验证器,对于开放性对话、主观评价等没有标准答案的任务,目前的框架并不适用。此外,DRIFT无法弥补模型本身的知识盲区,对于需要深度领域专业知识的问题,效果会受到基础能力的限制。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。