近日,由上海人工智能实验室的李亚福和西湖大学的严建昊(两位为共同第一作者)领衔的研究团队发表了一篇题为《Learning to Reason under Off-Policy Guidance》(在离线策略指导下学习推理)的前沿研究论文。该研究团队还包括来自南京大学的胡子灿、王志等研究人员,以及香港中文大学的程宇和西湖大学的张岳(两位为通讯作者)。这篇研究论文于2025年4月22日发布在arXiv预印本平台(arXiv:2504.14945v2),目前正在接受同行评审。有兴趣深入了解的读者可以通过GitHub(https://github.com/ElliottYan/LUFFY)访问该项目的完整代码和资料。
一、用离线策略指导让AI更聪明:研究背景与意义
想象一下,你正在教一个孩子解数学题。有两种方法:一种是让他完全靠自己摸索,犯错后给予反馈;另一种是在他遇到困难时,给他展示一些优秀学生的解题过程作为参考。哪种方法更有效?大多数人会认为结合两种方法可能效果最好——既让孩子有尝试和探索的机会,也在必要时给予优秀范例的指导。
这正是上海人工智能实验室和西湖大学联合团队的这项研究所探索的核心思路。近年来,大型语言模型(如OpenAI的o1、DeepSeek-R1和Kimi-1.5)在解决复杂推理问题方面取得了显著进步,这些模型能够生成详细的思维链(Chain-of-Thought)并展现自我反思等复杂行为。特别令人惊喜的是,这些能力是通过简单的规则奖励机制通过强化学习而产生的,研究人员称之为"顿悟时刻"。
目前广泛使用的一种训练范式被称为"零强化学习"(zero-RL),它直接对基础语言模型应用强化学习,让模型从自己的输出中学习。然而,这种方法有一个根本限制:它本质上是"在线策略"(on-policy)的,也就是说,模型只能从自己生成的输出中学习。就像一个学生只能通过反复尝试自己的解法来提高,而不能参考其他更优秀学生的解题方法。
研究团队将这一限制比喻为"认知边界"——模型无法学习超出其初始能力范围的推理行为。正如我们人类学习时,只看自己的尝试而不参考任何专家示范,提升效率会大打折扣。最近的研究表明,即使是先进的模型如Llama 3.2,在零强化学习训练下也很快会达到性能平台期,因为它们缺乏进一步提高所需的基础认知行为。
那么,如何让AI模型突破这些认知边界呢?一种自然的想法是通过模仿学习,让模型通过观察更强大的模型(如DeepSeek-R1)产生的推理过程来学习。然而,纯粹的模仿学习可能导致模型只是表面上模仿,而没有真正内化推理能力,就像死记硬背答案而不理解解题思路的学生。
二、LUFFY方法:平衡模仿与探索的新途径
研究团队提出了一种名为LUFFY(Learning to reason Under oFF-policY guidance,在离线策略指导下学习推理)的新方法。这个名字让人联想到动漫《海贼王》中的主角路飞,他通过观察和学习其他强者的能力,同时保持自己独特的探索和成长路径,最终成为了一名强大的海贼。类似地,LUFFY方法让AI模型能够学习其他强大模型的推理技巧,同时保持自己的探索能力。
LUFFY方法的核心思想是什么呢?想象有两个学生:一个是普通学生(我们的模型),另一个是优等生(如DeepSeek-R1)。LUFFY方法允许普通学生在解题过程中,既可以尝试自己的解法,也可以参考优等生的解法。当普通学生自己的解法不正确时,它会更多地学习优等生的方法;而当自己的解法成功时,它则会更多地依赖自己的探索。这样,就达到了一种动态平衡——既模仿优秀示例,又保持自主探索。
然而,简单地混合两种学习方式会带来新的问题:模型可能会过快收敛到表面模式,失去探索多样解法的能力。就像学生可能只机械地记住优等生的解题步骤,而不理解背后的推理过程。研究团队发现,当模型既学习离线策略(其他强大模型的解法)又学习在线策略(自己的解法)时,它会倾向于强化那些在两种策略中都高概率出现的推理步骤,而忽视那些在自己当前策略中低概率但可能代表重要推理能力的关键步骤。
为了解决这个问题,研究团队引入了一种称为"通过正则化重要性采样的策略塑形"(policy shaping via regularized importance sampling)的技术。这个技术看起来很复杂,但其核心思想其实很简单:它会重新调整学习权重,增强对那些在模型当前策略中低概率但可能代表关键推理能力的步骤的学习。
打个比方,假设一个学生在解一道复杂的数学题时,有些关键步骤(比如特殊的代数变换)他很少想到使用。而优等生的解法中恰好使用了这些步骤。LUFFY方法会特别强化学生对这些罕见但关键步骤的学习,让他更容易掌握这些原本不在他"舒适区"内的技巧。
三、技术细节:LUFFY如何实现平衡模仿与探索
让我们进一步了解LUFFY方法的技术实现。在人工智能领域,强化学习通常分为"在线策略"和"离线策略"两种主要方法。
在线策略就像是一个人边走边学——模型只从自己最近的尝试中学习。这种方法稳定但效率较低,因为模型只能从自己的经验中学习,就像一个人只靠自己的尝试来提高。
离线策略则允许模型从其他来源的经验中学习,就像学生不仅从自己的尝试中学习,还可以从老师的示范或优秀同学的作业中获取知识。这种方法效率更高,但可能不够稳定,因为外部经验与模型自身的状态可能存在差距。
LUFFY方法基于一种叫做GRPO(一种在线策略算法)的改进版本。在传统的GRPO中,模型通过生成多个解决方案,然后根据这些解决方案的奖励值(是否正确解决问题)来调整自己的策略。LUFFY创新性地将离线策略(其他强大模型如DeepSeek-R1生成的高质量推理过程)与模型自己的在线尝试相结合。
具体来说,LUFFY有三个关键技术创新:
首先,它使用"混合策略"计算,将离线示例(优秀示范)和在线尝试(自己的解法)混合在一起评估。当模型自己的解法表现不佳时,它会更多地从离线示例中学习;而当自己的解法成功时,则更倾向于保持自己的探索路径。
其次,为了解决简单混合可能导致的快速收敛和熵崩塌(模型变得过于确定性,失去探索能力)问题,LUFFY引入了"策略塑形"技术。想象一下给学习过程加了一个特殊的"放大镜",这个放大镜会特别放大那些模型当前不太可能尝试、但在优秀示例中出现的关键步骤的学习信号。这样,模型就能更好地学习那些原本不在其"舒适区"内的重要推理技巧。
第三,LUFFY移除了在线策略中的"裁剪"机制。传统强化学习中的裁剪是为了限制策略更新的幅度,确保学习的稳定性。但在融合离线策略的情况下,目标行为可能与模型当前策略有较大差异,特别是在训练早期。裁剪可能会抑制从高质量离线示例中学习的能力。移除这一限制,模型就能更灵活地向那些不熟悉但有效的行动学习,从而更好地融合离线推理行为。
四、实验结果:LUFFY的惊人表现
研究团队在六个具有挑战性的数学推理基准测试上评估了LUFFY方法的性能,这些基准包括AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench。这些测试涵盖了从中学到奥林匹克级别的各种数学问题,是衡量AI推理能力的重要标准。
结果令人惊喜:LUFFY的平均得分达到了49.6分,比之前最好的零强化学习方法平均提高了7.0分以上。这是一个显著的进步,相当于在一个满分100的考试中,平均分从42.6提高到49.6。特别是在AIME 2025这个最新的测试集上,LUFFY的表现比之前的方法提高了8.2分,展示了其优秀的泛化能力。
更令人印象深刻的是,与纯监督微调(SFT,即纯模仿学习)相比,LUFFY在平均分上也提高了2.0分。这证明了LUFFY不仅能有效地从高质量示例中学习,还能通过自主探索发展出更强的推理能力。
为了进一步测试LUFFY的泛化能力,研究团队还在三个不同领域的测试集上进行了评估:ARC-c(开放域推理)、GPQA-diamond(科学研究生知识)和MMLU-Pro(学术考试和教科书中的推理问题)。在这些测试中,LUFFY同样展现出色的表现,比之前的方法平均提高了6.2分以上。
这些结果清晰地表明,LUFFY成功地结合了模仿学习和自主探索的优点,既能从高质量示例中学习,又能保持探索能力,从而达到更好的泛化效果。
五、深入分析:LUFFY如何平衡模仿与探索
为了更好地理解LUFFY的工作机制,研究团队对其训练动态进行了详细分析。分析显示,LUFFY在训练初期主要倾向于模仿离线示例,这反映在其生成长度逐渐与离线推理过程对齐。在这个阶段,模仿占主导地位,导致初始性能出现短暂下降,因为模型正在适应外部指导。
随着训练进行,模型自己的在线尝试逐渐变得更加重要,促进了在自己的采样空间内的独立探索,同时有效地保留了从离线示范中获得的见解。这种指导性探索带来了越来越大的优势(训练奖励),最终超过了纯在线强化学习方法。LUFFY实现了模仿和探索之间的动态平衡,导致更有效的离线策略学习。
研究还发现,LUFFY在整个训练过程中保持了较高的熵值(多样性指标),而在线强化学习的熵值很快接近零,表明策略变得高度确定性,探索潜力有限。相比之下,LUFFY中观察到的较高熵值允许持续探索不那么确定但可能更优的策略,促进了新认知行为的发现和学习。有趣的是,研究人员观察到熵值的波动甚至偶尔增加,如在第200步到第250步之间,反映了对低概率但关键行动的持续探索。这种策略性探索使模型能够摆脱局部最优解,从而改善其向更全局最优解的收敛。
研究团队还通过一个案例研究比较了LUFFY与基线方法(SFT和GPRO)在数学问题解决中的表现。SFT表现出冗余和循环推理,重复过多(超过8,129个词元),而GPRO显示简洁但缺乏依据的推理(1002个词元),两者都导致错误结论。相比之下,LUFFY呈现了一种平衡的方法(2623个词元),结合了系统分解和清晰的数学计算,通过严格推理和适当的验证步骤成功得出正确答案。
六、研究意义与未来展望
这项研究的意义远超数学问题解决。它为训练能够进行复杂推理的AI模型提供了一种新的范式,这种范式结合了模仿学习的效率和强化学习的探索能力。
LUFFY方法解决了AI研究中的一个关键挑战:如何让模型超越其初始认知边界。传统的零强化学习方法往往只能放大模型已有的行为,而不能引入真正新颖的认知能力。LUFFY通过引入离线策略指导,为模型提供了突破这些边界的机会,同时通过策略塑形技术确保模型不会简单地模仿表面模式,而是真正内化推理能力。
这项研究为人工智能研究提供了几个重要启示:首先,平衡模仿和探索对于发展真正的推理能力至关重要;其次,简单地混合不同学习策略可能不够,需要特殊的技术(如策略塑形)来确保有效学习;第三,AI模型的训练过程与人类学习过程有许多相似之处,理解这些相似性可以帮助我们设计更有效的学习算法。
未来研究可能会探索将LUFFY方法扩展到更广泛的领域或多模态问题,以及进一步改进策略塑形技术以最大化离线指导下的探索效率。这项研究为构建更通用、更有能力、更能自我改进的推理模型提供了可扩展且有原则的路径。
总的来说,上海人工智能实验室和西湖大学联合团队的这项研究代表了人工智能推理能力发展的重要进步。通过巧妙地结合离线策略指导和在线探索,LUFFY方法为训练能够进行复杂推理的AI模型提供了一种新的有效途径。正如研究标题所示,这项工作真正实现了"在离线策略指导下学习推理",为人工智能的未来发展提供了宝贵的见解和工具。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。