这项由杜克大学的Hongyi James Cai、Junlin Wang、Mila魁北克AI研究所的Xiaoyin Chen以及杜克大学的Bhuwan Dhingra共同完成的研究,发表于2025年5月30日的arXiv预印本平台(arXiv:2505.24273v1),主要探讨了大型语言模型(LLM)在推理过程中回溯思考的作用。有兴趣深入了解的读者可以通过https://github.com/jchy20/how-much-backtrack访问相关代码。
一、研究背景:为什么需要了解大模型的"思考"过程?
想象一下,你在解决一道复杂的数学题。你可能会沿着某个思路前进,但突然发现这条路行不通,于是你会说:"等等,让我换个方法试试",然后回溯到之前的步骤,尝试新的解题思路。这种"回溯思考"的能力,对于我们人类来说是再自然不过的事情。而令人惊讶的是,现在的大型语言模型(如DeepSeek-R1和OpenAI的o1)也展现出了类似的能力!
但问题来了:到底有多少回溯是最合适的?回溯太少可能导致模型陷入死胡同,回溯太多又可能导致模型在各种可能性中反复横跳而无法得出结论。就像一个迷宫中的探险者,转弯太少可能无法找到出口,转弯太多又可能在迷宫中兜圈子。
杜克大学和Mila研究所的研究团队正是聚焦于这一问题,他们想弄清楚在训练大型语言模型时,最佳的回溯量是多少,以及回溯能力如何与不同的训练方法(如监督微调SFT和强化学习RL)相互影响。
二、研究方法:探索SFT和RL的协同作用
要理解这项研究,我们需要先了解两种主要的大模型训练方法:监督微调(SFT)和强化学习(RL)。
想象你在教一个孩子做饭。监督微调就像是给孩子看烹饪示范,一步步教他如何完成;而强化学习则更像是让孩子自己尝试做饭,尝到美味的结果就给予奖励,尝到难吃的结果就给予一些建议以便改进。在训练大模型时,研究人员经常先用SFT给模型打基础,然后再用RL让模型进一步提升。
研究团队选择了八个需要复杂推理能力的任务来进行实验:倒计时(Countdown)、数独(Sudoku)、一维弧(Arc 1D)、几何问题(Geometry)、颜色立方体旋转(Color Cube Rotation)、列表函数(List Functions)、斑马谜题(Zebra Puzzles)和自我引用(Self Reference)。这些任务就像是一系列由简单到复杂的智力挑战,用来测试模型的推理能力。
他们设计了一系列对照实验,主要关注以下几个方面:
首先,他们比较了"冷启动RL"(直接用RL训练模型)和"SFT预热+RL"(先用SFT训练,再用RL)两种方法的效果。就像比较直接让孩子下水游泳和先在浅水区练习再下水游泳的区别。
其次,他们特别研究了SFT阶段中回溯思考的作用。他们通过精心构建包含不同回溯次数的合成数据集,以及使用从更强大模型(QwQ-32B)中蒸馏的数据,来分析回溯思考对后续RL训练的影响。就好比研究在教孩子解题时,示范中包含多少次"重新思考"是最有效的。
最后,他们还研究了SFT训练数据的正确性是否会影响RL的效果,这就像是研究示范中出现错误会不会影响孩子的学习。
三、核心发现:回溯思考的奥秘
研究团队的实验揭示了几个令人惊讶的发现:
首先,即使是简短的思考链(CoT)训练也能对强化学习产生积极影响。与之前认为必须有明确的"等等,让我重新思考"等标记才能让强化学习发挥作用的观点不同,研究团队发现,即使是没有明显包含回溯行为的简短CoT,也能为强化学习提供良好的起点。这就像发现孩子即使只学习了基础的思考方法,也能在后续的自主学习中取得更好的进步。
其次,关于SFT阶段训练数据正确性的影响,研究团队做了一个令人意外的发现:训练数据是否正确,对最终RL训练后的模型性能影响不大。他们比较了使用正确CoT和错误CoT进行SFT的模型,发现两者在RL训练后的表现相似。这就像是发现孩子在学习过程中,即使老师偶尔犯错,只要基本的思考框架是对的,孩子最终还是能学会正确的方法。
最关键的发现是关于回溯次数与任务难度之间的关系。研究表明,任务越困难,所需的回溯次数就越多:
对于相对简单的Arc 1D任务,零回溯(即直接给出最优解)的SFT效果最好,模型在RL训练后达到了90.8%的准确率,远超QwQ-32B的24.0%。
对于中等难度的Countdown任务,一次回溯的SFT效果最好,模型在RL训练后达到了69.7%的准确率,优于QwQ-32B的51.5%。
对于困难的Sudoku任务,五次回溯的SFT效果最好,模型在RL训练后达到了28.9%的准确率,而零回溯模型只有14.4%。
这就像是教孩子解决不同难度的问题:简单问题只需直接示范解法;中等难度的问题需要展示一些思考过程中的"重新思考";而复杂问题则需要多次展示"思路调整",才能让孩子真正掌握解决问题的方法。
研究还发现,强化学习对SFT数据的内部一致性非常敏感。当研究人员打乱问题和答案的对应关系时,RL训练变得极其困难。这说明即使RL可以纠正错误的推理过程,但它无法处理完全不相关的问题-答案对。这就像是如果教材中的问题和答案完全对不上,即使最聪明的学生也会感到困惑。
四、研究启示:优化大模型的推理能力
这项研究为如何训练具有更强推理能力的大型语言模型提供了重要启示:
首先,即使是简单的思考链(CoT)示范也能为强化学习提供有价值的起点。就像是给孩子提供一个基础的思考框架,哪怕这个框架很简单,也能帮助孩子在后续的自主学习中取得更好的进步。
其次,在训练大模型时,应该根据任务的难度调整回溯思考的数量。简单任务可以使用直接的示范,复杂任务则需要包含更多回溯步骤的示范。这就像是教导不同年龄段的孩子:对于小孩子,可能需要更直接的指导;而对于大孩子,则可以展示更复杂的思考过程,包括试错和修正。
最后,模型似乎更关注推理的结构而非内容的正确性。这意味着在训练数据中,推理过程的组织方式(如何进行回溯、如何组织思路)可能比每一步推理是否准确更重要。这就像是教孩子解题时,重点不在于示范中的每一步是否都是正确的,而在于是否教会了孩子一种有效的思考方法。
五、未来展望:大模型推理能力的进一步提升
这项研究为未来大型语言模型的发展指明了方向。研究团队发现,不同的任务需要不同程度的回溯,这启示我们未来可能需要更加个性化的训练方法,根据具体任务的特点调整训练策略。
此外,研究还揭示了大模型在训练过程中会表现出两种不同的推理模式:一种是明确表达出来的搜索和回溯,一种是潜在的一次性思考。这两种模式各有优势,未来的研究可能会进一步探索如何结合这两种模式的优点。
最后,研究表明,强化学习在训练过程中主要强化了模型中已有的行为模式,而不是创造全新的能力。这意味着预训练和监督微调阶段埋下的"种子"对模型最终的能力至关重要。未来的研究可能会更加关注如何在早期阶段就培养模型的多样化思考能力。
总的来说,这项研究不仅帮助我们更好地理解了大型语言模型的推理机制,还为如何训练更强大的AI系统提供了实用指导。就像是研究了教导孩子思考的最佳方法,这些发现将帮助我们培养出更会"思考"的AI助手。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。