微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

R1-代码解释器：通过有监督学习和强化学习训练大型语言模型进行代码推理

人工智能代码解释器强化学习

R1-代码解释器：通过有监督学习和强化学习训练大型语言模型进行代码推理

作者：科技行者

2025-06-06 11:25

分享至：

这篇论文介绍了R1-Code-Interpreter，一种通过有监督学习和强化学习训练大型语言模型进行代码推理的新方法。研究团队收集了144个推理和规划任务，利用多轮训练教会模型自主决定何时使用文本推理或生成代码。最终的14B模型在测试集上将准确率从44.0%提高到64.1%，超过纯文本GPT-4o并接近带Code Interpreter的GPT-4o。研究揭示了SFT阶段的关键作用，并发现模型展现出自发的自我检查行为，为开源模型提供了与商业模型竞争的代码解释器能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 11:25 • 科技行者

在人工智能快速发展的今天，大型语言模型(LLM)在推理和规划能力上取得了长足进步，但在精确计算、符号操作、优化和算法推理等任务上仍面临挑战。这些任务往往需要代码执行的严谨性，而纯文本推理则显得力不从心。最近，来自麻省理工学院、哈佛大学、密歇根大学等机构的研究团队发表了一篇题为《R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning》的研究论文，提出了一种创新方法，帮助语言模型学会在何时使用文本推理，何时需要生成代码。这篇发表于2025年5月的论文（arXiv:2505.21668v1）为开源模型提供了类似OpenAI的Code Interpreter功能，显著提升了模型在各类推理任务上的表现。

想象一下，你面对一道复杂的数学问题或优化任务。单靠文字思考，你可能会迷失在繁琐的计算中；但如果能随时切换到使用计算器或电子表格，问题可能瞬间变得简单许多。这正是这项研究的核心理念：教会AI模型知道什么时候"用脑思考"（文本推理），什么时候该"拿出计算器"（生成并执行代码）。

研究团队面临的主要挑战是，大多数输入问题并没有明确指示应该使用哪种方法，而且文本/代码的解决方案空间非常庞大。虽然OpenAI的GPT模型已经通过内置Code Interpreter解决了这个问题，但公开研究领域仍缺乏关于如何训练开源模型有效利用代码解释器的指导。

为解决这个问题，研究团队创建了R1-Code-Interpreter，这是一个训练框架，通过多轮有监督微调(SFT)和强化学习(RL)，教会开源大语言模型在逐步推理过程中自主生成多个代码查询。研究人员收集了144个推理和规划任务（107个用于训练，37个用于测试），每个任务包含200多个多样化问题。他们使用Qwen-2.5系列模型（3B/7B/14B）进行了微调，并探索了不同的训练策略。

这个研究的成果令人瞩目。最终的R1-CI-14B模型在37个测试任务上将平均准确率从44.0%提高到了64.1%，不仅超过了纯文本模式下的GPT-4o（58.6%），还接近了使用Code Interpreter的GPT-4o（70.9%）。更令人惊喜的是，模型自发形成了通过代码生成进行自我检查的行为，显著提升了推理能力。

一、模型框架与数据集构建

研究团队首先构建了一个包含144个任务的庞大数据集，这些任务涵盖了数学、空间、逻辑、序列、优化和搜索等多种推理能力。想象这个数据集就像一个智力挑战百科全书，从简单的数学计算到复杂的图形着色问题，从数独解谜到区块世界规划，应有尽有。每个任务都包含200多个不同难度的问题，确保模型能接触到广泛多样的挑战。

对于这些任务，研究团队精心设计了一种统一的格式，使得模型可以高效地运行并自动评估正确性。就像是为AI设计了一个标准化考试，无论题目类型如何变化，评分标准都保持一致。

从这些任务中，研究团队随机选择了107个用于训练：26个来自SymBench，20个来自Big-Bench-Hard，61个来自Reasoning-Gym。剩余的37个任务则保留为测试集，用于评估模型的泛化能力。为了生成训练数据，研究人员使用GPT-4o创建了6.5k个高质量的多轮推理/执行轨迹，每个轨迹都确保能产生正确答案。

R1-Code-Interpreter的运作流程非常直观：模型首先阅读问题，然后开始推理。在推理过程中，当它认为需要计算或验证时，会生成Python代码并执行。代码执行结果会被返回给模型，模型继续基于这些结果进一步推理，直到得出最终答案。整个过程最多允许5次代码调用，就像一个思考者在解决复杂问题时，适时拿出计算器进行验证一样自然。

二、训练方法：从监督学习到强化学习

研究团队采用了一个两阶段的训练方法，先进行有监督微调(SFT)，再应用强化学习(RL)进一步优化模型。

在SFT阶段，研究人员使用GPT-4o生成的6.5k个多轮文本/代码轨迹来训练模型。这些轨迹展示了如何在各种任务中有效地结合文本推理和代码执行。就像是给模型提供了大量专家示范，展示"什么时候该思考，什么时候该写代码"的最佳实践。

接下来的RL阶段，研究团队采用了Group Relative Policy Optimization (GRPO)方法，这是一种改进的强化学习算法。与传统的Proximal Policy Optimization (PPO)不同，GRPO不需要单独的价值网络，而是通过比较同一组中多个采样输出的相对奖励来优化策略。

在多轮生成过程中，研究团队还引入了一个巧妙的设计：掩码处理代码执行结果。由于每次代码执行后，系统会返回执行结果，如果将这些结果也纳入梯度计算，可能导致模型试图预测执行结果而非生成高质量代码。通过掩码处理，模型只从自己生成的文本和代码中学习，不会受到执行结果的干扰。

奖励函数设计得相当简单：只基于最终结果的正确性给予奖励。对于事实推理任务，这涉及精确匹配；对于规划任务，则检查是否满足所有约束和目标。研究人员没有包含基于格式的奖励，因为他们发现模型已经很好地遵循了结构格式，也没有训练神经网络奖励模型，避免了奖励黑客和重新训练的高成本。

三、实验结果与分析

研究团队对R1-Code-Interpreter进行了广泛的实验评估，结果令人印象深刻。在所有模型大小（3B、7B和14B）上，R1-CI显著提升了平均成功率，在训练任务上提高了28.8%，在测试任务上提高了27.2%。

最强大的模型R1-CI-14B在37个测试任务上达到了64.1%的准确率，超过了纯文本模式下的GPT-4o（58.6%），接近使用Code Interpreter的GPT-4o（70.9%）。这是一个重要的里程碑，表明开源模型通过适当训练，可以接近闭源商业模型的性能。

研究还发现了几个有趣的现象。首先，与之前的研究相反，初始化时使用专注于推理的模型（如DeepSeek-distilled）反而会降低性能和泛化能力。这表明过度的文本推理训练可能会损害模型的编码能力。这就像一个过于依赖纯粹思考的人可能会忘记如何使用计算工具一样。

其次，有监督微调(SFT)阶段对于Code Interpreter训练至关重要。与之前研究中发现的"可以跳过SFT直接进行RL"的结论不同，研究团队发现在这种复杂的多模态学习中，SFT为模型奠定了关键的基础能力。

第三，在GRPO和PPO之间的比较中，GRPO在所有模型大小和任务类型上都表现更好。掩码处理代码执行输出也被证明能提高多轮RL的稳定性。

研究团队还发现，针对代码解释器的RL训练比之前专注于狭窄领域（如数学或检索）的工作要困难得多。这主要是因为任务多样性高和代码执行的高成本。训练越多样化的任务，训练曲线就越不稳定，奖励提升也越不明显。但即使如此，GRPO仍能将平均成功率提高约3%，这相当于从7B模型升级到14B模型带来的性能提升。

四、模型行为特征与涌现能力

研究中最令人惊喜的发现之一是模型展现出的涌现行为。在GRPO训练过程中，模型自发形成了通过文本推理和代码执行相结合的方式进行解决方案验证的能力。就像一个学生不仅学会了解题，还养成了检查答案的好习惯。

例如，在区块世界任务中，模型会在最后两个推理轮次生成代码来检查提议的解决方案是否满足所有约束条件。这种自我检查行为完全是自发形成的，没有在训练中明确指导。