微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

滑铁卢大学团队突破编程模型训练瓶颈：让AI在自我批评中成长得更聪明

强化学习编程模型批评学习

滑铁卢大学团队突破编程模型训练瓶颈：让AI在自我批评中成长得更聪明

作者：科技行者

2025-10-23 10:00

分享至：

滑铁卢大学研究团队提出批评强化学习新方法，让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练，不仅保持编程能力还获得代码评价能力。实验显示，该方法让小参数模型超越大模型，4B参数版本在LiveCodeBench达59分，超越基础模型4.8分。更重要的是，批评能力可迁移到逻辑推理等其他领域，为AI训练范式转变指明新方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-23 10:00 • 科技行者

这项由加拿大滑铁卢大学和Vector研究所的研究团队完成的研究发表于2025年9月，论文题目为《Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning》。研究团队包括Chi Ruan、Dongfu Jiang、Yubo Wang和Wenhu Chen，感兴趣的读者可以通过arXiv:2509.22824查询完整论文。

在编程世界里，AI模型就像学习编程的学生一样，传统的训练方法是让它们不断练习写代码，然后检查结果是否正确。这就好比让学生反复做编程题，只要最终程序能跑通就算合格。然而，这种方法存在一个明显的缺陷：学生虽然能写出正确答案，却缺乏审视和思考自己代码质量的能力。

滑铁卢大学的研究团队意识到了这个问题，他们提出了一个革命性的想法：除了让AI学会写代码，还要教会它如何批评和评价代码。这就像是在传统的编程训练基础上，增加了一个"代码评审"的环节。学生不仅要会写代码，还要能够判断一段代码是否合理、是否优雅、是否存在问题。

研究团队开发了一种名为"批评强化学习"的新方法，简称CRL。在这种方法下，AI模型需要承担双重角色：既是程序员，也是代码审查员。当给定一个编程问题和对应的解决方案时，模型需要仔细分析这个解决方案是否真正解决了问题，然后给出明确的判断：正确还是错误。

这种训练方式的巧妙之处在于，它迫使模型深入思考代码的逻辑和正确性，而不是简单地模仿已有的代码模式。就像一个学生在做完题目后，还要再检查一遍自己的答案是否合理一样，这种反思过程大大提升了学习效果。

研究团队基于这个创新理念，创造了一个名为CRITIQUE-CODER的新型AI模型。这个模型的训练数据混合了传统的编程训练数据和新的批评训练数据，比例大约是8:2。通过这种混合训练，模型既保持了原有的编程能力，又获得了强大的代码评价能力。

一、从传统训练到批评学习的转变

传统的AI编程模型训练就像教孩子背诵标准答案。给模型一个编程问题，让它生成解决方案，然后检查这个方案能否通过测试用例。如果通过了，就认为模型表现良好；如果没通过，就调整模型参数。这种方法虽然有效，但存在一个根本性缺陷：模型缺乏自我反思和批判思维。

想象一下，如果你学习数学时，老师只是让你做题，从不教你如何检查答案的合理性，你可能会在某些类型的题目上表现很好，但遇到新的变化时就会困惑。编程AI面临的正是这样的问题。它们能够生成看起来正确的代码，但对于代码质量、逻辑严密性和潜在问题的判断能力相对较弱。

批评强化学习的核心思想是让模型学会"换位思考"。在传统训练的基础上，研究团队添加了一个全新的训练环节：给模型展示一个编程问题和一个候选解决方案，让模型判断这个解决方案是否正确。这个过程就像让学生既要会做题，也要会改卷。

这种方法的妙处在于，当模型尝试评价别人的代码时，它必须深入理解问题的本质和解决方案的逻辑。这种理解远比简单的模式匹配更加深刻。比如，当模型看到一个排序算法时，它不仅要知道这个算法的步骤，还要判断这些步骤是否真的能够实现正确的排序功能。

研究团队通过精心设计的奖励机制来引导这种学习过程。当模型对一个解决方案的判断与标准答案一致时，它会获得正面奖励；判断错误时则会受到惩罚。这种机制促使模型不断提升自己的判断准确性。

更重要的是，这种批评能力的培养并不是孤立进行的。研究团队巧妙地将传统的编程训练和批评训练结合在一起，创造了一个混合训练框架。在每一轮训练中，80%的时间模型在练习编程，20%的时间在练习批评。这种比例确保了模型在获得批评能力的同时，不会失去原有的编程技能。

通过这种创新的训练方式，CRITIQUE-CODER不仅保持了强大的代码生成能力，还获得了卓越的代码评价能力。这种双重能力的结合，使得模型在处理复杂编程任务时表现出更高的智能水平和更强的适应性。

二、混合训练数据的精心构建

为了实现这种革命性的训练方法，研究团队面临的第一个挑战是如何构建合适的训练数据。传统的编程训练数据相对简单：问题和对应的正确答案。但批评训练需要的数据更加复杂：不仅要有问题和解决方案，还要有对解决方案正确性的明确判断。

研究团队选择了rStar-Coder数据集作为基础，这个数据集包含了大量的编程问题和测试用例。然而，原始数据集存在一个实际问题：测试用例过多且过于复杂。有些问题包含超过100个测试用例，单个测试用例的长度可能超过10000个字符。这种复杂性不仅增加了验证时间，也给训练带来了不必要的负担。

为了解决这个问题，研究团队采用了一种"数据精简"策略。他们删除了长度超过200个字符的测试用例，并为每个问题随机选择30个测试用例。经过这种处理，平均输入字符数从96208个减少到40个，平均测试用例数量从87个减少到24个。这种精简大大提升了训练效率，同时保持了数据的有效性。

接下来，研究团队需要生成批评训练所需的判断标签。他们使用了一个强大的代码生成模型QWEN3-CODER-30B来为每个编程问题生成候选解决方案。这些候选解决方案的质量参差不齐，有些完全正确，有些存在细微错误，还有些根本无法运行。

为了给这些候选解决方案打上准确的标签，研究团队设计了一个基于测试通过率的评判系统。每个候选解决方案都会在测试用例上运行，通过率达到80%以上的被标记为"正确"，低于这个阈值的被标记为"错误"。这种相对宽松的标准考虑了实际编程中可能存在的边界情况和测试用例的完备性问题。

在数据处理过程中，研究团队还遇到了一个技术挑战：某些测试用例的执行时间过长，可能导致超时并误判正确的解决方案。为了解决这个问题，他们对执行时间进行了合理的限制，避免因为性能问题而影响判断的准确性。

最终的混合数据集包含两种类型的训练样本：80%的传统编程训练数据和20%的批评训练数据。这种比例是经过大量实验验证的最优配置。研究团队发现，如果批评数据的比例过高，模型会过度关注评价功能而忽视编程能力；如果比例过低，则无法充分发挥批评学习的优势。

这种精心设计的混合数据结构确保了CRITIQUE-CODER能够在保持强大编程能力的同时，获得出色的代码评价能力。更重要的是，这种平衡的训练方式避免了模型在实际应用中可能出现的"格式偏移"问题，确保了模型在各种场景下的稳定表现。

三、创新的训练算法与技术实现

CRITIQUE-CODER的训练过程采用了一种名为GRPO（Group Relative Policy Optimization）的先进算法。与传统的强化学习算法相比，GRPO在稳定性和效率方面都有显著提升。这种算法的核心思想是通过相对性能比较来更新模型参数，而不是依赖绝对的奖励值。

在实际训练过程中，算法需要处理两种完全不同的任务：编程和批评。对于编程任务，模型的输入是一个编程问题，输出是解决方案代码，奖励基于代码在测试用例上的通过率。对于批评任务，模型的输入是问题和候选解决方案的组合，输出是对解决方案正确性的判断，奖励基于判断的准确性。

这种双重任务的训练要求算法具备强大的适应性。GRPO算法通过动态调整优势估计来实现这种适应性。在每个训练批次中，算法会根据任务类型计算相应的奖励信号，然后将这些信号转换为优势估计，指导模型参数的更新。

研究团队还采用了一种"渐进式上下文扩展"的训练策略。训练过程分为两个阶段：第一阶段限制最大响应长度为16000个token，第二阶段扩展到32000个token。这种策略借鉴了人类学习的规律：先在简单场景中掌握基本技能，再逐步应对更复杂的挑战。

在奖励函数的设计上，研究团队采用了差异化的策略。对于批评任务，奖励是二元的：判断正确得1分，判断错误得0分。对于编程任务，奖励是连续的：等于代码在测试用例上的通过率，范围从0到1。这种设计反映了两种任务的不同特性和评价标准。

训练过程中的一个重要技术细节是对批评任务奖励的适当缩放。在第一阶段训练中，批评任务的奖励被乘以0.8的系数，以平衡其与编程任务奖励的影响力。这种微调确保了两种训练目标能够和谐共存，避免其中一种目标过度主导训练过程。

模型的采样策略也经过了精心设计。每个输入prompt会生成8个候选输出，为算法提供了丰富的比较样本。温度设置为0.6，top-p为0.95，top-k为20，这些参数在保证输出多样性的同时，确保了结果的质量和相关性。

整个训练过程采用了asymmetric clipping策略，上界设为0.3，下界设为0.2。这种不对称设计鼓励模型的探索行为，同时防止训练过程中的不稳定性。学习率设置为1e-6，批次大小为128，这些超参数经过了大量实验验证，确保了训练的效率和稳定性。

四、令人瞩目的实验结果与性能表现

CRITIQUE-CODER在多个权威编程评测基准上的表现堪称惊艳。研究团队选择了四个具有代表性的评测平台来全面验证模型的能力：EvalPlus、BigCodeBench-Instruct、Aider-Polyglot和LiveCodeBench。这些平台覆盖了从基础编程到复杂软件工程的各个层面，为模型提供了严格而全面的测试。

在LiveCodeBench这个被誉为"编程界高考"的测试平台上，CRITIQUE-CODER-4B取得了59.0分的优异成绩，比基础模型提升了4.8分，比仅使用传统强化学习的模型提升了2.4分。更令人惊讶的是，这个只有40亿参数的模型甚至超越了拥有80亿参数的基础模型1.5分，充分展现了批评学习的威力。

对于更大规模的CRITIQUE-CODER-8B模型，在Aider-Polyglot这个多语言编程测试中取得了35.6分，比基础模型提升了整整7.2分。要知道，这个模型主要是用Python数据训练的，却能在多种编程语言上都表现出色，说明批评学习培养的是一种更深层次的编程理解能力。

在LiveCodeBench v5测试中，CRITIQUE-CODER-8B达到了60.8分的高分，这个成绩甚至超越了参数量更大的DeepCoder-14B模型和知名的GPT-o1模型。这种"以小博大"的表现清晰地证明了新训练方法的优越性。

研究团队还对模型生成的代码进行了深入的质量分析。结果显示，经过批评训练的模型不仅在准确性上有提升，在代码质量方面也有显著改善。具体表现为思考过程更加详细深入，代码注释更加丰富完善，函数设计更加合理规范。这种全方位的提升表明，批评学习不仅让模型变得更聪明，还让它变得更有"工程师思维"。

特别值得关注的是，CRITIQUE-CODER展现出了优秀的推理链扩展能力。在测试时间推理扩展实验中，CRITIQUE-CODER-4B通过增加推理步骤，在LiveCodeBench v5上达到了62.0分，比标准设置提升了3.0分。这种能力让一个40亿参数的模型能够与更大规模的模型竞争，展现了批评学习在推理能力提升方面的巨大潜力。

在与业界领先模型的对比中，CRITIQUE-CODER也表现不俗。在EvalPlus测试中，CRITIQUE-CODER-4B得分86.5，仅次于GPT-o1的88.6分；CRITIQUE-CODER-8B更是达到了87.7分，非常接近最先进模型的水平。考虑到模型规模的差异，这种性能表现可以说是相当出色的。

这些实验结果不仅验证了批评强化学习方法的有效性，也为AI编程模型的发展指明了新的方向。通过让模型学会批评和反思，我们可以用更少的计算资源获得更好的性能，这对于AI技术的普及和应用具有重要意义。

五、批评能力向通用推理的迁移

CRITIQUE-CODER最令人兴奋的发现之一是，在编程领域培养的批评能力能够迁移到其他推理任务中。研究团队在BIG-Bench Extra Hard逻辑推理基准测试中验证了这一点，结果证明了批评学习的价值远超编程本身。

在这个被认为是AI推理能力"试金石"的测试中，CRITIQUE-CODER在四个不同的推理子任务上都取得了显著提升。时间算术任务中提升了8.0分，消歧问答任务提升了4.2分，斑马谜题提升了7.5分，棋类游戏问答提升了4.5分。平均而言，模型在逻辑推理能力上比基础模型提升了6.1分，这是一个相当可观的进步。

这种跨领域的能力迁移现象揭示了批评学习的深层机制。当模型学会评价代码的正确性时，它实际上在培养一种更通用的分析和判断能力。这种能力包括逻辑一致性检查、因果关系分析、假设验证等认知技能，这些技能在各种推理任务中都是通用的。

具体来说，在编程批评过程中，模型需要检查代码逻辑是否严密、边界条件是否处理得当、算法是否能达到预期效果。这些思维过程与解决逻辑推理问题所需的技能高度相似。比如，在解决斑马谜题时，模型需要验证各种约束条件是否得到满足，这与检查代码是否满足所有测试用例的思路是一致的。

更深层次的分析显示，批评训练培养了模型的"元认知"能力，也就是"思考如何思考"的能力。传统的训练主要关注"知道什么"，而批评训练更关注"如何判断知道的东西是否正确"。这种元认知能力正是高级推理的核心要素。

研究团队通过对比实验发现，这种迁移效果并非偶然。仅使用传统强化学习训练的模型在逻辑推理任务上的提升相对有限，而加入批评训练后，提升幅度显著增加。这说明批评学习确实在培养一种更通用的智能能力。

有趣的是，不同类型的推理任务受益程度有所不同。需要更多逻辑验证的任务（如时间算术和斑马谜题）受益更大，而相对更依赖知识记忆的任务受益相对较小。这进一步证实了批评学习主要提升的是分析和验证能力，而非单纯的知识存储。

这种跨领域迁移能力的发现具有重要的理论和实践意义。从理论角度，它支持了"批评思维是通用智能核心组成部分"的观点。从实践角度，它意味着我们可以通过在一个领域进行批评训练来提升模型在多个领域的表现，这大大提高了训练的效率和经济性。

六、训练策略的精细化调整与优化

在开发CRITIQUE-CODER的过程中，研究团队进行了大量的消融实验来优化训练策略。其中最关键的发现是批评训练数据的最优比例问题。通过系统性地测试不同的数据配比，研究团队发现20%的批评数据配比能够取得最佳效果。

当批评数据比例为0%时，模型实际上就是传统的强化学习模型，在LiveCodeBench上得分56.6。随着批评数据比例增加到20%，性能提升到59.0分，增幅显著。然而，当比例进一步增加到50%时，性能提升幅度减缓，某些指标甚至出现下降。最极端的情况是100%使用批评数据，这时模型在多个测试中的表现都不如混合训练的版本。

这种现象背后的原因很有意思。批评训练虽然能够提升模型的分析和判断能力，但过度的批评训练会导致模型过分关注评价功能，而忽视了代码生成这个核心技能。就像一个学生如果只练习改卷而不练习做题，最终可能成为一个优秀的评分员，但自己解题的能力会下降。

研究团队还发现，训练过程中奖励信号的平衡非常重要。在第一阶段训练中，他们将批评任务的奖励乘以0.8的系数，这种细微的调整帮助两种训练目标更好地协调。如果不进行这种调整，批评训练的强烈信号可能会压制编程训练的效果。

另一个重要的技术细节是上下文长度的渐进式扩展。从16K token开始训练，然后扩展到32K token，这种策略模仿了人类学习的自然过程。在较短的上下文中，模型能够更快地掌握基本的推理模式；在较长的上下文中，模型能够处理更复杂的推理链。

训练过程中的采样策略也经过了精心优化。每个输入生成8个候选输出，既保证了足够的多样性供算法比较，又避免了过度的计算开销。温度、top-p、top-k等超参数的选择都经过了大量实验验证，确保了生成质量和多样性的平衡。

特别值得一提的是，研究团队还尝试了自我批评的训练策略，但结果并不理想。他们让模型为自己生成的多个解决方案进行评分，然后选择评分最高的解决方案。然而，这种方法并没有带来性能提升，反而在某些情况下表现更差。这个发现提醒我们，虽然批评能力很重要，但模型的自我批评能力仍需要进一步的研究和改进。

这些精细化的调整和优化展现了AI模型训练的复杂性和精妙之处。每一个看似微小的参数调整都可能对最终性能产生显著影响，这也解释了为什么顶级AI模型的开发需要大量的实验和调优工作。

七、技术创新的深层意义与未来展望

CRITIQUE-CODER的成功不仅仅是一个技术突破，更代表了AI训练范式的根本性转变。传统的训练方法主要关注"模仿"，让AI学会重复人类已有的行为模式。而批评强化学习引入了"思辨"的元素，让AI开始具备独立分析和判断的能力。

这种转变的深层意义在于，它让AI从"知识的搬运工"向"智慧的创造者"迈出了重要一步。传统的AI模型就像一个记忆力很好的学生，能够准确地回忆和应用学过的知识，但缺乏对知识正确性的判断能力。批评训练则培养了AI的"批判性思维"，让它能够主动质疑和验证信息的可靠性。

从更广阔的视角来看，这种训练方法为解决AI的"幻觉"问题提供了新的思路。AI幻觉是指模型生成看似合理但实际错误的信息，这一直是AI应用中的一个重大挑战。通过培养模型的自我批评能力，我们有望显著减少这类问题的发生。

批评强化学习的成功也为其他AI领域的发展提供了启示。比如，在自然语言处理中，我们可以训练模型既能生成文本，又能评价文本的质量和准确性。在图像生成中，我们可以让模型既能创作图像，又能判断图像的合理性和美学价值。这种"生成-批评"的双重训练范式可能会成为未来AI训练的标准配置。

研究团队的工作还揭示了一个重要的发现：批评能力具有很强的迁移性。这意味着我们可能不需要为每个特定任务单独训练批评能力，而是可以通过在一个领域的批评训练来提升模型在多个领域的表现。这种"一次训练，多处受益"的特性大大提高了AI开发的效率。

当然，这项研究也暴露了一些需要进一步探索的问题。比如，模型的自我批评能力仍然有限，它能够很好地评价别人的代码，但对自己生成的代码的批评能力还不够强。这提醒我们，真正的人工智能还需要更深层次的自我认知和反思能力。

另一个值得关注的问题是批评训练的可扩展性。目前的研究主要集中在编程领域，而在其他领域构建高质量的批评训练数据可能面临更大的挑战。如何设计客观、可验证的批评标准，如何处理主观性较强的任务，这些都是未来研究需要解决的问题。

从产业应用的角度来看，CRITIQUE-CODER的成功为代码生成工具的发展指明了新方向。未来的AI编程助手不仅能够生成代码，还能够主动发现和提示代码中的潜在问题，为程序员提供更加智能和全面的支持。

展望未来，批评强化学习可能会与其他AI技术结合，产生更加强大的智能系统。比如，结合多智能体系统，我们可以构建由多个具备不同专长的AI"专家"组成的团队，它们既能协作生成解决方案，又能相互批评和改进。这种"AI民主"的模式可能会推动人工智能向更高层次的智能水平发展。

总的来说，CRITIQUE-CODER的研究为AI训练开辟了一条新的道路，这条道路通向的不仅是更强大的AI工具，更是对智能本质更深刻的理解。通过让AI学会批评和反思，我们正在培养真正具备独立思考能力的人工智能，这可能是通向通用人工智能的关键一步。

说到底，这项研究告诉我们一个深刻的道理：真正的智能不仅在于知道答案，更在于知道如何判断答案的正确性。滑铁卢大学团队的这项工作不仅让AI变得更聪明，更让它们开始具备了"智慧"的雏形。在AI快速发展的今天，这种从技能训练向思维培养的转变，可能正是我们一直在寻找的突破口。

对于普通人来说，这意味着未来的AI助手将更加可靠和智能。它们不仅能够帮助我们完成任务，还能够帮助我们检查和改进我们的工作。这种具备批判性思维的AI，将成为我们更好的合作伙伴和导师，推动人类社会的进步和发展。

Q&A

Q1：批评强化学习与传统AI训练方法有什么区别？

A：传统AI训练就像让学生反复做题、只关注最终答案是否正确，而批评强化学习则是在此基础上增加了"代码评审"环节。模型不仅要学会写代码，还要学会判断代码的正确性。这种方法培养了AI的批判性思维，让它从单纯的"知识搬运工"变成具备独立分析能力的智能助手。

Q2：CRITIQUE-CODER为什么能够用更少参数超越更大模型？

A：CRITIQUE-CODER的优势来自于训练方法的创新而非参数规模。通过批评训练，模型获得了更深层次的编程理解能力和推理能力。就像一个经过思维训练的学生，即使知识量不如死记硬背的学生多，但解决问题的能力更强。这种"质量胜过数量"的表现证明了训练方法比模型大小更重要。

Q3：批评强化学习的能力能否应用到编程以外的领域？

A：能够。研究显示，在编程领域培养的批评能力可以迁移到逻辑推理、数学计算等其他领域。这是因为批评训练培养的是一种通用的分析判断能力，包括逻辑一致性检查、因果关系分析等，这些认知技能在各种推理任务中都是通用的。未来这种方法可能会扩展到文本生成、图像创作等更多AI应用领域。

强化学习编程模型批评学习

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

滑铁卢大学团队突破编程模型训练瓶颈：让AI在自我批评中成长得更聪明

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接