微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

共同进化的魔法：让AI既会写代码又会检验代码，一个团队让计算机学会自我完善的故事

人工智能强化学习代码生成

共同进化的魔法：让AI既会写代码又会检验代码，一个团队让计算机学会自我完善的故事

作者：科技行者

2025-06-06 14:15

分享至：

这项研究提出了CURE框架，通过强化学习让大语言模型同时学习编写代码和生成单元测试两种能力，无需使用标准代码作为监督。团队开发的ReasonFlux-Coder模型在仅用4.5K编程问题训练后，便在多个基准测试中超越了同类模型，代码生成准确率提高5.3%，最佳N选1准确率提高9.0%。该方法不仅提升了模型性能，还提高了推理效率，同时为降低API调用成本和无标签强化学习提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 14:15 • 科技行者

2024年6月初，来自芝加哥大学和普林斯顿大学的研究团队发表了一篇引人注目的研究论文，题为《通过强化学习共同进化LLM代码生成器和单元测试生成器》（Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning）。这项由王寅杰、杨凌（两位为共同第一作者）、田野、沈可和王梦迪主导的研究发表于arXiv预印本平台（arXiv:2506.03136v1），论文代码已在GitHub（https://github.com/Gen-Verse/CURE）上开源，模型权重也已在HuggingFace（https://huggingface.co/Gen-Verse/ReasonFlux-Coder）上公开。

当今世界，人工智能编程助手正迅速发展，但它们仍然面临一个基本问题：如何确保生成的代码真正正确？这就像一个厨师不仅需要会做菜，还需要能品尝自己做的菜是否美味。传统方法往往需要人类提供大量已知正确答案的代码作为训练材料，这非常耗时且昂贵，就像需要大量专业厨师来评判每一道菜一样。

研究团队提出了一个名为CURE的创新解决方案，它的独特之处在于不需要任何已知正确的代码作为监督。相反，它通过让AI同时扮演"代码编写者"和"代码测试者"两个角色，并让这两个角色相互学习、共同进步。这就像一个人通过不断练习烹饪并尝试自己的菜肴，逐渐改进自己的烹饪技巧，同时也提高了自己的品味能力。

这种方法不仅大大节省了收集标准答案的成本，而且培养了AI更全面的编程能力。研究团队的ReasonFlux-Coder模型在各种标准测试中表现出色，比现有类似大小的模型性能更好，特别是在生成代码和生成单元测试（用于检验代码是否正确的测试程序）这两项任务上都取得了显著进步。

一、什么是单元测试，为什么它如此重要？

想象一下，你正在建造一座高楼。你不会等整个建筑完工后才检查它是否安全，而是会在每一个阶段进行测试——检查地基是否稳固，钢筋是否牢固，等等。在编程世界中，单元测试就扮演着这样的角色。

单元测试是小型、专注的测试程序，用于验证代码的各个部分是否按预期工作。就像品酒师会品尝葡萄酒的各种特性（如酸度、单宁、果香等）来评判一瓶酒的品质，单元测试会检查代码的各个方面是否正确。

研究团队发现，生成好的单元测试其实比写出完整的代码解决方案要简单得多。例如，如图2(a)所示，对于一个寻找最短路径的问题，设计一个简单的测试场景（比如验证特定输入的预期输出）要比编写整个寻路算法容易得多。这就像在烹饪比赛中，评判一道菜是否成功可能比实际制作这道复杂的菜要简单。

单元测试的价值不仅在于验证代码正确性，还在于它们可以重复使用。一旦生成了一组好的单元测试，它们可以用来评估多个代码候选方案，就像同一个品酒标准可以用来评价多瓶不同的葡萄酒。

二、CURE：让代码生成器和测试生成器一起成长的创新方法

CURE（代码与单元测试共同进化的强化学习框架）的核心思想非常聪明：让一个AI系统同时学习两项技能——编写代码和创建测试代码。这两项技能相互促进，形成一个良性循环。

想象一对双胞胎，一个擅长烹饪（代码生成器），另一个擅长品尝（测试生成器）。起初，他们的技能都很一般。随着时间推移，厨师烹饪的菜肴会被品尝者评价，这些评价帮助厨师改进烹饪技巧；同时，厨师做出的各种菜肴（无论好坏）也帮助品尝者训练自己的味蕾，学会区分优质和劣质的食物。这就是CURE的工作原理。

具体来说，CURE框架包含以下步骤：

首先，对于每个编程任务，模型会生成多个代码解决方案和多个单元测试。就像厨师准备多个菜品样本，品尝者提出多个评判标准。

然后，系统会执行每个代码解决方案，检查它是否通过了各种单元测试，形成一个"执行表"——记录哪些代码通过了哪些测试。这就像记录每道菜在各种品尝标准下的表现。

接着，研究团队设计了一种特殊的评分机制。对于代码生成器，代码通过的标准测试越多，得分越高。对于测试生成器，能够正确区分好代码和坏代码的测试会获得高分。这就像评价一个品尝者的标准是：能否准确区分出一道真正美味的菜和一道看似相似但有缺陷的菜。

最后，系统使用这些评分来指导两个组件的改进。就像厨师和品尝者根据反馈不断调整自己的技能。

研究团队在理论上证明了这种方法的有效性。他们展示了随着生成的单元测试数量增加，系统区分好代码和坏代码的准确率会稳步提高，从而使整个训练过程更加可靠。

三、ReasonFlux-Coder：CURE框架训练出的高性能模型

通过CURE框架的训练，研究团队开发了三个不同规模的模型：ReasonFlux-Coder-4B、7B和14B，分别基于Qwen3-4B和Qwen2.5-7B/14B基础模型。这些模型在代码生成和单元测试生成两方面都表现出色。

值得注意的是，ReasonFlux-Coder-7B模型仅使用了4.5K个编程问题进行训练，却在多项基准测试中超过了专门针对大规模编码数据进行微调的模型，如图1所示。这就像一个通过特殊训练方法培养出的厨师，即使只学习了少量菜谱，却能胜过那些死记硬背大量食谱的厨师。

在五个标准基准测试（LiveBench、MBPP、LiveCodeBench、CodeContests和CodeForces）上，ReasonFlux-Coder模型在单元测试准确率、代码生成准确率和最佳N选1（Best-of-N）三个指标上都显著超越了基础模型：

单元测试准确率平均提高了37.8%，就像品尝者变得更加精准地评判菜肴的品质。一次性代码生成准确率平均提高了5.3%，就像厨师的基本烹饪技能提升。最佳N选1准确率（从多个生成的代码中选择最佳方案）平均提高了9.0%，就像厨师能够从多次尝试中挑选出最成功的菜品。

特别值得一提的是，ReasonFlux-Coder-4B是一个"长链思考"（long-CoT）模型，它不仅在性能上超越了同样大小的Qwen3-4B模型，而且在单元测试生成时的效率提高了35.2%（平均输出长度减少至原来的64.8%）。这就像一个品尝者不仅变得更准确，而且能够更简洁地表达自己的评价，不再啰嗦。

四、更广泛的应用与实际价值

ReasonFlux-Coder模型的价值不仅限于基础的代码生成和测试生成，它还在多种实际应用场景中表现出色：

1. 测试时扩展和智能编码：研究团队将ReasonFlux-Coder-14B应用于多种测试时扩展和智能编码方法（如MPSC、AlphaCodium和S*），平均提升了8.1%的性能。这就像将训练有素的品尝者加入一个烹饪比赛，显著提高了整体的菜品质量。

2. 智能单元测试生成：在智能单元测试生成任务中，模型的单元测试准确率平均提高了25.1%。这就像品尝者不仅能够评判菜肴，还能够提出改进建议，帮助厨师进一步完善菜品。

3. 降低API调用成本：将ReasonFlux-Coder-4B作为单元测试生成器与GPT模型（如GPT-4o-mini和GPT-4.1-mini）配合使用，不仅提高了性能，还显著降低了API调用成本。这就像聘请一位高效的品尝顾问，既提高了菜品质量，又降低了成本。

4. 无标签强化学习：研究发现，使用ReasonFlux-Coder-4B生成的单元测试作为奖励信号来指导基础模型的强化学习训练，其效果与使用人工标注的单元测试相当。这意味着不再需要昂贵的人工标注数据，就像一个自学成才的品尝者能够替代专业评委的角色。

五、CURE框架的工作原理深度解析

CURE框架的核心在于它的理论基础和巧妙的奖励设计。研究团队从理论上分析了什么样的奖励机制能够有效指导单元测试生成器的改进。

他们定义了"奖励精度"概念：单元测试能够正确区分好代码和坏代码的能力。通过数学推导，他们证明了随着单元测试数量的增加，系统区分好坏代码的准确率会趋近于1（即100%正确），前提是单元测试的准确率（pu）、误报率（p01）和漏报率（p00）满足特定条件。

基于这一理论，研究团队设计了一个奖励函数，它会奖励那些通过所有正确代码同时拒绝大部分错误代码的单元测试，惩罚那些拒绝正确代码或大量通过错误代码的单元测试。这就像评价品尝者的标准：既能认可真正的好菜，又不会被表面华丽但实际有缺陷的菜所迷惑。

对于长链思考模型，研究团队还引入了一个响应长度引导的奖励转换机制，鼓励模型生成更简洁高效的单元测试，如图2(e-f)所示。这就像训练品尝者不仅要准确，还要能用简洁的语言表达自己的判断。

六、与现有方法的比较与创新点