这项由阿里巴巴云计算部门的江国超、冯文锋、关国锋、郝楚瞻、张悦伟、刘国华和王浩等研究人员领导的研究于2025年发表,论文标题为《VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models》。有兴趣深入了解的读者可以通过arXiv:2509.19803查询完整论文。
当我们学习数学时,总是从简单的加减法开始,然后慢慢过渡到复杂的微积分。这种循序渐进的学习方式是人类几千年来摸索出的智慧。但在人工智能领域,让机器学习数学时,研究人员却往往忽略了这个基本原理,而是让AI模型随机地接触各种难度的数学题目。
想象一下,如果让一个刚学会数数的孩子直接解微积分题,结果会是什么?孩子不仅学不会,还可能对数学产生恐惧。同样的道理也适用于AI模型。目前的强化学习训练方法,比如GRPO、DAPO和GSPO等,就像是给AI学生随机分配各种难度的题目,完全不考虑模型当前的能力水平。这就好比让一个刚会骑自行车的人直接去参加山地越野比赛,既不科学也不高效。
这种训练方式存在一个根本问题:AI模型的能力在训练过程中是不断变化的。今天对它来说很难的题目,经过一段时间的学习后可能就变得简单了。而那些一开始很简单的题目,随着模型能力的提升,可能就失去了训练价值。就像一个钢琴学生,如果总是练习同样简单的曲子,技能就无法提升;但如果突然跳到太难的曲子,又会因为挫败感而影响学习效果。
针对这个问题,阿里巴巴的研究团队提出了一个革命性的解决方案,他们称之为VCRL(Variance-based Curriculum Reinforcement Learning,基于方差的课程强化学习)。这个方法的核心思想非常巧妙,就像一个智能的数学老师,能够实时判断每道题对学生来说是太简单、太难,还是刚刚好。
这个"智能老师"是如何判断题目难度的呢?研究团队发现了一个有趣的现象:当AI模型多次尝试解决同一个问题时,如果这个问题对模型来说太简单,那么每次尝试都会成功,结果非常一致;如果问题太难,那么每次尝试都会失败,结果同样很一致。但是,当问题的难度刚好适合模型当前的能力水平时,模型的表现就会出现分化——有时成功,有时失败,结果的变化幅度(也就是方差)会很大。
这就像考试成绩的分布。如果考试太简单,全班同学都能考100分,成绩的差异很小;如果考试太难,大家都考个位数,成绩差异同样很小。但当考试难度适中时,有的同学考90分,有的考60分,有的考80分,成绩的差异就会很大。VCRL正是利用这个原理,通过观察AI模型在多次尝试中表现的差异程度,来判断题目的适宜性。
具体来说,研究团队让AI模型对每个数学问题进行16次尝试,然后观察这16次尝试的成功率变化。如果16次尝试中有8次成功、8次失败,这说明题目难度刚好;如果全部成功或全部失败,则说明题目过于简单或过于困难。通过计算这种变化的数学指标(方差),系统就能自动识别出最有价值的训练题目。
但是,计算每个题目的难度需要大量的计算资源和时间。如果每次训练都要重新评估所有题目,效率会很低。为了解决这个问题,研究团队引入了一个"记忆银行"的概念。这个记忆银行就像一个优秀的题库管理系统,专门收集和保存那些难度适中的高价值题目。
这个记忆银行的工作方式很有趣。当系统发现某个题目的难度刚好适合当前的模型能力时,就会把这个题目存入记忆银行,并给它打上一个"优先级"标签。随着训练的进行,模型的能力会不断提升,那些原本适中的题目可能变得太简单,系统就会自动降低它们的优先级。同时,新发现的适中难度题目会被及时补充进来,确保训练始终使用最合适的题目。
更巧妙的是,记忆银行还采用了"衰减机制"。就像人的记忆一样,长时间不使用的题目会逐渐被"遗忘",而经常被使用的题目会保持较高的优先级。这种设计确保了题目的新鲜度和多样性,避免模型过度拟合某些特定的题目类型。
研究团队在五个不同的数学基准测试上验证了VCRL的效果,包括AIME-2024、AIME-2025、MATH500、OlympiadBench和AMC23。这些测试涵盖了从基础数学到奥林匹克数学竞赛等不同难度层次,就像从小学数学一直到高中数学竞赛的全方位考核。
实验结果让人印象深刻。在Qwen3-4B模型上,VCRL方法将平均性能从26.68分提升到49.43分,提升幅度达到85%。在更大的Qwen3-8B模型上,性能从32.96分提升到57.76分,提升幅度达到75%。这种提升不仅体现在最终成绩上,在训练过程中也表现出更好的稳定性和效率。
特别值得注意的是,VCRL在高难度的数学竞赛题目上表现尤为突出。在AIME-2024和AIME-2025这两个具有挑战性的测试中,VCRL的优势更加明显。这表明该方法不仅能帮助AI模型掌握基础数学知识,还能显著提升其解决复杂数学问题的能力。
为了深入理解VCRL的工作机制,研究团队还分析了训练过程中的各种动态指标。他们发现,与传统方法相比,VCRL训练的模型在学习初期就表现出更快的性能提升。这主要归功于系统在早期阶段专注于那些高价值的训练题目,避免了在过于简单或过于困难的题目上浪费时间。
训练稳定性方面,VCRL也展现出明显优势。传统方法在训练过程中经常出现性能波动,就像坐过山车一样忽高忽低。而VCRL的训练曲线相对平滑,性能提升更加稳定持续。这种稳定性对于实际应用非常重要,因为它意味着模型的表现更加可预测和可靠。
从技术角度来说,VCRL的创新之处在于它将课程学习的思想与强化学习完美结合。课程学习本身并不是新概念,但将其应用到大型语言模型的数学推理训练中,并通过方差这个简单而有效的指标来动态调整训练难度,这确实是一个巧妙的创新。
更重要的是,这种方法具有很强的通用性。虽然研究团队主要在数学推理任务上进行了验证,但VCRL的核心原理——通过观察模型表现的一致性来判断任务难度——可以应用到其他许多领域。无论是自然语言理解、代码生成,还是其他需要复杂推理的任务,都可能从这种渐进式的训练方法中受益。
研究团队还进行了详细的消融实验,分别验证了方差动态采样和记忆银行机制的贡献。结果显示,单独使用方差动态采样就能带来显著的性能提升,而加入记忆银行机制后,效果进一步增强。这种分步验证的方法增强了研究结果的可信度,也为其他研究者提供了宝贵的参考。
从实际应用的角度来看,VCRL的意义远不止于提升AI模型的数学能力。数学推理是人工智能领域的一个重要挑战,因为它需要模型具备逻辑思维、抽象理解和多步推理等高级认知能力。在数学推理上的突破往往能够推动AI在其他复杂任务上的进展。
此外,VCRL提出的训练理念也为AI教育和人机协作提供了新的思路。如果AI系统能够像人类一样遵循循序渐进的学习规律,那么它们与人类的协作将变得更加自然和高效。这种"类人化"的学习方式也更容易被人类理解和信任。
当然,VCRL方法也存在一些限制。首先,它主要适用于有明确正确答案的任务,如数学问题。对于那些答案具有主观性或多样性的任务,方差指标可能不够准确。其次,该方法需要额外的计算资源来评估题目难度和维护记忆银行,这在某种程度上增加了训练成本。
另外,研究团队主要在中文数学题目上进行了验证,VCRL在其他语言和文化背景下的表现还需要进一步验证。不同语言的数学表达方式可能存在差异,这些差异是否会影响方差指标的有效性,是一个值得探索的问题。
尽管存在这些限制,VCRL的成功依然具有重要的启示意义。它证明了将人类学习的智慧融入AI训练过程的巨大潜力。在AI技术日新月异的今天,这种"师法自然"的研究思路显得格外珍贵。
展望未来,VCRL可能会在多个方向上得到进一步发展。比如,研究者可能会探索更加精细的难度评估指标,或者开发能够自动生成不同难度题目的系统。也有可能将VCRL的理念扩展到多模态学习中,让AI系统能够在文本、图像、声音等多种信息形式中进行渐进式学习。
说到底,VCRL的核心价值在于它重新审视了AI学习的基本问题:如何让机器更好地学习。通过模仿人类的学习规律,引入循序渐进的训练理念,VCRL不仅提升了AI模型的性能,更重要的是,它为构建更加智能、更加类人的AI系统指明了方向。这种理念上的突破,可能比技术细节的改进更加深远。
归根结底,教育的本质是因材施教,而VCRL正是将这一教育智慧成功应用到了AI训练中。当我们让AI像人类一样学习时,它们的表现往往会超出我们的预期。这个简单而深刻的道理,或许就是VCRL给我们最大的启示。
Q&A
Q1:VCRL是什么?它和传统的AI训练方法有什么不同?
A:VCRL是阿里巴巴提出的一种新型AI训练方法,全称为"基于方差的课程强化学习"。与传统方法随机分配训练题目不同,VCRL会根据AI模型当前的能力水平,智能选择难度适中的题目进行训练,就像人类学习时从易到难的循序渐进过程。
Q2:VCRL如何判断哪些数学题目最适合AI模型当前的学习阶段?
A:VCRL通过观察AI模型多次尝试解决同一问题时的表现差异来判断。如果模型在16次尝试中有时成功有时失败,说明题目难度刚好;如果全部成功或全部失败,则说明题目过于简单或困难。系统会自动选择那些表现差异较大的题目作为最佳训练材料。
Q3:使用VCRL训练的AI模型在数学能力上有多大提升?
A:实验结果显示,在多个数学测试中,VCRL将AI模型的平均性能提升了75%到85%。特别是在高难度的数学竞赛题目上,提升效果更加明显。同时,训练过程也变得更加稳定,模型的学习曲线更加平滑。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。