人工智能领域刚刚迎来了一个激动人心的突破。来自中科院深圳先进技术研究院的研究团队,联合中科院大学和Ritzz-AI公司,在2025年9月发表了一项开创性研究,他们提出了一个名为PACS的全新训练框架,彻底改变了大语言模型学习推理的方式。这项研究发表在arXiv预印本平台上(论文编号:2509.02522v1),有兴趣深入了解的读者可以通过https://github.com/ritzz-ai/PACS获取完整代码和数据。
要理解这项研究的重要性,我们先要明白大语言模型面临的一个根本困境。目前的AI模型就像一个需要不断指导的学生,每次解决数学题时都需要老师在旁边说"这步对了"或者"这步错了"。但问题是,这种指导往往来得很稀少——只有在学生完成整道题后,老师才会说一句"答案正确"或"答案错误"。这就像你花了两个小时做一道复杂的数学题,老师只在最后告诉你结果对不对,却不告诉你哪一步出了问题。
这种训练方式被称为"强化学习与可验证奖励"(RLVR),虽然听起来很高大上,但实际上存在严重的问题。由于反馈信号过于稀疏,AI模型很难知道自己在推理过程中的哪个环节做得好,哪个环节需要改进。这就导致训练过程不稳定,模型的表现也时好时坏。
在这样的背景下,中科院的研究团队提出了一个革命性的想法:既然传统的强化学习方法有问题,为什么不让AI学会"自我监督"呢?他们开发的PACS框架(全称是"通过监督学习框架实现隐式演员-评论家耦合"),就像给AI安装了一个内在的自我评价系统。
PACS的核心思想可以用一个烹饪比喻来理解。传统方法就像一个厨师只能在整道菜做完后得到顾客的评价,而PACS则让厨师在烹饪过程中就能品尝和调整。具体来说,PACS把原本复杂的强化学习问题转换成了一个简单的监督学习任务。它不再依赖稀疏的外部奖励信号,而是让模型学会预测自己生成答案的质量。
这种转换的巧妙之处在于,研究团队通过数学分析证明了,这种监督学习的方式实际上包含了传统强化学习的核心机制,但却更加稳定和高效。就像一个经验丰富的厨师能够在烹饪过程中同时扮演"制作者"和"品尝者"的角色,PACS让AI模型同时具备了生成答案和评价答案质量的能力。
研究团队在四个具有挑战性的数学推理任务上测试了PACS的效果,包括MATH 500、AMC23、AIME 2024和AIME 2025。这些任务的难度递增,其中AIME系列题目是美国数学邀请赛的真题,代表了高中数学竞赛的最高水平。
实验结果令人印象深刻。在最具挑战性的AIME 2025测试中,使用PACS训练的模型在生成256个候选答案的情况下,成功率达到了59.78%。相比之下,使用传统PPO方法训练的模型成功率只有46.46%,使用GRPO方法的成功率为45.42%。这意味着PACS比现有最佳方法提升了13到14个百分点,这在AI领域是一个巨大的进步。
更令人兴奋的是,PACS的优势在所有测试任务中都得到了验证。在MATH 500数据集上,PACS达到了67.31%的单次尝试成功率,比基准模型提升了10.65个百分点。在AMC23测试中,PACS同样表现出色,特别是在需要更多尝试次数的情况下,其优势更加明显。
为了更深入地理解PACS的工作原理,我们需要了解它的三个核心组件。首先是"奖励代理计算",这就像给模型安装了一个内在的评分系统,能够根据生成答案的对数概率比率来评估答案质量。其次是"群组计算",这个机制让模型能够在同一批生成的答案中进行相互比较,就像学生们互相检查作业一样。最后是"交叉熵损失",这个组件将整个推理问题转换为一个标准的分类任务,让训练过程更加稳定。
研究团队还进行了详细的梯度分析,发现PACS的损失函数自然地包含了两个重要部分:一个负责策略改进的"演员"部分和一个负责奖励估计的"评论家"部分。这种"隐式耦合"的设计让模型能够同时优化答案生成和质量评估,避免了传统方法中两个组件之间的不协调问题。
在训练动态的分析中,研究团队发现PACS展现出了更好的探索-利用平衡。传统方法往往会陷入"熵坍塌"的问题,就像一个学生只会做一种类型的题目,遇到新问题就束手无策。而PACS能够维持适当的随机性,保证模型在训练过程中持续探索新的解题方法。
具体来看PACS的实现细节,研究团队采用了REINFORCE留一法(RLOO)估计器来计算优势分数。这种方法的巧妙之处在于,它为每个生成的答案计算一个相对于同组其他答案的优势分数。这就像在一个班级里,每个学生的成绩不是绝对评分,而是相对于其他同学的表现来评定。
为了解决训练过程中可能出现的数据不平衡问题,研究团队还引入了类别权重调整机制。在数学推理任务中,正确答案往往比错误答案少得多,这种不平衡会影响模型的学习效果。PACS通过动态调整正确和错误样本的权重,确保模型能够平衡地学习两种类型的反馈。
实验设置方面,研究团队使用了DeepScaleR数据集作为训练语料,这是一个包含约40,000个高质量数学问题-答案对的集合。他们在Qwen2.5-3B和Qwen2.5-7B两个不同规模的模型上进行了测试,以验证PACS在不同模型规模下的泛化能力。
训练过程采用了精心设计的超参数配置。批处理大小设为1024,学习率设为1×10^-6,每个查询采样8个响应。在推理阶段,他们使用了温度为0.6、top-p为0.96的采样策略,这种配置能够在创造性和准确性之间找到良好平衡。
为了确保评估结果的可靠性,研究团队采用了pass@k指标,这个指标衡量的是在k次尝试中至少有一次成功的概率。为了减少采样随机性带来的偏差,他们对每个问题生成了大量候选解答,然后使用无偏估计器计算最终结果。
在消融实验中,研究团队重点分析了几个关键因子的影响。首先是缩放参数β的作用,这个参数控制着奖励代理的计算强度。实验发现,当β=1时模型达到最佳性能,而在更困难的AIME任务中,这个参数的选择对性能影响更大。
权重机制的消融实验显示了其重要性。没有权重调整的PACS版本在所有任务上的表现都有所下降,特别是在困难的AIME数据集上,性能差距更加明显。这证实了类别平衡在处理不平衡数据时的关键作用。
研究团队还比较了不同优势估计器的效果,包括GRPO和Dr. GRPO。结果显示,RLOO方法在大多数任务上表现最佳,特别是在高难度任务中优势更加明显。这可能是因为RLOO的留一法机制能够提供更稳定和精确的信用分配信号。
训练动态分析揭示了PACS相对于基线方法的重要优势。传统的PPO和GRPO方法会很快陷入低熵状态,导致生成的答案过于保守。而PACS能够维持更高的熵值,这意味着模型在整个训练过程中都保持着探索新解法的能力。梯度范数的分析也显示,PACS在训练过程中维持了更高的梯度活动水平,这表明模型参数在持续进行有意义的更新。
从响应长度的角度来看,PACS生成的解答通常更详细、更完整。这可能反映了模型在解题过程中展现出更全面的推理能力,而不仅仅是找到一个简单的答案。
这项研究的意义远不止于数学推理任务的改进。PACS框架为大语言模型的训练提供了一个全新的思路,特别是在那些具有可验证结果的任务中。编程、逻辑推理、科学计算等领域都可能从这种方法中受益。
更重要的是,PACS展示了如何通过巧妙的问题转换来解决复杂的强化学习挑战。通过将强化学习问题重构为监督学习问题,研究团队不仅简化了训练过程,还提高了训练的稳定性和效率。这种思路可能启发更多类似的方法创新。
从实际应用角度来看,PACS的成功意味着我们离真正智能的AI助手又近了一步。能够进行复杂数学推理的AI模型可以在教育、科研、工程设计等多个领域发挥重要作用。特别是在自动化解题、智能辅导、科学计算等应用中,这种推理能力的提升将带来显著的实用价值。
当然,这项研究也还存在一些局限性和待解决的问题。首先,PACS主要在数学推理任务上进行了验证,其在其他类型推理任务上的效果还需要进一步验证。其次,虽然PACS提高了训练稳定性,但计算成本相比传统方法如何变化还需要更详细的分析。
另外,PACS依赖于问题具有明确的正确答案这一特点。在那些没有标准答案或者答案具有主观性的任务中,如何适应PACS框架还是一个开放问题。研究团队在未来的工作中可能需要探索如何将这种方法扩展到更广泛的任务类型。
尽管存在这些局限性,PACS框架的提出仍然代表了AI训练方法的一个重要进步。它不仅在实验结果上取得了显著改进,更重要的是提供了一种新的思维方式来解决强化学习中的根本挑战。
展望未来,这种"隐式演员-评论家耦合"的思想可能会激发更多创新。研究者们可能会探索如何将类似的原理应用到其他类型的学习任务中,或者如何进一步优化这种耦合机制以获得更好的性能。
总的来说,中科院团队的这项研究为大语言模型的训练开辟了一条新路径。通过巧妙地将强化学习问题转换为监督学习任务,PACS不仅解决了传统方法的稳定性问题,还显著提升了模型在复杂推理任务上的表现。这种创新思路可能会影响未来AI训练方法的发展方向,让我们期待看到更多基于这种思想的后续研究和应用。
对于普通读者来说,这项研究的成功意味着AI在解决复杂问题方面又向前迈进了一大步。虽然目前主要在数学领域展现出优势,但随着技术的不断发展和完善,我们有理由相信,这种更智能、更稳定的AI训练方法将在更多领域发挥作用,为人类的工作和生活带来更多便利。如果您对这项研究的技术细节感兴趣,可以访问研究团队在GitHub上提供的开源代码:https://github.com/ritzz-ai/PACS。
Q&A
Q1:PACS框架是什么?它与传统AI训练方法有什么不同?
A:PACS是中科院提出的一种新型AI训练框架,全称是"通过监督学习框架实现隐式演员-评论家耦合"。与传统强化学习方法不同,PACS将复杂的强化学习问题转换为简单的监督学习任务,让AI模型能够同时学会生成答案和评价答案质量,就像厨师在烹饪过程中既制作又品尝一样,避免了传统方法中反馈稀疏和训练不稳定的问题。
Q2:PACS在数学推理任务上的表现如何?
A:PACS在所有测试的数学推理任务上都表现出色。在最具挑战性的AIME 2025测试中,PACS达到了59.78%的成功率,比传统PPO方法提升了13.32个百分点,比GRPO方法提升了14.36个百分点。在MATH 500数据集上,PACS的单次尝试成功率达到67.31%,比基准模型提升了10.65个百分点。这些结果证明PACS在复杂数学推理任务上具有显著优势。
Q3:PACS框架可以应用到哪些领域?
A:PACS框架主要适用于具有可验证结果的任务领域。除了数学推理,编程代码生成、逻辑推理、科学计算等领域都可能受益于这种方法。在教育领域,PACS可以帮助开发更智能的自动解题和辅导系统;在工程设计中,可以用于复杂计算问题的求解;在科研领域,可以协助进行数学建模和分析。不过目前PACS主要在数学推理任务上得到验证,在其他领域的效果还需要进一步研究。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。
谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型,能够在不到一分钟内完成10天全球天气预报,准确性超越传统方法90%的指标。该模型采用图神经网络技术,通过学习40年历史数据掌握天气变化规律,在极端天气预测方面表现卓越,能耗仅为传统方法的千分之一,为气象学领域带来了效率和精度的双重突破。