微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI训练新突破:上海AI实验室让大模型自己当老师,推理和判断能力同步飞跃

AI训练新突破:上海AI实验室让大模型自己当老师,推理和判断能力同步飞跃

2025-10-17 14:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-17 14:08 科技行者

这项由上海人工智能实验室的刘子羽、臧雨航等研究人员领导的研究发表于2025年1月,论文标题为《SPARK:协同策略与奖励共同进化框架》,有兴趣深入了解的读者可以通过arXiv:2509.22624查询完整论文。这项研究提出了一种全新的AI训练方法,让大型语言模型在学习推理的同时,也学会如何评判自己的答案质量,就像让学生既会做题,又会当老师批改作业一样。

在当前的AI训练中,研究人员通常面临一个两难选择:要么使用可以验证的标准答案进行训练(比如数学题),但这种方法只能应用于有明确对错的问题;要么收集大量人类的偏好数据来训练一个专门的评判模型,但这种方法成本极高,而且评判模型往往跟不上主模型的进步速度。这就像培养一个学生,要么只让他做有标准答案的题目,要么花大价钱请很多老师来评判他的答案,但老师的水平可能还跟不上学生的进步。

研究团队提出的SPARK框架巧妙地解决了这个问题。它的核心思想是让AI模型在学习推理的过程中,同时学会评判答案的好坏,就像让一个学生在做作业的同时,也学会给自己的作业打分和找错误。这种方法不需要额外的人类标注数据,也不需要训练独立的评判模型,而是让模型自己承担起"学生"和"老师"的双重角色。

一、变废为宝的训练数据回收

传统的AI训练方法在每次更新模型参数后,会丢弃那些用来训练的候选答案和正确性信息,就像学生做完练习题后就把草稿纸扔掉一样。但是SPARK框架认为这些"废料"其实是宝贵的训练资源。

当模型生成多个候选答案时,比如对一道数学题给出五个不同的解答,研究团队会根据这些答案的正确性,将它们重新组织成三种类型的训练数据。第一种是单独判断类型,就像问模型"这个答案对不对",训练模型学会独立评判一个答案的质量。第二种是比较判断类型,给模型两个答案让它选择哪个更好,这就像让模型在多个选项中做出选择。第三种是反思改进类型,当模型给出错误答案时,让它学会发现错误并给出正确的解答,这相当于培养模型的自我纠错能力。

这种回收利用的方法非常高效,因为所有的训练数据都来自模型自己的输出,不需要额外的人工标注。更重要的是,这些数据总是与模型当前的能力水平保持同步,避免了传统方法中评判模型滞后于主模型的问题。就像学生总是在做适合自己当前水平的练习题,而不是做过时的简单题目。

二、策略与奖励的良性循环

SPARK框架的另一个创新之处在于建立了一个正向反馈循环。当模型的判断能力提高时,它能够为自己的推理过程提供更准确的反馈信号,从而促进推理能力的进一步提升。而推理能力的提升又会产生更高质量的候选答案,这些答案又能帮助模型学习更好的判断标准。

这个过程就像一个学生在学习过程中不断自我改进:做题能力越强,自我检查能力就越好;自我检查能力越强,又能发现更多错误,从而提高做题能力。这种相互促进的关系让模型能够在没有外部监督的情况下持续改进。

具体来说,模型在每个训练步骤中会生成多个候选答案,然后使用可验证的奖励信号(比如数学题的正确答案)来计算每个候选答案的质量分数。这些分数不仅用于更新模型的推理参数,还用于生成前面提到的三种类型的判断训练数据。通过同时优化推理和判断两种能力,模型能够实现更稳定和更快速的改进。

三、测试时的自我反思能力

由于SPARK训练出的模型既具备推理能力又具备判断能力,它在实际应用中可以进行自我反思和改进。当面对一个新问题时,模型首先会给出一个初始答案,然后自己评判这个答案是否正确。如果判断结果是错误的,模型会进行反思,重新分析问题并给出改进的答案。

这个过程类似于一个学生在考试时的思考过程:先给出一个答案,然后检查这个答案是否合理,如果发现问题就重新思考并修正。这种自我反思能力让模型能够在测试时动态地提高答案质量,而不需要依赖外部的评判模型。

更重要的是,这种自我反思机制可以扩展到那些没有标准答案的开放性问题上。即使在训练时只使用了有标准答案的数学题,模型学到的判断能力也能够泛化到其他领域,比如判断文本回答的质量或图像描述的准确性。

四、实验结果展现显著优势

研究团队在多个不同规模的模型上验证了SPARK框架的有效性,包括70亿参数、320亿参数的多模态模型,以及70亿参数的纯文本模型。实验涵盖了数学推理、奖励评判和通用能力三大类评测。

在数学推理方面,SPARK-VL-7B模型在七个数学基准测试上平均提升了9.7%,这相当于从班级中等水平提升到了优秀水平。特别值得注意的是,在一些具体的数学任务上,提升幅度甚至达到了26.7%,这是相当显著的改进。

在奖励评判能力方面,模型在两个专门测试AI判断能力的基准上平均提升了12.1%。这意味着经过SPARK训练的模型不仅推理能力更强,判断其他答案质量的能力也显著提升。研究团队特别指出,虽然训练时只使用了数学相关的数据,但模型的判断能力能够很好地泛化到其他领域,这说明SPARK学到的是一种通用的评判思维模式。

在通用能力测试中,SPARK模型在八个综合性基准测试上平均提升了1.5%。虽然这个提升看起来不如专项能力那么显著,但考虑到这些是非常全面的测试,包括常识推理、阅读理解、视觉问答等多个方面,这样的提升已经很有价值了。

五、与传统方法的深度对比

为了证明SPARK的优势,研究团队设计了详细的对比实验。他们比较了只训练推理能力(Policy-Only)、只训练判断能力(Reward-Only)、同时训练两种能力但不使用协同机制(Policy&Reward),以及完整的SPARK方法。

结果显示,只训练推理能力的模型在数学任务上表现较好,但判断能力较弱。只训练判断能力的模型则相反,判断能力强但推理能力受损。同时训练两种能力但不使用协同机制的模型介于两者之间,但仍然不如SPARK的表现。

这个对比清楚地表明,SPARK的核心价值不仅在于同时训练两种能力,更在于它建立的协同进化机制。就像一个乐队中,不仅需要每个乐手都会演奏自己的乐器,更需要他们能够相互配合,形成和谐的整体效果。

研究团队还比较了SPARK与其他最新的AI训练方法,包括VL-Rethinker、MM-Eureka、Vision-R1等。在几乎所有的对比中,SPARK都显示出了明显的优势,特别是在需要复杂推理和自我反思的任务上。

六、效率优势与成本分析

SPARK框架的另一个重要优势是训练效率。传统的基于奖励模型的方法需要首先收集大量的人类偏好数据,然后训练一个独立的奖励模型,最后使用这个奖励模型来指导主模型的训练。这个过程不仅成本高昂,而且在实际应用中还需要同时运行主模型和奖励模型,导致计算资源消耗大约是单模型的两倍。

相比之下,SPARK只需要一个统一的模型,所有的训练数据都来自模型自己的输出,不需要额外的人工标注。在实际应用中,也只需要运行一个模型就能同时获得推理和判断能力。这就像原来需要请两个专家(一个负责解题,一个负责评判),现在只需要一个全才就能完成所有工作。

研究团队的成本分析显示,SPARK的训练成本大约只有传统方法的一半,而且随着模型规模的增大,这种优势会更加明显。这对于推动AI技术的普及和应用具有重要意义,特别是对那些计算资源有限的研究机构和公司来说。

七、技术细节与实现原理

SPARK框架的技术实现建立在GRPO(Group Relative Policy Optimization)算法的基础上,但加入了创新的数据回收和协同训练机制。在每个训练步骤中,模型会对同一个问题生成多个候选答案,然后根据可验证的奖励信号计算每个答案的优势分数。

这些优势分数有双重用途:一方面用于传统的策略梯度更新,提升模型的推理能力;另一方面用于构造判断和反思的训练样本,提升模型的评判能力。这种设计确保了两种能力的训练始终保持同步,避免了一种能力的提升以牺牲另一种能力为代价。

在生成判断训练数据时,研究团队设计了巧妙的提示模板。对于单点判断任务,模型需要回答"这个答案是否正确";对于对比判断任务,模型需要在两个答案中选择更好的一个;对于反思任务,模型需要识别错误答案并提供正确的解决方案。这三种任务类型互相补充,全面提升了模型的判断和自我纠错能力。

八、泛化能力的惊人发现

研究中一个特别有趣的发现是SPARK的强大泛化能力。虽然训练时只使用了数学相关的可验证奖励,但训练出的模型在其他领域的判断能力也得到了显著提升。比如在视觉问答、文本评估等任务上,SPARK训练的模型都表现出了优秀的判断能力。

这说明数学推理中学到的逻辑思维和判断标准能够迁移到其他认知任务中。就像学会了严谨的数学证明方法的学生,在分析其他问题时也会更加逻辑清晰、条理分明。这种跨领域的能力迁移对于构建通用人工智能具有重要意义。

研究团队还发现,模型的自我反思能力在测试时能够持续提升答案质量。在一些复杂的推理任务中,经过自我反思的答案质量比初始答案提升了10-15%。这种能力让AI模型更像人类专家,能够通过深入思考来提高解决问题的质量。

九、与现有方法的根本区别

SPARK与现有AI训练方法的根本区别在于它统一了策略学习和价值判断。传统方法将这两个过程分离:先训练一个模型来生成答案,再训练另一个模型来评判答案质量。这种分离导致了很多问题,比如两个模型的能力不匹配、训练数据的浪费、部署成本的增加等。

SPARK的创新之处在于认识到策略和价值其实是同一个认知过程的两个方面。一个真正理解问题的模型既应该能够给出好的答案,也应该能够识别好答案和坏答案的区别。通过在同一个模型中统一这两种能力,SPARK实现了更高的训练效率和更好的性能表现。

这种统一的方法也更符合人类的学习模式。当我们学习一个新领域时,获得知识和获得判断力往往是同步进行的。随着对领域理解的加深,我们既能更好地解决问题,也能更准确地评估解决方案的质量。

十、未来发展的广阔前景

SPARK框架为AI训练开辟了新的方向,特别是在自监督学习和元学习方面。由于它能够让模型学会自我评估和自我改进,这为构建能够持续学习的AI系统奠定了基础。

在实际应用中,SPARK训练的模型可以部署到各种需要推理和判断的场景中,比如教育辅导、代码审查、文档分析等。由于模型具备自我反思能力,它们能够在这些应用中提供更可靠和更高质量的服务。

研究团队也指出了一些有待进一步探索的方向。比如如何将SPARK扩展到更多类型的可验证奖励,如何在更大规模的模型上验证其效果,以及如何将这种协同训练的思想应用到其他AI任务中。

从更广阔的角度看,SPARK代表了AI训练方法的一个重要进步:从依赖外部监督转向内在自我改进。这种转变可能会推动AI系统向更加自主和智能的方向发展,最终实现真正意义上的人工智能。

说到底,SPARK的成功证明了一个重要观点:AI的推理能力和判断能力不应该被人为分割,而应该作为统一的认知能力来培养。这种整体性的方法不仅提高了训练效率,也让AI模型表现出更接近人类专家的思维模式。对于普通用户来说,这意味着未来的AI助手将更加可靠、更善于自我纠错,能够提供更高质量的帮助和建议。

虽然目前SPARK还主要在学术研究阶段,但其显示出的巨大潜力表明,这种新的训练方法很可能会被广泛应用到实际的AI产品中。当这种技术成熟并普及时,我们将看到AI在教育、科研、创作等各个领域发挥更大的作用,真正成为人类智慧的有力延伸。

Q&A

Q1:SPARK框架相比传统AI训练方法有什么优势?

A:SPARK最大的优势是让AI模型同时学会推理和判断,就像培养一个既会做题又会批改作业的学生。传统方法需要分别训练两个模型,成本高且效率低,而SPARK只需要一个模型就能完成所有功能,训练成本降低一半,且性能更好。

Q2:SPARK训练的AI模型能应用到哪些实际场景?

A:由于SPARK模型具备自我反思和纠错能力,可以应用到教育辅导、代码审查、文档分析、内容创作等需要推理和判断的场景。模型能够自己检查答案质量并进行改进,提供更可靠的服务。

Q3:SPARK的自我反思机制是如何工作的?

A:SPARK训练的模型在回答问题后会自己评判答案是否正确,如果发现错误就会重新分析并给出改进方案。这个过程类似于学生考试时的自我检查,能够在没有外部监督的情况下提升答案质量10-15%。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-