微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴与香港中文大学联手打造AI"自我进化"评判官:让大模型学会给自己挑错

阿里巴巴与香港中文大学联手打造AI"自我进化"评判官:让大模型学会给自己挑错

2025-09-18 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-18 11:07 科技行者

这项由香港中文大学深圳分校、深圳大数据研究院以及阿里巴巴Qwen团队合作完成的突破性研究,刚刚发表在2025年的COLM会议上。该研究的论文标题为《Self-Evolving Critique Abilities in Large Language Models》,由唐政阳、李子牛、肖震阳等研究人员共同完成。感兴趣的读者可以通过arXiv:2501.05727v2访问完整论文。

现在的AI大模型就像一个聪明但缺乏自省能力的学生,它们能解决许多复杂问题,但却不太擅长发现和纠正自己的错误。当人类评判员也难以判断AI回答质量的时候,我们该如何帮助AI变得更加可靠呢?这就像培养一个孩子的批判性思维一样,需要让他们学会自己发现问题、分析问题并改正错误。

研究团队面临的挑战就像是要培养一个完全依赖外界指导的学生学会自我反思。传统的方法要么依靠人工标注(就像请家教一对一辅导),要么依靠更强大的AI模型来指导(就像请更优秀的学长来帮忙),但这两种方法都有明显的局限性:成本高昂,而且当我们的AI已经足够强大时,可能找不到更好的"老师"来指导它们。

针对这个难题,研究团队开发了一个名为SCRIT(自我进化评判系统)的创新框架。这个系统就像是为AI大模型配备了一面"魔镜",让它们能够看清自己的不足之处。SCRIT的核心思想是通过对比学习的方式,让AI在分析标准答案的基础上,学会识别和纠正错误的解题过程。

一、AI如何学会"照镜子":对比学习的奇妙机制

传统的AI评判方法就像让一个人对着空气自言自语,试图发现自己的错误。这种"直接评判"方法往往会出现"橡皮图章"现象,也就是说AI倾向于认为所有的解题步骤都是对的,即使明显存在错误。研究团队发现,这就像一个缺乏参照物的人很难认识到自己的不足一样。

SCRIT采用的"对比评判"方法则完全不同,它就像是给AI提供了一个标准范本。在这个过程中,AI首先会仔细分析一个正确的解题过程,深入理解其中的关键概念和解题策略,然后再去审视需要评判的学生解答。这种方法的效果就像是让一个学生先学习标准答案,理解了正确的思路后,再去批改其他同学的作业,自然能够更容易发现问题所在。

研究团队通过大量实验证明了这种对比方法的有效性。他们发现,当AI拥有了正确的参考标准后,就能准确识别出错误解题过程中的关键问题,比如概念理解偏差、计算错误或逻辑跳跃等。更重要的是,AI不仅能指出错误在哪里,还能提供正确的修改建议,就像一个经验丰富的老师不仅会圈出学生的错误,还会在旁边写上正确的解法。

为了确保评判质量,SCRIT还引入了自我验证机制。这个机制就像是让AI给自己的批改结果再做一次检查,确认提出的修改建议确实能够得到正确答案。只有通过这种"双重检验"的评判结果,才会被纳入后续的训练数据中。

二、数据工厂:如何批量生产高质量的学习材料

要让AI学会自我评判,首先需要大量高质量的训练数据。这就像培养一个优秀的批改老师,需要让他们见识足够多样化的学生作业。研究团队从NuminaMath数据集开始,这个数据集包含了45.2万个数学问题,涵盖了从小学算术到奥林匹克竞赛的各个难度层次。

接下来的工作就像是组织一场大规模的"作业比赛"。研究团队动用了七个不同能力水平的AI模型,包括DeepSeek、Mistral、Qwen系列等,让它们针对这些数学问题提供解答。这样做的目的是获得尽可能多样化的解题方法和错误类型,就像收集不同学生的作业样本一样。

在这个过程中,研究团队建立了严格的质量筛选机制。他们要求每个问题都必须有至少一个正确答案和一个错误答案,这样才能进行有效的对比学习。经过筛选后,最终获得了66.5万个问题-解答对,其中正确和错误的解答各占一半。

然后是最关键的评判生成步骤。SCRIT系统会针对每个错误的解答,随机选择一个正确的参考解答,进行对比分析。这个过程分为四个阶段:首先分析参考解答中的关键数学概念,然后逐步检查学生解答的每个步骤,接着给出整体评判结论,最后提供完整的修正方案。

有趣的是,研究团队还会让正确的解答之间进行"互相学习"。虽然两个解答都是正确的,但解题方法可能不同,通过这种对比,AI能够学会欣赏不同的解题思路,提高评判的灵活性和全面性。

三、质量把关:自动筛选优质评判结果

就像工厂生产线需要质量检测一样,SCRIT也建立了严格的自我验证机制。这个机制的核心思想是:一个好的批改不仅要能指出错误,更要能引导学生得到正确答案。

在实际操作中,研究团队发现AI生成的评判结果质量参差不齐。有些评判看似专业,但提出的修改建议却无法真正解决问题,就像一个老师能发现学生答案不对,但给出的修正方法却是错误的。还有些评判存在"睁眼说瞎话"的问题,明明前面的解题步骤都没问题,却在最后突然宣称答案错误。

为了解决这些问题,SCRIT引入了一个巧妙的验证机制:让AI按照自己提出的修改建议重新解题,看看是否真的能得到正确答案。这就像让批改老师亲自按照自己的修改建议重做一遍题目,如果连自己都做不出正确答案,那说明这次批改是有问题的。

通过这种验证机制,研究团队发现只有大约51.4%的初始评判结果能够通过质量检测。这个比例在不同难度的问题上呈现出明显的规律:简单的小学数学问题(如GSM8K)通过率高达91.8%,而奥林匹克级别的复杂问题通过率仅为27.1%。这种现象完全符合直觉,就像学生批改简单题目时出错率低,面对复杂题目时容易力不从心。

最终,经过层层筛选,研究团队获得了34.2万个高质量的问题-解答-评判三元组,这些数据成为了训练SCRIT系统的珍贵素材。

四、实战检验:让AI评委接受全面考核

为了验证SCRIT系统的实际效果,研究团队设计了两套严格的测试方案,就像是为AI评委安排了一场全方位的能力考核。

第一套测试叫做"评判与修正"协议。这个测试就像是让AI同时扮演批改老师和辅导老师两个角色:不仅要指出学生答案哪里错了,还要提供正确的修改方案。测试材料涵盖了数学推理和科学推理两大领域,包括GSM8K、MATH、OlympiadBench等知名数据集。

测试分为三个难度梯度:首先是明确错误的答案(就像批改明显做错的作业),然后是正确和错误答案混合的情况(更接近真实的批改环境),最后是让AI批改自己生成的答案(这是最具挑战性的自我反思测试)。

结果令人振奋。在明确错误的答案测试中,SCRIT将原来39.7%的准确率提升到了50.0%,相对提升幅度达到10.0%。在混合答案测试中,准确率从57.7%提升到62.1%。即使在最困难的自我批改测试中,SCRIT也实现了从61.7%到62.9%的稳步提升。

第二套测试更加严格,叫做"错误识别"协议。这个测试要求AI不仅要判断答案对错,还要准确定位第一个出错的步骤,就像医生不仅要诊断出病人生病了,还要准确找出病灶在哪里。

在这项测试中,SCRIT的表现更加令人印象深刻。在PRM800K数据集上,F1分数从37.8%跃升至45.0%,相对提升幅度高达19.0%。这种提升在数学推理任务上表现得尤为突出,比如在GSM8K数据集上提升了11.3个百分点,在MATH数据集上提升了9.1个百分点。

五、深度解析:为什么SCRIT如此有效

为了深入理解SCRIT成功的原因,研究团队进行了大量的对比实验,就像是解剖一个精密机械,想要弄清楚每个零件的作用。

首先,他们比较了三种不同的评判方法。传统的"直接评判"方法就像让人闭着眼睛批改作业,往往会出现视而不见的问题。"错误注入"方法试图通过人工制造错误来训练AI,但这些人造错误往往过于简单,就像用练习题来准备真正的考试,效果有限。

相比之下,SCRIT采用的"对比评判"方法表现最为出色。随着训练数据的增加,对比方法的效果持续提升,而其他两种方法很快就遇到了瓶颈。当训练数据达到17万个样本时,对比方法的准确率达到58.3%,而直接方法只有55.1%,错误注入方法更是下降到49.0%。

研究团队还发现了一个有趣的规律:SCRIT的效果与模型大小密切相关。在从15亿参数扩展到720亿参数的过程中,评判准确率从41.7%大幅提升到58.3%,错误识别能力更是从12.5%猛增到45.1%。这说明更大的模型确实具备了更强的自我反思能力,就像一个人的知识越丰富,越能发现细微的错误。

更令人兴奋的是,SCRIT支持多轮迭代改进。研究团队进行了三轮连续的训练,每一轮都在前一轮的基础上进一步提升。第一轮训练后,系统的评判能力显著提升;第二轮训练继续改进;第三轮训练依然能够实现进步,虽然幅度有所减缓。这种持续改进的能力为AI的长期发展开辟了新的可能性。

六、意外收获:跨领域的学习能力

研究过程中的一个意外发现让团队感到惊喜:SCRIT不仅在数学领域表现出色,在科学推理领域同样展现出了强大的能力。这就像一个数学老师不仅会批改数学作业,还能胜任物理和化学作业的批改工作。

为了验证这种跨领域能力,研究团队专门用科学推理问题训练了一个SCRIT版本。结果显示,这个版本在科学推理任务上的表现更加优秀,同时在数学任务上也保持了竞争力。这种现象说明SCRIT学到的不仅仅是具体的知识点,而是一种通用的批判性思维能力。

在ARC-C、GPQA、MMLU-STEM等科学推理基准测试中,SCRIT都实现了显著的性能提升。特别值得注意的是,用科学数据训练的SCRIT在平衡解答测试中取得了67.4%的成绩,比原始模型的52.8%提升了惊人的14.6个百分点。

七、细节优化:每个设计选择的深层考量

研究团队像精雕细琢艺术品一样,仔细考虑了系统设计的每个细节。他们发现,自我验证机制虽然只带来了0.8%的准确率提升,但在错误识别方面却有3.0%的显著改进,这个机制的价值在于能够过滤掉那些看似合理实际却有问题的评判结果。

在问题领域的多样性方面,研究团队发现仅使用GSM8K和MATH两个数据集训练的系统,性能比使用九个不同领域数据集训练的系统要低1.4个百分点。这说明接触多样化的问题类型确实有助于培养更加全面的评判能力,就像一个见多识广的老师比专门只教一种题型的老师更有经验。

有趣的是,研究团队还发现了问题难度的微妙影响。用简单问题训练的系统在错误识别方面表现更好,这可能是因为简单问题的数学概念更加清晰,错误模式更容易掌握。但这也提醒我们,如何平衡简单和复杂问题的比例,是一个值得进一步研究的问题。

在解答来源的选择上,研究团队测试了七个不同的AI模型,发现无论选择哪个模型的解答进行训练,SCRIT的最终表现差异都很小。这说明重要的不是解答本身的质量,而是通过对比学习获得的评判能力。

另一个重要发现是正确和错误解答的比例影响。当训练数据中错误解答的比例更高时(25%正确:75%错误),系统的表现反而更好。这符合直觉:见过更多错误的老师,往往更擅长发现问题。

八、现实意义:开启AI自我改进的新时代

SCRIT的成功不仅仅是一项技术突破,更是AI发展历程中的一个重要里程碑。它证明了AI系统具备了自我改进的潜力,这种能力对于未来AI的发展具有深远的意义。

在教育领域,SCRIT可能会彻底改变在线教育的体验。原本,AI教学系统只能机械地对照标准答案给出对错判断,而配备了SCRIT能力的AI教师不仅能够准确识别学生思维中的错误环节,还能提供具体的改进建议。这就像为每个学生配备了一个24小时在线的专业辅导员,能够及时发现并纠正学习中的问题。

在科研领域,SCRIT的思路为解决"可扩展监督"这一长期困扰AI研究的难题提供了新的方向。随着AI系统变得越来越强大,如何在没有更强监督者的情况下继续改进,成为了一个核心挑战。SCRIT通过自我对比和验证的机制,为这个问题提供了一个可行的解决方案。

在更广泛的应用场景中,SCRIT的原理可以扩展到其他需要质量把控的领域。比如在代码审查中,AI可以学会发现程序中的逻辑错误;在文档写作中,AI可以学会识别表达不清或逻辑混乱的地方;在决策制定中,AI可以学会发现推理过程中的漏洞。

研究团队也坦诚地指出了当前版本的局限性。SCRIT目前主要适用于有明确正确答案的领域,如数学和某些科学问题。对于那些主观性较强或者没有标准答案的问题,比如创意写作或开放性讨论,这种方法的效果可能会有所限制。

但这些局限性并不能掩盖SCRIT的重要价值。正如研究团队在论文中所说,这项工作开辟了一个全新的研究方向,为AI的自主学习和持续改进提供了可能性。未来的研究可能会将这种思路扩展到更多领域,让AI系统具备更加全面的自我反思和改进能力。

说到底,SCRIT最重要的贡献在于证明了AI可以通过巧妙的设计实现真正的自我改进。它不再需要依赖外部的指导,而是通过内在的对比和验证机制不断完善自己。这种能力的出现,标志着AI正在从被动的工具逐渐演化为具有自主学习能力的智能系统。这不仅会改变我们使用AI的方式,更可能改变AI技术发展的整个轨迹。对于普通人来说,这意味着未来的AI助手不仅会更加聪明,还会更加可靠,因为它们已经学会了如何发现和纠正自己的错误。

Q&A

Q1:SCRIT系统是什么?它能做什么?

A:SCRIT是由阿里巴巴和香港中文大学联合开发的AI自我评判系统,全称是"自我进化评判系统"。它最大的能力是让AI学会给自己挑错——不仅能发现数学或科学推理中的错误,还能提供正确的修改方案。就像培养了一个会自我反思的学生,能够通过对比标准答案来发现并纠正自己解题过程中的问题。

Q2:SCRIT和传统的AI评判方法有什么不同?

A:传统方法就像让人闭着眼睛批改作业,AI往往会出现"橡皮图章"现象,倾向于认为所有步骤都是对的。而SCRIT采用对比学习的方法,先让AI分析正确的标准答案,理解关键概念和解题策略,然后再去评判需要检查的答案。这种方法让AI的评判准确率提升了10%-19%,效果显著优于传统方法。

Q3:普通人什么时候能用上SCRIT技术?

A:目前SCRIT还处于研究阶段,主要应用在数学和科学推理领域。不过这项技术的原理可以扩展到很多实际应用中,比如在线教育中的智能辅导、代码审查中的错误检测、文档写作中的逻辑检查等。随着技术的成熟,未来几年内我们很可能会在各种AI助手和教育工具中看到类似功能的应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-