这项由苏州大学计算机科学与技术学院的丁宇阳、史鑫宇、李俊涛、梁晓波、张民等研究者,以及腾讯公司的涂兆鹏共同完成的研究,发表于2025年第39届神经信息处理系统会议(NeurIPS 2025)。有兴趣深入了解的读者可以通过论文编号arXiv:2509.16548v1查询完整论文。
当前人工智能领域最热门的话题之一,就是如何让AI模型在数学推理方面变得更加聪明。就像OpenAI的o1模型和DeepSeek的R1模型一样,这些系统能够进行深度思考,一步步解决复杂的数学问题。但这背后有一个关键技术叫做"过程奖励模型",它就像一个严格的数学老师,能够检查学生解题过程中每一个步骤是否正确。
然而,训练这样的"AI数学老师"面临着一个巨大的挑战。传统方法需要人类专家逐步标注每个解题步骤的对错,这个过程不仅耗时耗力,成本也极其高昂。为了降低成本,研究者们开始尝试用蒙特卡洛估计方法来自动生成训练数据,但这种方法产生的数据噪声很大,就像让一个不太熟练的学生去批改作业一样,经常会出现误判。
苏州大学的研究团队深入分析了这个问题的根源,发现噪声主要来自两个方面:AI模型有时会低估步骤的正确性,有时又会高估。基于这个发现,他们提出了一个名为SCAN(Self-Denoising Monte Carlo Annotation)的创新框架,这个方法就像给那个不太熟练的学生配备了一套自我纠错的工具。
一、揭开噪声分布的神秘面纱
研究团队首先做了一件非常重要的事情:他们要搞清楚AI模型在判断数学步骤正确性时到底会犯哪些错误。这就像医生在治病前先要做全面的诊断一样。
他们选择了四个代表性的开源模型进行研究,包括Llama3.1-8B-Instruct、Llama3.2-3B-Instruct、Qwen2.5-Math-1.5B-Instruct和Qwen2.5-Math-7B-Instruct。研究对象是ProcessBench数据集,这个数据集包含了33,400个人工标注的数学推理过程数据。
为了量化模型的判断能力,研究团队引入了一个叫做"自信度"的概念。这个自信度就像学生对自己答案的把握程度一样,通过让模型多次尝试解决同一个问题,然后看它成功的比例来计算。如果一个模型在某个问题上的自信度是80%,意味着它有8次能给出正确答案,2次会出错。
通过大量实验,研究团队发现了几个重要规律。首先,当模型对问题的自信度较低时,它往往会过早地认为某个步骤是错误的,这就像一个缺乏自信的学生总是怀疑自己的答案一样。其次,对于能力较强的模型,由于它们具有一定的纠错能力,有时会在高自信度区域出现相反的问题——它们可能会忽略真正的错误,认为后面的步骤还能挽救回来。
最有趣的是,研究团队发现干净无噪声的样本主要集中在高自信度区域。这个发现为后续的去噪策略提供了重要指导:应该更多地信任模型在高自信度情况下的判断。
二、SCAN框架的巧妙设计
基于对噪声分布的深入理解,研究团队设计了SCAN框架,这个框架包含两个核心模块:高效的数据合成框架和鲁棒的训练方法。
在数据合成阶段,SCAN采用了一个非常聪明的策略。传统方法需要对每个样本的每个步骤都进行详细检查,这就像要求老师批改每份作业的每一行字一样费时费力。SCAN的做法更像是先快速筛选出可能有问题的作业,然后只对这些作业进行详细批改。
具体来说,对于每个数学问题,系统首先生成多个解答方案,然后计算模型对这个问题的自信度。对于那些最终答案正确的解答,如果模型的自信度较高,系统就直接将其标记为正确样本,不再进行逐步检查。这样做的理由是,根据前面的分析,高自信度的正确样本包含的噪声很少。
只有对于那些最终答案错误的样本,系统才会进行详细的逐步检查,找出具体在哪一步开始出错。这种选择性处理方式大大提高了效率,使得整个标注过程只需要传统方法6%的计算成本,却能达到100%的样本利用率。
在训练阶段,SCAN引入了两个关键的改进策略。第一个是"容错标注",这就像给严格的数学老师增加了一点宽容度。当模型预测某个位置有错误时,系统不会简单地将这个位置标记为错误,而是考虑到模型可能存在的判断偏差,对错误位置附近的几个步骤都给予一定的容错空间,使用软标签而不是硬标签。
第二个策略是"置信度重加权",这个方法试图消除不同能力模型之间的偏差。就像不同水平的老师批改同一份作业可能给出不同分数一样,不同能力的AI模型对同一个步骤的正确性判断也会有差异。SCAN通过模型的自信度来调整这种偏差,让最终的训练数据更加公平和准确。
三、令人瞩目的实验结果
研究团队构建了两个版本的数据集来验证SCAN的效果。SCAN-Base数据集包含101,000个样本,完全由一个只有15亿参数的小模型Qwen2.5-Math-1.5B-Instruct生成。SCAN-Pro数据集则进一步扩展到197,000个样本,融合了多个不同规模模型的标注结果。
实验结果令人印象深刻。在Best-of-8评估中,这种评估方式就像让AI从8个候选答案中选出最好的一个,SCAN训练的模型表现出色。仅使用101,000个合成样本的SCAN-Base模型就能达到与使用大规模人工标注数据集PRM800K训练的模型相当的性能。而SCAN-Pro模型更是超越了PRM800K的表现,在多个数学基准测试中都取得了最佳成绩。
在ProcessBench的步骤级错误检测任务中,SCAN的优势更加明显。这个任务要求模型准确识别数学推理过程中第一个错误出现的位置,就像要求AI精确定位学生作业中的第一个计算错误一样。SCAN-Base模型在这个任务上的F1分数达到了56.8,而SCAN-Pro更是达到了59.1,相比基线方法的19.9有了巨大提升。
更令人惊喜的是,通过SCAN训练的模型甚至超越了一些大型批评模型的表现。比如,SCAN-Pro模型的错误检测能力甚至超过了700亿参数的Llama-3.3-70B-Instruct模型。这证明了通过精心设计的训练方法,小模型也能在特定任务上达到甚至超越大模型的性能。
四、深入的消融实验分析
为了验证SCAN框架中每个组件的作用,研究团队进行了详尽的消融实验。这些实验就像拆解一台精密机器,逐个检验每个零件的功能一样。
首先,他们验证了容错距离参数的选择。容错距离就是在预测错误位置附近给予软标签的范围。实验发现,当容错距离设为2时效果最佳。距离太小(为0)相当于使用硬标签,会导致严重的噪声问题;距离太大则会引入过多的不确定性,同样影响训练效果。
其次,实验证明了置信度重加权策略的重要性。这个策略不仅提高了单个模型的性能,在整合多个不同能力模型的标注结果时更是发挥了关键作用。通过这种重加权,不同模型之间的能力差异得到了有效平衡,使得最终的训练数据更加一致和可靠。
研究团队还探索了不同数据源的影响。他们发现,问题的难度和质量是影响最终性能的两个关键因素。相比于相对简单的GSM8K数据集,MATH数据集由于其适中的难度水平和高质量的问题答案对,更适合用于训练过程奖励模型。
五、技术创新的深层意义
SCAN框架的成功不仅仅在于其优异的实验结果,更重要的是它为过程奖励学习领域带来了全新的思路。传统方法要么依赖昂贵的人工标注,要么需要大型模型的强监督,而SCAN证明了通过深入理解噪声分布和精心设计的鲁棒学习策略,即使是小模型也能生成高质量的训练数据。
这种方法的另一个重要意义在于其可扩展性。随着合成数据规模的增加,SCAN训练的模型性能持续提升,这表明该方法具有良好的扩展潜力。在计算资源有限的情况下,这种高效的数据合成和训练方法为更多研究者和开发者提供了可行的解决方案。
从更广阔的视角来看,SCAN的成功也为其他需要大量标注数据的AI任务提供了启发。通过深入分析数据噪声的来源和分布特征,设计针对性的去噪和鲁棒学习策略,可能在很多领域都能取得类似的突破。
六、未来发展的无限可能
虽然SCAN已经取得了显著的成果,但研究团队也指出了一些未来可以继续探索的方向。首先是如何进一步提高数据合成的效率,虽然SCAN已经将计算成本降低到了传统方法的6%,但在面对更大规模的应用时,效率仍然是一个重要考量。
其次是如何将SCAN的思路扩展到其他类型的推理任务。目前的研究主要集中在数学推理上,但类似的噪声问题在科学推理、逻辑推理等其他领域同样存在。如何根据不同领域的特点调整SCAN框架,是一个值得深入研究的问题。
另一个有趣的方向是如何结合SCAN与其他先进技术。比如,将SCAN与知识蒸馏方法结合,可能能够进一步提升模型性能。研究团队的初步实验已经显示了这种结合的潜力,但还有很大的探索空间。
说到底,SCAN框架的成功证明了一个重要观点:在AI发展的道路上,有时候深入理解问题的本质比简单地增加模型规模或数据量更加重要。通过仔细分析噪声分布,设计巧妙的去噪策略,即使是资源有限的小模型也能在特定任务上达到令人惊喜的性能。这种思路不仅为过程奖励学习领域带来了突破,也为整个AI研究社区提供了宝贵的启示。
归根结底,这项研究展示了科学研究中"知其然,知其所以然"的重要性。只有深入理解了问题的根源,才能设计出真正有效的解决方案。对于普通人来说,这意味着未来我们可能会看到更多高效、准确的AI数学助手,它们不仅能够解决复杂的数学问题,还能准确指出推理过程中的错误,成为真正有用的学习伙伴。
Q&A
Q1:SCAN框架是什么?它解决了什么问题?
A:SCAN是苏州大学团队开发的一种AI训练方法,专门用于训练能够检查数学推理步骤的AI模型。它主要解决了传统方法需要大量人工标注、成本高昂,以及自动生成数据噪声过大的问题,让小模型也能高效准确地找出数学推理中的错误。
Q2:为什么SCAN能用小模型达到大模型的效果?
A:SCAN的关键在于深入分析了AI判断错误的规律,发现了噪声分布的特点,然后设计了针对性的去噪策略。通过"容错标注"和"置信度重加权"等方法,即使15亿参数的小模型也能生成高质量的训练数据,最终训练出的模型甚至超越了700亿参数大模型的表现。
Q3:SCAN方法的效率提升有多大?
A:SCAN将数据标注的计算成本降低到了传统方法的6%,同时实现了100%的样本利用率。这意味着用更少的计算资源就能生成更多高质量的训练数据,大大降低了训练AI数学推理模型的门槛和成本。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。