这项由上海人工智能实验室联合中国人民大学、清华大学和武汉大学的研究团队于2025年9月完成的突破性研究,发表在计算机科学顶级会议上,提出了一个名为ScaleDiff的创新方案。有兴趣深入了解的读者可以通过arXiv:2509.21070v1查询完整论文。
当前,像OpenAI的o1和DeepSeek的R1这样的大型推理模型在解决复杂数学问题时展现出了令人惊叹的能力。这些模型能够进行试错、自我反思,甚至像人类一样进行迭代改进。然而,训练这样的模型需要大量高质量的数学问题,特别是那些真正困难的题目。就像培养一个数学天才需要不断挑战更难的题目一样,AI模型也需要在困难问题上进行训练才能获得真正的推理能力。
问题在于,创造高质量的数学难题通常需要依赖人类专家手工编写,或者使用昂贵的大型模型生成,这不仅成本高昂,而且难以大规模扩展。更重要的是,现有方法生成的问题往往难度有限,无法真正挑战当前最先进的AI模型。
研究团队巧妙地发现了一个关键洞察:并非所有数学问题都对模型训练有同等价值。就像健身时,举重10公斤和举重50公斤对肌肉的锻炼效果完全不同一样,简单的数学题对AI模型的推理能力提升作用微乎其微,真正有价值的是那些需要复杂推理链条的困难问题。
基于这个发现,团队设计了ScaleDiff这个简洁而高效的流水线系统。整个过程可以比作一个智能的"题目工厂":首先使用一个特殊的"质量检测器"从现有数据集中识别出真正困难的题目,然后训练一个专门的"题目生成器"来大批量生产类似难度的新题目,最后通过严格的筛选和验证确保生成题目的质量。
在识别困难题目这个环节,研究团队没有采用传统的多次测试方法(这就像让学生反复做同一道题来判断难度),而是借助了一个名为AdaptThink的聪明工具。这个工具有一个独特能力:它能够自动判断一道题是否需要"深思熟虑"。当遇到简单题目时,它会直接给出答案;当面对复杂题目时,它会自动切换到"思考模式",进行更深入的推理。通过观察这个工具的行为模式,研究团队只需要一次前向计算就能准确识别出哪些题目是真正困难的。
通过大量实验验证,团队证实了这种识别方法的有效性。他们发现,使用困难题目训练的模型在各种数学推理基准测试上的表现显著优于使用简单题目或随机题目训练的模型。更令人惊讶的是,仅使用19.2万道困难题目训练的模型,其表现几乎与使用55.8万道混合难度题目训练的模型相当,这充分说明了题目质量远比数量更重要。
在题目生成阶段,研究团队训练了一个专门的生成器模型DiffGen-8B。这个生成器就像一个专业的出题老师,专门擅长创造有挑战性的数学问题。与传统方法不同,这个生成器不需要复杂的提示工程或昂贵的API调用,就能高效地产生大量新的困难问题。
生成新题目后,团队使用相对较小但高效的Qwen3-8B模型作为"老师"来为每道题目提供详细的解答过程。这个选择颇为巧妙:他们发现,使用规模适中的模型作为教师,其效果与使用大型模型相差无几,但成本却大大降低。这就像发现一位经验丰富的中学老师在某些方面的教学效果并不逊色于大学教授一样。
为了确保最终数据集的质量,团队设计了一套严格的筛选机制。首先是规则筛选,剔除那些存在明显缺陷的解答,比如过度重复、推理过程冗长或最终答案格式不规范的情况。接着是模型筛选,如果基础模型已经能够轻松解决某道题目,那么这道题就被认为不够困难,会被排除在训练集之外。通过这两道筛选关卡,最终保留了约57%的高质量题目-解答对。
最终构建的ScaleDiff-Math数据集包含了170万个数学题目-解答对,其中117万个是新生成的困难问题。当研究团队使用这个数据集对Qwen2.5-Math-7B-Instruct模型进行训练时,结果令人振奋。
在多个权威数学竞赛基准测试上,ScaleDiff模型都展现出了卓越的性能。在AIME 2024测试中达到了73.0%的准确率,在AIME 2025中达到58.7%,在HMMT-Feb 2025中达到43.3%,在BRUMO 2025中达到66.7%,在MATH500中达到95.2%。这些成绩的平均值为65.9%,显著超越了许多知名的强化学习和监督学习模型,包括最近发布的OpenThinker3。
更重要的是,ScaleDiff相比于原始的AM-Qwen3-Distilled数据集实现了11.3%的相对性能提升。这个提升幅度看似不大,但在AI模型性能已经相当高的基础上,每一点提升都是极其珍贵的。
研究团队还发现了一个有趣的现象:模型性能与困难题目数量之间存在明显的缩放关系。当他们逐步增加训练数据中困难题目的数量时,模型在AIME等挑战性测试中的表现持续改善。这种缩放现象表明,继续增加高质量困难题目的数量有望带来进一步的性能提升。
特别值得一提的是,ScaleDiff在实现这些优异成绩的同时,其训练成本相对较低。与许多依赖大型教师模型或需要多次采样的方法不同,ScaleDiff每个问题只需要生成一个解答,大大降低了计算成本。虽然训练数据中可能包含一些错误答案,但多样化的推理轨迹仍然能够有效提升模型的推理能力。
在深入分析生成问题的特征时,研究团队发现了几个有趣的规律。首先,通过AdaptThink识别的困难程度与解答长度存在强相关性:简单问题通常只需要简短的解答,而困难问题则需要更长、更详细的推理过程。其次,DiffGen-8B生成的问题中约88%被验证为困难问题,这说明专门的生成器确实学会了困难问题的分布特征。
此外,通过比较不同数据集的解答长度分布,团队发现生成的困难问题往往比原始困难问题需要更长的解答,这暗示着生成的问题具有更高的内在复杂性。这一发现得到了下游任务性能的印证:使用生成的困难问题训练的模型确实比使用原始困难问题训练的模型表现更好。
研究团队还进行了详细的消融实验来验证各个组件的贡献。他们发现,移除解答筛选步骤会导致性能下降,这说明质量控制对于训练数据的重要性。更重要的是,如果跳过困难问题识别步骤,直接在全部问题上训练生成器,性能会有更显著的下降,这进一步证实了专门针对困难问题进行生成的有效性。
在教师模型的选择上,团队比较了使用大型模型Qwen3-235B-A22B和较小模型Qwen3-8B作为教师的效果。结果显示,虽然大型模型的表现略好,但差距并不显著。这个发现具有重要的实用价值,因为它表明在资源有限的情况下,使用相对较小的模型作为教师仍能获得不错的效果。
研究团队还探索了数据规模对模型性能的影响。通过变化增强数据集的大小,他们发现在更具挑战性的AIME测试中,性能随着困难问题数量的增加而持续提升,即使增强数据的规模达到原始数据的两倍,性能增长仍未饱和。这个发现表明,继续扩大困难问题的规模有望带来更大的收益。
值得注意的是,在相对简单的MATH500测试中,增加困难问题的数量对性能提升的作用有限。这个现象并不意外,因为当评估任务本身不够困难时,额外的困难训练数据自然难以发挥作用。这也从侧面验证了ScaleDiff方法的核心假设:困难的训练数据主要对提升复杂推理能力有帮助。
ScaleDiff的成功不仅在于其技术创新,更在于其实用性。整个方法简洁明了,易于复现和扩展。研究团队已经开源了完整的数据集、模型和代码,为社区提供了宝贵的资源。这种开放态度体现了学术研究的价值,让更多研究者能够在此基础上进行进一步探索。
从更广阔的视角来看,ScaleDiff代表了一种新的思路:通过精确识别和大规模生成困难样本来提升AI模型的复杂推理能力。这种方法不仅适用于数学推理,在其他需要复杂推理的领域也可能有广阔的应用前景。
当然,这项研究也有一些局限性。目前,团队主要关注解答的质量控制,对于生成问题本身的数学正确性和可解性验证仍然是一个挑战。此外,如何评估和控制生成问题的多样性,避免模式坍塌等问题,也需要进一步研究。
总的来说,ScaleDiff为构建更强大的数学推理模型提供了一条清晰可行的路径。它证明了通过聪明的方法选择和生成困难训练样本,可以用相对较小的成本获得显著的性能提升。随着这种方法的进一步发展和完善,我们有理由期待AI在数学推理能力上的进一步突破。
这项研究的影响已经开始显现。ScaleDiff不仅为学术界提供了新的研究方向,也为工业界开发更强大的AI数学助手提供了实用的技术路径。随着更多研究者采用和改进这种方法,我们可能很快就会看到AI在解决复杂数学问题上达到新的高度。
Q&A
Q1:ScaleDiff是什么?它与传统的AI训练方法有什么不同?
A:ScaleDiff是上海人工智能实验室开发的一套专门用于提升AI数学推理能力的训练方法。与传统方法不同,ScaleDiff专门识别和生成困难的数学问题来训练模型,就像专门用高难度题目来训练奥数选手一样。它通过一个智能识别系统找出真正困难的题目,然后训练专门的生成器大批量创造类似难度的新题目,最后用这些高质量的困难题目来训练AI模型。
Q2:为什么困难的数学题目对AI训练这么重要?
A:就像人类学习一样,只有面对真正有挑战性的问题,AI模型才能发展出复杂的推理能力。研究发现,用困难题目训练的模型比用简单题目训练的模型表现好很多。简单题目就像小学加减法,虽然数量很多,但对提升高级推理能力帮助有限。困难题目需要模型进行多步推理、试错和自我修正,这些正是复杂数学推理所必需的能力。
Q3:ScaleDiff训练出的AI模型有多厉害?普通人能用吗?
A:ScaleDiff训练的模型在多个数学竞赛测试中表现出色,比如在AIME 2024中达到73%的准确率,超越了许多知名的AI模型。不过这主要体现在解决高难度数学竞赛题目上。对普通人来说,这意味着AI数学助手会变得更加智能,能够处理更复杂的数学问题,比如高等数学、工程计算等。研究团队已经开源了相关技术,预计很快就会有基于这种技术的实用产品出现。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。