微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 图宾根大学团队破解AI数学推理边界:现有强化学习方法其实只是"磨刀不换刀"

图宾根大学团队破解AI数学推理边界:现有强化学习方法其实只是"磨刀不换刀"

2025-11-25 20:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-25 20:05 科技行者

这项由德国图宾根大学、图宾根AI中心和马克斯·普朗克智能系统研究所的Prasanna Mayilvahanan、Ricardo Dominguez-Olmedo、Thaddaus Wiedemer和Wieland Brendel等研究者共同完成的研究发表于2025年1月,论文编号为arXiv:2510.11653v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们谈论人工智能的数学推理能力时,经常听到一些令人振奋的消息:某个AI模型在数学竞赛中取得了突破性成绩,或者某种新的训练方法让机器的解题能力大幅提升。然而,这些看似辉煌的进步背后,可能隐藏着一个令人不安的真相。

研究团队发现了一个有趣的现象:当我们给现有的AI模型足够多的尝试机会时,比如让它们对同一道数学题尝试1024次,许多基础模型其实已经能够解决几乎所有常用数学基准测试中的问题。这就像一个学生虽然第一次考试可能只考60分,但如果允许他考试1000多次,几乎每道题他最终都能做对。

这个发现揭示了当前AI数学推理领域的一个尴尬现实:那些被广泛使用的强化学习训练方法,实际上并没有教会AI新的解题思路,而只是让它们更善于找到那些本来就知道的答案。用一个形象的比喻来说,这就像一个木匠本来就有一把好刀,强化学习训练只是让他把刀磨得更锋利,而不是教会他使用新的工具。

为了验证这个假设并推动真正的进步,研究团队创建了一个名为MATH-Beyond(简称MATH-B)的全新数学基准测试。这个测试的设计理念很巧妙:它专门收集那些即使给现有开源模型1024次尝试机会,它们依然无法解决的数学问题。

构建这样一个测试并不简单。研究团队首先从DAPO-Math-17K和DeepScaleR等数据集中筛选出53,682个候选问题。然后,他们像珠宝商挑选钻石一样,对这些问题进行了严格的质量筛选。他们去除了多项选择题,清理了含有中文字符的问题,移除了需要参考外部图像的题目,确保每个问题都是完整的、自包含的数学题。

在筛选过程中,研究团队还发现了数学验证系统中的一些有趣问题。比如,有些验证程序只会读取答案中第一个或最后一个数字,而忽略了其他可能正确的答案;有些程序无法正确处理学生在解题过程中的修正,比如学生先写了一个错误答案,然后改正了,但验证程序可能仍然认为第一个答案是最终答案。这些看似微小的技术细节,实际上可能严重影响对AI数学能力的准确评估。

为了确保问题的正确性,研究团队还请来了"专家级裁判"——GPT-5-Mini和o4-mini-high这些顶级AI模型来验证答案。只有当至少一个专家级模型能够正确解答时,这道题才会被纳入最终的测试集。

经过层层筛选,最终的MATH-B测试包含了181个问题。这些问题在主题上与普通高中数学完全一致,涵盖几何、数论、代数等各个领域,但它们的特殊之处在于:即使是目前最强的开源基础模型,在给予1024次尝试机会的情况下,通过率也接近于零。

研究团队还从这181个问题中挑选出41个"终极难题",这些问题连所有被测试的基础模型都无法解决。可以说,这41个问题代表了当前开源AI数学推理能力的绝对边界。

有趣的是,这些让AI头疼不已的问题,从人类的角度来看并不一定特别困难。研究团队对问题进行了难度评估,发现大多数问题的人类难度评级只有4分(满分10分),即使是那41个"终极难题",最高难度也只有6.5分。这揭示了一个重要现象:AI的困难和人类的困难是完全不同的概念。

接下来,研究团队用这个新的测试基准来评估各种经过强化学习训练的AI模型。结果令人深思:那些在传统基准测试中表现优异的强化学习模型,在MATH-B上的表现都相当糟糕。

具体来说,基于DeepSeek-R1-Distill-Qwen2.5-1.5B训练的三个强化学习模型,即使在1024次尝试的情况下,也只能解决不到10%的测试问题。这就像一个在标准化考试中表现优秀的学生,面对稍微超出常规范围的题目时就束手无策。

不过,也有一些例外。Skywork-OR1-7B模型达到了21%的解题率,表现相对较好。研究团队分析认为,这可能是因为该模型在训练过程中采用了自适应熵控制和较高的温度参数,这些技术手段鼓励了更多的探索行为,而不是简单地强化已有的解题模式。

最令人印象深刻的对比来自Qwen3系列模型。Qwen3-4B和Qwen3-8B这两个模型通过长推理链蒸馏训练,在MATH-B上分别达到了58.93%和66.38%的解题率。这个结果特别有启发性,因为它表明当AI模型能够接触到正确的推理步骤分布时,确实可以实现显著的能力扩展。

这就好比教一个学生解题:传统的强化学习方法更像是告诉学生"这个答案对,那个答案错",但没有教会他新的解题思路;而长推理链蒸馏则像是让学生观看优秀教师的详细解题过程,从中学习新的思维方法。

研究团队还深入分析了为什么选择1024次尝试作为评估标准。他们发现,虽然随着尝试次数增加,模型的整体成功率会持续提升,但边际收益递减效应非常明显。到了1024次尝试时,大多数模型的表现已经接近平台期,继续增加尝试次数带来的改进微乎其微。这说明1024次尝试已经足够充分地探索模型的能力边界。

这项研究对当前AI数学推理领域的发展具有重要意义。它揭示了一个不舒服的真相:许多看似先进的强化学习方法,实际上只是在优化已有能力的表达方式,而没有真正扩展AI的推理边界。这就像是把一个会骑自行车的人训练得骑得更稳,而不是教会他开汽车。

研究团队认为,要实现真正的进步,AI研究需要从"强化已知"转向"探索未知"。传统的强化学习往往会让模型在已知的解题路径上越走越深,而真正需要的是鼓励模型探索全新的推理方式。

这种观点挑战了当前主流的研究方向。许多研究团队专注于在现有基准测试上提升性能,但如果这些基准本身已经被现有模型"饱和",那么这种提升可能只是表面文章。MATH-B的出现,为研究者提供了一个真正具有挑战性的测试平台,迫使他们开发能够突破现有边界的新方法。

从更广泛的角度来看,这项研究也反映了人工智能发展中的一个普遍问题:如何区分真正的能力提升和表面的性能优化。在AI的许多应用领域,我们都可能面临类似的困境:一个模型在训练数据上表现优秀,但面对真正新颖的挑战时却显得力不从心。

研究团队的工作还揭示了AI能力评估中的一些微妙之处。他们发现,不同的验证方法可能导致完全不同的结论。一些看似严格的测试实际上可能存在系统性偏差,导致高估或低估模型的真实能力。这提醒我们,在评估AI系统时需要更加审慎和全面。

值得注意的是,MATH-B虽然专门设计来"刁难"当前的AI模型,但它收录的问题都是标准的高中数学内容,在主题和形式上与常见的数学竞赛题目没有本质区别。这说明真正的挑战不在于问题的复杂性,而在于AI系统是否具备灵活应对变化的能力。

这项研究的另一个重要贡献是提出了一个明确的评估框架。研究团队定义了"扩展率"这个概念,专门衡量一个经过训练的模型相比其基础版本究竟获得了多少新能力。这个指标的价值在于,它能够区分真正的能力扩展和简单的性能优化。

在传统评估中,如果一个模型的整体准确率从70%提升到80%,我们可能会认为这是一个显著的进步。但扩展率指标会进一步询问:这10%的提升中,有多少来自于解决新问题的能力,有多少只是在原来能解决的问题上表现更稳定?这种细致的分析有助于研究者更准确地理解模型改进的本质。

研究团队也承认他们工作的一些局限性。MATH-B目前专门针对参数量在8B以下的开源模型设计,对于更大规模的模型可能不够具有挑战性。此外,数学推理只是AI能力的一个方面,在其他领域(如常识推理、创意写作等)可能需要不同的评估方法。

然而,这些局限性并不削弱这项工作的价值。相反,它为AI研究社区提供了一个重要的思考框架:我们究竟想要什么样的AI进步?是满足于在现有基准上的数字游戏,还是追求真正突破边界的创新?

从实际应用的角度来看,这项研究的启示也很明确。如果我们希望AI系统能够在现实世界中处理真正新颖的问题,就必须在训练过程中引入真正的探索机制,而不是简单地强化已有的模式。这可能需要重新思考强化学习的目标函数,或者开发全新的训练范式。

研究团队已经将MATH-B公开发布,供全球研究者使用。他们希望这个工具能够推动AI数学推理领域的真正进步,鼓励研究者开发更具探索性的方法。正如科学研究中常见的情况,一个好的问题往往比答案更重要,而MATH-B正是这样一个"好问题"的集合。

说到底,这项研究提醒我们,在AI快速发展的时代,我们需要保持冷静的判断力。表面的性能提升并不总是意味着真正的进步,而真正的突破往往需要我们跳出舒适圈,面对那些让我们感到不适的挑战。MATH-B就是这样一个不让任何人舒适的挑战,但正因如此,它可能成为推动AI数学推理真正进步的催化剂。对于那些真正关心AI发展方向的研究者和观察者来说,关注这个领域如何回应MATH-B的挑战,将是一件极有意义的事情。

Q&A

Q1:MATH-Beyond测试和普通数学测试有什么区别?

A:MATH-Beyond专门收集了那些即使给AI模型1024次尝试机会依然无法解决的数学问题。虽然这些题目在内容上都是标准的高中数学,但它们能够暴露现有AI模型的真实能力边界,而不像传统测试那样容易被现有模型"刷分"。

Q2:为什么现有的强化学习方法在MATH-Beyond上表现这么差?

A:研究发现,目前主流的强化学习方法主要是在"磨刀"而不是"换刀",也就是说它们只是让AI在已知的解题思路上表现更好,而没有教会AI新的推理方式。当面对超出原有能力范围的问题时,这些方法就显得力不从心了。

Q3:这项研究对AI数学推理的发展有什么意义?

A:这项研究揭示了当前AI数学推理领域的一个重要盲点,并提供了一个真正具有挑战性的测试平台。它推动研究者从追求表面的性能提升转向开发能够真正扩展AI推理边界的新方法,这对整个领域的健康发展具有重要意义。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-