这项由MiroMind AI公司的李星轩、肖尧等十多位研究人员联合开展的研究于2025年7月发表,论文题目为"MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multistage Policy Optimization"。感兴趣的读者可以通过GitHub项目页面(https://github.com/MiroMindAsia/MiroMind-M1)或Hugging Face模型页面获取完整资源,论文的arXiv编号为2507.14683v1。
当我们看到一个数学难题时,人类会先思考解题思路,然后一步步推理到答案。如今,人工智能也学会了这种"深度思考"的能力。MiroMind AI公司刚刚发布的M1系列模型,就像一位真正会思考的数学天才,不仅能解决复杂的数学问题,还会把解题过程详细地"说"出来。
这不是简单的计算器升级版,而是一次人工智能推理能力的重大突破。想象一下,如果你有一位24小时在线的数学老师,不仅能给出正确答案,还能详细解释每一个推理步骤,这就是MiroMind-M1想要达到的效果。更重要的是,研究团队将这个"数学天才"的全部制造工艺都公开了——从训练数据到算法细节,从模型参数到评测代码,一切都开源可查。
传统的AI语言模型虽然能流畅对话,但在面对复杂的数学推理时往往显得力不从心。它们就像只会背书的学生,记住了很多知识点,却不会灵活运用。而新兴的推理语言模型则不同,它们会像人类一样进行"思维链"推理,一步步分析问题,最终得出答案。
目前市面上最强的推理模型大多来自OpenAI、Anthropic等商业公司,比如GPT-o3和Claude Sonnet 4,它们的推理能力确实令人惊叹。但问题在于,这些模型就像黑匣子一样,外界无法了解它们的内部工作原理,研究人员也无法在此基础上进一步改进。这就好比你想学习如何制作一道美味的菜肴,但厨师不愿意分享食谱,你只能看到最终的成品,却无法掌握制作技巧。
MiroMind的研究团队正是看到了这个问题,他们决定打造一个完全开源的推理语言模型。这不仅仅是发布一个模型那么简单,而是要把整个"烹饪过程"都公开——从选择食材(数据收集)、处理食材(数据处理)、调配佐料(模型训练),到最终的烹饪技法(优化算法),每一步都要详细记录并公开分享。
研究团队选择数学推理作为主要测试场景,这个选择颇有深意。数学问题就像推理能力的试金石,每个答案都有客观的对错标准,不像写作或翻译那样带有主观色彩。当一个AI模型能够准确解决复杂的数学问题时,说明它具备了严密的逻辑推理能力,这种能力可以推广到其他需要深度思考的领域。
MiroMind-M1系列包含多个版本,从7B参数的轻量版本到32B参数的重型版本,就像不同规格的"数学大脑"。这些模型在AIME24、AIME25和MATH等权威数学竞赛测试中表现出色,不仅准确率高,而且在生成答案时用的"思考时间"(也就是生成的文本长度)比同类模型更短,效率更高。
一、数学推理的两步训练法:先学习再强化
要让AI学会数学推理,MiroMind团队采用了类似人类学习的两阶段方法。这就像培养一个数学学生:首先要让他通过大量练习掌握基本技能,然后通过不断的测试和反馈来提高解题能力。
第一阶段叫做"监督微调",英文简称SFT。这个阶段就像让学生跟着优秀的数学老师学习。研究团队收集了大量高质量的数学题目和详细的解答过程,这些解答不是简单的答案,而是完整的思维链条——每一步推理都清清楚楚地写出来。
为了确保训练材料的质量,研究团队从四个主要来源收集数据:OpenR1提供了约41.8万道数学题,Open-thoughts贡献了5.6万道题目,Light-R1带来了7.6万道精选难题,Synthetic-1则提供了24.7万道经过筛选的问题。最终,他们整理出了71.9万道高质量的数学题目,每道题都配有经过验证的详细解答过程。
这个数据收集过程极其严谨。研究团队不仅要去除重复的题目,还要确保训练数据不会"泄露"测试内容。就像考试前,老师不能把考试题目提前给学生练习一样,他们仔细排查了所有可能在评测中出现的题目,确保模型是在"公平"的条件下接受测试。
更有趣的是,研究团队发现了一个重要规律:那些解答过程更长、推理步骤更详细的题目,往往能让模型学到更多东西。这就像学习数学时,那些需要多步推理的复杂题目比简单的计算题更能锻炼思维能力。基于这个发现,他们在数据筛选时特别重视那些推理过程丰富的题目。
在训练过程中,研究团队还发现了一个技术细节的重要性。传统的训练方法会把多个题目"打包"在一起处理,就像一次性给学生布置多道题。但他们发现,如果让模型一次专注于一道题目(称为"不打包"策略),学习效果会明显更好。虽然这样做效率稍低,但就像专注学习比分心多任务效果更好一样,这种方法让模型的推理能力有了显著提升。
经过第一阶段的训练,MiroMind-M1-SFT-7B模型就诞生了。这个"学生"在数学推理测试中表现优异,在AIME24测试中达到了60.4分,AIME25测试中达到45.0分,MATH-500测试中更是取得了94.6分的好成绩。这些分数不仅超过了其他同规模的开源模型,甚至在某些方面超越了商业模型DeepSeek-R1的表现。
二、强化学习:在错误中成长的AI
如果说第一阶段是让AI"照本宣科"地学习,那么第二阶段就是让它学会"独立思考"。这个阶段使用了强化学习技术,让AI在实践中不断改进自己的推理能力。
这个过程就像一个学生在做练习题:当他给出正确答案时会得到奖励,给出错误答案时会受到惩罚。通过这种反馈机制,AI逐渐学会了什么样的推理路径更容易得到正确答案。
但这里面有个关键问题:如何判断AI给出的答案是对是错?对于数学题来说,这相对容易——答案要么对要么错。但如何准确、快速地验证答案的正确性,却是一个技术挑战。研究团队为此开发了一个改进的数学验证器,就像一位严格但公正的数学老师,能够准确判断各种形式的答案是否正确。
为了进行强化学习,研究团队精心挑选了6.2万道数学题。这些题目的选择很有讲究:太简单的题目对于已经具备基础能力的AI来说没有挑战性,太难的题目又可能让AI感到"挫败"而无法学习。他们选择的都是那些对AI来说有一定难度,但通过努力可以解决的题目。
在这个过程中,研究团队提出了一个创新的算法,叫做"上下文感知多阶段策略优化"(CAMPO)。这个看起来很专业的名字,其实描述的是一种很巧妙的训练策略。
CAMPO的核心思想是让AI逐步适应更长的推理过程。就像学习写作文一样,一开始先写短篇,掌握基本技巧后再挑战长篇。训练初期,AI只被允许生成较短的解答(16384个字符),这迫使它学会用最精炼的语言表达清晰的推理。当它在短篇解答中表现稳定后,系统会逐步放宽限制,允许它生成更长的推理过程。
这种分阶段训练有两个明显的好处:首先是效率更高,因为短文本的处理速度更快,可以让AI在更短时间内完成更多练习;其次是质量更好,因为AI首先学会了如何简洁明了地表达,这为后续的长推理打下了良好基础。
CAMPO算法还引入了一个"重复惩罚"机制。在强化学习过程中,AI有时会陷入重复表达的陷阱,就像一个人说话时会不自觉地重复某些词语。重复惩罚机制就像一位耐心的语言老师,会提醒AI避免不必要的重复,鼓励它用更多样化的方式表达思想。
通过这种精心设计的强化学习过程,MiroMind-M1系列模型的推理能力得到了显著提升。更令人惊喜的是,这些模型不仅在准确性上有所提高,在效率上也表现出色——它们能够用更少的文字生成更准确的答案,这说明它们的推理过程变得更加精炼和高效。
三、从实验室到实际应用:模型性能全面解析
要评价一个数学推理AI的能力,就像评价一位数学家一样,不能只看他会不会做题,还要看他在各种不同类型、不同难度的问题面前表现如何。MiroMind团队选择了几个在数学AI领域被广泛认可的测试基准:AIME24、AIME25和MATH-500。
这些测试就像数学界的"高考"。AIME(美国数学邀请考试)是美国高中数学竞赛中的高级别考试,题目不仅有一定的计算难度,更重要的是需要创造性的问题解决思路。MATH-500则包含了从代数到几何、从数论到概率等各个数学分支的综合题目。能在这些测试中取得好成绩,说明AI真正掌握了数学推理的核心能力。
MiroMind-M1-RL-32B(32亿参数版本)在这些测试中的表现可以说是相当亮眼。在AIME24中,它达到了77.5分的成绩,在AIME25中取得了65.6分,而在MATH-500中更是获得了96.4分。这些数字看起来可能很抽象,但如果对比一下就能看出其意义:这个模型的表现已经接近甚至超越了一些商业化的闭源模型。
更令人印象深刻的是7亿参数的版本MiroMind-M1-RL-7B。虽然它的"大脑"只有32B版本的四分之一大小,但表现依然出色:AIME24得分73.4,AIME25得分57.8,MATH-500得分96.7。这就像一个年轻的数学天才,虽然经验不如资深数学家丰富,但已经展现出了令人惊叹的潜力。
研究团队特别强调了一个重要特点:高效性。这不仅体现在准确率上,更体现在推理过程的简洁性上。传统的AI模型在解决数学问题时往往会生成冗长的推理过程,有时甚至会出现大量重复或无关的内容。而MiroMind-M1系列则学会了"言简意赅",用更少的文字表达更清晰的推理链条。
这种高效性的背后是CAMPO算法的功劳。通过多阶段训练和重复惩罚机制,模型学会了避免冗余表达。研究团队做了一个有趣的对比实验:当限制模型只能生成较短答案时,MiroMind-M1在各个测试基准中都能保持优异表现,而其他模型的表现则会明显下降。这说明MiroMind-M1真正掌握了高质量推理的精髓,而不是靠"啰嗦"来掩盖推理的不足。
除了性能数据,研究团队还深入分析了训练过程中的一些有趣现象。他们发现,在强化学习的初期,模型生成的解答长度会逐渐压缩,这说明它正在学习如何更有效地表达思想。当训练进入后期,允许更长解答时,模型又会适当增加推理的详细程度,但这种增加是有意义的,不是简单的重复。
特别值得一提的是模型在不同数学分支中的表现。无论是代数问题、几何证明,还是概率计算,MiroMind-M1都显示出了良好的适应性。这种通用性很重要,因为真正的数学推理能力不应该局限于特定的题型,而应该能够灵活应对各种数学挑战。
研究团队还对比了单阶段训练和多阶段训练的效果。结果显示,虽然一次性进行长序列训练也能达到不错的效果,但多阶段训练不仅训练效率更高,在最终性能上也有轻微优势。这证实了他们设计的渐进式训练策略确实有其独特价值。
四、开源精神:分享AI的智慧密码
在商业AI模型大行其道的今天,MiroMind团队做出了一个看似"反商业"的决定:将他们的研究成果完全开源。这不仅仅是发布一个模型文件那么简单,而是把整个"智慧制造工厂"的设计图纸都公开了。
这种开源方式的彻底程度令人印象深刻。他们发布的资源包括:完整的模型文件(从基础的SFT版本到高级的RL版本)、全部的训练数据集(71.9万条SFT数据和6.2万条RL数据)、详细的训练配置文件、完整的评测代码,甚至连他们改进的数学验证器都一并开源。这就像一位大厨不仅愿意分享他的招牌菜,连食谱、调料配比、烹饪技巧、甚至厨具的使用方法都毫无保留地传授给其他人。
这种彻底开源的意义重大。在AI研究领域,很多时候研究人员只能看到别人发布的最终结果,却无法了解背后的制作过程。这就像只能看到魔术表演,却不知道魔术师是如何变出那些令人惊叹的效果。而MiroMind团队的做法,等于是把魔术的全部秘密都公开了,让其他研究人员不仅能重现这些结果,还能在此基础上进行进一步的创新。
开源策略的另一个重要意义在于促进科研的可重复性。科学研究的一个基本要求是结果要可重复,但在AI领域,由于训练过程的复杂性和计算资源的昂贵,很多研究成果都难以被其他团队验证。MiroMind团队通过详细的文档和完整的代码,让其他研究人员能够完全重现他们的实验,这对于建立科学研究的可信度具有重要意义。
研究团队还特别注意到了AI训练中的一个关键细节:数据质量的重要性。他们不仅公开了数据,还详细记录了数据的收集、清理和验证过程。这包括如何去除重复数据、如何验证答案的正确性、如何确保训练数据不会污染测试结果等等。这些看似枯燥的技术细节,实际上是构建可靠AI系统的基础。
在模型训练方面,他们也展现了极高的透明度。不仅公开了最终使用的超参数,还分享了他们在调参过程中的经验和教训。比如,他们发现学习率设置为5×10^-5时效果最好,训练轮数设置为3轮比较合适,批次大小为128能平衡训练效果和计算效率。这些看起来很技术化的数字,实际上是他们经过大量实验得出的宝贵经验。
特别有价值的是,研究团队还分享了很多训练过程中的"坑"和解决方案。比如,他们发现在强化学习阶段,如果不加控制,模型有时会生成极长的重复内容,这不仅浪费计算资源,还会影响训练效果。为了解决这个问题,他们设计了重复惩罚机制。这种经验分享对其他研究人员来说是非常宝贵的,可以帮助他们避免走弯路。
研究团队还开源了他们改进的数学验证器。这个工具能够准确判断各种格式的数学答案是否正确,包括处理单位、常数(如π)、百分比等复杂情况。这个验证器不仅对训练MiroMind-M1有帮助,对整个数学AI研究社区都具有重要价值。
五、技术创新:CAMPO算法的智慧之处
CAMPO算法是MiroMind-M1能够达到优异性能的核心技术创新。这个算法的名字虽然听起来很学术,但其背后的思想却相当直观和巧妙。
CAMPO的全名是"上下文感知多阶段策略优化",这个名字准确概括了它的三个核心特点。"上下文感知"意味着算法能够理解和处理不同长度的推理内容,"多阶段"指的是分步骤的训练策略,"策略优化"则是强化学习的技术术语,指的是通过试错来改进决策能力。
多阶段训练策略是CAMPO的第一个创新点。传统的AI训练方法通常是一步到位,就像让一个初学者直接去解最难的题目。而CAMPO采用了循序渐进的方法,就像教学中的"从易到难"原则。训练开始时,系统限制AI只能生成相对较短的解答,这迫使AI学会用最精炼的方式表达核心思想。当AI在短解答中表现稳定后,系统会逐步放宽长度限制,让AI学会处理更复杂的推理链条。
这种渐进式训练的好处是显而易见的。首先,短解答的训练速度更快,AI可以在较短时间内完成更多轮练习,从而更快地掌握基本技能。其次,在短解答的约束下,AI必须学会抓住问题的核心,避免冗余表达,这为后续的长推理打下了良好基础。实验结果证明,经过这种渐进训练的模型,即使在长度受限的情况下也能保持优异表现,说明它们真正掌握了高效推理的技能。
重复惩罚机制是CAMPO的第二个重要创新。在强化学习过程中,AI有时会陷入重复表达的习惯,就像一个紧张的演讲者会不自觉地重复某些词语。这种重复不仅浪费了宝贵的"思考空间",还可能让推理过程变得混乱。CAMPO通过设计巧妙的惩罚机制来解决这个问题。
这个惩罚机制的工作原理很有趣:系统会检测AI生成的文本中是否出现了重复的模式,如果发现重复,就会给予相应的负面反馈。但这种惩罚是有层次的——越早出现重复,惩罚越重。这就像一位耐心的老师,会提醒学生避免不必要的重复,鼓励他们用更多样化的方式表达思想。
验证器的改进是CAMPO能够有效工作的重要支撑。在数学推理的强化学习中,准确的反馈信号至关重要。如果验证器经常误判,就像一位经常给错评分的老师,会让学生感到困惑,无法有效学习。MiroMind团队花费了大量精力改进数学验证器,使其能够准确处理各种复杂情况。
改进后的验证器采用了多级验证策略,就像法院的多级审理制度。对于每个数学答案,验证器会从多个角度进行检查:首先检查数值的准确性,然后验证格式的正确性,最后确认答案的完整性。这种多层次验证大大提高了判断的准确性,为强化学习提供了可靠的反馈信号。
CAMPO算法的另一个巧妙之处在于其自适应性。在训练过程中,算法会根据AI的表现动态调整训练策略。当AI在某个阶段表现良好时,系统会适当增加难度;当AI遇到困难时,系统会提供更多的练习机会。这种自适应调节就像一位优秀的家教,能够根据学生的学习情况灵活调整教学节奏。
实验结果显示,CAMPO算法确实带来了显著的改进。与传统方法相比,使用CAMPO训练的模型不仅在准确性上有所提升,在推理效率上也表现出色。更重要的是,训练过程更加稳定,避免了强化学习中常见的性能波动问题。
六、实验验证:数据背后的故事
任何科学发现都需要经过严格的实验验证,MiroMind团队在这方面做得非常扎实。他们不仅展示了最终的性能数据,还详细记录了整个训练过程中的各种现象,这些细节往往比最终结果更有启发性。
在模型性能的评估中,研究团队采用了一个重要的策略:多次测试取平均值。这是因为AI模型在解题时带有一定的随机性,单次测试的结果可能不够稳定。就像评价一个学生的数学水平,不能只看一次考试的成绩,而要看多次测试的平均表现。他们对每个测试都进行了64次独立运行,这种严格的测试方法确保了结果的可靠性。
训练过程的观察揭示了很多有趣的现象。在强化学习的初期阶段,研究人员发现模型生成的解答长度会逐渐压缩。这不是因为模型"偷懒"了,而是它正在学习如何更有效地组织思维。就像一个人在学习演讲时,开始可能会说很多废话,但随着技能的提升,会越来越善于抓住要点。
当训练进入第二阶段,允许模型生成更长解答时,一个令人惊喜的现象出现了:模型的解答长度确实增加了,但这种增加是有意义的。模型开始在解答中加入更多的中间推理步骤,就像一位经验丰富的数学老师会详细解释每一步的原理,而不是直接跳到最终答案。
研究团队还对比了不同训练策略的效果。他们发现,单阶段训练(直接使用长序列训练)虽然也能达到不错的性能,但在训练效率和最终效果上都略逊于多阶段训练。这验证了CAMPO算法设计思想的正确性:循序渐进的学习确实比一步到位的学习更有效。
特别有意思的是关于重复惩罚机制效果的观察。在没有重复惩罚的情况下,模型在训练过程中经常出现性能波动,有时甚至会出现"退步"现象。而加入重复惩罚后,训练过程变得更加稳定,模型的改进也更加持续。这说明重复惩罚不仅改善了输出质量,还稳定了学习过程。
验证器改进的效果也很明显。研究团队对比了使用原始验证器和改进验证器的训练效果,发现改进后的验证器让模型生成的正确答案明显更加简洁。这是因为更准确的反馈让模型能够更精确地判断什么样的推理路径是有效的,从而避免了不必要的迂回。
在不同规模模型的对比中,研究团队发现了一个有趣的规律:虽然32B模型在绝对性能上更好,但7B模型在效率指标上表现更加出色。这意味着小模型可能在某些应用场景中更具优势,特别是那些对计算资源有限制的情况。
研究团队还进行了一个创新性的评估:在限制不同最大长度的情况下测试模型性能。结果显示,MiroMind-M1在各种长度限制下都能保持相对稳定的性能,而其他模型的性能则会随着长度限制的增加而显著波动。这说明MiroMind-M1确实学会了在不同约束条件下进行有效推理。
关于评估稳定性的讨论也很有价值。研究团队坦诚地指出,即使进行64次重复测试,在某些具有挑战性的基准测试中,结果仍然可能有8%左右的波动。这种诚实的报告体现了严谨的科学态度,也提醒其他研究人员在解读类似结果时要注意统计学意义。
说到底,MiroMind-M1的成功不是偶然的。它代表了在AI推理能力方面的一次重要突破,更重要的是,它为整个AI研究社区提供了一个完整的开源解决方案。这就像在知识的海洋中点亮了一盏明灯,不仅照亮了前进的道路,还为其他探索者提供了参考。
在AI技术日新月异的今天,我们看到了两种不同的发展路径:一种是商业公司主导的封闭式发展,技术被严密保护,进步虽快但难以共享;另一种是像MiroMind团队这样的开源发展,虽然可能在商业竞争中显得"不明智",但却为整个人类的知识进步做出了贡献。
MiroMind-M1的意义远不止于解决几道数学题。它所展现的推理能力、它所采用的训练方法、它所体现的开源精神,都可能对未来的AI发展产生深远影响。当AI真正学会了像人类一样思考时,它能做的就不仅仅是回答数学问题了——从科学研究到工程设计,从医疗诊断到教育辅导,AI的推理能力将在各个领域发光发热。
更令人期待的是,由于MiroMind团队选择了完全开源的道路,世界各地的研究人员都可以在这个基础上进行进一步的创新。也许不久的将来,我们会看到基于MiroMind-M1改进的各种版本,有的专门擅长物理推理,有的专门用于化学计算,有的则专注于工程设计。这种开源式的协作发展,可能会让AI的进步速度超出我们的想象。
对于普通人来说,这项研究的意义可能不会立即显现,但它预示着一个令人兴奋的未来:我们每个人都可能拥有一位24小时在线、知识渊博、推理严密的AI助手,它不仅能帮我们解决复杂的问题,还能教我们如何思考。当那一天到来时,学习将变得更加有趣,工作将变得更加高效,人类的创造力也将得到前所未有的放大。
现在回想起来,MiroMind团队的选择显得格外有远见:在一个越来越封闭的AI世界里,他们选择了开放;在一个追求商业利益最大化的时代里,他们选择了知识共享。这种选择不仅推动了科学的进步,也为AI技术的发展指出了一条更加光明的道路。有兴趣深入了解技术细节的读者,可以访问他们的GitHub项目页面或查阅完整的研究论文,相信会有更多收获。
Q&A
Q1:MiroMind-M1和普通的AI模型有什么区别? A:最大区别是MiroMind-M1会进行"思维链推理",就像人类解题时会一步步分析问题。普通AI更像是记忆型的,而M1是推理型的,能够展示完整的解题思路,不仅给答案还会解释为什么这样做。
Q2:CAMPO算法的核心优势是什么? A:CAMPO采用了分阶段训练策略,先让AI学会用简洁语言解决问题,再逐步允许更复杂的推理。同时引入重复惩罚机制,避免AI"啰嗦"。这让模型既准确又高效,用更少的文字生成更好的答案。
Q3:普通人什么时候能用上这种数学推理AI? A:由于MiroMind-M1完全开源,技术门槛相对较低,预计很快会有各种基于它开发的应用出现。不过要达到真正实用的程度,还需要进一步优化用户界面和降低计算资源需求。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。