微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Mistral AI首次推出推理模型Magistral:纯强化学习训练让AI学会"深度思考"

Mistral AI首次推出推理模型Magistral:纯强化学习训练让AI学会"深度思考"

2025-06-18 09:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-18 09:20 科技行者

这项由Mistral AI公司研究团队完成的突破性研究发表于2025年6月,详细介绍了他们开发的首个推理模型Magistral的完整技术路径。有兴趣深入了解的读者可以通过arXiv:2506.10910v1访问完整论文。这个研究团队由来自Mistral AI的众多顶尖研究人员组成,包括Abhinav Rastogi、Albert Q. Jiang、Andy Lo等核心贡献者,以及数十位来自不同专业背景的协作研究者。

当我们看到ChatGPT或其他AI助手回答复杂问题时,可能会好奇:这些AI是如何学会"思考"的?大多数AI模型就像反应敏捷但缺乏深度思考的学生,遇到问题立即给出答案,但往往缺乏逻辑推理过程。而Mistral AI的研究团队决定改变这种状况,他们要教会AI如何像人类一样进行深入思考。

这项研究的核心创新在于,研究团队完全抛弃了传统的"模仿学习"方法,而是采用纯粹的强化学习来训练AI模型。打个比方,传统方法就像让学生背诵优秀作文,希望通过模仿来提高写作水平。而Mistral的方法更像是让学生独立思考和练习,通过不断的试错和反馈来真正掌握思考技巧。

研究团队开发了两个版本的Magistral模型:Magistral Medium和Magistral Small。其中,Magistral Medium是基于Mistral Medium 3模型通过纯强化学习训练而来,在数学竞赛AIME-24中的表现提升了近50%,这相当于从一个普通学生突然变成了数学竞赛的优秀选手。更令人惊喜的是,他们还开源了Magistral Small模型,让全世界的研究者都能使用和改进这项技术。

一、让AI学会"内心独白"的训练秘籍

要理解Magistral的训练方法,可以把整个过程想象成培养一个善于思考的学徒。传统的AI训练就像让学徒观看师傅工作,然后模仿师傅的动作。但Magistral的训练更像是给学徒一个目标,让他自己摸索出最佳的工作方法。

研究团队采用了一种叫做GRPO(Group Relative Policy Optimization)的强化学习算法。这个算法的巧妙之处在于,它不需要额外的"评委"来判断AI的表现好坏,而是让AI自己和自己比较。具体来说,AI会针对同一个问题生成多个不同的答案,然后通过比较这些答案的质量来学习哪种思考方式更有效。

这就像一个学生做数学题时,会尝试几种不同的解题思路,然后通过检验答案的正确性来判断哪种思路更好。久而久之,学生就能形成更好的解题习惯和思维模式。

研究团队对传统GRPO算法进行了几项关键改进。首先,他们完全移除了KL散度惩罚机制。在原始算法中,这个机制就像给学生套上枷锁,防止他的思维偏离太远。但研究团队发现,这种限制实际上阻碍了AI探索更好的思考方式,就像过度保护的家长反而限制了孩子的成长。

其次,他们引入了"损失归一化"技术。这相当于确保每个学生的作业都被公平评分,不会因为答案长短不同而影响评判标准。同时,他们还采用了"优势归一化"方法,确保AI能够从每次练习中获得一致且有意义的反馈。

最有趣的是"放宽信任区域上界"的策略。传统方法会限制AI不能尝试太冒险的思考方式,就像告诉学生只能用标准方法解题。但Magistral允许AI探索那些看似不太可能但可能非常有效的推理路径。这种策略被称为"Clip-Higher",它给了AI更大的探索空间,让AI能够发现那些人类可能忽视的巧妙解题思路。

二、精心设计的"奖励机制":如何让AI知道什么是好的思考

训练AI思考的关键在于设计一套有效的奖励机制,就像设计一套完善的考试评分标准。Magistral的奖励系统包含四个维度:格式规范性、正确性、长度控制和语言一致性。

格式规范性要求AI必须按照特定的格式进行思考和回答。这就像要求学生解题时必须写出完整的思考过程,而不能只给出最终答案。AI必须在回答中包含思考标签(和),在思考标签内展示完整的推理过程,然后在标签外给出最终的简洁回答。对于数学问题,最终答案必须用特定的格式标记;对于编程问题,代码必须用标准的代码块格式呈现。

正确性评估则更加严格和精确。对于数学问题,研究团队开发了基于规则的验证器,能够识别出语法不同但语义相同的答案。比如,"1/2"和"0.5"虽然写法不同,但代表相同的数值,验证器能够正确识别这种等价性。他们还利用SymPy等数学工具来确保答案的准确性。

对于编程问题,评估过程更像是真实的软件测试。代码会被实际编译和运行,使用C++20标准,并且预编译常用的头文件以加快测试速度。每个代码解决方案都会在随机选择的20个测试案例上运行,每个测试都有严格的时间限制(4秒)和内存限制(300MB)。只有通过所有测试的代码才能获得满分奖励。

长度控制机制防止AI产生过于冗长或过于简短的回答。这类似于作文考试中的字数要求,既要确保内容充分,又要避免无意义的重复。研究团队设计了一套渐进式的惩罚机制:当回答长度接近上限时,AI会收到轻微的负面反馈;当超过上限时,惩罚会更加明显。

语言一致性是Magistral的一个独特特色。研究团队希望AI能够用与用户相同的语言进行思考和回答,就像一个真正的多语言助手。他们将部分英文问题翻译成法语、西班牙语、意大利语、德语、中文和俄语,然后训练AI在这些语言中保持思考和回答的一致性。这个过程使用了fastText分类器来检测语言的一致性,确保AI不会在思考过程中随意切换语言。

三、大规模分布式训练:让AI训练像工厂流水线一样高效

训练像Magistral这样复杂的推理模型需要巨大的计算资源,就像建造一座摩天大楼需要精密的工程协调。研究团队设计了一套复杂而高效的分布式训练系统,包含三种不同类型的工作单元:训练器、生成器和验证器。

训练器就像工厂的中央控制室,负责维护模型的主要参数并执行梯度更新。生成器则像生产线上的工人,使用最新的模型参数来生成各种推理过程和答案。验证器充当质检员的角色,评估生成器产出的内容质量并给出相应的奖励分数。

这套系统最巧妙的地方在于它的异步工作机制。传统的训练方法就像严格按照节拍的军队行进,每个步骤都必须等待前一个步骤完全完成。但Magistral的系统更像是一个繁忙的餐厅,厨师不需要等一道菜完全上桌就可以开始准备下一道菜,服务员也不需要等所有菜都准备好才开始上菜。

生成器持续不断地产生新的推理内容,即使在模型参数更新期间也不会停止工作。当训练器完成参数更新后,会通过高效的NCCL通信协议将新参数广播给所有生成器。这个过程就像给正在行驶的汽车更换引擎,虽然听起来不可思议,但通过精心设计的机制实现了无缝切换。

研究团队还开发了智能的批处理策略来处理长度差异巨大的生成内容。由于不同的推理过程可能包含几百到几万个单词,直接处理会导致严重的资源浪费。他们设计了一种贪心的组合算法,将相似长度的内容组合成批次,就像在搬家时将大小相近的箱子装在同一辆卡车上,既提高了效率又减少了浪费。

这套分布式系统的另一个创新是动态调整策略。随着训练的进行,AI生成的推理过程会越来越复杂和详细,这就像学生的作文从简短的句子逐渐发展成长篇论述。为了适应这种变化,系统会自动调整各种参数:增加最大允许长度,减少并发请求数量,调整批处理大小。这种动态调整确保系统始终能够高效运行,无论AI的推理能力发展到什么程度。

四、数据筛选:为AI提供"恰到好处"的学习材料

训练一个优秀的推理模型,选择合适的训练数据就像为学生挑选合适难度的练习题。太简单的题目无法提升能力,太难的题目会让学习者产生挫败感。研究团队为此开发了一套精妙的数据筛选策略。

对于数学问题,研究团队从大约70万个样本开始,经过严格的筛选最终保留了3.8万个高质量问题。这个筛选过程分为两个阶段,就像两道质量检查关卡。

第一阶段是格式和基础质量筛选。研究团队首先剔除了那些答案模糊、问题不完整或者无法通过自动验证系统检查的题目。他们特别注重去除证明题和多部分问题,因为这类问题的正确性很难通过程序自动验证。同时,他们将选择题转换为开放式问题,这样可以增加难度并提供更可靠的验证方式。经过这一轮筛选,数据量从70万缩减到50万。

第二阶段是难度筛选,这个过程采用了创新的两步法。首先,研究团队使用Mistral Large 2模型对每个问题生成16个解答,然后根据成功率进行筛选。那些从未被解决的超难题目和总是被轻松解决的简单题目都被剔除,只保留那些"恰到好处"的中等难度题目。

但仅凭一个模型的判断还不够准确,就像仅凭一个老师的评估无法准确判断题目难度。因此,研究团队训练了一个专门的24B参数评估模型,然后用这个更强的模型重新评估整个数据集。这个强化后的模型能够解决更多难题,因此能够更准确地识别哪些题目确实过于困难,哪些只是看起来困难。

这种两阶段筛选法还解决了另一个重要问题:错误答案的识别。当强化模型在多次尝试中都得出相同答案,但这个答案与标准答案不符时,很可能是标准答案有误。这就像多个优秀学生都给出相同答案,但与参考答案不同时,通常是参考答案出了问题。

对于编程问题,数据处理策略有所不同但同样严格。研究团队收集了3.5万个编程竞赛题目,每个题目都包含完整的问题描述和大量测试用例。他们开发了一套自动化的测试用例验证系统:首先运行已知的正确解决方案来验证测试用例的准确性,对于那些没有足够一致性的测试用例,系统会根据大多数解决方案的输出来修正标准答案。

为了增加语言多样性,研究团队还将每个编程问题同时标记为需要Python和C++两种语言的解决方案。这相当于要求学生既要能用中文写作文,也要能用英文写作文,这样可以更全面地测试和提升AI的编程能力。

五、实验结果:AI推理能力的惊人跃升

经过精心设计的训练过程,Magistral模型展现出了令人惊叹的推理能力提升。在数学推理方面,Magistral Medium在著名的AIME-24数学竞赛中的表现从原始的26.8%跃升至73.6%,这相当于从一个普通学生突然变成了数学竞赛的优秀选手。更令人印象深刻的是,当使用多数投票策略时(类似于让AI多次思考同一个问题然后选择最常见的答案),准确率竟然达到了90%。

在编程能力测试中,Magistral Medium在LiveCodeBench v5上的表现从29.1%提升到59.4%,几乎翻了一倍。这意味着AI不仅能够理解复杂的编程问题,还能写出真正可运行的代码来解决这些问题。

研究团队还测试了模型的多语言推理能力,结果令人惊喜。Magistral能够用法语、西班牙语、德语、意大利语、俄语和中文进行完整的推理过程,虽然在非英语语言中的表现略有下降(大约4-10个百分点),但这种差异相当于在实际考试中只错1-3道题,完全在可接受范围内。

更有趣的是,研究团队发现纯强化学习训练的Magistral Small模型能够与基于知识蒸馏训练的模型性能相当,甚至在某些任务上表现更好。这挑战了学术界的传统观念,即小模型必须依赖大模型的指导才能获得推理能力。这就像发现自学成才的学生有时能够超越那些接受名师指导的学生。

六、意外的收获:多模态能力的自发涌现

训练过程中最令人惊喜的发现之一是,虽然Magistral只使用文本数据进行强化学习训练,但它的多模态推理能力不仅没有退化,反而有了显著提升。这就像一个学生专门练习数学解题,却意外发现自己的物理成绩也提高了。

在MMMU(大规模多学科多模态理解)基准测试中,Magistral的表现提升了5%,达到70%的准确率。在MMMU-Pro测试中,标准版本提升了4.4%达到57.9%,视觉版本更是提升了12%达到52.1%。这些数字背后意味着AI不仅能够理解图片中的内容,还能结合视觉信息进行复杂的逻辑推理。

研究团队认为这种现象的原因在于,强化学习训练提升了AI的整体推理能力,而这种能力能够自然地迁移到其他模态。这就像学会了深度思考的学生,无论面对文字题目还是图形题目,都能运用相同的逻辑思维能力。

除了多模态能力,Magistral还保持甚至改善了其他重要功能。在工具调用能力测试中,Magistral Medium从87.2%提升到87.4%。在指令遵循能力测试中,表现从86.8%提升到87.4%。这证明强化学习训练不会损害模型的其他能力,反而可能带来全面的性能提升。

七、深入分析:AI思考过程的内在机制

为了理解Magistral是如何学会思考的,研究团队对训练过程进行了深入分析。他们使用主成分分析(PCA)技术来观察模型参数在训练过程中的变化轨迹,这就像用显微镜观察细胞分裂过程。

分析结果显示,强化学习训练主要在一个相对低维的空间中改变模型参数。这意味着虽然模型有数十亿个参数,但真正重要的变化只发生在少数几个关键方向上。研究团队发现了一个有趣的"长度方向":随着训练的进行,模型生成的推理过程越来越长,同时质量也越来越高。

更有趣的是,研究团队发现了推理质量与生成长度之间的对数关系。这意味着AI生成的思考过程越详细,得出正确答案的概率就越高,但这种关系遵循对数规律而不是线性关系。这就像学生写作文,更详细的论述通常意味着更好的成绩,但从1000字增加到2000字的收益要比从100字增加到200字的收益小。

研究团队还分析了不同训练策略的效果。他们发现,适当的批次大小对训练效果至关重要。批次太小会导致训练不稳定,批次太大又会导致计算资源浪费。最终他们找到了一个平衡点:保持批次大小与小批次大小相等,同时确保并发序列数与批次大小的比值不超过2。

在优势归一化策略的对比实验中,研究团队测试了三种不同的方法:小批次归一化、组内归一化和无归一化。令人意外的是,这三种方法在最终性能上没有显著差异,这表明Magistral的训练过程具有很强的鲁棒性,不会因为细节调整而产生大幅波动。

八、失败的尝试:那些没有奏效的想法

科学研究的价值不仅在于成功的发现,也在于对失败尝试的记录。研究团队诚实地分享了几个没有取得预期效果的方法,这些经验对其他研究者具有重要的参考价值。

首先是比例奖励机制的尝试。在编程任务中,传统的二进制奖励(要么全对要么全错)会导致大量样本被浪费,因为部分正确的代码也完全得不到正面反馈。研究团队尝试了基于通过测试比例的奖励机制,希望能够给予部分正确的代码一些正面奖励。虽然这种方法确实减少了数据浪费,但最终在基准测试上的表现反而下降了2%。研究团队认为,比例奖励可能会给错误的解决方案提供误导性的正面信号,从而影响学习效果。

其次是熵调节机制的困扰。为了防止AI在训练过程中陷入重复的思考模式,研究团队尝试了熵奖励机制,希望鼓励AI保持思考的多样性。但他们发现这种机制在不同数据集上的表现极不一致:在纯数学数据上,熵奖励会导致思考多样性下降;在数学和编程混合数据上,熵奖励又会导致思考过于发散,失去重点。最终他们选择了更简单但更稳定的εhigh调节策略。

第三个失败的尝试是KL散度惩罚机制。这个机制的目的是防止AI的行为偏离原始模型太远,就像给探索者设置一个安全绳。但在推理任务的训练中,研究团队发现这种限制弊大于利,因为真正的推理能力往往需要AI探索与原始行为相距甚远的新思考方式。保留KL惩罚就像给想要学习新技能的学生套上枷锁,限制了他们的成长潜力。

九、开源贡献与知识蒸馏实验

除了技术创新,研究团队还做出了重要的开源贡献。他们发布了Magistral Small模型,采用Apache 2.0许可证,允许研究者和开发者自由使用和改进。这个24B参数的模型虽然规模相对较小,但在推理能力上已经达到了很高的水平。

研究团队还进行了一个有趣的对比实验:使用开源推理数据集(如OpenThoughts和OpenR1)来训练模型,然后再进行强化学习。这种方法结合了知识蒸馏和强化学习的优势,就像让学生既学习名师的解题思路,又通过大量练习形成自己的解题能力。

实验结果显示,这种结合方法确实能够取得优异的性能,在某些基准测试上甚至达到了与DeepSeek-R1相当的水平。特别是在AIME'25测试中,经过强化学习训练的模型比仅使用监督学习的模型提升了超过12%。这证明了强化学习在知识蒸馏基础上仍然具有显著的增值效应。

有趣的是,研究团队发现跨领域的泛化能力出乎意料地强。当他们用纯数学数据训练模型时,模型在编程任务上的表现也有了显著提升。反之,用纯编程数据训练的模型在数学推理上也表现出了改善。这表明推理能力可能是一种通用技能,一旦在某个领域得到提升,就能自然地迁移到其他领域。

十、实际应用与未来展望

Magistral的成功不仅仅是学术界的突破,更重要的是它展示了AI推理能力的巨大潜力。在实际应用中,这种能力可能会彻底改变我们与AI交互的方式。

传统的AI助手更像是一个反应迅速的搜索引擎,能够快速给出答案但缺乏深度思考。而具备推理能力的AI更像是一个真正的思考伙伴,能够陪伴用户一起分析问题、探索解决方案。这种改变可能会在教育、科研、工程设计等领域产生深远影响。

在教育领域,推理AI可以充当个性化的思维导师,不仅给出正确答案,还能展示完整的思考过程,帮助学生理解问题的本质和解决方法。在科学研究中,这样的AI可能成为研究者的思考伙伴,协助分析复杂数据、提出假设、设计实验方案。

研究团队也坦诚地指出了当前技术的局限性。Magistral目前主要在数学和编程领域表现出色,但在其他需要常识推理、创造性思维或情感理解的领域还有待进一步发展。同时,训练这样的模型需要大量计算资源,这限制了技术的普及速度。

展望未来,研究团队提出了几个重要的研究方向。首先是探索更加高效的训练算法,降低计算成本的同时提升训练效果。其次是扩展推理能力到更多领域,包括常识推理、创造性问题解决等。第三是研究如何让AI的推理过程更加可解释和可控,确保AI的思考过程符合人类的价值观和安全要求。

最令人兴奋的是,研究团队计划将推理能力与工具使用、多模态理解、智能代理等技术结合,创造出更加全面和强大的AI系统。这可能会带来真正意义上的通用人工智能,一个能够像人类一样思考、学习和创造的AI伙伴。

说到底,Magistral的成功证明了一个重要观点:AI不仅可以学会快速反应,更可以学会深度思考。这种能力的获得不需要复杂的模仿学习,而可以通过精心设计的强化学习过程自然涌现。这为AI技术的发展开辟了新的道路,也让我们对AI的未来充满了更多期待。

研究团队的工作不仅是技术上的突破,更是对AI发展方向的重要探索。他们证明了通过合适的训练方法,AI确实可以获得类似人类的深度推理能力。虽然距离真正的通用智能还有很长的路要走,但Magistral的成功为这个目标点亮了一盏明灯。对于那些希望深入了解这项研究的读者,完整的技术细节和实验结果都可以在原论文中找到,这为未来的研究和应用提供了宝贵的参考。

Q&A

Q1:Magistral是什么?它与普通AI有什么不同? A:Magistral是Mistral AI开发的推理模型,最大特点是能够像人类一样进行深度思考。与普通AI直接给出答案不同,Magistral会展示完整的思考过程,通过标签显示内在推理,然后给出最终答案。就像一个会"显示作业过程"的智能学生。

Q2:纯强化学习训练是什么意思?效果真的比模仿学习更好吗? A:纯强化学习训练指的是让AI通过试错和反馈自主学习,而不是模仿其他模型的答案。研究显示这种方法在数学推理上提升了50%,证明AI可以通过自主探索获得比模仿学习更强的能力,就像自学成才有时比照搬教科书效果更好。

Q3:普通用户能使用Magistral吗?它有什么实际应用价值? A:目前Magistral Small已经开源,研究者和开发者可以免费使用。对普通用户来说,这种技术未来可能应用于教育辅导、编程助手、数学解题等场景,提供带有详细思考过程的智能助手服务,帮助用户不仅获得答案还能理解解题思路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-