
这项由MiniMax公司主导开发的研究成果,以技术报告形式发布于2026年5月26日,论文编号为arXiv:2605.26494v1,感兴趣的读者可通过该编号在arXiv平台上查阅完整原文。
**一个关于"省油"的故事**
假设你要参加一场城市马拉松比赛,赛道上有两类选手。一类是体型魁梧的职业运动员,每一步都需要消耗大量体力,但跑得确实很快;另一类是经过特殊训练的轻量级选手,每一步只消耗前者约十分之一的体力,却依然能跑出几乎相同的速度。后者靠的不是蛮力,而是极其高效的肌肉调度和步伐节奏——用最少的能量干最多的活。
MiniMax-M2系列模型,讲的正是这样一个"省油高效"的故事。
当今最强大的AI语言模型,就像那些体型魁梧的运动员,每处理一个词语(专业上叫"token",可以理解为语言的最小处理单位),需要调动数百亿甚至上千亿个参数同时工作。这固然强大,但也带来了巨大的运算成本和响应延迟。MiniMax团队提出的解法是:把模型总参数做到2299亿个,但每次处理一个词时,只激活其中的98亿个参数——仅占总量的约4%。在整个模型家族的进化历程中,这种设计哲学被他们称为"mini activations unleash max real-world intelligence"(最少激活,释放最大现实智慧)。
**一、这个"聪明引擎"是怎么造出来的**
要理解这一技术,先从模型本身的结构讲起。
现代AI大模型的工作原理,有点像一个超级复杂的"接力翻译机器"。你输入一句话,它会把这句话拆成一个个小单元,依次经过62层"加工站"(论文中叫Transformer层),每一层都对信息进行提炼、理解和整合,最后输出你看到的那段文字。
M2模型的特别之处在于,它采用了一种叫做"混合专家"(Mixture of Experts,MoE)的架构。可以把它理解为一家有256名专家的咨询公司。每当接到一个客户问题,公司不会让所有人同时工作,而是由一个智能调度系统快速判断,从256名专家中挑选最适合的8位来处理这个问题。这样既保留了庞大知识库的广度,又不需要每次都劳师动众。
这256位"专家"并非人人能力相当的大块头,而是特意设计成数量更多、每位能力更专精的"小型专家"——这是与早期同类架构的关键区别。好处在于,调度时可以做出更精细的组合,就像调配香料时,手边有256种单一香料比只有32种复合香料,能做出的口味组合要丰富得多。研究团队通过实验证明,这种"细粒度专家"设计在数学推理、代码编写等任务上表现明显优于粗粒度设计。
在专家的"调度规则"上,M2也做了改进。传统做法是用一种叫"softmax"的评分机制,强迫所有专家竞争,把分数全堆给最高分的几位——这就像强制要求公司只能把100%的预算分给得分最高的部门,其他部门无论能力如何都得归零。M2改用了"sigmoid"评分机制,让每位专家独立打分,谁达到标准就可以参与,互不干扰。这种方式让多位专家能同时以高置信度被激活,整体路由过程更稳定流畅。此外,每位专家还有一个可学习的"偏置项",相当于给不同专家设置了个性化的参与门槛,系统会自动调整让各专家的工作量趋于均衡,避免部分专家过劳、其余专家闲置的局面。
在注意力机制的选择上,M2做出了一个相对保守但有充分依据的决定:全程使用完整的多头注意力机制,而非混合线性注意力。注意力机制是模型理解"词语与词语之间关系"的核心部件。早期MiniMax的Text-01模型尝试了将快速轻量的"闪电注意力"与标准注意力混合使用的方案,以降低计算量。但在M2的开发过程中,团队发现一个令人头疼的问题:在规模较小的实验里,混合注意力与完整注意力看上去差不多,但一旦扩展到更大规模、更复杂任务,差距就显现出来,尤其在需要跨越数万字进行多步推理的任务中,混合注意力明显力不从心。更棘手的是,这种质量损失很难用常规评测指标预先检测到,往往要等到真实部署后才暴露。团队在基于滑动窗口注意力的方案上进行了耗费数千亿乃至万亿token的大量实验,覆盖各种窗口比例、位置编码调整和混合策略,最终结论一致指向同一个方向:凡是需要处理超过3.2万个词的长文本任务,完整注意力的优势无可替代。这个决定意味着更高的计算开销,但团队认为在当前阶段这是保障质量的正确选择。
模型还配备了一个叫做"多标记预测"(Multi-Token Prediction,MTP)的模块。普通模型每次只预测下一个词,MTP则训练模型同时预测接下来的多个词。这样做有两个好处:训练时能获得更丰富的学习信号,就像同时做多道习题比只做一道记得更牢;推测时可以用这个模块快速生成"草稿答案",再由主模型核验,从而大幅提升生成速度。在M2中,这一机制被扩展为三个MTP模块,通过"权重复制"的方式初始化(即直接拷贝主模型的参数作为起点),避免了随机初始化时需要很长收敛时间的问题,也防止了对已训练好的主模型产生干扰。
**二、喂给AI的"食物":数据流水线的精心设计**
再好的引擎也需要高质量的燃料。M2系列模型在预训练阶段共消化了29.2万亿个token的文本,这相当于数以百亿计的书页。数据来源涵盖网页文章、学术文献、书籍、编程代码以及结构化的问答内容,其中代码、数学和自然科学内容被有意识地提高了采样比例,以强化模型在推理和编程方面的能力。
上下文窗口的扩展也经历了精心设计的渐进过程。模型最初只能处理约8000个词,随后分阶段扩展到3.2万词,最终达到19.2万词的处理上限。这个数字意味着M2可以在一次对话中完整"阅读"一部中等长度的小说,并针对其中任何细节进行回答和分析。
然而预训练只是打下了通识基础,真正让M2成为"能干活的智能体"的,是后续专门为代理任务设计的训练数据。
在软件工程任务的数据收集上,团队面对的挑战是:如何大规模地获取既多样、又能客观验证对错的编程训练样本。他们的解法是构建了一个自动化的"SWE规模化流水线",以GitHub上的真实代码合并请求(Pull Request,PR)为原料,经过六道工序加工成可用于训练的高质量数据。
这六道工序依次是:大规模爬取并过滤公开代码仓库中的合并请求;让AI智能体为每个PR自动构建可运行的Docker环境(相当于搭建一个隔离的实验台,确保代码能被实际执行);对PR按类型打标签并分流路由,区分"修复Bug"、"添加新功能"、"性能优化"等不同场景;针对不同类型设计不同的验证奖励机制(比如修复Bug的任务,需要让原本失败的测试重新通过,同时不能破坏原本通过的测试);用模型辅助检验问题描述与测试用例是否一致,补充缺失信息,使每条任务自成一体;最后还会对数据进行转化和增强,比如向代码中注入新的Bug以提升难度,或把相邻的多个PR合并成需要多步修复的复合任务,又或者把Bug修复任务反转为"编写能发现这个Bug的测试用例"任务。整个流水线覆盖超过10种编程语言,生成了规模可观的训练数据集,每条数据都包含问题描述、可运行环境和基于测试执行的可验证奖励信号。
在应用开发任务上,情况则完全不同。软件工程任务可以用测试是否通过来判断对错,但"从零开始写一个完整的网页应用"这类任务如何判好坏?仅靠代码静态分析远远不够,必须实际运行起来看效果。为此,团队设计了一套"智能体作为验证者"(Agent-as-a-Verifier,AaaV)框架。领域专家首先设计出元查询(相当于任务模板),涵盖前端、后端、移动端、桌面应用等多个方向;由此生成的具体开发任务,经过去重和质量过滤后,由模型生成完整的开发轨迹;最后由AaaV验证智能体把生成的应用实际部署在沙箱环境中,从三个层面打分:应用能不能正常启动和运行、核心功能能不能正常交互、界面布局是否美观专业。只有三层全部通过的轨迹才会被收入训练集。
终端交互任务的数据同样有专门的生产流水线,称为"Terminal-Gym"。它以Stack Overflow上数以百万计的真实问答帖子为种子,经过筛选和改写,转化为需要在Linux终端中完成的操作任务,并自动生成Docker运行环境和验证测试脚本。为了防止任务过于简单,流水线还会故意去除任务描述中的明显提示,并优先保留那些零样本通过率较低的难题。
深度搜索和网络研究任务的数据则采用了一种"引导-改写"的合成策略。从一个种子问题出发,通过迭代改写逐渐模糊其中涉及的关键实体,直到这个问题难到足以区分强弱模型。每条合成任务都配有明确的证据规格要求,只有当模型的回答真正基于检索到的真实网页证据时,对应的训练轨迹才会被接受,以此防止模型学会"凭空编造听起来有道理的答案"。
知识工作者办公任务的数据以一个已有的办公任务基准GDPval为锚点,在此基础上通过分层合成大幅扩充。合成流程从职业数据库中的宏观职业类别出发,逐步细化到具有地域和文化多样性的具体岗位,再为每个岗位生成包含真实支撑文件的工作场景和不同细化程度的任务描述。验收标准涵盖正面行为、负面行为、关键错误、地域适用性和推理深度等多个维度,并专门设置了一道"事实核查"清洗环节,剔除包含虚构数据、引用或人名的轨迹。
在推理和一般知识数据方面,团队从三个维度同步扩展:扩充问题集合(尤其是在难度分布上补充欠表示区间的题目)、为每道题生成多条不同思路的正确解答(实验发现多样化的解法路径显著提升泛化能力,而不只是记忆答案)、在固定计算预算下研究"问题多样性"与"解法多样性"的最优配比。质量控制贯穿始终,包括多阶段问题清洗、验证器系统性边界条件覆盖、跨模型答案对比以发现标注错误,以及基于评分标准的推理过程质量打分。
角色扮演和人物一致性数据也有专属的处理体系。团队将角色扮演形式化为"在世界观与故事情节空间上、以用户偏好为条件的长时序条件生成",核心挑战是跨越数十乃至数百轮对话维持物理逻辑、叙事连贯性和风格一致性。他们引入了一个专门的RolePlay Bench评测体系,通过多轮自我对弈轨迹,重点惩罚"跳出角色"和"逻辑错误"等可客观检测的失败模式,以此产生与真实用户互动质量高度相关的离线评测指标。训练数据通过多样化专家模型之间的大规模自我对弈合成,并结合真实产品交互中的隐式和显式反馈进行强化学习优化,原始信号经过因果推断和分层去偏处理,以剔除系统性偏差,还引入了熵监控机制防止奖励欺骗。
**三、让AI"越训越聪明"的强化学习系统:Forge**
有了高质量数据还不够,如何高效地用这些数据训练模型,同样是一门大学问。M2系列的训练核心是一个叫做"Forge"的强化学习系统,其设计目标是在三个相互矛盾的诉求之间找到平衡:最大化训练吞吐量、保持训练稳定性、支持任意结构的智能体架构。研究团队把这个挑战称为"不可能三角"。
在算法层面,Forge采用了改进版的CISPO(削减重要性采样策略优化)算法。强化学习的核心思路是:让模型尝试很多种做法,对做得好的给予奖励,对做得差的施以惩罚,从而引导模型逐步改进。CISPO通过一种特殊的重要性权重削减机制,防止单步更新幅度过大引起训练震荡,同时允许对已经变得不太可能的动作进行大幅降权,兼顾了稳定性和更新效率。
奖励信号的设计极为细致。单纯依赖最终任务完成结果来给奖励,在那些可能长达19.2万个词、包含数千个中间步骤的智能体轨迹上效果很差——这就像你参加一场历时数小时的考试,老师却只在最后告诉你及格还是不及格,而不给任何中间反馈,你很难知道哪个步骤出了问题。Forge的解决方案是设计三层复合奖励:过程奖励(对语言混用、工具调用格式错误等中间行为立即给予惩罚或奖励)、任务完成时间奖励(奖励发现并利用并行执行机会的高效轨迹)、以及基础的任务性能奖励。这三层奖励按权重组合,使信用分配更精准。
训练策略上采用了混合域并行训练:每个训练阶段同时从推理、编程、智能体任务和通用对话四个领域抽取数据混合训练,防止模型只在单一领域上钻牛角尖而忘了其他能力。跨阶段还会逐步调整各域的混合比例、上下文长度和任务难度分布,形成一个课程式的学习路径。
在系统架构层面,Forge将训练系统拆分为三个解耦模块:智能体侧(负责生成轨迹,可以是任意结构的智能体,对训练框架完全透明)、中间件层(Gateway服务器负责路由通信,数据池负责异步存储轨迹)、以及训练推理侧(Rollout引擎负责高吞吐生成,Train引擎负责计算梯度并同步权重)。这种设计使得智能体可以分为"白盒"和"黑盒"两种接入方式:白盒智能体把自身的上下文管理逻辑暴露给训练框架,框架可以精确重建训练时的状态分布;黑盒智能体则完全不需要修改内部实现,框架仅从外部观察其输入输出元组来构建训练数据。这个设计经过了数百种不同智能体架构和数千种工具调用格式的验证。
Windowed FIFO调度是Forge解决"不可能三角"的一个巧妙机制。智能体完成一个任务所需的时间从几秒到几小时不等,差异极大。如果严格按照任务提交顺序来决定训练顺序(即FIFO,先进先出),就会被某些特别慢的任务卡住,造成大量GPU闲置;如果完全按完成顺序贪心调度,早期批次会被大量简单快速的任务占满,晚期才出现困难任务,导致训练分布前后不一致。Windowed FIFO的解法是给生成队列设置一个滑动窗口(窗口大小约为总队列的30%),在窗口内可以自由乱序取用已完成的任务,窗口边界之外必须严格保持顺序。这在保持数据分布一致性的同时,大幅减少了集群空闲时间。
前缀树合并则是另一个提升训练效率的精妙设计。在多轮智能体轨迹中,同一个"问题提示"往往会生成多条不同的响应用于对比学习,这些响应前面的部分(即问题文本本身)完全相同。传统做法是把每条响应当作独立样本处理,公共前缀被重复计算多次,是严重的浪费。前缀树合并将共享前缀在前向传播中只计算一次,之后再分叉到各个独立响应段,前向传播结束后还原成独立样本计算损失。这个操作在数学上与独立计算完全等价,但实践中可以带来高达40倍的训练加速并显著降低显存消耗。
**四、智能体机制:让AI真正"边想边做"**
训练好的模型需要配套的工作机制才能在复杂任务中发挥实力。M2系列采用了一种被称为"交错思考"(Interleaved Thinking)的智能体工作模式,这是其在实际任务中取得优异表现的关键机制之一。
传统AI在处理需要使用工具的复杂任务时,通常有两种做法:要么先把所有思考都写完,再去调用工具(这就像你在黑板上写满解题步骤,一步也不走,然后才去查字典);要么每次调用工具后把之前的推理过程全部丢弃,从零开始重新分析工具返回的结果(这就像你查完字典后,把之前在脑子里构建的所有理解全部清空,只记得刚查到的那个词义)。这两种方式都有明显缺陷:前者无法根据工具返回的实际结果动态调整计划,后者则不断丢弃已有的推理积累,导致状态漂移和效率低下。
M2的交错思考则是另一种范式:推理过程和工具调用真正交替进行,每次工具调用后,之前所有的思考内容(包括中间分析、假设和部分结论)都原封不动地保留在上下文中,模型在此基础上审视工具返回的结果,更新判断,再决定下一步行动。这形成了一个"计划—行动—反思"的循环。模型在每一轮反思阶段可以发现工具结果与预期不符的情况,及时修正方向,而不是等到最后才发现方向错了。研究团队通过消融实验证明,交错思考在复杂长时序任务(如深度搜索、软件工程)上的提升幅度最为显著,恰好印证了这种机制在需要持续规划和迭代修正的场景中最能发挥价值。
**五、AI开始"改造自己":M2.7的自进化实验**
M2.7代表了整个M2系列迄今最具野心的一步:让模型参与到自身的训练过程中。
这听起来像科幻小说,但MiniMax团队的实现方式其实相当务实。他们构建了一个叫做"模型迭代系统"的工作框架,核心原则是"人类掌舵,模型建造"。研究人员通过对话方式向智能体配置目标和指引,以及审查关键节点的输出结果,做出方向性决策;而智能体则在一个完全由M2.7自己生成(没有人类手写代码)的"智能体工具箱"中工作,这个工具箱提供了层级化的技能链、持久化记忆、安全护栏和评测基础设施。
在实际工作流中,这套系统形成了一个双循环结构。外循环由人类主导:研究员制定实验计划,评估阶段性成果,决定下一轮迭代方向。内循环则由M2.7自主运行:它持续监控正在进行的训练任务,读取日志,诊断指标异常,自动调试代码和配置,生成分析报告并在需要时向人类升级汇报。这个系统吸收了日常迭代工作量的30%到50%,将研究员从大量重复性的监控和调试工作中解放出来。
更引人注目的是一个递归自我改进的实验案例。研究人员让M2.7负责优化一个内部编程任务用的智能体脚手架(即指导AI完成编程任务的工作流框架)。M2.7执行了一个完全自主的100轮迭代循环:分析失败案例、修改脚手架代码、评估改动效果,周而复始。在这个过程中,它自发地引入了循环检测机制,发现了更优的参数组合,最终在内部评测上取得了30%的性能提升。这个案例最引人关注的地方不只是数字,而是模型表现出的主动性:它不是在回答一个问题,而是在优化一个系统——而这个系统恰好是用于训练它自己的。
**六、实战检验:M2.7在各类任务上的表现**
在评测阶段,研究团队让M2.7与当前最强的几个闭源商业模型正面交锋,包括Claude Opus 4.6、Claude Sonnet 4.6、GPT 5.4和Gemini 3.1 Pro。
在软件工程类任务上,M2.7在SWE-bench Pro(一个模拟真实代码仓库修复任务的权威评测)上得分56.2,与顶尖模型处于同一水平线(GPT 5.4为57.7,Claude Sonnet 4.6为57.2)。在SWE-bench多语言版(测试跨语言代码修复能力)上M2.7得分76.5,表现优秀。在Multi-SWE-bench(跨代码仓库任务迁移评测)上M2.7以52.7位居所有对比模型之首。在Terminal-Bench 2.0(测试模型在Linux终端中完成系统操作任务的能力)上M2.7得分57.0,属于竞争力强劲的区间。
在应用开发类任务上,M2.7在VIBE-Pro(端到端全栈应用开发评测)上以55.6与Claude Opus 4.6并列,显著领先于Gemini 3.1 Pro(41.0)。在HyperTask(需要完成约100个功能点的长时序开发任务)上M2.7以67.6展现出稳健的能力。
在深度搜索和网络研究类任务上,M2.7在BrowseComp(评测浏览器智能体在真实网络环境中搜索特定信息的能力)上得分77.8,在Wide Search(多源长时序网络研究评测)上得分75.2,均处于前列。在内部开发的RISE评测上M2.7得分64.3,相较于上一版本M2.5(50.2)提升了足足14个百分点,是本次评测中进步幅度最大的单项之一。
在办公和工具使用类任务上,M2.7在GDPval-AA(衡量AI完成经济价值工作任务的综合评测)上得分50.0,在Toolathlon(测试异质工具使用能力)上得分46.3,在MM Claw(多模态办公操作评测)上得分62.7。这一类别是整个M2系列进步空间最大的领域,从M2.5到M2.7,Excel相关评测(MEWC v2)提升了13.5分,金融建模评测(Finance Modeling Pro)提升了惊人的23.2分,GDPval-AA提升了15.0分。
在推理与知识类任务上,M2.7在AIME 2026(美国数学邀请赛)上得分94.2,在GPQA-Diamond(研究生级别跨学科科学问题评测)上得分89.8,在IFBench(指令遵循评测)上得分76.0,均进入顶级行列。在HLE("人类最后的考试",一组被设计成极度困难的开放知识题)上M2.7得分28.0,在整体知识广度评测MMLU-Pro上得分81.8。
从M2原始版本到M2.5再到M2.7的纵向进步曲线尤为清晰。研究团队跟踪了11个在三个版本上均有完整数据的评测项目,所有11项全部呈现单调上升趋势。其中进步幅度与数据流水线的投入高度吻合:BrowseComp从M2到M2.7提升了33.8分,Toolathlon提升了27.5分,MLE Bench Lite提升了26.6分,恰好对应了M2.5和M2.7在深度搜索、工具使用和自主机器学习工程这几个方向新增的专项训练数据。推理类评测(AIME、GPQA-Diamond、AA-LCR)则保持了更平稳均匀的提升曲线,与推理数据多轴缩放的渐进性改进相符。
MLE Bench Lite的案例值得单独展开讲讲,因为它是自进化能力的最直接实证。在这个由22个机器学习竞赛组成的评测中,M2.7在每个竞赛上拥有24小时的时间进行迭代自我改进,使用的是一个完全由M2.7自己编写的自主工作框架。每完成一轮迭代,模型都会撰写记忆文件并进行严格的自我反思批评,明确下一轮优化方向,形成一条持续累积的反馈链。研究团队进行了三次独立试验,M2.7的奖牌获得率随时间呈现清晰的累积上升趋势,最佳单次试验拿到了9枚金牌、5枚银牌和1枚铜牌。三次试验平均奖牌率66.6%,与Gemini 3.1 Pro持平,令人印象深刻。
说到底,MiniMax-M2系列讲的是一个关于效率哲学的故事。当AI行业整体还在拼谁的模型更大、谁的算力更强时,MiniMax选择了另一条路:把模型造得很大(2299亿参数),但只让极少部分(98亿)在任何一个时刻真正工作,同时用精心设计的数据流水线、强化学习系统和自进化机制来挖掘这少量激活参数的极限潜力。从评测数据来看,这条路走通了——在推理、编程、搜索、办公等各类任务上,M2.7用约十分之一的"油耗",跑出了与顶级竞争者大体相当的成绩。研究团队也坦言,目前数据、强化学习系统和自进化这三个方向都远未到达天花板,后续的M2.x版本将沿着这三条轴线继续扩展。这意味着我们看到的还只是这个方向的早期探索成果。对于普通用户而言,这项研究最直接的意义在于:未来AI助手在处理复杂多步骤工作任务时,有望在更低的计算成本下提供更可靠的帮助,这最终会转化为更低的使用费用和更快的响应速度。如果你对技术细节感兴趣,可以在arXiv平台通过编号2605.26494查阅这篇完整的技术报告。
---
Q&A
Q1:MiniMax-M2系列模型的"混合专家"架构是什么意思,和普通模型有什么区别?
A:MiniMax-M2系列采用的混合专家架构,相当于模型内部有256位专家,但每次处理一个词只调动其中8位最合适的专家工作,而不是让所有专家同时运转。普通模型处理每个词时会激活全部参数,M2则总参数虽有2299亿,每次实际激活的只有98亿,大幅降低了计算量,同时通过细粒度专家设计和sigmoid路由机制保持了出色的任务表现。
Q2:MiniMax-M2.7的"自进化"能力在实际中是怎么体现的?
A:M2.7的自进化主要体现在两个方面。一是在日常训练流程中,M2.7会自主监控训练任务、读取日志、诊断异常并自动调整配置,承担了团队30%到50%的日常迭代工作量。二是在MLE Bench Lite评测中,M2.7在24小时内独立完成机器学习竞赛任务,每轮迭代后自我反思并制定优化方向,最终平均奖牌率达到66.6%,还在一次自主优化内部编程脚手架的实验中取得了30%的性能提升。
Q3:MiniMax-M2.7在和GPT 5.4、Claude Opus 4.6这些顶级模型的比较中处于什么水平?
A:总体来看,M2.7在多数评测项目上与这些顶级模型处于同一竞争区间。具体来说,在代码修复类任务(Multi-SWE-bench)上M2.7以52.7位居所有对比模型之首;在应用开发(VIBE-Pro)上与Claude Opus 4.6并列;在数学推理(AIME 2026)上以94.2超过Claude系列;在BrowseComp网络搜索任务上以77.8表现突出。但在Terminal-Bench 2.0、HLE和MMLU-Pro等部分评测上,GPT 5.4和Gemini 3.1 Pro仍有一定领先优势。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。