微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

两位专家足矣：在无需额外训练的情况下提升MoE推理模型的认知努力

人工智能混合专家系统认知强化

两位专家足矣：在无需额外训练的情况下提升MoE推理模型的认知努力

作者：科技行者

2025-05-26 17:58

分享至：

腾讯和浙江大学研究团队提出了"认知专家增强"（RICE）方法，无需额外训练即可提升MoE推理模型性能。通过归一化点态互信息识别关键认知专家后，仅增强两个专家的权重就能显著提高模型在数学和科学推理任务上的准确率，同时减少计算量。这种轻量级方法展现出良好的跨领域泛化能力，为高效AI推理开辟新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-26 17:58 • 科技行者

在人工智能发展的最前沿，腾讯和浙江大学的研究团队带来了一项令人瞩目的突破。由王梦如、陈星宇、王悦、何志伟等多位研究人员共同完成的这项研究，发表于2025年5月的arXiv预印本平台（arXiv:2505.14681v1），为如何提升大型推理模型的认知能力提供了一种新颖而高效的方法。

一、背景：大型推理模型面临的认知挑战

想象一下，你正教一个聪明但有时过于急躁的孩子解决数学问题。有时这个孩子会走捷径，跳过重要步骤；有时又会陷入过度思考的怪圈，在不必要的细节上浪费时间。现代的大型推理模型（Large Reasoning Models，简称LRMs）也面临类似的问题。

目前最先进的人工智能推理模型，如OpenAI的o1和DeepSeek-R1，已经展现出令人印象深刻的推理能力。这些模型使用一种被称为"专家混合系统"（Mixture-of-Experts，简称MoE）的架构，这种架构可以被想象成一个由多位专家组成的智囊团。当模型遇到问题时，不是启动所有的"专家"，而是有选择地只激活那些最相关的专家来处理特定问题，就像一个高效的团队领导只会召集特定领域的专家来解决对应的问题。

然而，这些模型依然存在认知效率方面的不足。有时它们会像过度紧张的学生一样"想太多"（overthinking），在简单问题上浪费资源；有时又会像粗心的解题者一样"想太少"（underthinking），没有进行足够深入的推理就急于得出结论。

之前的研究尝试通过额外训练或复杂的启发式规则来解决这些问题。但这些方法往往需要大量的计算资源或精心设计的规则，实施起来既复杂又昂贵。

二、研究创新：认知专家增强（RICE）方法

研究团队提出了一种名为"认知专家增强"（Reinforcing Cognitive Experts，简称RICE）的新方法，这个方法的巧妙之处在于无需额外训练就能显著提升模型的推理表现。

想象一下，如果你发现在一个辩论团队中，有两名成员特别擅长提出深度思考和逻辑分析，你自然会在关键时刻给这两名成员更多发言的机会。RICE方法正是基于类似的原理。通过分析模型内部的专家激活模式，研究人员发现某些特定的"专家"与模型的深度思考过程高度相关。这些被称为"认知专家"的神经网络组件，就像是模型内部专门负责元认知（思考如何思考）的部分。

研究团队使用了一种称为"归一化点态互信息"（normalized Pointwise Mutual Information，简称nPMI）的统计方法来识别这些认知专家。这种方法可以被理解为测量两个事件之间的关联度：在这里就是测量特定专家的激活与表示思考的标记（如""）之间的关联性。通过这种方式，研究人员能够确定哪些专家在模型进行深度思考时最为活跃。

最令人惊讶的发现是，仅仅增强两个最重要的认知专家的权重，就能显著提升模型的推理性能，而无需对整个模型进行重新训练或复杂的调整。

三、实验验证：两位专家的惊人效果

研究团队在两个广泛使用的MoE推理模型——DeepSeek-R1（671B参数规模）和Qwen3-235B上进行了实验，使用了AIME（美国邀请数学考试）和GPQA Diamond（一个包含物理、化学和生物学高级问题的数据集）作为测试基准。

在DeepSeek-R1模型中，研究人员发现，在数学和物理领域中，两个特定的专家（分别位于第39层的182号专家和第29层的126号专家）与模型的深度思考过程高度相关。这就像发现在一个大型智库中，有两位成员在处理需要深度分析的数学和物理问题时特别活跃。

当研究人员增强这两位"认知专家"的权重后，DeepSeek-R1在AIME2024测试集上的准确率从73.3%提升到了83.3%，并且在更具挑战性的AIME2025测试集上的准确率从63.3%提升到了73.3%。同样，在Qwen3-235B模型上，增强其认知专家也使AIME2025测试集的准确率从66.7%提升到了73.3%。

最令人惊叹的是，这些改进不仅没有增加计算负担，反而在许多情况下减少了总体的计算量。例如，经过认知专家增强的DeepSeek-R1在AIME2024上使用的推理令牌数从9,219减少到了8,317，表明模型不仅变得更准确，还变得更加高效。这就像一个学生不仅答题正确率提高了，而且解题速度也加快了，因为他学会了更有效的思考方式。

四、跨领域泛化：认知专家的通用性

研究团队还探索了认知专家在不同领域间的迁移能力。有趣的是，从数学领域识别的认知专家，在物理、化学和生物学等其他科学领域也表现出色。这表明某些基础的推理机制是跨学科通用的，就像有些思考方法在解决各种类型的问题时都很有效一样。

当将从一个领域（如数学）识别的认知专家应用到其他领域（如化学）时，模型的表现通常会有所提升。这一发现支持了研究团队的假设：某些专家确实编码了基础的、领域通用的认知机制，可以在各种不同类型的科学推理任务中重复使用。

特别值得一提的是，在DeepSeek-R1模型中，从数学领域识别的专家应用到化学领域时，将准确率从49.5%提升到了50.4%；而从化学领域识别的专家应用到物理领域时，准确率则从91.9%提升到了95.4%，展示了认知专家的跨领域适用性。

五、对通用能力的影响：保持平衡

一个自然而然的担忧是：增强特定专家是否会损害模型在其他任务上的通用能力？就像一个过度专注于数学推理的学生可能会在文学创作上表现不佳。

为了解答这个问题，研究团队在ArenaHard基准（一个评估指令跟随能力的综合测试）上对增强后的模型进行了测试。结果表明，不仅没有出现能力退化，反而在某些情况下，通用任务的表现也有所提升。例如，使用化学领域识别的认知专家增强DeepSeek-R1后，其在ArenaHard上的准确率从91.0%提升到了94.0%。

这个发现特别重要，因为它表明增强认知专家不会造成能力权衡，反而可能会带来更全面的能力提升，就像提高一个人的基础思考能力会对各种任务都有积极影响一样。

六、与其他方法的比较：轻量而有效

研究团队还将RICE方法与其他推理增强技术进行了比较，包括两种常用的推理提示法（在思考前或思考后添加提示）和一种称为TIPt的解码约束方法。

在AIME数学考试测试中，RICE方法以78.7%的平均准确率超过了其他所有方法，比最好的基线方法TIPt（76.7%）高出2个百分点。这一优势在AIME2024测试集上尤为明显，RICE方法达到了83.3%的准确率，而最好的基线方法只达到80.0%。

这些比较表明，通过直接调整认知专家的权重，可以比通过改变输入提示或修改解码策略获得更好的效果。就像与其告诉一个人该如何思考，不如直接增强他们已有的思考能力会更有效。

七、案例分析：从错误到正确的转变

为了更具体地展示RICE方法的效果，研究团队提供了一个关于六边形问题的案例分析。在这个例子中，普通的DeepSeek-R1模型在推理过程中出现了反复思考和自我矛盾，最终得出了错误的结论。

相比之下，经过认知专家增强的模型展现出更为连贯和深入的推理过程，最终给出了正确的答案。这就像一个学生从杂乱无章、自相矛盾的思考方式，转变为条理清晰、逻辑严密的解题过程。

八、未来展望与局限性

尽管RICE方法表现出色，研究团队也坦言这项工作存在一些局限性。首先，目前的nPMI方法可能无法完全捕捉大型推理模型内部的所有相关交互。其次，实验仅限于目前可用的开源MoE推理模型架构（DeepSeek-R1和Qwen3-235B），未来需要在更多样化的架构上进行验证。

研究团队提出了几个值得未来探索的方向，包括深入研究认知专家的结构特性、探索更广泛的应用场景、以及将RICE方法与其他认知控制策略相结合，以进一步增强推理的稳健性。

通过揭示MoE模型中的这一隐藏功能层，研究团队为精细控制神经推理过程开辟了新的途径，这可能会为开发更接近人类认知模块化特性的人工智能系统提供启示。