在人工智能发展的最前沿,腾讯和浙江大学的研究团队带来了一项令人瞩目的突破。由王梦如、陈星宇、王悦、何志伟等多位研究人员共同完成的这项研究,发表于2025年5月的arXiv预印本平台(arXiv:2505.14681v1),为如何提升大型推理模型的认知能力提供了一种新颖而高效的方法。
一、背景:大型推理模型面临的认知挑战
想象一下,你正教一个聪明但有时过于急躁的孩子解决数学问题。有时这个孩子会走捷径,跳过重要步骤;有时又会陷入过度思考的怪圈,在不必要的细节上浪费时间。现代的大型推理模型(Large Reasoning Models,简称LRMs)也面临类似的问题。
目前最先进的人工智能推理模型,如OpenAI的o1和DeepSeek-R1,已经展现出令人印象深刻的推理能力。这些模型使用一种被称为"专家混合系统"(Mixture-of-Experts,简称MoE)的架构,这种架构可以被想象成一个由多位专家组成的智囊团。当模型遇到问题时,不是启动所有的"专家",而是有选择地只激活那些最相关的专家来处理特定问题,就像一个高效的团队领导只会召集特定领域的专家来解决对应的问题。
然而,这些模型依然存在认知效率方面的不足。有时它们会像过度紧张的学生一样"想太多"(overthinking),在简单问题上浪费资源;有时又会像粗心的解题者一样"想太少"(underthinking),没有进行足够深入的推理就急于得出结论。
之前的研究尝试通过额外训练或复杂的启发式规则来解决这些问题。但这些方法往往需要大量的计算资源或精心设计的规则,实施起来既复杂又昂贵。
二、研究创新:认知专家增强(RICE)方法
研究团队提出了一种名为"认知专家增强"(Reinforcing Cognitive Experts,简称RICE)的新方法,这个方法的巧妙之处在于无需额外训练就能显著提升模型的推理表现。
想象一下,如果你发现在一个辩论团队中,有两名成员特别擅长提出深度思考和逻辑分析,你自然会在关键时刻给这两名成员更多发言的机会。RICE方法正是基于类似的原理。通过分析模型内部的专家激活模式,研究人员发现某些特定的"专家"与模型的深度思考过程高度相关。这些被称为"认知专家"的神经网络组件,就像是模型内部专门负责元认知(思考如何思考)的部分。
研究团队使用了一种称为"归一化点态互信息"(normalized Pointwise Mutual Information,简称nPMI)的统计方法来识别这些认知专家。这种方法可以被理解为测量两个事件之间的关联度:在这里就是测量特定专家的激活与表示思考的标记(如"")之间的关联性。通过这种方式,研究人员能够确定哪些专家在模型进行深度思考时最为活跃。
最令人惊讶的发现是,仅仅增强两个最重要的认知专家的权重,就能显著提升模型的推理性能,而无需对整个模型进行重新训练或复杂的调整。
三、实验验证:两位专家的惊人效果
研究团队在两个广泛使用的MoE推理模型——DeepSeek-R1(671B参数规模)和Qwen3-235B上进行了实验,使用了AIME(美国邀请数学考试)和GPQA Diamond(一个包含物理、化学和生物学高级问题的数据集)作为测试基准。
在DeepSeek-R1模型中,研究人员发现,在数学和物理领域中,两个特定的专家(分别位于第39层的182号专家和第29层的126号专家)与模型的深度思考过程高度相关。这就像发现在一个大型智库中,有两位成员在处理需要深度分析的数学和物理问题时特别活跃。
当研究人员增强这两位"认知专家"的权重后,DeepSeek-R1在AIME2024测试集上的准确率从73.3%提升到了83.3%,并且在更具挑战性的AIME2025测试集上的准确率从63.3%提升到了73.3%。同样,在Qwen3-235B模型上,增强其认知专家也使AIME2025测试集的准确率从66.7%提升到了73.3%。
最令人惊叹的是,这些改进不仅没有增加计算负担,反而在许多情况下减少了总体的计算量。例如,经过认知专家增强的DeepSeek-R1在AIME2024上使用的推理令牌数从9,219减少到了8,317,表明模型不仅变得更准确,还变得更加高效。这就像一个学生不仅答题正确率提高了,而且解题速度也加快了,因为他学会了更有效的思考方式。
四、跨领域泛化:认知专家的通用性
研究团队还探索了认知专家在不同领域间的迁移能力。有趣的是,从数学领域识别的认知专家,在物理、化学和生物学等其他科学领域也表现出色。这表明某些基础的推理机制是跨学科通用的,就像有些思考方法在解决各种类型的问题时都很有效一样。
当将从一个领域(如数学)识别的认知专家应用到其他领域(如化学)时,模型的表现通常会有所提升。这一发现支持了研究团队的假设:某些专家确实编码了基础的、领域通用的认知机制,可以在各种不同类型的科学推理任务中重复使用。
特别值得一提的是,在DeepSeek-R1模型中,从数学领域识别的专家应用到化学领域时,将准确率从49.5%提升到了50.4%;而从化学领域识别的专家应用到物理领域时,准确率则从91.9%提升到了95.4%,展示了认知专家的跨领域适用性。
五、对通用能力的影响:保持平衡
一个自然而然的担忧是:增强特定专家是否会损害模型在其他任务上的通用能力?就像一个过度专注于数学推理的学生可能会在文学创作上表现不佳。
为了解答这个问题,研究团队在ArenaHard基准(一个评估指令跟随能力的综合测试)上对增强后的模型进行了测试。结果表明,不仅没有出现能力退化,反而在某些情况下,通用任务的表现也有所提升。例如,使用化学领域识别的认知专家增强DeepSeek-R1后,其在ArenaHard上的准确率从91.0%提升到了94.0%。
这个发现特别重要,因为它表明增强认知专家不会造成能力权衡,反而可能会带来更全面的能力提升,就像提高一个人的基础思考能力会对各种任务都有积极影响一样。
六、与其他方法的比较:轻量而有效
研究团队还将RICE方法与其他推理增强技术进行了比较,包括两种常用的推理提示法(在思考前或思考后添加提示)和一种称为TIPt的解码约束方法。
在AIME数学考试测试中,RICE方法以78.7%的平均准确率超过了其他所有方法,比最好的基线方法TIPt(76.7%)高出2个百分点。这一优势在AIME2024测试集上尤为明显,RICE方法达到了83.3%的准确率,而最好的基线方法只达到80.0%。
这些比较表明,通过直接调整认知专家的权重,可以比通过改变输入提示或修改解码策略获得更好的效果。就像与其告诉一个人该如何思考,不如直接增强他们已有的思考能力会更有效。
七、案例分析:从错误到正确的转变
为了更具体地展示RICE方法的效果,研究团队提供了一个关于六边形问题的案例分析。在这个例子中,普通的DeepSeek-R1模型在推理过程中出现了反复思考和自我矛盾,最终得出了错误的结论。
相比之下,经过认知专家增强的模型展现出更为连贯和深入的推理过程,最终给出了正确的答案。这就像一个学生从杂乱无章、自相矛盾的思考方式,转变为条理清晰、逻辑严密的解题过程。
八、未来展望与局限性
尽管RICE方法表现出色,研究团队也坦言这项工作存在一些局限性。首先,目前的nPMI方法可能无法完全捕捉大型推理模型内部的所有相关交互。其次,实验仅限于目前可用的开源MoE推理模型架构(DeepSeek-R1和Qwen3-235B),未来需要在更多样化的架构上进行验证。
研究团队提出了几个值得未来探索的方向,包括深入研究认知专家的结构特性、探索更广泛的应用场景、以及将RICE方法与其他认知控制策略相结合,以进一步增强推理的稳健性。
通过揭示MoE模型中的这一隐藏功能层,研究团队为精细控制神经推理过程开辟了新的途径,这可能会为开发更接近人类认知模块化特性的人工智能系统提供启示。
结语:高效思考的新范式
这项研究的核心发现可以用一个简单而有力的结论来概括:在大型推理模型中,并非所有"专家"的贡献都是平等的。通过识别和增强那些与深度认知过程密切相关的少数几个专家,我们可以显著提升模型的推理能力,而无需昂贵的重新训练或复杂的规则设计。
这就像发现在一个智囊团中,只需要让特定的两位思想家多说几句话,整个团队的决策质量就会大幅提升一样神奇。这一发现不仅具有实际应用价值,还为我们理解人工智能系统中的认知机制提供了新的视角。
对于普通用户来说,这意味着未来的AI助手可能会变得更加高效和准确,尤其是在需要深度思考的复杂任务上。对于AI研究者和开发者来说,这提供了一种轻量级且有效的方法来优化现有模型,而无需投入大量资源进行完整的重新训练。
如果你对这项研究的技术细节感兴趣,可以通过arXiv:2505.14681v1查阅完整论文。随着认知专家增强技术的进一步发展,我们可能会看到更多智能系统在推理能力上的显著提升。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。