这项令人意外的研究来自清华大学LeapLab实验室,由杨越、陈志琦等研究团队完成,并于2025年5月发表。有兴趣深入了解的读者可以通过arXiv:2504.13837v2访问完整论文。这个研究团队包括了来自清华大学和上海交通大学的多位研究者,他们共同探讨了一个在AI领域备受关注的问题。
近年来,OpenAI的o1模型和DeepSeek-R1等"思考型"AI引起了巨大轰动,它们能像人类一样进行逐步推理,解决复杂的数学和编程问题。这些模型的成功被普遍归功于一种叫做"强化学习"的训练方法。简单来说,就是让AI通过不断尝试和接受奖励反馈来学习,就像训练宠物一样——做对了给奖励,做错了不给奖励。
然而,清华大学的研究团队发现了一个颠覆性的真相:这些经过强化学习训练的AI模型,其实并没有真正学会新的推理能力,它们只是变得更善于从原本就会的推理方法中找到正确答案而已。这就好比一个学生原本就知道多种解题方法,强化学习训练只是让他更容易选择其中正确的那种方法,而不是教会了他新的解题技巧。
一、强化学习的"魔术"真相
要理解这个发现,我们先得搞清楚什么是强化学习。把AI模型比作一个正在学习下棋的孩子。传统的训练方法是给孩子看很多棋谱,告诉他"这样下是好的,那样下是不好的"。而强化学习则是让孩子自己下棋,赢了就给糖果,输了就不给,让孩子通过无数次试错来学习。
在AI领域,研究者们使用一种叫做"可验证奖励强化学习"(RLVR)的方法来训练模型。当AI解决数学题目时,答案对了就给正奖励,错了就给负奖励或零奖励。这种方法看起来很有道理,毕竟传统的强化学习在游戏领域创造了奇迹——AlphaGo就是通过这种方法战胜了人类围棋冠军。
但是清华团队的研究发现,AI的语言推理和下围棋有着本质的不同。围棋的规则是固定的,棋盘是有限的,而语言推理的空间几乎是无限的。这就像在一个有边界的花园里种花和在无边无际的草原上种花的区别——在花园里你可以逐块土地尝试,但在草原上你永远无法穷尽所有可能。
更关键的是,用于强化学习的AI模型并不是从零开始学习的白纸,而是已经通过海量文本训练过的"博学者"。这些模型在接受强化学习训练之前,就已经具备了丰富的推理能力。这就好比你以为自己在教一个孩子新的解题方法,实际上这个孩子早就会了,你只是在帮他整理和优化他已经掌握的知识。
二、惊人的实验发现
研究团队设计了一系列巧妙的实验来验证他们的猜想。他们使用了一个叫做"pass@k"的评估方法,这个方法非常有趣。想象你要测试一个学生的数学能力,不是只让他做一遍题目,而是让他做k次(比如64次或256次),只要其中有一次做对了,就算他会做这道题。
这种测试方法能够揭示模型的真实能力边界。如果一个模型经过强化学习后真的变得更聪明了,那么它应该能解决更多原本解决不了的问题。但如果它只是变得更善于选择正确答案,那么在多次尝试的情况下,原始模型应该也能解决同样多的问题。
实验结果令人震惊。研究团队测试了多个模型家族,包括Qwen2.5、LLaMA-3.1等知名AI模型,覆盖了数学推理、代码生成和视觉推理等多个领域。他们发现了一个一致的模式:当只允许模型尝试一次时(pass@1),经过强化学习训练的模型确实表现更好;但当允许多次尝试时(pass@64或pass@256),原始的基础模型反而能解决更多问题。
这个发现用一个生活化的例子来解释就是:假设你有两个射箭手,一个经过了"专门训练",一个没有。在正式比赛中(只能射一箭),训练过的射箭手命中率更高。但如果允许他们各自射100箭,你会发现没训练的那个射箭手实际上能击中更多不同的靶子,说明他的能力范围其实更广。
三、深度分析揭示的秘密
为了进一步验证这个发现,研究团队进行了更细致的分析。他们检查了模型在训练前后能解决的具体问题,发现经过强化学习训练的模型所能解决的问题,几乎都是原始模型也能解决的。这就像发现一个学生考试成绩提高了,但仔细检查后发现他会做的题目并没有增加,只是原本会做的题目现在做对的概率更高了。
更有趣的是,他们还使用了一种叫做"困惑度"的技术指标来分析模型生成的推理过程。困惑度可以理解为模型对某个答案的"熟悉程度"。如果一个模型突然学会了新的推理方法,那么这些新方法对原始模型来说应该是"陌生的",困惑度会很高。但研究结果显示,强化学习训练后的模型所产生的推理路径,原始模型都很"熟悉",说明这些推理方法早就存在于原始模型中。
研究团队还发现了强化学习训练的一个副作用:虽然模型在常见问题上表现更好了,但它的推理覆盖范围实际上变窄了。这就像一个学生为了在某种类型的考试中取得高分而进行专门训练,结果虽然在这类考试中表现更好,但解决其他类型问题的能力反而下降了。
四、不同方法的对比实验
为了确保结论的可靠性,研究团队测试了六种不同的强化学习算法,包括PPO、GRPO、Reinforce++等。他们发现所有这些算法都表现出了相似的模式:都能提高模型的平均表现,但都无法真正扩展模型的推理能力边界。
有趣的是,当他们测试"知识蒸馏"这种不同的训练方法时,发现了截然不同的结果。知识蒸馏是让一个小模型向更强大的"老师"模型学习,就像学生跟着更有经验的老师学习新知识。通过这种方法训练的模型确实能够解决原本解决不了的问题,真正扩展了推理能力的边界。
这个对比实验特别有意义,因为它说明问题不在于训练方法本身,而在于强化学习这种特定方法的局限性。知识蒸馏能够真正传授新的推理模式,而强化学习只是在优化已有的推理选择。
五、训练过程的动态观察
研究团队还详细观察了强化学习训练过程中模型能力的变化。他们发现随着训练的进行,模型的平均表现(pass@1)确实在稳步提升,从最初的26.1%提升到了42.5%。但与此同时,模型的推理覆盖范围(pass@256)却在逐渐缩小,这进一步证实了他们的发现。
这种现象可以用一个比喻来理解:想象一个图书管理员原本能找到图书馆里各种各样的书籍,虽然有时需要花很长时间。经过"效率训练"后,他能更快地找到最常借阅的书籍,但却逐渐忘记了那些偏僻角落里的冷门书籍在哪里。
研究团队还尝试了各种技术调整,比如增加训练时的探索次数、调整温度参数等,但都无法改变这个基本模式。即使提高模型生成的随机性来匹配原始模型的多样性,强化学习训练过的模型仍然无法超越原始模型的推理覆盖范围。
六、对AI发展的深远影响
这项研究的意义远超学术范畴,它可能会改变整个AI产业对推理能力提升的认知。长期以来,人们相信强化学习能让AI模型持续自我改进,就像人类通过练习不断提升技能一样。但这项研究表明,目前的强化学习方法更像是在帮助模型更好地利用已有知识,而不是真正获得新的智能。
这个发现对AI公司的产品开发策略可能产生重要影响。如果强化学习无法真正扩展模型的能力边界,那么持续的强化学习训练可能不是提升AI性能的最佳路径。相反,研究更好的基础模型训练方法或者知识蒸馏技术可能更有价值。
同时,这项研究也为AI安全研究提供了新的视角。如果AI模型的能力主要来源于基础训练而不是后续的强化学习,那么对AI能力的评估和安全控制就需要更多关注基础模型的训练过程。
研究团队在论文中指出,这种局限性可能源于当前强化学习方法的固有问题。在语言这样的高维空间中,有效的探索策略可能需要全新的方法。他们建议未来的研究应该关注多轮交互、持续扩展训练等新的范式,这些方法可能能够真正发现新的推理模式。
七、未来的研究方向
基于这些发现,研究团队提出了几个值得探索的方向。首先是开发更好的探索策略,让AI模型能在巨大的语言空间中发现真正新颖的推理路径。这就像需要更好的地图和指南针来探索未知的大陆。
其次是研究多轮交互的强化学习方法。目前的方法通常是一次性生成答案然后接受反馈,但真正的学习往往需要多轮的尝试、反思和改进。这更接近人类的学习过程——我们很少一次就学会复杂的技能,而是通过反复练习和调整逐步改进。
另一个重要方向是探索如何在强化学习中引入真正的创新激励。目前的奖励系统只关注最终答案的正确性,但也许应该奖励新颖的推理路径或创造性的解决方案,即使这些方案最初可能不够完美。
研究团队还建议关注基础模型的训练质量。既然强化学习主要是在优化基础模型已有的能力,那么提升基础模型的推理能力可能是更根本的解决方案。这意味着需要更好的数据、更好的训练方法和更好的模型架构。
说到底,这项研究提醒我们,AI的发展可能比我们想象的更复杂。那些看起来神奇的AI能力提升,背后的机制可能和我们的直觉不同。强化学习确实能让AI表现得更好,但这种改善更像是帮助AI更好地发挥已有潜力,而不是真正教会了它新的技能。
这个发现并不意味着强化学习没有价值,而是说我们需要重新思考它的作用和局限性。对于想要构建真正智能的AI系统的研究者来说,这项研究提供了重要的指导:单纯依靠强化学习可能不够,我们需要探索更多元化的方法来提升AI的真实智能水平。
有兴趣深入了解这项研究的读者,可以通过访问arXiv:2504.13837v2获取完整的论文内容,其中包含了详细的实验数据和技术细节。
Q&A
Q1:强化学习到底有没有用?为什么这些AI公司还在用? A:强化学习确实有用,它能让AI模型在实际应用中表现更好,回答更准确。但这项研究发现它主要是在优化已有能力,而不是创造新能力。AI公司继续使用是因为用户体验确实改善了,即使底层机制和我们想象的不同。
Q2:这个发现会不会影响ChatGPT、Claude这些AI的发展? A:可能会影响未来的技术路线选择。如果仅靠强化学习无法持续提升能力,AI公司可能需要投入更多资源在基础模型训练或其他方法上。但短期内不会影响现有产品,因为强化学习仍能改善用户体验。
Q3:普通用户应该怎么理解这个研究?会影响我们使用AI吗? A:对普通用户来说,这个发现主要是帮助我们更准确地理解AI的能力边界。你使用的AI助手可能没有你想象的那么"聪明",它更像是一个知识渊博但思维模式相对固定的助手。了解这一点有助于更合理地设定期望和使用方式。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。