当我们看到最新的AI模型如ChatGPT能够给出深思熟虑的回答时,可能会好奇:这些AI是如何学会思考的?最近,来自香港科技大学、TikTok和北京邮电大学的研究团队发表了一项颇有意思的研究,揭示了AI学习思考的奥秘。这项研究发表于2025年,论文标题为"SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild",感兴趣的读者可以通过https://github.com/hkust-nlp/simpleRL-reason访问相关代码和资源。
研究团队发现了一个有趣的现象:就像教孩子学习一样,AI也可以通过奖励和惩罚的方式学会复杂的推理。但与我们想象的不同,这个过程并不需要先教AI基础知识,而是可以直接从"白纸"状态开始训练。这种训练方式被称为"零RL训练",就好比让一个从未接触过数学的孩子直接开始解决复杂的数学题,通过不断的尝试和纠错来学会思考。
这项研究的独特之处在于,研究团队并没有局限于某一个特定的AI模型,而是对10个不同的AI模型进行了全面测试。这些模型就像不同性格和能力的学生,有的擅长逻辑推理,有的在语言理解方面更强。通过对这些不同"学生"的观察,研究者发现了一些令人惊讶的规律。
**一、从零开始的学习奇迹**
要理解这项研究,我们首先需要了解什么是"零RL训练"。传统的AI训练就像是先让学生上完基础课程,再让他们解决复杂问题。而零RL训练则完全不同,它直接让AI面对复杂的数学题,通过一个简单的奖励机制来学习:答对了就给奖励,答错了就不给奖励。
这种训练方式最初由DeepSeek-R1展示其可行性,但那个模型拥有6710亿个参数,就像一个天赋异禀的学生。人们自然会问:普通的AI模型能否也通过这种方式学会思考呢?
研究团队选择了10个不同的AI模型进行测试,这些模型的规模从5亿到320亿参数不等。如果把AI模型比作学生的话,这些就是从小学生到大学生不同年龄段的学习者。令人惊讶的是,几乎所有的模型都在这种训练下展现出了学习能力。
训练过程中,研究者使用了8000个数学题作为练习材料,这些题目涉及基础算术到高等数学的各个层面。就像一个学生通过不断练习各种类型的题目来提高数学能力一样,AI模型也通过这种方式逐渐学会了更深层的思考。
最令人印象深刻的发现是所谓的"顿悟时刻"。在训练过程中,某些AI模型会突然展现出一种质的飞跃,开始产生更长、更详细的思考过程,并且学会了验证自己答案的正确性。这就像一个学生突然开窍,不再满足于简单的答案,而是开始思考解题的每一个步骤,甚至会主动检查自己的计算是否正确。
**二、不同AI模型的学习个性**
在观察这10个不同模型的学习过程中,研究团队发现了一个有趣的现象:不同的AI模型展现出了截然不同的学习风格,就像不同性格的学生面对同样的教学方法会有不同的反应。
以Qwen2.5系列模型为例,这些模型本身就具备较强的基础能力,就像是已经有一定数学基础的学生。在零RL训练中,它们的表现相对稳定,回答长度的增长比较温和,但准确率提升明显。有趣的是,尽管这些模型的回答变得更长了,但研究者并没有观察到明显的"顿悟时刻"——它们更像是稳扎稳打的好学生,每一步都很扎实,但没有戏剧性的突破。
相比之下,DeepSeek-Math-7B和Llama3-8B这两个模型则表现出了完全不同的学习轨迹。它们在训练初期可能表现平平,但随着训练的深入,突然展现出了令人惊讶的能力提升。特别是在验证和反思行为方面,这些模型从几乎不会检查自己的答案,到主动验证计算过程,这种变化可以说是质的飞跃。
更有趣的是,研究团队还观察到了模型学习行为的细微差异。小规模的模型,如Qwen2.5-0.5B和1.5B,主要专注于学习如何分解复杂问题,将一个大问题拆分成多个小问题来解决。而较大的模型则更多地学会了枚举不同的可能性和验证答案的正确性。
这种差异反映了一个深层的学习原理:不同规模和架构的AI模型具有不同的学习倾向和能力上限。就像不同的学生有不同的学习风格,有的善于分析,有的善于综合,AI模型也表现出了这种个性化的特征。
**三、训练中的关键发现**
研究过程中,团队发现了几个影响训练效果的关键因素,这些发现对于理解AI学习机制具有重要意义。
首先是关于格式约束的发现。传统的训练方法通常会要求AI严格按照特定格式输出答案,比如必须将最终答案放在方框中。但研究团队发现,这种严格的格式要求实际上会阻碍AI的探索和学习。就像要求一个正在学习的孩子必须按照固定的步骤解题一样,这种限制可能会抑制创造性思维的发展。
当研究者取消了这些格式限制,只关注答案的正确性时,AI模型的学习效果明显提升。这个发现提醒我们,在教育AI的过程中,给予适当的自由度可能比严格的规则更重要。
另一个重要发现涉及训练数据的难度选择。研究团队发现,训练数据的难度必须与AI模型的现有能力相匹配,否则训练就会失败。对于能力较弱的模型,如果一开始就给它们极难的题目,它们会陷入困境,无法获得足够的正面反馈来学习。相反,对于已经具备一定能力的模型,如果题目太简单,它们也不会有进步的动力。
这种现象类似于教育心理学中的"最近发展区"理论。每个学习者都有一个最适合的学习难度区间,太难会让人沮丧放弃,太容易则无法促进成长。AI模型也遵循着类似的学习规律。
研究团队还观察了一个名为"pass@k准确率"的指标,这个指标衡量的是模型在多次尝试中至少答对一次的能力。结果显示,经过零RL训练的模型在这个指标上有了显著提升,有些模型的提升幅度达到了10-30个百分点。这说明训练不仅提高了模型的平均表现,还增强了它们的探索能力,让它们能够尝试更多不同的解题思路。
**四、传统方法的局限性**
研究中一个颇为反直觉的发现涉及传统的AI训练方法。通常情况下,人们会认为先教AI基础知识,再进行高级训练会更有效。但这项研究却显示,预先进行的基础训练可能会限制AI在后续学习中的探索能力。
研究团队进行了一个对比实验:他们先用传统方法对一些AI模型进行基础训练,然后再进行零RL训练,并将结果与直接进行零RL训练的模型进行比较。结果令人意外:那些经过预训练的模型在后续的零RL训练中表现反而更差。
这种现象可以用一个生动的比喻来理解:如果我们先教一个学生用固定的公式解题,他可能会在短期内表现不错,但当面对需要创新思维的问题时,他可能会被之前学到的固定模式所束缚。相比之下,那些从零开始学习的学生虽然初期可能磕磕绊绊,但他们更容易发展出灵活的思维方式。
特别值得注意的是,预训练对AI模型推理行为发展的负面影响。那些经过传统预训练的模型在学习验证、反思等高级认知行为方面表现更差。随着基础训练步数的增加,这种负面影响变得更加明显。经过500步基础训练的模型在后续学习中甚至出现了推理能力的退化。
这个发现对AI教育领域具有重要启示:有时候,与其试图通过预设的知识框架来指导学习,不如让学习者在探索中自然发展出适合自己的认知模式。这种"空杯心态"可能是深度学习的关键所在。
**五、推理行为的深层分析**
为了更深入地理解AI模型在训练过程中究竟学到了什么,研究团队采用了一种创新的分析方法。他们不再仅仅关注答案的长度和准确性,而是深入分析AI模型展现出的具体推理行为。
研究团队识别了四种关键的认知行为:回溯、验证、子目标设定和枚举。回溯是指当AI发现某个解题路径行不通时,能主动返回并尝试其他方法;验证是指AI会主动检查自己的计算和推理是否正确;子目标设定是指将复杂问题分解为若干个简单的子问题;枚举则是指系统地考虑所有可能的情况。
通过跟踪这些行为在训练过程中的变化,研究者发现了一些令人惊讶的模式。以Mistral-Small-24B模型为例,在训练初期,这个模型很少展现验证和回溯行为,回答通常是一次性的,不会进行自我检查。但随着训练的进行,模型开始表现出越来越多的自我验证行为,会主动检查计算结果,甚至在发现错误时明确表示"让我们尝试另一种方法"。
这种行为的变化不是渐进的,而是呈现出阶段性的跃迁特征。在某个关键点上,模型似乎突然"领悟"了验证的重要性,开始系统性地检查自己的工作。这种现象被研究者称为"顿悟时刻",它标志着AI从简单的模式匹配转向了真正的推理思考。
更有趣的是,不同类型的推理行为有着不同的发展轨迹。较小的模型更容易学会子目标设定,它们善于将复杂问题分解为简单步骤。而较大的模型则更倾向于发展验证和枚举能力,它们会考虑多种可能性并检查结果的合理性。
研究团队还发现,仅仅通过关键词搜索来识别推理行为是不够的。许多高质量的推理过程并不包含明显的反思关键词如"等等"、"让我重新考虑"等,而是通过更隐晦的方式体现出来。比如,一个AI模型可能会重新计算某个中间结果,或者用不同的方法验证同一个答案,但在表述上并不明确说明这是验证行为。
**六、训练参数的微妙平衡**
在深入研究的过程中,团队发现训练效果对某些看似微不足道的参数设置极其敏感。这些发现揭示了AI学习过程中的微妙平衡关系。
采样数量的影响尤为显著。在每个训练步骤中,AI模型需要对同一个问题生成多个不同的回答,然后根据这些回答的质量来学习。研究发现,当采样数量从8个增加到32个时,模型的学习稳定性显著提升。这就像一个学生需要多次练习同一类型的题目才能真正掌握解题技巧一样,AI模型也需要通过多次尝试来探索不同的解题思路。
温度参数的设置也至关重要。这个参数控制着AI回答的随机性程度。温度过低,AI的回答会过于保守,缺乏创新性;温度过高,回答又会变得不稳定甚至混乱。研究团队发现,最佳的温度设置通常在1.0左右,这样既保证了回答的合理性,又给了模型足够的探索空间。
更有趣的是,训练温度和评估温度之间存在着一种匹配关系。用高温度训练的模型在高温度下评估表现更好,而用低温度训练的模型则适合低温度评估。这种现象反映了AI学习的一种适应性特征:模型会适应训练时的条件,并在类似条件下表现最佳。
KL散度系数是另一个关键参数,它控制着模型在学习过程中偏离原始状态的程度。如果这个系数设置得太小,模型学习得太慢;设置得太大,模型又可能学习过度,产生不稳定的行为。研究团队通过大量实验找到了不同规模模型的最优设置:对于140亿参数以下的模型,系数设为1e-4效果最好;对于更大的模型,则需要设为1e-3。
这些参数设置的发现看似技术性很强,但实际上反映了学习过程中的一般性原理。无论是人类学习还是机器学习,都需要在探索与稳定、创新与准确之间找到平衡点。
**七、模型规模与学习模式的关系**
通过对不同规模模型的比较分析,研究团队发现了一些关于AI学习能力与模型规模关系的有趣规律。
最小的模型Qwen2.5-0.5B只有5亿个参数,但它在零RL训练中展现出了令人惊讶的学习能力。虽然它的绝对性能不如大模型,但它学会了有效的问题分解策略。这个小模型特别擅长将复杂的数学问题拆分成多个简单的子问题,然后逐一解决。这种行为模式在训练过程中变得越来越明显,子目标设定行为的频率增加了4-5倍。
中等规模的模型,如Llama3-8B和DeepSeek-Math-7B,展现出了最戏剧性的学习轨迹。它们不仅在准确性上有了显著提升,更重要的是学会了自我验证和错误纠正。这些模型会主动检查自己的计算结果,当发现错误时会明确表达"这个方法行不通,让我试试别的",然后重新开始解题。
大规模模型的学习模式又有所不同。Qwen2.5-32B这样的大模型本身就具备强大的基础能力,它们在零RL训练中的改进更多体现在推理的深度和广度上。这些模型学会了更系统的验证方法,不仅会检查最终答案,还会验证推理过程中的每一个关键步骤。
有趣的是,模型规模与学习效果之间并不是简单的线性关系。在某些任务上,中等规模的模型反而表现出了更明显的学习效果。这可能是因为大模型已经具备了较强的能力,改进的空间相对有限;而小模型虽然改进空间大,但受限于自身的计算能力。中等规模的模型恰好处在一个最适合学习的"甜蜜点"上。
研究还发现,不同规模的模型对训练数据难度的敏感性也不同。小模型需要从相对简单的问题开始学习,逐步提高难度;而大模型则可以直接处理较难的问题。这种差异反映了学习能力与现有知识基础之间的复杂关系。
**八、错误模式与学习信号**
在分析训练过程中的各种现象时,研究团队特别关注了模型的错误模式,因为错误往往能提供关于学习机制的重要信息。
一种常见的错误模式是"截断现象"。当AI模型无法有效控制输出长度时,它们的回答可能会被强制截断。研究者通过监控截断比例发现,健康的学习过程中,截断率应该保持在5%以下。如果截断率过高,通常意味着模型正在产生重复或无意义的内容,这是训练出现问题的信号。
另一种错误模式是"过度思考"。某些模型在训练过程中会产生异常冗长的回答,但这些冗长的内容并不包含有价值的推理过程,而是充满了重复和无关的信息。这种现象特别容易出现在训练不稳定的情况下,提醒研究者需要调整训练参数。
最有启发性的发现是关于"建设性错误"的观察。研究团队发现,在学习效果最好的模型中,错误的性质发生了明显变化。训练初期,模型的错误主要是计算错误或方法选择错误;但随着训练的进行,错误更多地表现为推理路径的探索性尝试。这些"建设性错误"实际上是模型学习过程的重要组成部分。
通过对错误模式的深入分析,研究者还发现了一个有趣的现象:那些最终表现最好的模型,在训练中期往往会经历一个"错误率上升"的阶段。这看似违反直觉的现象实际上反映了模型正在探索更复杂的解题策略。就像一个学生在学习新方法时可能暂时表现下降一样,AI模型也会经历这种"阵痛期"。
错误分析还揭示了不同类型问题对模型学习的不同作用。几何问题往往能够促进模型的空间推理能力发展,而代数问题则更多地锻炼逻辑推理能力。这种发现为设计更有效的训练数据集提供了指导。
**九、泛化能力的惊人表现**
虽然AI模型只在数学问题上进行了训练,但研究团队发现它们在其他领域也表现出了显著的能力提升,这种泛化现象令人印象深刻。
在指令遵循能力测试中,经过零RL训练的模型表现明显更好。即使训练过程中没有专门教授如何遵循指令,但模型似乎从数学推理训练中学会了更好地理解和执行复杂的任务要求。这种改进在所有规模的模型中都有体现,改进幅度从几个百分点到十几个百分点不等。
在通用知识测试中,模型的表现同样有了显著提升。特别是在需要多步推理的科学问题上,改进效果最为明显。这表明数学推理训练不仅提高了计算能力,还增强了逻辑思维能力,这种能力可以迁移到其他需要系统思考的领域。
最令人惊讶的是在专业领域知识测试中的表现。在化学、物理和生物学的高难度问题上,经过训练的模型表现出了明显的改进。虽然训练数据中没有包含这些领域的专门知识,但模型显然学会了一些可以跨领域应用的推理策略。
这种泛化能力的发现具有重要的理论和实践意义。从理论角度,它支持了一个观点:深度推理能力可能存在某些通用的认知模式,这些模式一旦在某个领域得到充分发展,就可以迁移到其他领域。从实践角度,这意味着通过在特定领域的深度训练,可能实现AI能力的全面提升。
研究团队还测试了模型在创造性任务上的表现。虽然改进幅度相对较小,但仍然观察到了积极的变化。这表明推理能力的提升对创造性思维也有一定的促进作用,尽管两者之间的关系可能比较间接。
说到底,这项研究揭示了AI学习的一个基本真理:深度学习的核心不在于记忆更多的事实,而在于发展更强的思维能力。一旦AI模型学会了如何深度思考,这种能力就会在各个领域发挥作用,产生超出预期的泛化效果。
这项来自香港科技大学团队的研究不仅在技术层面有所突破,更在AI教育理念上提供了新的思路。它告诉我们,有时候最直接的学习方式可能也是最有效的方式。与其试图通过复杂的预训练来"准备"AI模型,不如直接让它们在挑战中学习和成长。这种"在游泳中学会游泳"的方法,可能正是AI获得真正智能的关键所在。
对于AI技术的发展而言,这项研究提供了一个重要的方向指引:我们不需要总是追求更大、更复杂的模型,而应该更多地关注如何让现有的模型学会更好地思考。毕竟,真正的智能不在于知道多少,而在于能够思考多深。
Q&A
Q1:什么是"零RL训练"?它与传统AI训练有什么不同? A:零RL训练是指直接从基础AI模型开始,通过奖励机制让AI学会复杂推理,就像让从未学过数学的孩子直接解难题。传统方法是先教基础知识再训练高级能力,而零RL训练跳过基础教学阶段,让AI在解决问题中自然学会思考。研究发现这种"跳级"方式反而更有效。
Q2:为什么有些AI模型会出现"顿悟时刻"? A:"顿悟时刻"是指AI模型在训练过程中突然展现质的飞跃,开始产生更深入的思考并学会自我验证。这类似于学生突然开窍的过程。研究发现,不是所有模型都会有这种戏剧性突破,Qwen系列模型更多是稳步提升,而DeepSeek-Math和Llama3等模型更容易出现顿悟现象。
Q3:普通人能否使用这种训练方法来改进AI模型? A:目前这还是比较专业的研究领域,需要相当的技术背景和计算资源。不过研究团队承诺会开源相关代码和工具,让更多人可以尝试。对普通用户而言,更重要的是理解这种训练思路:给AI适当的挑战和自由度,往往比过度指导更有效。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。