微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学惊人发现：让AI学习就像养孩子，死记硬背还是真正理解，关键在教学方法

人工智能强化学习模型训练

清华大学惊人发现：让AI学习就像养孩子，死记硬背还是真正理解，关键在教学方法

作者：科技行者

2025-09-19 10:05

分享至：

香港大学等机构联合研究发现，AI训练方法决定学习效果：强化学习让AI真正理解并灵活应对新规则，表现提升显著；监督微调则让AI死记硬背，面对变化表现大幅下降。研究揭示两种方法各有价值，需要合理结合才能培养既有基础又有思维的智能系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-09-19 10:05 • 科技行者

这项由香港大学、加州大学伯克利分校以及谷歌DeepMind等顶尖机构联合进行的研究发表于2025年第42届国际机器学习大会(ICML)，研究团队由朱天哲、翟越翔等多位学者共同完成。有兴趣深入了解的读者可以通过项目主页https://tianzhechu.com/SFTvsRL获取完整论文信息。

想象你面前有两个孩子在学数学，一个死记硬背乘法表，考试时只要题目稍有变化就抓瞎；另一个真正理解了乘法原理，遇到新题型也能触类旁通。这就是当前AI训练中的一个根本性问题——我们的AI到底是在"死记硬背"还是在"真正学习"？

长期以来，训练AI就像教育孩子一样，主要有两种方法：一种叫做监督微调(SFT)，就像传统的填鸭式教育，给AI看大量标准答案，让它模仿；另一种叫做强化学习(RL)，更像启发式教育，让AI在尝试中学习，做对了给奖励，做错了给惩罚。但是这两种方法哪种更能让AI真正"开窍"，一直是个未解之谜。

研究团队就像教育专家一样，设计了精巧的实验来探究这个问题。他们创建了一个类似"算24点"的数学游戏，给AI四张卡片，让它用加减乘除算出24这个数字。更巧妙的是，他们还设计了不同的"考试规则"——有时候J、Q、K代表10，有时候代表11、12、13，就像同一道数学题用不同的符号系统表达。

结果令人震撼。当面对新规则时，用强化学习训练的AI就像那个真正理解数学原理的孩子，能够灵活应对变化，成功率显著提升。比如在纯文本环境中，强化学习让AI的表现从80.8%提升到91.8%，提升了整整11个百分点。而监督微调训练的AI就像死记硬背的学生，一遇到新规则就"傻眼"了，表现从80.8%暴跌到仅仅1.3%，几乎完全失效。

但故事还没有结束。研究团队又引入了视觉挑战——不再用文字描述卡片，而是让AI看真实的卡片图像。这就像让孩子不仅要会算数，还要能认识不同字体写的数字。在这种情况下，强化学习训练的AI依然表现出色，不仅能准确识别卡片，还能灵活运用数学规则。

更有趣的是，研究团队发现了一个类似"因材施教"的现象。虽然强化学习在培养AI的"真正理解力"方面表现突出，但监督微调仍然有其独特价值——它就像教孩子基本的行为规范和表达格式，让AI学会如何"好好说话"。如果跳过这个基础训练直接用强化学习，就像让一个连话都说不清楚的孩子直接学高等数学，效果会很差。

研究团队还测试了一个真实世界的导航任务，让AI在城市中根据指令找路。当训练环境是绝对方向（东南西北）而测试环境改为相对方向（左转右转）时，同样的现象再次出现：强化学习训练的AI能够成功适应新的表达方式，而监督微调的AI则迷失在规则变化中。

这些发现就像教育心理学的重大突破一样意义深远。研究显示，强化学习不仅让AI学会了更深层的推理能力，甚至还意外提升了它的视觉识别能力。这就好比一个孩子在学数学的过程中，不仅数学变好了，连观察力也变强了。

当然，这项研究也揭示了一些局限性。就像教育需要因材施教一样，AI训练也需要根据具体情况选择合适的方法。如果初始模型太"笨"（不会基本表达），或者已经被训练得过度"固执"（过度拟合），强化学习也难以发挥作用。

这项研究的意义远不止于学术探讨。在ChatGPT、Claude等AI助手日益普及的今天，理解如何让AI真正"聪明"而不是仅仅"博学"，对于构建更可靠、更智能的AI系统具有重要意义。未来，我们可能会看到更多结合两种训练方法优势的AI系统——既有扎实的基础（监督微调），又有灵活的思维（强化学习）。

说到底，这项研究告诉我们一个简单而深刻的道理：无论是教育孩子还是训练AI，死记硬背只能应付已知问题，而真正的智慧来自于在挑战中学习和适应。正如古语所说，"授人以鱼不如授人以渔"，给AI标准答案不如教会它思考的方法。这或许就是人工智能向真正智能迈进的关键一步。

当我们下次使用AI助手时，不妨想想这个问题：它是在背诵训练时见过的内容，还是在真正理解我们的需求？这项研究为我们提供了答案的线索，也为AI的未来发展指明了方向。

Q&A

Q1：监督微调和强化学习在AI训练中有什么区别？

A：监督微调就像传统的填鸭式教育，给AI看大量标准答案让它模仿，类似死记硬背。强化学习更像启发式教育，让AI在尝试中学习，做对了给奖励，做错了给惩罚，培养真正的理解能力。

Q2：为什么强化学习训练的AI面对新规则表现更好？

A：强化学习让AI学会了底层的推理原理，而不是简单记忆表面规律。就像真正理解数学原理的学生遇到新题型也能触类旁通，而死记硬背的学生一遇到变化就束手无策。

Q3：监督微调在AI训练中还有价值吗？

A：绝对有价值。监督微调就像教孩子基本的行为规范，让AI学会如何"好好说话"和正确表达。研究发现，如果跳过监督微调直接用强化学习，效果会很差，因为AI连基本的表达格式都不会。

人工智能强化学习模型训练

分享至

0赞

好文章，需要你的鼓励

推荐文章

音频生成
大语言模型
多模态AI

2025-09-10 09:47

如何让AI像电影配乐师一样创作完整的长篇音频故事——腾讯ARC实验室团队AudioStory突破性进展

腾讯ARC实验室推出AudioStory系统，首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术，通过交错式推理生成、解耦桥接机制和渐进式训练，能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异，为AI音频创作开辟新方向。
视频生成
深度学习
多模态学习

2025-09-09 13:57

Meta与特拉维夫大学联手打造VideoJAM：让AI生成的视频动起来不再是奢望

Meta与特拉维夫大学联合研发的VideoJAM技术，通过让AI同时学习外观和运动信息，显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量，在多项测试中超越包括Sora在内的商业模型，为AI视频生成的实用化应用奠定了重要基础。
多模态AI
人类价值观对齐
数据集构建

2025-09-09 13:56

上海AI实验室重磅发布：让AI看图"说人话"的神奇训练法，解决多模态AI与人类价值观对齐难题

上海AI实验室发布OmniAlign-V研究，首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准，通过创新的数据生成和质量管控方法，让AI在保持技术能力的同时显著提升人性化交互水平，为AI价值观对齐提供了可行技术路径。
人工智能
图神经网络
天气预报

2025-09-09 10:56

谷歌研究团队发布超级预测模型：让AI像天气预报员一样预测全球大气变化

谷歌DeepMind团队开发的GraphCast是一个革命性的AI天气预测模型，能够在不到一分钟内完成10天全球天气预报，准确性超越传统方法90%的指标。该模型采用图神经网络技术，通过学习40年历史数据掌握天气变化规律，在极端天气预测方面表现卓越，能耗仅为传统方法的千分之一，为气象学领域带来了效率和精度的双重突破。