微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学研究团队用"记忆惩罚"让AI停止在同一个坑里反复摔跤

强化学习大型语言模型奖励塑造

复旦大学研究团队用"记忆惩罚"让AI停止在同一个坑里反复摔跤

作者：科技行者

2026-04-22 10:16

分享至：

复旦大学与上海创新研究院联合研究团队于2026年4月发表了论文arXiv:2604.11297，提出了名为MEDS的"记忆增强动态奖励塑造"框架。该研究针对大型语言模型在强化学习训练中反复陷入同类错误的"错误坍塌"问题，创新性地引入历史错误记忆机制，通过提取模型内部各层的数值信号作为"推理指纹"，利用HDBSCAN聚类算法识别重复错误模式，并对频繁出现的错误类型施加动态加重的惩罚。实验在五个数学推理基准和三个底座模型上验证了该方法的有效性，pass@1和pass@128指标均实现一致提升，最大相对提升达17%，同时显著增加了模型探索解题路径的多样性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 10:16 • 科技行者

这项由复旦大学自然语言处理实验室与上海创新研究院联合开展的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.11297。有兴趣深入钻研原始文献的读者，可通过该编号在arXiv平台上检索完整论文。

**一、一个让AI训练师头疼的老问题**

假设你正在辅导一个学生做数学题。起初，他尝试了好几种解题思路，有时对，有时错，显得颇有探索精神。但慢慢地，你注意到一个令人沮丧的现象——他开始反复犯同一类错误，而且每次犯错的方式都几乎一模一样，只是换了几个数字或者换了几个词。不管你怎么提醒他，他就是死死地卡在同一个错误套路里，像一张跳针的唱片，一遍遍重复。

这正是当下主流人工智能语言模型在强化学习训练过程中面临的核心困境。复旦大学的研究团队将这种现象称为"错误坍塌"，即模型在训练到一定阶段后，会陷入一个固定的错误模式，并在其中反复打转，无法自拔。

要理解这个问题，需要先简单了解AI是怎么"学习"的。当前的大型语言模型，比如你可能听说过的各类聊天机器人，它们的训练过程有点像培训一个演讲选手。模型先生成一段回答，然后有人（或者一套自动评分系统）给这段回答打分，模型根据分数调整自己下次的表现策略，如此循环往复。这套机制叫做"强化学习"，核心思想是：做对了就奖励，做错了就惩罚，通过不断试错来提升表现。

问题就出在这个循环里。随着训练的推进，模型会逐渐收敛到那些"分数还不错"的回答策略上，同时减少探索其他可能性的意愿。这就好比那个学生，一旦发现某种解题套路能拿到及格分，就死死抱住这套路不放，哪怕这套路本身包含一个根本性的错误。更糟糕的是，他换着花样重复这个错误——今天写"因为A所以B出错"，明天写"由于A导致B失败"，后天写"A是B错误的原因"，措辞不同，逻辑根子却是同一个。这种表面看似多样、实质完全雷同的错误，在AI训练领域里尤为难以察觉和纠正。

传统的应对方案是在训练中加入"熵正则化"机制，通俗地说，就是强制要求模型的回答保持一定程度的随机性，别每次都给出太相似的输出。这个方法有一定效果，但它的致命弱点在于：它只管当前这一批回答的多样性，完全不管模型历史上都犯过哪些错误。就好比你告诉那个学生"每道题要用不同的方法解"，他确实换了解题步骤的写法，但核心的错误逻辑依然原封不动。

正是针对这个痛点，复旦大学的研究团队提出了一个全新的思路——让AI拥有"记忆"，并且用这份记忆来动态调整对不同类型错误的惩罚力度。他们将这套框架命名为MEDS，即"记忆增强动态奖励塑造"。

**二、MEDS的设计哲理：惩罚"老毛病"比惩罚"新错误"更重要**

研究团队在设计MEDS时，从人类的学习心理中找到了灵感。心理学研究表明，当我们在同一个地方反复跌倒时，大脑会对这种失败产生更强烈的负面情绪反应，这种加强的心理惩罚机制会促使我们更主动地改变行为模式。换句话说，"在同一块石头上摔了三次"比"第一次摔跤"让人印象更深刻，改变的动力也更强。

MEDS的核心逻辑正是这个道理的工程化实现：对于那些模型反复犯下的错误类型，给予更重的惩罚；对于模型第一次尝试的新思路，即便结果也是错的，也给予相对宽松的评价。这样一来，模型就有了强烈的动机去避开那些"熟悉的坑"，主动探索新的解题路径。

当然，要实现这个想法，必须解决一个关键的技术难题：如何判断两个错误"本质上是同一种错误"？毕竟，AI生成的文本极少会一字不差地重复，但它们在逻辑层面可能完全相同。用表面文字去比较显然不可靠，就像判断两首歌是否抄袭，不能只看歌词里有没有完全相同的句子，更要看旋律、和弦进行是否雷同。

研究团队找到的解决方案，来自对AI模型内部运作方式的一个深刻洞察。

**三、偷听模型的"内心独白"：用神经网络的中间信号识别思维模式**

当一个大型语言模型生成文本时，信息会经过数十个"变换层"（Transformer层）的处理，就像一道菜肴需要经过备料、切配、腌制、烹饪等多道工序一样。在每一道"工序"的末尾，模型都会为下一个将要输出的词生成一个评分向量，这个评分向量叫做"logit"——你可以把它理解为模型在这一层的"想法评分单"，记录了模型在这个处理阶段认为哪个词最有可能出现。

关键的发现在于：当模型沿着相似的推理路径思考时，它在每一层的"想法评分单"也会呈现出相似的数值模式；而当模型走上完全不同的推理路径时，这些评分单就会显示出明显的差异。这就好比两位厨师做同一道菜，如果他们用的是相同的烹饪思路，那他们在"加盐这一步"的操作量会很接近；但如果一个想做川味，一个想做粤味，他们对"加盐这一步"的处理就会截然不同。

研究团队将这个洞察转化为一种实用的技术手段。对于模型生成的每一段回答，他们不看文字本身，而是提取模型在生成"最终答案的第一个词"时，后半段各个变换层（具体来说，是后14个变换层）的逻辑评分值，然后把这些数值拼接成一个向量，作为这段回答的"推理指纹"。

之所以选择后半段的层，是因为前面几层主要处理基础的语言信息（比如这个词是名词还是动词），而后面几层才真正处理高层次的推理逻辑。把所有这些层的评分拼在一起，就得到了一个能够反映模型"思维模式"的紧凑表示。

这种做法有一个巨大的优势：这些数值在模型正常运行时就已经计算好了，完全不需要额外的计算步骤，几乎零成本地获得了对模型内部思维状态的捕捉。就像医院里的CT扫描，原本就是为了诊断疾病而拍摄的，如果顺手也能用来研究其他问题，那就省下了单独做检查的成本。

**四、给错误建档案：聚类让"老毛病"无处遁形**

有了每段回答的"推理指纹"之后，下一步是让系统理解哪些回答属于"同一类错误"。研究团队采用了一种叫做HDBSCAN的聚类算法来完成这项工作。

聚类算法的思路很直观：将那些"推理指纹"彼此相似的回答归为一组。如果模型在不同时间、以不同措辞犯下了本质相同的错误，它们的推理指纹应该会落在同一个"指纹群"里。这就像警察局的指纹档案库——即便同一个人在不同场合留下的指纹角度不同、清晰度不同，经验丰富的分析师或者匹配算法也能识别出它们来自同一根手指。

HDBSCAN的特别之处在于它的自适应性：它不需要预先告诉它"应该分成几类"，而是根据数据自身的密度结构，自动决定聚类的数量。对于那些不属于任何明确聚类的孤立回答，它会将其标记为"噪音"，不强行归类。

对于每个特定的问题，系统会维护一个"错误记忆库"，记录历史上所有错误回答的推理指纹，并持续对这些指纹进行聚类分析。随着训练的推进，这个档案库会越来越丰富，对错误模式的识别也会越来越精准。

**五、动态惩罚：让"熟悉的坑"变得更烫手**

有了错误档案库之后，MEDS的最后一步是将这份"错误历史记录"转化为对奖励信号的动态调整。

具体机制是这样的：当模型生成一段新的回答时，系统会计算这段回答的推理指纹，然后查询它落入哪个"错误聚类"。如果这个聚类非常庞大——也就是说，模型已经多次犯下了这种类型的错误——那么系统就会从这段回答的奖励中扣除一个额外的惩罚分数。聚类越大，说明这个错误被重复的次数越多，扣的分数也就越重。

惩罚的计算公式是：惩罚值等于集群大小取对数再乘以一个系数，但有一个上限封顶，不会无限增加。取对数的设计很有深意——当一个错误第一次被重复时，惩罚增加得比较明显；但随着重复次数越来越多，每次新增重复带来的额外惩罚会逐渐减小。这就防止了系统对某一类错误过度惩罚，导致模型矫枉过正。

对于那些被标记为"噪音"的孤立错误，也就是首次出现的新型错误，则不施加额外惩罚。这个设计的深意在于：新错误意味着模型正在探索新的路径，哪怕结果是错的，这种探索本身也应当被鼓励，而不是被打压。

研究团队还为这套机制提供了严格的数学证明。他们用博弈论中的"吉布斯分布"来建模整个优化过程，证明了在理论上，对重复错误施加额外惩罚的策略，必然能够让经过训练的模型取得不低于（实际上往往高于）原始训练方式所能达到的期望表现。这个证明的核心逻辑是：重复错误的概率越高，说明模型在这条错误路径上分配了过多的"注意力资源"；通过额外惩罚把这部分资源从错误路径上驱逐出去，自然就为正确路径腾出了更多空间。

**六、在真实战场上的表现：五个数学竞赛题库的测试**

研究团队选择了数学推理作为检验场景，理由很充分：数学题的对错判断客观清晰，不存在模糊地带；同时，数学推理对于探索多样化思路的需求也非常突出——解一道数学题，往往有多种完全不同的正确路径。

测试平台选用了五个难度各异的数学题库，分别是偏向竞赛级别难题的AIME24和AMC23，覆盖高中到大学水平的MATH500，侧重科学计算推理的Minerva，以及专注奥林匹克竞赛题目的OlympiadBench。三个底座模型分别是规模较小的Qwen3-1.7B、专门针对数学优化过的Qwen2.5-Math-7B，以及规模较大的通用模型Qwen3-8B。

对比实验包括几种主流方案：完全不做微调的基础模型、使用GRPO算法训练的模型、使用DAPO算法训练的模型，以及加入了熵正则化的GRPO变体。在这个对比组合上，MEDS以"在DAPO框架基础上叠加聚类惩罚项"的形式进行了测试。

结果相当令人振奋。在pass@1指标（即模型随机生成一次回答答对的概率）上，MEDS在所有三个模型上都取得了最高的平均分，并且平均提升幅度达到了4.13个百分点。在pass@128指标（即给模型128次尝试机会，只要有一次答对就算成功）上，MEDS同样全面领先，平均提升4.37个百分点。

最引人注目的单项成绩出现在Qwen3-8B模型的OlympiadBench数据集上：MEDS将pass@128从70.81提升到了82.67，相对提升幅度高达17%。这意味着，在给模型128次尝试机会的情况下，原版模型能解出约七成的奥林匹克数学题，而经过MEDS训练后，能解出超过八成。对于这类高难度竞赛题来说，这个提升幅度是相当显著的。

一个值得单独提及的细节是训练效率。MEDS并没有带来显著的额外计算负担——在同等条件下，训练50步耗时8.46分钟，100步耗时9.73分钟，而纯DAPO的对应数字是8.00分钟和8.95分钟。多出来的不到一分钟，换来的是全面的性能提升，从工程角度来说是非常划算的交易。

**七、模型真的变得"更会想"了吗：多角度验证探索多样性**

性能数字固然好看，但研究团队希望更深入地理解MEDS到底改变了模型的什么。为此，他们设计了两种互补的探索多样性测量方式。

第一种叫做"同步多样性"，测量的是模型在训练的同一步骤对同一道题生成的不同回答之间的差异度。第二种叫做"跨步多样性"，测量的是模型在训练后期与训练前期相比，是否真的探索了新的推理路径，而不只是对旧路径做了文字上的变装。

两种测量都借助了Claude-Haiku这个AI模型来扮演"阅卷老师"的角色——向它提供一组回答，请它评判这些回答在推理路径上的多样性程度。评分从1到5，分别对应"几乎完全雷同"到"截然不同"。为了防止偶然误差，每次评估都随机抽取大量回答组合，最终对数千组数据取平均。

结果显示，随着训练的推进，无论是DAPO还是MEDS，探索多样性都会逐渐下降——这与"错误坍塌"的理论预测吻合。然而，MEDS在整个训练过程中始终保持着比DAPO更高的多样性分数，无论是同步多样性还是跨步多样性，MEDS的曲线都稳定地处于DAPO曲线的上方。

除了基于AI评判的主观指标，研究团队还引入了一个纯数学的客观指标：对模型内部存储的历史推理指纹做协方差矩阵分析，计算最大特征值与所有特征值之和的比值。这个比值越小，意味着模型历史上生成的回答在推理模式空间里分布得越均匀；比值越大，意味着大多数历史回答都挤在同一个方向上。

直观地理解，这个指标就像在描述一片森林里树木的分布：如果所有树都长在同一列，这片森林的"主方向"就非常突出，比值就大；如果树木均匀地生长在各个方向，就没有特别突出的主方向，比值就小。MEDS训练出来的模型，其比值在训练后期明显低于DAPO，说明探索的路径确实更分散、更多样化，而不只是文字上变了花样。

**八、一个帮助读者直觉理解的具体案例**

研究团队在论文中提供了一个非常有说服力的具体案例，值得详细介绍，因为它能帮助理解MEDS所做的事情究竟有多精细。

这道题是：如果一个正整数有三个不同的正因数且这三个因数之和等于2022，找出最小的这样的数（答案是1344）。

模型生成了五段不同的错误回答，研究团队对这五段回答进行了MEDS的聚类分析，得到了两个聚类。

第一个聚类包含两段回答（标记为A1和A2）。这两段回答的共同思路是：直接锁定"有三个因数的数必然是质数的平方"这个前提，然后马上转向通过枚举质数来验证。A1最终输出1342，A2输出1351，答案不同，但推理的底层框架完全一致。

第二个聚类包含三段回答（标记为B1、B2、B3）。这三段回答的共同特征是：先承认质数平方的情况，然后进一步探索"是否还有其他结构的数也满足条件"，并且最终都选择编写Python代码来系统枚举验证。B1和B2同样输出了1342，而B3输出了1349，但它们共享的是"假设A后推导其他形式N，再回退到枚举验证"的推理框架。

这个案例有力地说明了MEDS识别错误的精细程度。A1、B1、B2三段回答输出的都是同一个错误答案1342，但MEDS却正确地把A1归入了A类，把B1和B2归入了B类，因为它们到达同一错误答案的推理路径是根本不同的。相反，B1、B2、B3三段回答输出了两个不同的错误答案，MEDS却正确地把它们归为同一类，因为它们的推理框架本质相同。这种"看穿表面文字直达推理本质"的识别能力，正是MEDS有别于传统方法的根本所在。

研究团队还把这五段回答各层的推理指纹制成了热力图。从热力图可以清晰地看出，在前20层，五段回答的颜色相差不大，说明早期处理层主要编码的是基础语义信息，不同推理路径在这一阶段还没有显著分化。到了后半部分的层，颜色模式开始出现明显差异——A1、A2的颜色分布很接近，而B1、B2、B3的颜色分布也彼此接近，但两个聚类之间的差异则清晰可见。这个直观的视觉证据进一步验证了"推理指纹"的有效性。

**九、聚类方式的选择：质量越高，效果越好**

研究团队还做了一项有趣的消融实验，探究不同的推理指纹构建方式对最终效果的影响。

实验对比了五种方案：把所有28层的指纹拼接在一起、只取后14层的指纹、对相邻层之间的差值进行28层全聚合、对相邻层差值进行后14层聚合，以及作为极端基准线的"单一聚类"方案（即把所有错误回答都强制归入一个大聚类，相当于完全不做区分，对所有错误施加相同的固定惩罚）。

"单一聚类"方案的性能甚至低于原版DAPO，说明如果聚类没有真正区分出不同的错误类型，盲目施加惩罚反而有害。在有实质意义的方案中，取后14层直接聚合的效果最好，无论是与Claude标注结果的一致率，还是在下游数学题上的表现，都优于其他方案。

这个排名与Claude标注一致率的排名完全吻合：后14层方案的一致率是61.2%，高于全28层的53.87%、差值28层的52.52%和差值14层的54.71%。这意味着聚类质量和最终模型性能之间存在强烈的正相关关系——越能准确识别出错误类型的聚类方式，带来的性能提升也越大。这个正相关的发现本身就有重要意义，它说明MEDS的性能提升并非来自某种偶然的数值调参，而是确实来自对错误模式的有效识别与抑制。

**十、从数学题到更广阔的世界**

说到底，MEDS这项研究解决的核心问题，是AI在自我学习过程中如何避免"死记硬背某个错误套路"。它的答案是：给AI安装一套记忆系统，让它不仅知道"我刚才犯了一个错"，还知道"这个错误我已经犯了很多次了，必须换条路走"。

这个思路看似简单，但其实解决了强化学习领域一个长期悬而未决的难题——如何在一个庞大的行动空间里鼓励真正有意义的多样性探索，而不是让模型在表面多样性的幌子下原地打转。

从技术成熟度来看，MEDS目前的设计还有明显的改进空间。研究团队自己也承认，他们提取推理指纹的方式比较简单直接——把各层的一个数值拼接在一起，没有用到更复杂的特征聚合函数。更精细的特征提取方式，比如用注意力机制加权、或者引入专门训练的编码器，也许能进一步提升聚类质量，从而带来更大的性能收益。

此外，目前的实验集中在数学推理领域，这个领域的一个便利之处是对错可以自动判断。将MEDS扩展到开放式对话、代码生成、多模态内容理解等更广泛的应用场景，还需要解决如何定义和识别这些场景下的"错误"这个更复杂的问题。

不过，这项研究最值得肯定的地方，在于它开辟了一个全新的思考角度：在设计AI训练策略时，不应只盯着当下这一批样本，还应当把历史行为轨迹纳入考量。AI的学习，本质上也是一个有时间维度的过程，而不是每次都从零开始的独立事件。这个视角转换，或许会在未来的AI训练研究中产生更多有价值的后续工作。

归根结底，MEDS做的事情，是让AI变得更像一个真正在"吃一堑长一智"的学习者，而不仅仅是一个在当下这道题上努力作答的应试者。这种对历史经验的积累与利用，也许是AI走向更深层次智能的一个必要台阶。有兴趣的读者可以通过arXiv:2604.11297找到完整论文，以及论文附带的开源代码库，亲自体验这套框架的运作。

---

Q&A

Q1：MEDS框架是什么，它和普通的AI强化学习训练有什么不同？

A：MEDS是"记忆增强动态奖励塑造"框架，由复旦大学研究团队提出。普通强化学习只根据当前回答的对错来奖惩模型，对历史犯错记录完全不管。MEDS则给模型建立了一个"错误档案库"，用模型内部各层的数值信号来识别不同错误的推理类型，并对反复出现的同类错误施加越来越重的额外惩罚，从而促使模型主动避开那些"惯性错误"，探索新的解题路径。

Q2：MEDS用什么方法判断两个不同的错误回答"本质上是同一种错误"？

A：MEDS提取的是模型生成最终答案时，后半段神经网络层（后14个Transformer层）输出的数值评分，将这些数值拼接成一个向量作为"推理指纹"。推理路径相似的回答，其推理指纹也会相似。系统用HDBSCAN聚类算法对历史错误的推理指纹进行分组，同一组内的回答就被认定为同一类错误，无需比较文字内容本身。

Q3：MEDS在数学题测试中具体提升了多少，这个提升在实际使用中意味着什么？

A：在五个数学题库、三个底座模型的综合测试中，MEDS将pass@1（随机一次作答的正确率）平均提升约4.13个百分点，pass@128（128次尝试中至少一次答对的概率）平均提升约4.37个百分点。最显著的单项提升出现在Qwen3-8B模型的奥林匹克竞赛题测试中，pass@128从70.81升至82.67，相对提升17%。实际意义是：模型解决高难度竞赛题的能力得到了明显增强，同时探索解题思路的多样性也有所提高。

强化学习大型语言模型奖励塑造

分享至