
这项由纽约大学(New York University)与上海纽约大学联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.16787。有兴趣深入钻研的读者可通过该编号在学术数据库中查阅完整原文。
当AI在强化学习训练中"装懂"
近几年,AI在数学推理方面的进步让很多人惊叹不已。背后的核心技术叫做"带可验证奖励的强化学习"(RLVR,Reinforcement Learning with Verifiable Reward)。用最通俗的话说,这种训练方式就是:给AI出一道题,让它反复尝试,答对了就给奖励,答错了就扣分,让AI在一次次的对错反馈中越来越聪明。DeepSeek-R1等一批风靡全球的推理AI,背后用的正是这套逻辑。
然而,纽约大学的这支研究团队在深入分析训练过程后,发现了一件令人意想不到的事情——有一批题目,AI在训练中明明能偶尔做对,明明收到了正向的奖励信号,但不管怎么训练,这些题目就是无法被真正学会。就像一个学生偶尔蒙对了几道选择题,但其实对知识点一无所知,考试还是会继续失败一样。
研究团队把这个现象称为"不可学习现象"(Unlearnability Phenomenon)。这是学界首次对这一现象进行系统性揭示和分析,而其背后隐藏的原因,远比最初的猜测更加根本。
一、AI训练中那些"永远学不会"的题目
要理解这个发现,需要先了解强化学习训练AI的基本场景。当研究人员用数学题集训练AI时,会根据AI的初始能力把题目分成不同难度组。有些题AI一开始就能轻松解决,这叫"简单题组";另一些题AI一开始很难做对,但经过训练后能逐渐学会,这叫"可学习题组";还有一批题AI一开始也很难,但不管怎么训练,始终学不会,这就是研究的核心对象——"不可学习题组"。
研究团队用了三个不同规模和架构的主流AI模型来验证这一现象:Qwen2.5-0.5B、Qwen2.5-3B和Llama3.2-3B-Instruct,分别在不同数学题集上进行了大量训练实验。结果发现,在所有难题中,排除掉那些AI从来没有做对过的题目之后,约有一半难题在训练后能被学会,而另一半即使AI偶尔答对、收到了奖励,成功率也依然几乎为零——在Qwen2.5-0.5B上,约30%的难题属于不可学习;在Llama3.2-3B-Instruct上约22%;在Qwen2.5-3B上约17%。这个比例在不同模型和不同题目集上普遍存在,绝非偶然。
更准确地说,研究团队将"不可学习"定义为:一道题在整个训练过程中偶尔出现了正确答案,但在训练收敛(趋于稳定)时,AI对这道题的成功率依然低于10%。用日常语言描述:就是AI做了上百遍,还是几乎每次都做错,哪怕中间偶尔蒙对了几次也毫无改善。
二、一开始的三种"合理猜测",以及为什么它们都不对
面对这个奇怪的现象,研究人员首先想到了三个最自然的解释。为了搞清楚真相,他们像侦探一样逐一检验每一个假设,看能不能用实验来推翻或证实它。
第一个猜测是:也许不可学习题组每次训练时做对的太少,正确样本太稀少,导致信号不足以推动学习。这个猜测听起来非常合理——毕竟如果100次尝试只有1次做对,那这一次的奖励信号可能太微弱了。为了检验这个想法,研究团队设计了一种"超采样加重放"的机制:每次训练,强制保证每道题都有恰好一个正确样本参与计算,哪怕需要从历史记录里调出之前做对的答案来"补数"。结果发现,这种做法确实让可学习题组的学习速度放慢了(因为正确样本比例被人为压低了),但对不可学习题组毫无帮助——两组之间的差距依然如故。
研究团队还做了更极端的测试:直接用更强大的AI(Qwen2.5-7B)生成大量正确答案,通过监督学习(Supervised Fine-Tuning,SFT,类似于直接告诉AI"这道题就该这么做")来教不可学习题组。即使在这种比强化学习信号强得多的直接教学方式下,不可学习题组的成功率依然几乎没有提升,而可学习题组和简单题组则进步明显。此外,他们还把每批采样数量从8个增加到64个,在不可学习题组上单独训练了很多轮,结果同样令人失望:奖励曲线始终趴在地板上,毫无起色。
第二个猜测是:AI训练中有一些调节机制(比如PPO裁剪和KL惩罚),可能会压制某些题目的学习信号。PPO裁剪是一种安全保障,防止AI的策略每次更新幅度过大;KL惩罚则要求AI不能偏离初始版本太远。有研究者认为,如果不可学习题的正确答案概率本身就很低,那这些调节机制可能会把本来就微弱的学习信号彻底压死。
研究团队测量了三组题目的正确答案初始概率分布,发现不可学习组和可学习组、简单组之间并没有系统性差异,不可学习题的正确答案并不比其他题的概率更低。进一步,他们监测了整个训练过程中三组题目的"裁剪比率"(也就是有多少比例的更新因为幅度过大被压制住了),三条曲线几乎完全重叠,不可学习组并没有受到更多压制。最后,他们干脆把KL惩罚项彻底去掉,也把裁剪范围放得更宽,结果不可学习题组依然没有任何改善。
第三个猜测是:也许在一批题目里,正确答案和错误答案在计算梯度(可以理解为AI调整自身参数的方向)时互相干扰,导致正确答案的学习信号被错误答案的信号抵消掉了。研究团队通过计算同一道题的正确答案与错误答案对应的梯度方向之间的相似度来检验这一点。结果显示,在训练初期,三组题目的正确和错误答案梯度都比较相似(说明互相干扰的现象在三组中程度相当);随着训练进行,可学习题组的错误答案梯度方向开始与正确答案相反(说明模型学会了"错的往反方向走"),而不可学习题组的正确和错误答案梯度始终保持类似方向,但这并不是"干扰"导致的,而是另一种更深层的问题的体现。
三条假设全部被逐一推翻之后,问题反而更大了:既然不是样本不足、不是训练机制压制、也不是梯度干扰,那究竟是什么让这些题目永远学不会?
三、深入梯度空间——找到真正的症结
答案藏在更深的地方。研究团队开始从一个更本质的角度审视这个问题:不同题目在AI的"学习方向空间"里,究竟处于什么位置?
这里需要借助一个比喻。可以把AI的参数空间想象成一片广阔的地形图,AI每次学习都相当于在这片地形上迈出一步,每道题对应着一个"前进方向"(即梯度方向)。如果大多数题目都指向差不多的方向,AI就能沿着这个大方向稳步前进,学习效率很高。但如果某道题的"前进方向"和大家完全不一样,甚至南辕北辙,那么当AI顺着大方向走时,这道题根本得不到好处,反而可能越走越差。
研究团队对三组题目各随机取100道,每道题采集1000个回答样本,只取其中做对的答案,计算每道题对应的梯度方向,然后计算不同题目梯度方向之间的相似度(用余弦相似度衡量,越接近1代表方向越一致,越接近0甚至负数代表方向越背离)。
结果出现了非常清晰的分层。简单题组的梯度方向彼此高度一致,平均相似度高达0.75;可学习题组与简单题组也有较高的相似度,约为0.70;而不可学习题组无论与哪个组相比,相似度都大幅低于其他两组,平均只有0.46左右,而且各自之间也是离散的,每道题都像是孤立的"异类",在学习方向空间里四散分布、互不相邻。
换句话说,不可学习题组的每道题都是一个"梯度空间中的孤立异类"。当整个训练集合沿着大方向前进时,这些题目完全没有从中受益。更重要的是,这种低相似度在训练到一半(第50步)时依然存在——即使AI在其他题目上已经有了大量进步,不可学习题的梯度方向依然与主流训练信号格格不入。这种与整体训练分布的长期脱节,直接表明AI对这些题目存在根本性的"表征缺陷"(Representation Issue)——即AI内部对这些题目的理解方式从一开始就是扭曲的。
四、"答案偶尔对了,但思路完全是胡说"
为了进一步揭示这种扭曲的本质,研究团队还做了一件很直观的事:找人(实际上是让GPT-4o-mini)来评判AI在三组题目上的答题思路质量,打0到5分(0分代表逻辑全错,5分代表推理完美)。
评判时有一个重要前提:所有被评判的答案都已经最终得出了正确结果。也就是说,研究者只拿那些"答案是对的"的回答来比较思路质量,以排除答案对错本身的干扰。
结果同样惊人。简单题组的思路质量最高,可学习题组的思路质量适中,而不可学习题组的思路质量明显最差——尽管最终答案是对的。AI做不可学习题时,往往是"从正确的起点出发,中途绕了一堆荒唐的弯路,最后歪打正着地得出了答案"。
论文中给出了一个典型案例。题目是求空间中一个由绝对值不等式定义的区域的体积。AI的解题过程一开始对问题做了正确分析,但随后在分情况讨论中犯了明显的数学错误(比如说"x+y+z=0 意味着 x+y-z=±8,所以 x+y=z 或 z=0",这是完全错误的推导),还在最后用了一个莫名其妙的"单位格体积 1/8"来缩放面积得到体积,推理完全脱节,但计算结果恰好是32,而正确答案也是32。
这就像一个学生做数学题,过程写得一塌糊涂,但最后写了一个正确答案——老师不看过程只看答案的话,这道题就被算作"对了",也就给出了奖励。但实际上,这种"对"毫无意义,因为下次出一道类似但稍有变化的题,这个学生依然不会做。
研究团队把这种现象称为"不可泛化的推理模式"(Ungeneralizable Reasoning Patterns)。AI利用了某种难以解释的捷径或启发式规则凑出了正确答案,而这种捷径无法迁移到新的题目上,自然也无法通过训练来强化。随着训练进行,可学习题组的推理质量在训练早期就有显著提升,而不可学习题组的推理质量始终停滞不前,两者之间的差距随时间推移还在扩大。
五、数据增强也救不了"表征缺陷"
既然问题出在AI对某些题目的"内部理解方式"上,那么能不能通过生成更多相关题目来帮助AI建立更好的理解?这是一个很自然的想法,就像如果一个学生不会做某类题,多给他一些同类练习题,或者把大题分解成小题来逐步引导。
研究团队为此设计了两种数据增强策略。第一种是"生成相似题":让GPT-4(研究中使用了GPT-5/GPT-5-mini)为每道不可学习题生成5道结构相同、数字或情境略有变化的类似题,并附带标准解答。第二种是"生成子问题":把每道不可学习题分解成若干更小、更基础的子问题,确保每个子问题本身可独立求解,而解决所有子问题合在一起就能解决原题。
所有生成的题目和答案都经过Gemini-2.5-pro的交叉验证,确保正确性。然后研究团队用不可学习题原题加上这些增强数据一起训练AI。
结果令人沮丧,但同时也揭示了更深层的问题。训练时,AI确实能学会那些增强题——尤其是分解出来的子问题,模型学起来甚至比原来的可学习题还要流畅。但这一切对原来的不可学习题毫无帮助,原题成功率依然趴在低位,验证集上的pass@16分数在训练20步后便开始下降,说明模型只是在反复背这些增强题,并没有真正建立起对原题的理解能力。
更出人意料的发现在于梯度方向的对比。即使是结构上几乎完全相同、只有数字不同的相似题,它们与原题之间的梯度相似度也非常低,与原不可学习题和整体训练集之间的低相似度高度相关。换句话说,AI处理这些题目的内部"解题方式",就算题目表面上是一样的,在AI眼里也是完全不同的东西。这意味着语义上的相似并不等于优化空间上的相似,两道看起来一样的题目,AI可能用了完全不同的"神经网络路径"来处理,从而生成了指向完全不同方向的梯度信号。
六、课程学习也无济于事
另一种看起来很有道理的想法是课程学习(Curriculum Learning):先只训练AI做简单题和可学习题,等AI在这些题上达到很高水平后,再引入不可学习题。这就像教孩子数学先从加减法教起,等基础扎实了再来学高深知识。
研究团队实现了一个两阶段课程:第一阶段完全排除不可学习题,只用其他题训练直到收敛;第二阶段加入不可学习题继续训练。
结果显示,第一阶段AI在其他题上取得了显著进步,但当第二阶段切换到加入不可学习题时,验证集准确率反而出现了明显下降,而不可学习题的推理质量依然维持在低水平,与一开始相比几乎没有改善。说明AI在可学习题上积累的能力,无法有效迁移到不可学习题上。
七、解决之道:在强化学习之前就打好基础
那么,这个问题有没有出路?研究团队在一个关键实验中找到了希望的方向,那就是"中间训练"(Mid-training)。
中间训练是指在完成初始预训练(AI从海量文本中学习语言能力)和正式强化学习之前,插入一个额外的训练阶段。这个阶段通常使用大量高质量的数学或推理文本进行大规模语言模型继续训练,目的是在强化学习开始之前,让AI对各类数学题的"内部表征"更加丰富和稳健。
研究团队分析了经过中间训练的OctoThinker模型(基于Llama-3B,在200亿个token上进行了额外训练)与原始Llama-3B基础模型之间的梯度相似度差异。在同样的数学难题上,经过中间训练的OctoThinker-Hybrid和OctoThinker-Long模型的梯度相似度,都显著高于原始Llama基础模型。这说明中间训练从根本上改善了AI对难题的内部表征,使得难题的"学习方向"更加贴近整体训练分布,从而为后续强化学习的有效性奠定了基础。
这一发现有着重要的实践意义:对于大语言模型的推理能力训练来说,中间训练阶段的质量至关重要,不能被跳过或忽视。与其在强化学习阶段用尽各种手段去"修补"那些表征有缺陷的例子,不如在之前就把基础打扎实。然而研究团队也指出,目前对于中间训练应该使用什么样的数据、采用什么样的算法,还存在很多未解决的问题,这是未来研究的重要方向。
归根结底:一些局限与开放的问题
说到底,这项研究揭示的是一个根本性的、此前被普遍忽视的限制:在用强化学习训练AI推理能力时,并不是所有拥有正确样本的题目都能被学会。正向奖励信号的存在是必要条件,但远远不够。
某些题目之所以不可学习,是因为AI对它们的内部理解方式从一开始就是扭曲的。这种扭曲体现在三个层面:梯度方向与其他题目格格不入(用各种优化手段都无法拉近这种距离);"正确"答案背后隐藏着无法泛化的捷径推理;以及数据增强和课程学习都无法在强化学习阶段修复这一根本缺陷。
当然,这项研究也有其局限性。由于计算资源的限制,所有实验都在中小规模模型(0.5B到3B参数)上进行,在数学推理这一特定领域展开。"不可学习"的判定标准本身也依赖于一个阈值(pass@1 < 10%),这是一个实用工具而非绝对定义,少数题目可能落在边界附近。
这项研究留给整个领域一个严肃的问题:在我们训练AI的过程中,有多少知识已经因为这种"表征缺陷"而永久性地被锁死在不可学习区域,而我们甚至没有意识到这一点?找到识别、预防和修复这种缺陷的方法,可能是未来让AI推理能力真正突破瓶颈的关键所在。
Q&A
Q1:不可学习现象中,AI为什么偶尔能答对但就是学不会?
A:这是因为AI可能通过一种无法泛化的"捷径"或启发式规则偶然得出了正确答案,而不是真正理解了题目背后的推理逻辑。这类答案的中间推理过程往往存在明显错误,属于"歪打正着"。由于AI对这类题目的内部表征(理解方式)本身是扭曲的,正确答案带来的奖励信号无法有效更新模型,导致无论训练多少次,成功率依然停滞不前。
Q2:强化学习不可学习现象能通过增加更多练习题来解决吗?
A:根据这项研究,单纯增加相关题目并不能解决不可学习现象。研究团队尝试了生成结构相似题和分解子问题两种数据增强方式,AI虽然能学会这些新题,但学到的知识无法迁移回原来的不可学习题。更令人意外的是,即使两道题表面结构几乎完全相同,AI处理它们时的内部梯度方向也可能完全不同,说明语义上的相似并不等于优化空间上的接近。
Q3:中间训练对大语言模型强化学习有什么作用?
A:中间训练是指在预训练结束和正式强化学习开始之间插入的一个额外训练阶段,通常使用大量高质量推理文本进行大规模继续训练。研究发现,经过中间训练的模型,其困难题目的梯度方向与整体训练分布的相似度显著更高,说明中间训练从根本上改善了模型对难题的内部表征。这意味着在强化学习之前打好表征基础,比在强化学习阶段亡羊补牢更有效。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。