微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 普林斯顿等机构研究:AI学习时,哪些"单词"才是真正值得反复练习的?

普林斯顿等机构研究:AI学习时,哪些"单词"才是真正值得反复练习的?

2026-04-24 10:02
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-24 10:02 科技行者

这项由普林斯顿大学、中国科学院自动化研究所及Meta AI等机构联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.14084,感兴趣的读者可通过该编号查阅完整原文。

你有没有做过这样的事:背英语单词时,把已经滚瓜烂熟的单词反复写了一遍又一遍,而真正容易写错的那几个反而没有得到足够练习?这种看似勤奋、实则低效的学习方式,其实在当下最先进的AI语言模型训练中同样普遍存在。这项研究正是要解决这个问题——搞清楚AI在学习过程中,应该把注意力集中在哪些"单词"上,才能用最少的练习换来最大的进步。

研究团队提出了一个名为TIP(Token Importance in on-Policy distillation,即"在线策略蒸馏中的词元重要性")的框架。这个框架的核心发现极为简洁:AI学生在生成文字时,不是每一个字都值得同等认真地学,而是有两类字特别关键,其余的大多可以跳过。

---

一、先搞清楚:AI是怎么"拜师学艺"的

要理解这个研究,得先明白一件事:现在训练小型AI的一种主流方式,叫做"知识蒸馏",可以把它理解为一种"拜师学艺"的过程。大模型(通常参数规模达到几百亿)是"老师",小模型(参数规模较小、运行成本低)是"学生"。学生要学会像老师那样思考和回答问题,但又不能完全照抄老师的答案,因为照抄并不能让学生真正学到东西。

于是,研究者们设计了一种叫"在线策略蒸馏"的方法,英文缩写是OPD。它的工作方式是这样的:先让学生自己独立回答一个问题,写出一段文字;然后让老师逐字审阅学生的回答,在每一个字的位置上告诉学生:"如果是我,在这里我会怎么写?"学生就根据这些反馈来调整自己的参数。

这种方法之所以比"直接看老师写的答案学"(即离线蒸馏)更好,是因为学生用的是自己生成的文字来练习,避免了一种叫"训练与测试分布不匹配"的问题——通俗地说,就是避免了"练习时用的题和考试时用的题不一样"的尴尬。

然而,这里藏着一个被大家长期忽视的效率问题:假设一段回答有1000个字,老师要逐字给出反馈,学生也要在1000个位置上分别计算损失、更新参数。但这1000个字里,有多少是学生早就写对了的?有多少是学生完全没有困惑的?对这些字的反复练习,会不会是在浪费计算资源——就像那个把已经背熟的单词反复默写的学生一样?

---

二、这项研究提出的核心问题:哪些"字"最值得学?

研究团队为每一个字(在AI领域被称为"词元"或token)设定了两把尺子来衡量它的学习价值。

第一把尺子叫"学生熵",衡量的是学生在这个位置有多么拿不准。把它想象成学生做选择题时的心跳速率:心跳越快,说明越纠结,越不确定选A还是选B;心跳很平稳,说明这道题一眼就知道答案。熵高,代表学生很困惑;熵低,代表学生很自信。

第二把尺子叫"师生分歧",衡量的是在这个位置上,老师的想法和学生的想法差距有多大。这恰好就是OPD训练中本来就要计算的每个位置的损失值,无需任何额外计算。

把这两把尺子交叉组合,就能把所有字分成四种类型,研究团队用Q1到Q4来命名,形成了一张二维地图。Q1是学生很困惑、同时老师也很不赞同的字——这是最密集的学习信号,相当于学生在岔路口迷路,且走错了方向;Q2是学生困惑、但老师基本认可的字——学生不确定但大致方向对,需要巩固;Q3是学生非常自信、但老师强烈反对的字——这是"过度自信型错误",学生以为自己对,其实大错特错;Q4是学生很自信、老师也赞同的字——这些字已经学会了,几乎没有练习价值。

---

三、那个最容易被忽略的盲区:Q3型错误

Q1、Q2两种字,用"学生熵"这把尺子就能识别出来,因为这两种情况下学生都是困惑的(熵高)。但Q3完全不同——学生在这里熵极低,表现得极度自信,偏偏老师强烈反对。

这就好比一个学生在考卷上非常笃定地写下了一个错误答案,连笔迹都格外工整——正因为他太确定了,任何"筛选不确定题目重点练习"的系统都不会标记这道题,结果这个系统性的错误就永远得不到纠正。

研究团队通过论文中的定理证明了这一点:任何只依赖"学生熵"来筛选词元的方法,在数学结构上都无法区分"自信且正确"(Q4)和"自信且错误"(Q3)这两种情况。这不是某个具体方法的缺陷,而是所有只看学生自身不确定性的方法都会面临的根本性局限。

具体来说,论文给出了一个定理(Proposition 2):如果一个评分函数的输出完全由学生熵决定,且在熵为零时输出为零,那么无论这个函数形式如何设计,Q3词元的得分都会接近零——即被抛弃。然而,Q3词元实际上可能具有显著的学习价值,因为老师在这里强烈纠正了学生的系统性错误偏见。

论文中的定性案例很能说明问题。有一道关于多项式的数学题,学生在某个位置以99.8%的概率选择写字母"k"(重复套用题目中的变量符号),而老师有49.9%的概率认为这里应该写具体数字"2"——这意味着下一步推导本应代入一个具体数值,而非继续用抽象符号泛泛而谈。学生的熵只有0.02,极度自信,但整个推理路径从这里开始就走偏了。另一个案例是一道求和问题:学生以91.2%的概率写下了16+72+72+36+4=190,而老师认为正确答案应该是200(概率60%)或192(概率25%)——学生算错了加法,且对这个错误高度确信。这类词元,正是Q3的典型代表。

---

四、研究团队设计的解决方案:软OR评分

既然"学生熵"单独作为筛选标准存在盲区,研究团队就设计了一个更全面的评分方式,叫做"软OR评分"(Soft-OR score)。

这个名字来自逻辑运算中的"或"(OR):只要两个条件之一成立,结果就为真。对应到词元筛选,就是:只要学生的困惑程度高,或者师生分歧大,这个词元就值得关注。两个条件都满足(Q1)则得分最高;只满足一个(Q2或Q3)也有一定得分;两者都不满足(Q4)得分才接近零。

具体的数学形式是把归一化后的学生熵和归一化后的师生分歧做一个特定的组合:最终得分 = 熵 + 分歧 - 熵×分歧。这个公式之所以这样设计,是为了避免"双重计数"——当熵和分歧都很高时,不会让得分简单地等于二者之和(那样Q1的优势会被过分夸大),而是通过减去乘积项来做校正,使得分自然地落在0到1之间。

这个评分是完全无需额外参数调节的,因为它用的两个原料——学生熵和师生分歧——在OPD的标准训练流程中本来就要算,完全不需要额外的计算步骤。唯一多出来的操作是对这两个值做一个最大最小归一化,以及对所有词元按得分排序,这点额外计算量相比模型的前向传播和反向传播几乎可以忽略不计。

---

五、实验验证:这套理论在真实训练中管用吗?

研究团队在多个不同规模和家族的模型对上进行了全面验证,涵盖了数学推理和智能体规划两个任务领域。数学推理方面,他们测试了三个师生配对:Qwen3系列的8B(老师)教4B(学生),Llama系列的700亿参数教80亿参数,以及Qwen2.5系列的140亿参数教15亿参数。这三个配对跨越了不同模型家族和不同能力差距,其中Qwen2.5的配对容量差距约达9倍。评测基准包括MATH-500(500道数学题)和AIME 2024/2025(竞赛级难题)。

关于高熵词元(Q1/Q2)的实验结果,直接保留50%的词元(按学生熵排序取最高的一半)就已经能够匹配甚至超越全量词元训练的效果。对于Qwen3的配对,MATH-500的准确率从76.7%提升到了78.6%;对于Llama的配对,从71.0%提升到了74.0%。与此同时,显存占用大幅下降——Qwen3配对的峰值显存从72.0GB降至38.1GB,下降幅度约47%;Qwen2.5配对则从35.8GB降到了19.7GB。这说明大量的低熵词元(Q4)确实只是在稀释梯度信号,把它们丢掉反而有好处。

然而随着保留比例进一步降低到20%乃至10%,纯熵策略的优势开始消退,部分基准甚至出现了性能下滑,这印证了Proposition 2的预测:被丢掉的低熵词元中确实藏着有价值的Q3信号。

关于Q3词元的专项实验更能说明问题。研究团队设计了一套"过度自信筛选"程序:先算出老师对学生回答的正向KL散度(衡量老师认为学生遗漏了多少重要信息),再乘以学生的置信度(即1减去归一化熵),得到Q3得分。取最高Q3得分的词元,训练集的规模仅占所有词元的不到10%。结果令人咋舌:对于Qwen3配对,仅训练5700个过度自信词元,MATH-500准确率就达到了76.1%,与训练全量词元的76.7%几乎持平;Llama配对的Q3-20%版本在MATH-500上反而比基线略高(71.8% vs 71.0%);Qwen2.5配对在AIME'24上Q3训练以2.5%的结果与基线持平,在某些条件下甚至超过基线。这证明Q3词元确实携带着高度密集的纠错信号,尽管它们在熵的视角下几乎是"隐形的"。

关于软OR的综合效果,在数学推理任务上,软OR始终优于纯熵策略。以Qwen3配对为例,MATH-500上软OR-50%达到79.1%,超过熵-50%的78.6%和基线的76.7%;AIME'24上软OR-50%达到25.7%,而熵-50%为23.8%,基线为21.9%;AIME'25上软OR-20%达到23.2%,明显高于熵-20%的21.5%。Llama配对同样如此,AIME'25上软OR-20%达到10.9%,熵-20%为10.0%,基线仅4.9%。

研究团队还做了一个反向验证实验:把软OR得分最低的50%词元拿去训练,看看会发生什么。结果Qwen3配对的MATH-500准确率从基线的76.7%跌到了72.3%,AIME'24从21.9%跌到了15.5%。低分词元的性能远远差于高分词元,证明软OR的筛选确实在区分有价值和无价值的信号,而不是随机噪声。

---

六、智能体规划任务中的新发现

研究团队还把TIP框架应用于一个完全不同的任务领域——DeepPlanning基准,这是一个测试AI能否完成复杂长期规划的基准,包括多日旅行规划和多商品购物规划,需要AI在满足一系列约束(预算限制、饮食限制等)的前提下制定可行方案。老师模型使用Qwen3的140亿和320亿参数版本,学生是Qwen3的17亿参数版本。

这个任务的结论和数学推理任务有所不同,尤其在Q3词元上呈现出更强的主导效果。使用全量词元训练(OPD基线)的准确率:140亿老师版为11.7%,320亿老师版为12.8%。而仅使用20%的Q3词元训练,两个版本的准确率分别提升到12.6%和13.6%,均明显超过了全量训练。

研究团队对此的解释是:规划任务中,单个错误的代价极高。一旦AI过于自信地把一个不可用的场地加入行程,或者违反了某个预算约束,整个计划就可能全部作废。正因如此,Q3类型的错误——那些AI非常确信但实际上是系统性错误的决策点——在规划任务中比在数学推理中更为集中,也更加致命。纠正这些错误点,哪怕数量极少,也能带来远大于预期的性能提升。

在Best@16(即16次独立生成中最佳一次的成绩)这一指标上,结论同样成立。软OR-20%在使用140亿老师时达到20.3%,高于基线的18.9%;Q3-20%在使用320亿老师时达到20.1%,高于基线的19.7%。这意味着纠正过度自信的错误,不仅提高了平均表现,还扩展了AI能够解决的问题上限。

关于老师的熵是否有用,研究团队也做了明确检验。答案是否定的。对三个模型家族的实测表明,老师模型的分布极度确定——Qwen3老师的平均熵仅为0.031,Llama老师的平均熵也只有0.067,每个位置的最高概率词元的概率中位数高于0.79。一个几乎在所有位置上都非常确信的老师,其"熵"这个信号几乎是一个常数,完全没有区分度。研究团队还专门测试了一种"自适应KL损失"——根据老师的熵来调整每个位置的训练权重——结果这种方法在各个基准上都没有带来稳定的性能提升,进一步确认了老师熵是一个无效的特征。真正有用的两个维度,永远是学生自己的状态(它有多困惑)和师生之间的差距(老师与学生的意见分歧有多大)。

---

七、理论支撑:为什么是这两个维度?

研究团队不仅给出了实验结论,还从理论上解释了为什么应该是这两个维度。

他们给出了一个"预言权重"的分析框架(Proposition 1):在一步梯度更新的视角下,最有价值的词元,是那些梯度方向与整体损失下降方向高度对齐、同时梯度幅度不会过度膨胀的位置。用直观语言来说,就是那些"如果在这里练习,模型进步最大"的位置。

通过分析四个象限的梯度特性,可以推断出理论上的价值排序是Q1 > Q2 > Q3 >> Q4。Q1的价值最高,因为学生在这里既困惑(梯度能量分散在词汇表多个候选上,使得梯度范数适中)又被老师纠正(梯度方向与下降方向强烈对齐);Q2价值其次;Q3虽然学生很自信(梯度幅度小),但老师强烈纠正意味着梯度方向对齐度非零,因此有实际价值;Q4两个条件都不满足,价值可以忽略。

然后,Proposition 2证明了任何只依赖熵的函数(只要在熵为零时输出为零)都无法给Q3赋予非零权重。而Remark 2进一步说明,软OR评分通过在熵接近零但分歧大的情况下保留非零输出,恰好弥补了这一结构性盲区,同时保持了对Q4(两者都低)的抑制,也不影响对Q1(两者都高)的高度重视。

---

说到底,这项研究做的事情,就是在AI学习过程中引入了一套更精准的"练习资源分配方案"。以往,AI训练要么对所有词元一视同仁,要么只根据学生自己的困惑程度来筛选需要重点练习的词元。这样做遗漏了那些"学生高度自信但实际错误"的关键纠错时机,就像一个学生因为自己不觉得这道题难就跳过了,结果在考试中栽了跟头。

TIP框架的贡献在于把师生分歧这个维度纳入了筛选标准,填补了这个盲区。只保留50%的词元,内存占用下降近一半,准确率不降反升;只保留不到10%的"过度自信型错误词元",成绩仍接近全量训练的水平;在规划类任务中,这种方法甚至能以更少的训练超越全量训练。

这对普通用户意味着什么?更高效的训练方法,在有限的计算资源下就能训练出更优秀的小模型,使得高质量AI能力的部署成本大幅降低。在规划类任务中的特别突出表现,也暗示这套方法在智能助手、自动驾驶规划等依赖精确决策的应用场景中可能有着更广泛的价值。

研究团队也坦诚地指出了目前工作的局限:检测Q3词元需要老师的完整输出分布(不过这在OPD训练中本来就有);软OR使用的是批次内的最大最小归一化,对离群点可能有些敏感;所有实验都用了反向KL作为损失函数,在正向KL或JS散度下的象限排序是否成立仍是开放问题,值得后续研究探索。

对这套方法感兴趣的读者,可以通过arXiv编号2604.14084查阅完整的技术细节,研究团队还开源了训练代码库,支持在有限GPU预算下进行内存高效的蒸馏训练。

---

Q&A

Q1:TIP框架中"过度自信词元"(Q3)为什么会被普通基于熵的方法遗漏?

A:Q3词元的特征是学生模型在这个位置的熵极低,也就是学生对自己的预测非常确定。而基于熵的筛选方法逻辑上只关注"学生不确定的地方",熵低的位置会被直接跳过。但Q3恰恰是学生自信却错误的位置,老师强烈反对学生的选择,只有引入师生分歧这个维度才能识别出来。这一局限不是某个具体方法的设计缺陷,而是所有只看学生熵的方法都会面临的数学结构性问题。

Q2:软OR评分(Soft-OR)和直接把熵与分歧相加有什么区别?

A:直接相加会导致Q1词元(熵高且分歧大)的得分被过度放大,因为两个高值直接叠加。软OR用的公式是"熵 + 分歧 - 熵×分歧",减去乘积项可以防止双重计数,让最终分数自然落在0到1之间。效果上,Q1仍然得分最高,Q2和Q3各自因为一个维度较高而获得中等得分,Q4两者都低所以得分接近零——这和理论推导出的理想权重排序完全吻合,而且不需要任何额外的超参数调节。

Q3:TIP方法在规划类任务中效果为什么比数学推理更突出?

A:在数学推理中,一个位置的错误通常是局部的,后续步骤还有机会纠正。但在旅行规划这类任务中,一个错误的确定性决策(比如选择了一个不符合预算的酒店)会直接导致整个方案不可行,错误的代价极高。Q3词元代表的正是这种"AI非常确信但实际上是系统性错误"的关键决策点,在规划任务中这类词元的影响更集中,因此专门针对Q3的训练在规划任务中能带来更大的性能跃升。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-