
这项由中国科学院信息工程研究所、中国科学院大学网络空间安全学院与京东科技联合完成的研究,于2026年4月发表在预印本平台arXiv上,论文编号为arXiv:2604.20733。感兴趣的读者可以通过该编号查询完整论文。
**一、训练一个会推理的AI,比想象中难得多**
人工智能领域近几年有一个越来越热门的方向,叫做"强化学习训练推理模型"。简单说,就是让AI通过不断尝试和犯错,自己摸索出正确答案——有点像人类在学解题时,通过做大量练习题、对答案、纠正错误,逐渐掌握解题方法。
DeepSeek-R1这类模型的走红让大家意识到,这种训练方式效果惊人。但实际操作起来,它有一个根本性的难题:在训练的早期阶段,AI很难自己凑出正确答案,就好比一个从未接触过微积分的学生,让他自己乱写也很难写对。这时候,有效的学习信号几乎等于零,训练进展极其缓慢。而到了训练的中后期,AI又会陷入另一个困境——它开始变得"守旧",只会用有限的几种固定思路去解题,不再探索新方法,于是学习曲线就出现了一个平台期,怎么训练都上不去了。
研究团队把这个训练过程比作一个学生自学的旅程,并提出了一个核心问题:既然AI自己很难突破瓶颈,能不能给它找一个"助手"来提供一些有益的参考答案?
**二、找来高手帮忙,为什么反而更糟?**
一个直观的想法是:既然AI自己做不对,就让一个"更聪明"的老师来示范正确答案,AI照着学不就好了?
这正是现有研究尝试过的方向。一类方法是从外部引入一个更强大的AI(比如GPT-4)来生成高质量的参考答案,让正在训练的AI去模仿。另一类方法是把AI自己在训练中偶尔做对的题目收集起来,以后反复拿出来复习。
然而实验证明,这两种方法都存在明显的问题。
引入外部"名师"的问题,在于名师的思路和学生的思路相差太远。就好比你让一个普通初中生去临摹一位数学博士写的解题过程,博士的推理跨度太大,初中生完全看不懂中间的逻辑跳跃,学了也学不进去。技术上说,就是两个AI之间的"分布差异"太大,导致训练过程不稳定,学习效率反而下降。研究中提到的LUFFY方法就是这条路线的代表,结果它在某些测试集上甚至比完全不用外部老师的基础版本还要差。
而反复复习历史做对题目的方法,问题则在于"天花板太低"。你复习的都是过去某个阶段自己做对的题,但那时候的你比现在还差,拿着过去的答案反复练,充其量只能回到以前的水平,并不能真正突破当前的上限。
研究团队把这两个维度用两个字母来表示:Q代表"信息质量",也就是参考答案比当前AI强多少;V代表"稳定性代价",也就是用这个参考答案训练时会引入多少噪音和不稳定性。理想的助手应该Q高V低,但现有方法要么Q高V也高(名师太遥远),要么V低Q也低(历史答案太陈旧)。
**三、最好的老师,其实是"稍微领先一点的自己"**
研究团队想到了一个听起来颇为巧妙的解法。
既然外部名师太远,历史的自己太弱,那如果参考的对象是"稍微比现在强一点点的自己",会怎么样?
具体来说,假设AI现在训练到了第100步,你让它继续训练到第120步,然后用第120步的AI来给第100步的AI提供参考答案。第120步的AI比第100步的AI稍微强一点,能解出一些第100步解不了的题;同时两者只差了20步训练,思路和风格几乎完全一致,不存在"名师太遥远"的问题。这样,Q足够高,V足够低,两者的比值S也就达到了最优。
这就是这篇论文提出的核心方法,叫做**近未来策略优化**(Near-Future Policy Optimization,NPO)。名字里的"近未来",指的就是这个"稍微领先一点的自己"。
研究团队还通过实验测量了这个"领先距离"的最优值。他们发现,从训练第0步出发时,大约领先20步最好;从训练第50步出发时,大约领先70步最好。距离太近,强度不够,参考价值有限;距离太远,两者的思路开始出现明显差异,引入的噪声会淹没信息质量的提升。这个最优距离的存在,从理论和实验两个层面都得到了验证。
**四、具体怎么操作?像给试卷"偷偷补全一道答案"**
明白了原理,可以来看看NPO实际上怎么运作。
在常规的强化学习训练中,每道题AI会自己生成一组答案(比如8个),然后系统会评判哪些答案对、哪些答案错,再根据评判结果来调整AI的参数。这个过程完全依赖AI自己的能力,如果AI连一个正确答案都生成不了,这道题就没有任何学习价值。
NPO做的事情非常简单:在这8个答案中,保留前7个是AI自己生成的,但把第8个答案替换成"近未来的自己"(也就是稍微领先几十步的那个检查点)提前生成并验证正确的答案。这样一来,即使当前AI对这道题完全没有头绪,学习过程依然能得到一个正确答案的样本,训练得以继续。
而且,这个替换有一个门槛设定:只有当AI对这道题的8个答案中,正确率低于某个阈值(比如60%)时,才触发替换。如果AI自己已经能轻松解这道题,就没必要引入外部答案,一切照常进行。这样既保留了AI自主探索的空间,又在AI陷入困境时及时给予援助。
另一个值得一提的技术细节是,由于"近未来的自己"和"当前的自己"只差了几十步训练,两者的答题风格极为相似,不需要额外的复杂校正公式(即所谓的重要性采样修正)。实验证明,把这个修正完全省掉,效果几乎没有任何差别,训练也更简单高效。相比之下,引入外部名师的方法如果省掉这个修正,训练会直接崩溃,这从侧面说明NPO的近距离特性是多么难得的优势。
**五、两次关键干预:让学习曲线在早晚两个阶段都出现突破**
研究团队通过两次有针对性的实验验证了NPO在不同训练阶段的效果。
第一次叫做"早期引导"。在训练最开始的阶段,AI几乎不会做题,绝大多数答案都是错的,学习信号几近为零。研究团队先让AI跑了一段"侦察训练",得到一个稍微强一点的检查点,然后从头开始正式训练,在最初的阶段用这个侦察检查点来提供参考答案。结果,早期阶段的收敛速度大约快了2.1倍——原本可能需要200步才能达到的性能水平,现在不到100步就能到达。
第二次叫做"后期突破"。训练到中期之后,AI进入了平台期,学习曲线不再上升。研究团队让AI继续往后训练,在平台期之后找到一个更强的检查点,然后把训练"倒带"回平台期,用这个更强的检查点提供参考答案,重新训练那段卡住的区间。结果,AI成功突破了平台期,最终性能超越了单纯靠自己训练所能达到的上限。
从图表数据来看,在四个代表性的多模态推理测试集上,纯粹自我训练(GRPO)的平均得分是57.88分;加入早期引导(NPO早期版)之后,平均得分达到62.12分;同时加入早期引导和后期突破之后,平均得分达到62.84分。
**六、AutoNPO:让AI学会自己判断什么时候需要"求助"**
手动决定在哪个时间点介入、要往前看多少步,这件事需要研究人员盯着训练曲线手动判断,费时费力,而且换了不同任务可能就不灵了。
于是研究团队进一步提出了AutoNPO,一个能自动判断介入时机的自适应版本。
AutoNPO持续监控训练过程中的两个信号:训练奖励是否停止增长(反映学习停滞),以及AI输出的多样性是否持续下降(反映探索空间收缩)。当这两个信号同时出现并持续一段时间,系统就会触发一次"预警"。随后,系统会用当前的AI在一批之前做错的题上跑一次测试,确认AI确实陷入了困境。
确认困境之后,AutoNPO会自动计算:回退多少步最合适?具体来说,系统会对保存好的多个历史检查点分别估算Q和V,选出使S=Q/V最大的那个检查点,然后执行回退和重训练。
AutoNPO还维护了一个叫做"错题池"的动态列表,持续记录那些AI反复做不对的题。这个错题池在三个环节都发挥了作用:触发时用来判断AI是否真的在这些题上停滞;计算最优回退步数时用来评估各个检查点的效果;执行重训练时确定应该在哪些题上优先引入参考答案。
AutoNPO在实验中达到了63.15分的平均分,超过了所有手动介入版本和所有对比基线,而且完全不需要人工监控或手动触发。
**七、和其他方法比,NPO到底强在哪?**
研究团队在8个多模态推理测试集上对多种方法进行了系统比较,测试集涵盖数学视觉推理、多学科知识、细粒度视觉理解等多个维度,使用的基础模型是阿里巴巴的Qwen3-VL-8B-Instruct。
比较的基准方法包括:纯自我训练(GRPO)、引入外部老师的LUFFY、基于历史答案回放的ExGRPO,以及基于远未来模型回放的RLEP。
结果呈现出一个非常清晰的规律,和研究团队从理论上预测的一致。LUFFY虽然信息质量最高,但稳定性代价也最高,在WeMath测试集上甚至出现了退步,总体得分只有58.68分,仅比没有训练的基础模型高出一点点。ExGRPO和RLEP的稳定性更好,但受历史答案质量的限制,最终分别只达到61.16和61.48分。NPO的两个变体(62.84和63.15分)在8个测试集的大多数上都领先于所有对比方法。
从训练过程的动态变化来看,AutoNPO在整个训练过程中维持了比GRPO更高的输出多样性。GRPO的输出多样性会随着训练推进持续下降,表现为AI越来越固执地使用相同的解题套路,而AutoNPO每次介入后,多样性都会短暂回升,帮助AI重新开发新的解题角度,这是最终性能更高的重要原因之一。
**八、研究的更大图景:让AI从自己身上学习**
这篇论文并非孤立的研究,而是研究团队"自学式强化学习"(Self-Taught RLVR)系列研究的第二篇。
该系列的核心思路是探索AI如何从自身的不同维度学习,而不依赖外部数据或外部老师。第一篇研究聚焦于"知情自我",即用携带额外信息的自身版本来辅助训练;这篇NPO研究聚焦于"时间自我",即用稍微靠后的时间节点上的自身来辅助训练;团队还预告了即将推出的第三篇,将探索"并行自我"这一维度。
这个研究框架的意义在于,它试图在不引入任何外部资源的情况下,通过AI与自身不同版本的交互,实现持续的自我提升。
---
归根结底,NPO这个方法的本质是一个务实的工程洞察:训练中的AI其实每一步都在生成"更好的自己",与其向外求助,不如向前一点的自己求助。这个"前一点"的距离,恰好在信息质量和稳定性之间取得了最好的平衡。
实验数据表明,在平均得分上,从57.88分提升到63.15分(提升超过5分),对于一个多模态推理模型来说是相当可观的进步,而这几乎完全来自对训练过程本身的重新设计,没有引入任何额外的外部数据。
对于关心AI训练效率和性能上限的人来说,这项工作提供了一个不依赖外部资源的新思路,可能在资源受限场景或希望保持模型风格一致性的场景中有较高的实用价值。感兴趣的读者可以通过arXiv编号2604.20733查阅完整论文。
---
**Q&A**
Q1:近未来策略优化(NPO)和直接用更强的AI来辅助训练有什么本质区别?
A:NPO用的是同一次训练过程中稍微靠前几十步的检查点,而不是外部更强大的AI模型。两者的核心区别在于"距离":外部更强AI的思路和当前模型差异很大,模型学不进去,训练还会不稳定;NPO的"近未来自己"只差几十步,思路几乎一致,既比当前模型强一点,又不会引入太多噪声,所以学习效率更高。
Q2:AutoNPO的自动介入机制是怎么判断应该回退多少步的?
A:AutoNPO通过监控训练奖励是否停滞、输出多样性是否下降来判断AI是否陷入困境。确认困境后,系统会对多个历史检查点分别估算"信息质量Q"和"稳定性代价V",选出使Q/V比值最大的那个检查点作为回退目标。这个计算复用了已有的测试数据,不需要额外推理,基本没有额外计算开销。
Q3:NPO方法在实际训练中会不会大幅增加计算成本?
A:基本不会显著增加。NPO在介入之前会用"近未来检查点"对一批题目提前生成并验证答案,缓存起来备用,整个干预窗口(大约40步)内不需要再次调用那个检查点。而且由于"近未来自己"和"当前自己"非常接近,连复杂的概率校正步骤都可以省掉,这反而还节省了一部分计算和存储资源。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。