微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学提出:让AI"读懂"自己的学习过程,训练效率提升20%

清华大学提出:让AI"读懂"自己的学习过程,训练效率提升20%

2026-06-02 16:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-02 16:34 科技行者

这项由清华大学主导的研究发表于2026年5月,论文编号为arXiv:2605.27354,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一道关于"自知之明"的AI难题**

每个优秀的老师在备课时都会思考一个问题:这道题对学生来说是太难还是太简单?学生们是否已经掌握了必要的基础知识?这批练习题的质量够不够好?如果能精准回答这三个问题,教学效果自然会大幅提升。

给AI模型做"强化学习训练",本质上是同一个问题。所谓强化学习训练,通俗地说,就是让模型反复做题、接受评分、不断改进——有点像学生刷题备考。而决定训练效果的,除了训练算法本身,还有一个关键因素:你给模型看的是哪些题、以什么顺序看、哪些题值得看。这就是"数据工程"的工作。

清华大学的研究团队发现,现有的AI训练数据工程几乎清一色地依赖"外部信号"来判断数据好坏——比如人工打分、让模型反复试答来估计难度、用外部程序验证答案是否正确。这些方法固然有效,但有一个共同的痛点:代价高昂,且往往要事先准备好大量标注数据才能运转。

更关键的是,这些方法忽略了一个触手可及的信息来源:模型自己。当AI模型看到一道题的时候,它的内部神经元会产生复杂的激活模式——这些模式里其实已经藏着关于这道题的大量信息:它是什么类型的题,对模型来说有多难,数据本身质量好不好。这就好比一个学生虽然没开口说话,但从他皱眉的方式、翻书的动作、下笔的速度,有经验的老师也能看出他在哪里卡壳了。

清华大学的研究团队提出了一个叫做SAERL的框架,试图系统性地读取模型内部的这些"无声信号",并用它们来指导训练数据的选择与排序。

**二、稀疏自编码器:给模型内部装一台"翻译机"**

要读懂模型内部的激活信号,首先需要解决一个技术难题:大型语言模型的内部表示是一个高维度、密集的数字向量,几乎无法直接解读其含义。这就好比你拿到一份用古老符号写成的手稿,每个符号单独看毫无意义,必须先有一套解码工具才能读懂其中的信息。

研究团队选用了一种叫做"稀疏自编码器"(Sparse Autoencoder,简称SAE)的工具来充当这台翻译机。SAE的工作原理并不复杂:它把模型内部那个密集、混乱的数字向量,重新映射成一个更大、但大多数位置为零的稀疏向量。这个稀疏向量中,只有少数几个维度会被激活,而这些被激活的维度往往对应着具体的、可解读的概念——比如"这道题涉及积分",或者"这道题需要用到组合数学"。

一个直观的类比:假设你把一段嘈杂的声音录音转化成乐谱,原始录音里所有声音混在一起无法区分,但乐谱能清晰地告诉你哪个时刻有哪种乐器在演奏。SAE做的事情与此类似,它把模型内部混沌的激活模式分解成清晰的、稀疏的特征信号。

研究团队专门在Qwen3-1.7B模型的第27层激活上训练了一个SAE,扩展因子为64,训练语料包含FineWeb-Edu数据集和维基百科,总计80GB文本,在4张A100 GPU上训练约29小时。这个SAE随后被作为一个通用工具,用来提取其他模型在处理数学题时的内部信号——相当于用一台通用翻译机来解读不同人说话时的共同规律。

对每一道训练题,研究团队会分别提取模型在读题阶段和解题阶段的SAE激活向量,并对每个阶段分别做"均值池化"和"最大值池化"——前者捕捉整体稳定的激活模式,后者捕捉局部的强烈激活信号。将这四个向量拼接起来,就得到一个960维的SAE表示向量。再加上26个描述题目表面特征的元数据(如题目长度、公式密度、数字密度等),就构成了每道题的完整特征表示。

**三、SAE能感知什么:三项令人意外的发现**

在正式提出训练框架之前,研究团队先做了一系列验证实验,想知道SAE提取到的特征里,到底藏着哪些有用的信息。结果发现,模型内部的激活模式对三种数据属性都有相当强的预测能力。

第一项发现关于数据的多样性。研究团队使用了一个大规模数学数据集DeepMath,其中每道题都标注了所属的数学主题。他们训练了一个简单的线性分类器,只用SAE特征来预测这道题属于哪个主题类别。结果表明,SAE特征在预测2级主题时准确率达到54.6%,预测3级主题时为37.7%,即便是细分到82个叶节点主题,准确率也有26.6%——而随机猜测的基准线只有7.5%。这说明SAE激活向量里确实编码了数学语义的结构信息,不同类型的数学题在SAE空间里会被自然地聚集到不同区域。

第二项发现关于数据的难度。研究团队用一个叫做ElasticNet的轻量级回归模型,只用3000道有难度标注的样本来训练,再去预测其他题目的难度分数。在同一数据集内,SAE特征预测难度的斯皮尔曼相关系数达到0.749,说明特征与难度之间有很强的单调关系。即便跨越数据集(即训练数据和测试数据来自不同来源),相关系数仍有0.135,加入少量跨域标注数据后更提升到0.286。这意味着SAE特征所捕捉的难度信号不仅仅是表面特征,而是真实反映了模型处理这道题时的"认知负担"。

第三项发现关于数据的质量。研究团队使用了一个叫做PRM800K的数据集,其中每道数学解题步骤都有人工质量标注。他们训练了一个岭回归模型,用SAE特征来预测每道题的综合质量分数。结果显示,纯粹用元数据预测的皮尔逊相关系数为0.2100,而加入SAE特征后提升到0.3715,提升幅度超过75%。这说明SAE特征捕捉到了题目质量中超越表面特征的深层信号。

这三项发现共同指向一个结论:模型内部的激活模式是训练数据的一面"内置镜子",能折射出数据的多样性、难度和质量,而这些正好对应着数据工程需要解决的三个核心问题。

**四、SAERL框架:三把"数据梳子"各司其职**

基于上述发现,研究团队构建了SAERL这个完整的训练数据工程框架。整个流程可以用"先筛米、再排序、再调配"来理解——就像做饭前先挑出坏米、再按烹饪顺序排好食材、最后确保每顿饭菜色搭配均衡。

第一把梳子负责"质量筛选"。研究团队首先训练一个质量分类器,它是一个用随机梯度下降训练的线性分类器,只接受SAE特征作为输入,用于判断一道题是否属于目标高质量分布。有了质量分数之后,可以设置一个阈值,或者直接取分数最高的前K道题,从原始数据池中筛出高质量样本。这一步相当于从杂乱的食材堆里先挑出新鲜的、没有损坏的原料。

第二把梳子负责"难度排序"。筛选之后,模型还需要一个合理的学习顺序——从易到难,而不是随机打乱。研究团队用前述的ElasticNet难度代理模型为每道题打一个难度分。由于不同类别的题目可能存在分数尺度上的差异,他们还引入了一个"聚类校正"步骤:先在全局范围内做一次基础校准,再根据每个聚类内部的标注样本估计一个残差修正量,并用样本数量来加权平滑,避免因为某个聚类内标注样本太少而产生过度修正。最终的难度排名结合了全局校准和聚类级别的局部修正,既保持了跨类别的可比性,也尊重了各类题目的内部特性。

第三把梳子负责"批次搭配"。拿到难度排序之后,研究团队并不是简单地把同一聚类的题全堆在一起。他们先用MiniBatchKMeans算法在SAE特征空间中把所有题目聚成10个簇,每个簇内部按难度排序,然后在全局课程中交替地从不同簇抽取批次,保证每个训练阶段都能覆盖不同类型的数学问题。

在此基础上,他们还加入了一个"适度混合"操作:每个批次在配对一个来自邻近训练阶段的"搭档批次",两者需要满足平均难度相近、平均序列长度相近、但主导聚类不同这三个条件,然后把两个批次各自末尾的一小部分样本互换。这个操作的目的是:在保持批次内部局部连贯性的同时,引入少量跨聚类的多样性,避免模型在同一类型问题上陷入局部最优。

研究团队用一个数学模型解释了为什么"适度混合"比"完全混合"和"完全不混合"都更好:每个批次的平均梯度方向与理想梯度之间存在偏差(聚类局部偏差),适度混入其他聚类的样本可以修正这种偏差;但如果混入过多,不同聚类之间的梯度相互抵消,又会破坏批次内部的梯度一致性,相当于在修正偏差的同时引入了噪声。两害相权,存在一个最优的混合比例,对应一个内部极大值。

**五、实验结果:数字背后的真实改善**

研究团队在数学推理任务上做了系统性验证,选用了Qwen2.5-Math系列的1.5B和7B两个规模的模型,训练数据为DeepMath-103K,批次大小为128,评估基准涵盖从小学级别的GSM8K到竞赛级别的AIME24共6个数学基准测试集。

在最终准确率方面,SAERL配合GRPO算法(SAERLG)在1.5B模型上的平均准确率达到52.4%,比基础GRPO的49.4%提升了3个百分点;配合DAPO算法(SAERLD)则达到52.5%。对比其他数据工程方法,使用人工难度标注的课程学习方法得到50.5%,基于多次试答估计难度的ADARFT方法得到49.9%,使用压缩隐藏层表示做数据选择的GAINRL方法得到49.4%。在7B模型上,SAERLG的平均准确率为61.9%,同样高于基础GRPO的59.9%以及其他所有对比方法。

在训练效率方面,研究团队设定了一个目标准确率,衡量每种方法需要多少步训练才能达到该目标。在1.5B模型上,SAERLD的平均收敛步数为206步,SAERLG为380步,而基础GRPO需要470步,ADARFT需要676步,GAINRL需要523步。这意味着SAERL比基础GRPO减少了大约20%的训练步数,相当于提前完成了同样的学习任务。

在准备成本方面,ADARFT需要通过Avg@16的多次试答来估计每道题的难度,这在103K题目规模下大约需要17.33个H100 GPU小时。相比之下,SAERL只需要3000道有难度标注的样本来训练轻量级难度代理模型,整个103K样本的SAE特征提取只需约0.5个H100 GPU小时。

研究团队还专门测试了SAE用于质量筛选的能力。他们把103022道DeepMath题目和107021道来源数据集NuminaMath-1.5的题目混在一起,构成一个210043道题的原始池,然后看SAE质量探针能否把DeepMath的样本从中识别出来。结果显示,这个探针在验证集上的ROC-AUC达到0.9911,AP(平均精确率)达到0.9910,几乎接近完美分类。使用95百分位数阈值时,保留的103121道题中有95.37%来自DeepMath,同时覆盖了DeepMath原始样本的95.46%。直接取分数最高的5万道题时,DeepMath纯净度更是高达99.92%。

**六、消融研究:拆解每个部件的贡献**

为了验证SAERL中每个组件的实际贡献,研究团队做了一系列"拆零件"实验,逐一去掉不同部件,观察性能如何变化。

去掉难度排序后,平均准确率从52.4%降到49.7%,下降幅度最大,说明"从易到难"的课程顺序是SAERL最核心的贡献之一。同时去掉难度排序和适度混合后,准确率是50.1%,比只去掉难度排序还略好一些,说明在没有难度排序的情况下,混合操作本身的效果有限甚至略微有害。同时去掉聚类和混合(即退化为纯难度排序,不做聚类分组)后,准确率为50.8%,也低于完整的SAERL,说明聚类提供的局部结构对课程的效果有额外贡献,单独的难度排序不足以替代。

为了进一步理解最优混合比例,研究团队系统地测试了mix0(完全不混合)、mix4、mix8、mix16、mix32(混合强度递增)五种配置。结果显示,从mix0到mix8,准确率和收敛速度都在持续改善,mix8在测试集上表现最佳,收敛到43%平均准确率所需的步数也最少。但从mix8继续增大到mix16和mix32,性能反而下降,尽管mix32在SAE空间中测量到的批次多样性数值是最高的。这个倒U形曲线与理论分析完全一致:批次多样性与下游性能之间是凹函数关系,存在一个最优的内部极大值。

批次大小的实验显示,在批次大小为128和512两种情况下,SAERL在Avg@8指标上都优于基础GRPO。在Pass@8指标下,较大批次会缩小两者之间的差距,这可能是因为更大的批次本身就带来了更多的随机多样性,弱化了有序课程的额外价值。

**七、可解释性:SAE聚类在说什么**

研究团队还专门分析了SAE聚类结果的可解释性,这是这项研究中颇为有趣的一个侧面。

首先,他们把SAE产生的10个聚类与DeepMath数据集中的人工标注主题进行对比,发现聚类-主题对齐度很低(纯净度仅0.1095,归一化互信息仅0.0881)。这乍看似乎是个问题,但仔细想想却并不意外:SAE聚类是根据模型内部激活模式形成的,反映的是"模型如何处理这道题",而不是"人类如何分类这道题"。同一道组合数学题,可能因为解题过程非常短、符号密度低,而被SAE归入"短形式初等代数"聚类,尽管从数学主题角度它属于组合数学。

对10个聚类分别进行人工审阅(研究团队借助AI辅助生成描述,再由作者人工审核)后,可以看出每个聚类都有自己的特点。聚类0主要包含导数应用题,中高难度;聚类3是组合推理题,平均难度最高;聚类6是极限与数列题,主题集中度最高、多样性最低;聚类8是短小的初等代数题,难度最低、解题最短。这些特点表明SAE聚类虽然不复现人类的学科分类,但确实捕捉到了对课程构建有意义的信息:相似的解题风格、相近的推理模式、接近的难度区间。

在特征重要性方面,研究团队训练了一个LightGBM辅助模型来分析哪些特征对难度预测最重要。在重要性排名前20的特征中,有19个来自SAE激活,只有1个是元数据;在前100个特征中,97个来自SAE,3个是元数据。在SAE特征里,解题侧的均值激活(sol_mean)贡献最多,说明整个解题过程中持续激活的特征与难度关系最密切;题目侧的最大值激活(prompt_max)也有一定贡献,反映了题目中局部强激活信号(如特殊数学符号、图形格式提示)的预测价值。

研究团队还对得分最高的几个SAE特征做了"高激活样本审计":找出激活该特征最强的那些题目,观察它们有什么共同点。结果发现,不同特征分别对应着明显不同的数学语义:有的特征在抽象代数、群论题目上高度激活,有的特征在测度论和高级积分分析题上激活,有的特征在组合图论题上激活,有的特征在初等代数应用题上激活,还有的特征在数论、同余和素数相关题目上激活。这说明SAE确实在某种程度上把数学领域的语义结构编码进了不同的特征维度,尽管同一个SAE特征也可能在多种上下文中被激活,并非严格的"一特征对应一概念"。

**归根结底,训练AI也要"因材施教"**

说到底,SAERL做的事情,和一个经验丰富的老师做的事情高度相似。好老师不会把所有学生当作一样的对待,而是会观察学生的反应——有时候不是通过学生开口说什么,而是通过他们皱眉的方式、举手的时机、写作业的速度——来判断哪道题对他们来说太难、哪批练习题质量不好、这一组学生是否需要更多样化的练习内容。SAERL做的,就是用数学工具让机器也能以类似的方式"观察自己的学生"——只不过这里的学生和老师都是同一个AI模型本身。

这项研究有几个特别值得关注的地方。其一,SAE作为一个通用工具,可以在一个模型上训练,然后用来指导另一个不同系列、更大规模模型的训练,这种迁移能力意味着前期的SAE训练成本可以被摊薄到多个下游应用中。其二,整个框架的前期准备代价非常低——只需要3000道有难度标注的样本,SAE编码整个数据集只要半小时——相比之下,需要反复试答来估计难度的方法要花费数十倍的计算资源。其三,这个框架天然具备可解释性:每道题被放在哪个聚类、难度分是多少、批次混合时和哪道题搭配,都可以被追溯和审查。

当然,这项研究也坦诚地指出了自己的局限。目前所有实验都在数学推理这个有标准答案可验证的领域进行,这为强化学习提供了可靠的训练信号;但SAE的方法能否同样有效地用于代码生成、工具使用、多步骤决策或者通用指令跟随,还需要进一步验证。此外,尽管减少了大量人工标注的需求,SAERL并非完全无需监督——难度代理模型仍然需要少量有难度标注的样本,质量探针也需要有数据来源标签。未来的工作可以探索更弱形式的监督信号,甚至完全无监督的课程构建方式。

这项研究为AI训练数据工程打开了一扇新的窗口:与其一味向外部寻求昂贵的反馈信号,不如让模型"回头看看自己",从内部激活中挖掘已经存在但被忽视的丰富信息。有兴趣的读者可以通过arXiv:2605.27354进一步了解这项研究的所有技术细节和实验数据。

Q&A

Q1:SAERL框架和普通的强化学习训练有什么区别?

A:普通的强化学习训练通常随机打乱训练数据,或者依赖外部评分(比如让模型多次试答来估计难度)来决定数据顺序。SAERL则是直接读取模型内部的激活信号,通过稀疏自编码器把这些信号转化成可以衡量的多样性、难度和质量指标,用来在训练开始之前就把数据排好顺序、筛好质量,整个过程不需要反复试答,前期准备成本低得多。

Q2:稀疏自编码器在不同模型之间能通用吗?

A:从这篇论文的实验来看,可以有一定程度的通用性。研究团队在Qwen3-1.7B上训练的SAE,被用来提取Qwen2.5-Math-1.5B和7B两个不同系列、不同规模模型的训练数据特征,最终仍然带来了明显的性能提升。这说明SAE捕捉到的某些数学语义结构在不同模型之间是共通的,但跨越更大差异(比如完全不同的架构或语言)是否依然有效,还需要进一步验证。

Q3:为什么批次多样性太高反而会让训练效果变差?

A:这是一个梯度优化层面的权衡问题。每个批次的训练信号实际上是批次内所有样本梯度的平均。如果批次内的题目类型过于统一,模型只在一个小方向上进步,存在系统性偏差;但如果题目类型完全混杂,不同方向的梯度相互抵消,模型就好像同时接受了多个矛盾的指令,反而不知道该往哪里走。适度混合在修正偏差和保持方向一致性之间找到了平衡点,所以性能最好。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-