微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学提出：让AI"读懂"自己的学习过程，训练效率提升20%

人工智能稀疏自编码器课程学习优化

清华大学提出：让AI"读懂"自己的学习过程，训练效率提升20%

作者：科技行者

2026-06-02 16:34

分享至：

清华大学提出SAERL框架，用稀疏自编码器读取AI模型内部激活信号，自动评估训练数据的多样性、难度与质量，使数学推理训练平均准确率提升3%，收敛速度加快20%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 16:34 • 科技行者

这项由清华大学主导的研究发表于2026年5月，论文编号为arXiv:2605.27354，有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一道关于"自知之明"的AI难题**

每个优秀的老师在备课时都会思考一个问题：这道题对学生来说是太难还是太简单？学生们是否已经掌握了必要的基础知识？这批练习题的质量够不够好？如果能精准回答这三个问题，教学效果自然会大幅提升。

给AI模型做"强化学习训练"，本质上是同一个问题。所谓强化学习训练，通俗地说，就是让模型反复做题、接受评分、不断改进——有点像学生刷题备考。而决定训练效果的，除了训练算法本身，还有一个关键因素：你给模型看的是哪些题、以什么顺序看、哪些题值得看。这就是"数据工程"的工作。

清华大学的研究团队发现，现有的AI训练数据工程几乎清一色地依赖"外部信号"来判断数据好坏——比如人工打分、让模型反复试答来估计难度、用外部程序验证答案是否正确。这些方法固然有效，但有一个共同的痛点：代价高昂，且往往要事先准备好大量标注数据才能运转。

更关键的是，这些方法忽略了一个触手可及的信息来源：模型自己。当AI模型看到一道题的时候，它的内部神经元会产生复杂的激活模式——这些模式里其实已经藏着关于这道题的大量信息：它是什么类型的题，对模型来说有多难，数据本身质量好不好。这就好比一个学生虽然没开口说话，但从他皱眉的方式、翻书的动作、下笔的速度，有经验的老师也能看出他在哪里卡壳了。

清华大学的研究团队提出了一个叫做SAERL的框架，试图系统性地读取模型内部的这些"无声信号"，并用它们来指导训练数据的选择与排序。

**二、稀疏自编码器：给模型内部装一台"翻译机"**

要读懂模型内部的激活信号，首先需要解决一个技术难题：大型语言模型的内部表示是一个高维度、密集的数字向量，几乎无法直接解读其含义。这就好比你拿到一份用古老符号写成的手稿，每个符号单独看毫无意义，必须先有一套解码工具才能读懂其中的信息。

研究团队选用了一种叫做"稀疏自编码器"（Sparse Autoencoder，简称SAE）的工具来充当这台翻译机。SAE的工作原理并不复杂：它把模型内部那个密集、混乱的数字向量，重新映射成一个更大、但大多数位置为零的稀疏向量。这个稀疏向量中，只有少数几个维度会被激活，而这些被激活的维度往往对应着具体的、可解读的概念——比如"这道题涉及积分"，或者"这道题需要用到组合数学"。

一个直观的类比：假设你把一段嘈杂的声音录音转化成乐谱，原始录音里所有声音混在一起无法区分，但乐谱能清晰地告诉你哪个时刻有哪种乐器在演奏。SAE做的事情与此类似，它把模型内部混沌的激活模式分解成清晰的、稀疏的特征信号。

研究团队专门在Qwen3-1.7B模型的第27层激活上训练了一个SAE，扩展因子为64，训练语料包含FineWeb-Edu数据集和维基百科，总计80GB文本，在4张A100 GPU上训练约29小时。这个SAE随后被作为一个通用工具，用来提取其他模型在处理数学题时的内部信号——相当于用一台通用翻译机来解读不同人说话时的共同规律。

对每一道训练题，研究团队会分别提取模型在读题阶段和解题阶段的SAE激活向量，并对每个阶段分别做"均值池化"和"最大值池化"——前者捕捉整体稳定的激活模式，后者捕捉局部的强烈激活信号。将这四个向量拼接起来，就得到一个960维的SAE表示向量。再加上26个描述题目表面特征的元数据（如题目长度、公式密度、数字密度等），就构成了每道题的完整特征表示。

**三、SAE能感知什么：三项令人意外的发现**

在正式提出训练框架之前，研究团队先做了一系列验证实验，想知道SAE提取到的特征里，到底藏着哪些有用的信息。结果发现，模型内部的激活模式对三种数据属性都有相当强的预测能力。

第一项发现关于数据的多样性。研究团队使用了一个大规模数学数据集DeepMath，其中每道题都标注了所属的数学主题。他们训练了一个简单的线性分类器，只用SAE特征来预测这道题属于哪个主题类别。结果表明，SAE特征在预测2级主题时准确率达到54.6%，预测3级主题时为37.7%，即便是细分到82个叶节点主题，准确率也有26.6%——而随机猜测的基准线只有7.5%。这说明SAE激活向量里确实编码了数学语义的结构信息，不同类型的数学题在SAE空间里会被自然地聚集到不同区域。

第二项发现关于数据的难度。研究团队用一个叫做ElasticNet的轻量级回归模型，只用3000道有难度标注的样本来训练，再去预测其他题目的难度分数。在同一数据集内，SAE特征预测难度的斯皮尔曼相关系数达到0.749，说明特征与难度之间有很强的单调关系。即便跨越数据集（即训练数据和测试数据来自不同来源），相关系数仍有0.135，加入少量跨域标注数据后更提升到0.286。这意味着SAE特征所捕捉的难度信号不仅仅是表面特征，而是真实反映了模型处理这道题时的"认知负担"。

第三项发现关于数据的质量。研究团队使用了一个叫做PRM800K的数据集，其中每道数学解题步骤都有人工质量标注。他们训练了一个岭回归模型，用SAE特征来预测每道题的综合质量分数。结果显示，纯粹用元数据预测的皮尔逊相关系数为0.2100，而加入SAE特征后提升到0.3715，提升幅度超过75%。这说明SAE特征捕捉到了题目质量中超越表面特征的深层信号。

这三项发现共同指向一个结论：模型内部的激活模式是训练数据的一面"内置镜子"，能折射出数据的多样性、难度和质量，而这些正好对应着数据工程需要解决的三个核心问题。

**四、SAERL框架：三把"数据梳子"各司其职**

基于上述发现，研究团队构建了SAERL这个完整的训练数据工程框架。整个流程可以用"先筛米、再排序、再调配"来理解——就像做饭前先挑出坏米、再按烹饪顺序排好食材、最后确保每顿饭菜色搭配均衡。

第一把梳子负责"质量筛选"。研究团队首先训练一个质量分类器，它是一个用随机梯度下降训练的线性分类器，只接受SAE特征作为输入，用于判断一道题是否属于目标高质量分布。有了质量分数之后，可以设置一个阈值，或者直接取分数最高的前K道题，从原始数据池中筛出高质量样本。这一步相当于从杂乱的食材堆里先挑出新鲜的、没有损坏的原料。

第二把梳子负责"难度排序"。筛选之后，模型还需要一个合理的学习顺序——从易到难，而不是随机打乱。研究团队用前述的ElasticNet难度代理模型为每道题打一个难度分。由于不同类别的题目可能存在分数尺度上的差异，他们还引入了一个"聚类校正"步骤：先在全局范围内做一次基础校准，再根据每个聚类内部的标注样本估计一个残差修正量，并用样本数量来加权平滑，避免因为某个聚类内标注样本太少而产生过度修正。最终的难度排名结合了全局校准和聚类级别的局部修正，既保持了跨类别的可比性，也尊重了各类题目的内部特性。

第三把梳子负责"批次搭配"。拿到难度排序之后，研究团队并不是简单地把同一聚类的题全堆在一起。他们先用MiniBatchKMeans算法在SAE特征空间中把所有题目聚成10个簇，每个簇内部按难度排序，然后在全局课程中交替地从不同簇抽取批次，保证每个训练阶段都能覆盖不同类型的数学问题。

在此基础上，他们还加入了一个"适度混合"操作：每个批次在配对一个来自邻近训练阶段的"搭档批次"，两者需要满足平均难度相近、平均序列长度相近、但主导聚类不同这三个条件，然后把两个批次各自末尾的一小部分样本互换。这个操作的目的是：在保持批次内部局部连贯性的同时，引入少量跨聚类的多样性，避免模型在同一类型问题上陷入局部最优。

研究团队用一个数学模型解释了为什么"适度混合"比"完全混合"和"完全不混合"都更好：每个批次的平均梯度方向与理想梯度之间存在偏差（聚类局部偏差），适度混入其他聚类的样本可以修正这种偏差；但如果混入过多，不同聚类之间的梯度相互抵消，又会破坏批次内部的梯度一致性，相当于在修正偏差的同时引入了噪声。两害相权，存在一个最优的混合比例，对应一个内部极大值。

**五、实验结果：数字背后的真实改善**

研究团队在数学推理任务上做了系统性验证，选用了Qwen2.5-Math系列的1.5B和7B两个规模的模型，训练数据为DeepMath-103K，批次大小为128，评估基准涵盖从小学级别的GSM8K到竞赛级别的AIME24共6个数学基准测试集。

在最终准确率方面，SAERL配合GRPO算法（SAERLG）在1.5B模型上的平均准确率达到52.4%，比基础GRPO的49.4%提升了3个百分点；配合DAPO算法（SAERLD）则达到52.5%。对比其他数据工程方法，使用人工难度标注的课程学习方法得到50.5%，基于多次试答估计难度的ADARFT方法得到49.9%，使用压缩隐藏层表示做数据选择的GAINRL方法得到49.4%。在7B模型上，SAERLG的平均准确率为61.9%，同样高于基础GRPO的59.9%以及其他所有对比方法。

在训练效率方面，研究团队设定了一个目标准确率，衡量每种方法需要多少步训练才能达到该目标。在1.5B模型上，SAERLD的平均收敛步数为206步，SAERLG为380步，而基础GRPO需要470步，ADARFT需要676步，GAINRL需要523步。这意味着SAERL比基础GRPO减少了大约20%的训练步数，相当于提前完成了同样的学习任务。

在准备成本方面，ADARFT需要通过Avg@16的多次试答来估计每道题的难度，这在103K题目规模下大约需要17.33个H100 GPU小时。相比之下，SAERL只需要3000道有难度标注的样本来训练轻量级难度代理模型，整个103K样本的SAE特征提取只需约0.5个H100 GPU小时。

研究团队还专门测试了SAE用于质量筛选的能力。他们把103022道DeepMath题目和107021道来源数据集NuminaMath-1.5的题目混在一起，构成一个210043道题的原始池，然后看SAE质量探针能否把DeepMath的样本从中识别出来。结果显示，这个探针在验证集上的ROC-AUC达到0.9911，AP（平均精确率）达到0.9910，几乎接近完美分类。使用95百分位数阈值时，保留的103121道题中有95.37%来自DeepMath，同时覆盖了DeepMath原始样本的95.46%。直接取分数最高的5万道题时，DeepMath纯净度更是高达99.92%。

**六、消融研究：拆解每个部件的贡献**

为了验证SAERL中每个组件的实际贡献，研究团队做了一系列"拆零件"实验，逐一去掉不同部件，观察性能如何变化。

去掉难度排序后，平均准确率从52.4%降到49.7%，下降幅度最大，说明"从易到难"的课程顺序是SAERL最核心的贡献之一。同时去掉难度排序和适度混合后，准确率是50.1%，比只去掉难度排序还略好一些，说明在没有难度排序的情况下，混合操作本身的效果有限甚至略微有害。同时去掉聚类和混合（即退化为纯难度排序，不做聚类分组）后，准确率为50.8%，也低于完整的SAERL，说明聚类提供的局部结构对课程的效果有额外贡献，单独的难度排序不足以替代。

为了进一步理解最优混合比例，研究团队系统地测试了mix0（完全不混合）、mix4、mix8、mix16、mix32（混合强度递增）五种配置。结果显示，从mix0到mix8，准确率和收敛速度都在持续改善，mix8在测试集上表现最佳，收敛到43%平均准确率所需的步数也最少。但从mix8继续增大到mix16和mix32，性能反而下降，尽管mix32在SAE空间中测量到的批次多样性数值是最高的。这个倒U形曲线与理论分析完全一致：批次多样性与下游性能之间是凹函数关系，存在一个最优的内部极大值。

批次大小的实验显示，在批次大小为128和512两种情况下，SAERL在Avg@8指标上都优于基础GRPO。在Pass@8指标下，较大批次会缩小两者之间的差距，这可能是因为更大的批次本身就带来了更多的随机多样性，弱化了有序课程的额外价值。

**七、可解释性：SAE聚类在说什么**

研究团队还专门分析了SAE聚类结果的可解释性，这是这项研究中颇为有趣的一个侧面。

首先，他们把SAE产生的10个聚类与DeepMath数据集中的人工标注主题进行对比，发现聚类-主题对齐度很低（纯净度仅0.1095，归一化互信息仅0.0881）。这乍看似乎是个问题，但仔细想想却并不意外：SAE聚类是根据模型内部激活模式形成的，反映的是"模型如何处理这道题"，而不是"人类如何分类这道题"。同一道组合数学题，可能因为解题过程非常短、符号密度低，而被SAE归入"短形式初等代数"聚类，尽管从数学主题角度它属于组合数学。

对10个聚类分别进行人工审阅（研究团队借助AI辅助生成描述，再由作者人工审核）后，可以看出每个聚类都有自己的特点。聚类0主要包含导数应用题，中高难度；聚类3是组合推理题，平均难度最高；聚类6是极限与数列题，主题集中度最高、多样性最低；聚类8是短小的初等代数题，难度最低、解题最短。这些特点表明SAE聚类虽然不复现人类的学科分类，但确实捕捉到了对课程构建有意义的信息：相似的解题风格、相近的推理模式、接近的难度区间。

在特征重要性方面，研究团队训练了一个LightGBM辅助模型来分析哪些特征对难度预测最重要。在重要性排名前20的特征中，有19个来自SAE激活，只有1个是元数据；在前100个特征中，97个来自SAE，3个是元数据。在SAE特征里，解题侧的均值激活（sol_mean）贡献最多，说明整个解题过程中持续激活的特征与难度关系最密切；题目侧的最大值激活（prompt_max）也有一定贡献，反映了题目中局部强激活信号（如特殊数学符号、图形格式提示）的预测价值。

研究团队还对得分最高的几个SAE特征做了"高激活样本审计"：找出激活该特征最强的那些题目，观察它们有什么共同点。结果发现，不同特征分别对应着明显不同的数学语义：有的特征在抽象代数、群论题目上高度激活，有的特征在测度论和高级积分分析题上激活，有的特征在组合图论题上激活，有的特征在初等代数应用题上激活，还有的特征在数论、同余和素数相关题目上激活。这说明SAE确实在某种程度上把数学领域的语义结构编码进了不同的特征维度，尽管同一个SAE特征也可能在多种上下文中被激活，并非严格的"一特征对应一概念"。

**归根结底，训练AI也要"因材施教"**

说到底，SAERL做的事情，和一个经验丰富的老师做的事情高度相似。好老师不会把所有学生当作一样的对待，而是会观察学生的反应——有时候不是通过学生开口说什么，而是通过他们皱眉的方式、举手的时机、写作业的速度——来判断哪道题对他们来说太难、哪批练习题质量不好、这一组学生是否需要更多样化的练习内容。SAERL做的，就是用数学工具让机器也能以类似的方式"观察自己的学生"——只不过这里的学生和老师都是同一个AI模型本身。

这项研究有几个特别值得关注的地方。其一，SAE作为一个通用工具，可以在一个模型上训练，然后用来指导另一个不同系列、更大规模模型的训练，这种迁移能力意味着前期的SAE训练成本可以被摊薄到多个下游应用中。其二，整个框架的前期准备代价非常低——只需要3000道有难度标注的样本，SAE编码整个数据集只要半小时——相比之下，需要反复试答来估计难度的方法要花费数十倍的计算资源。其三，这个框架天然具备可解释性：每道题被放在哪个聚类、难度分是多少、批次混合时和哪道题搭配，都可以被追溯和审查。

当然，这项研究也坦诚地指出了自己的局限。目前所有实验都在数学推理这个有标准答案可验证的领域进行，这为强化学习提供了可靠的训练信号；但SAE的方法能否同样有效地用于代码生成、工具使用、多步骤决策或者通用指令跟随，还需要进一步验证。此外，尽管减少了大量人工标注的需求，SAERL并非完全无需监督——难度代理模型仍然需要少量有难度标注的样本，质量探针也需要有数据来源标签。未来的工作可以探索更弱形式的监督信号，甚至完全无监督的课程构建方式。

这项研究为AI训练数据工程打开了一扇新的窗口：与其一味向外部寻求昂贵的反馈信号，不如让模型"回头看看自己"，从内部激活中挖掘已经存在但被忽视的丰富信息。有兴趣的读者可以通过arXiv:2605.27354进一步了解这项研究的所有技术细节和实验数据。

Q&A

Q1：SAERL框架和普通的强化学习训练有什么区别？

A：普通的强化学习训练通常随机打乱训练数据，或者依赖外部评分（比如让模型多次试答来估计难度）来决定数据顺序。SAERL则是直接读取模型内部的激活信号，通过稀疏自编码器把这些信号转化成可以衡量的多样性、难度和质量指标，用来在训练开始之前就把数据排好顺序、筛好质量，整个过程不需要反复试答，前期准备成本低得多。

Q2：稀疏自编码器在不同模型之间能通用吗？

A：从这篇论文的实验来看，可以有一定程度的通用性。研究团队在Qwen3-1.7B上训练的SAE，被用来提取Qwen2.5-Math-1.5B和7B两个不同系列、不同规模模型的训练数据特征，最终仍然带来了明显的性能提升。这说明SAE捕捉到的某些数学语义结构在不同模型之间是共通的，但跨越更大差异（比如完全不同的架构或语言）是否依然有效，还需要进一步验证。

Q3：为什么批次多样性太高反而会让训练效果变差？

A：这是一个梯度优化层面的权衡问题。每个批次的训练信号实际上是批次内所有样本梯度的平均。如果批次内的题目类型过于统一，模型只在一个小方向上进步，存在系统性偏差；但如果题目类型完全混杂，不同方向的梯度相互抵消，模型就好像同时接受了多个矛盾的指令，反而不知道该往哪里走。适度混合在修正偏差和保持方向一致性之间找到了平衡点，所以性能最好。

人工智能稀疏自编码器课程学习优化

分享至