
这项由浙江大学的杨神智、朱光成等研究者与蚂蚁集团的郑星等人合作完成的研究发表于2025年12月,论文编号为arXiv:2512.13106v1。研究团队提出了一种名为TRAPO的创新训练框架,能够让大型语言模型仅用极少量的标注数据就获得接近甚至超越传统方法的推理能力。
当我们谈论训练AI模型的推理能力时,就像教一个学生学数学一样。传统的方法需要大量带有标准答案的习题,就好比老师准备了成千上万道有答案的练习题供学生练习。但这种方法有个致命缺点:准备这么多标准答案需要耗费巨大的人力和时间成本,特别是在医学、金融等专业领域,获得准确答案更是难上加难。
研究人员发现了一个有趣现象:当AI模型在学习过程中表现出相似的"学习轨迹"时,往往意味着它们掌握了相同的推理模式。这就像两个学生在解同一类数学题时,如果他们的解题思路和步骤相似,通常说明他们都掌握了正确的解题方法。基于这个洞察,TRAPO框架应运而生。
TRAPO的核心思想可以用"师生互助学习"来比喻。少量带标准答案的题目就像经验丰富的老师,而大量没有标准答案的题目则像是同班同学。TRAPO会观察每个"学生"(无标注样本)在学习过程中的表现轨迹,找出那些学习模式与"老师"(有标注样本)相似的"同学",然后让这些表现良好的"同学"也参与到教学过程中。
一、突破传统训练瓶颈的新思路
在人工智能领域,强化学习一直是训练模型推理能力的重要方法。传统的强化学习依赖大量带有准确答案的训练数据,这种方法被称为"监督强化学习"。就像一个严格的数学老师,必须为每道练习题都提供标准答案,学生通过对比自己的答案和标准答案来判断对错,进而调整解题策略。
然而这种方法面临着一个严重问题:获得大量高质量的标注数据成本极高。在数学推理领域,每个问题都需要专业人员提供准确答案;在更复杂的领域如医学诊断或法律分析,标注成本更是天文数字。为了解决这个问题,研究者们开始探索无监督强化学习方法,试图让模型在没有标准答案的情况下自己学会推理。
无监督方法的基本思路是让模型通过内部一致性来评判答案质量。比如让模型对同一个问题生成多个答案,然后采用"少数服从多数"的原则,或者根据模型对自己答案的信心程度来判断答案好坏。这种方法就像让学生们自己组成学习小组,通过讨论和投票来决定答案的对错。
但是,无监督方法存在一个致命缺陷:它容易陷入"错误共识"的陷阱。当模型在训练后期开始产生系统性偏见时,它可能会越来越自信地给出错误答案。这就像一群学生如果一开始就理解错了某个概念,他们在讨论时会互相强化这种错误理解,最终形成稳固但错误的共识。研究团队将这种现象称为"模型坍塌"。
TRAPO的创新之处在于提出了一种半监督的解决方案。它巧妙地结合了监督和无监督两种方法的优势:用少量标注数据作为"指南针"来指引方向,用大量无标注数据作为"练习材料"来提升能力。这种方法不仅大大降低了标注成本,还能避免无监督方法的模型坍塌问题。
研究结果令人震撼:使用仅1000个标注样本和3000个无标注样本,TRAPO就能达到42.6%的平均准确率,超过了使用45000个无标注样本的最佳无监督方法的38.3%准确率。更令人惊喜的是,当使用4000个标注样本和12000个无标注样本时,TRAPO甚至超越了使用全部45000个标注样本的完全监督方法,而标注数据使用量仅为后者的十分之一。
二、学习轨迹相似性:发现可靠样本的关键
TRAPO框架的核心创新在于"轨迹相似性匹配"这一概念。为了理解这个概念,我们可以把AI模型的学习过程想象成学生解题能力的逐步提升。
当一个学生在学习数学时,我们可以记录他每次考试的正确率变化。比如第一次考试正确率是20%,第二次是35%,第三次是50%,以此类推。这个正确率随时间的变化轨迹就反映了这个学生的学习模式和能力发展路径。如果两个学生的学习轨迹相似,比如都是稳步上升且上升速度相近,那么他们很可能掌握了相似的解题方法和思维模式。
TRAPO正是基于这个观察设计的。对于每个训练样本,无论是有标注的还是无标注的,TRAPO都会追踪模型在处理该样本时的"通过率轨迹"——也就是模型在不同训练阶段对该样本给出正确答案的比例变化。
具体来说,在每个训练轮次中,TRAPO会让模型对每个问题生成多个答案(比如8个),然后计算其中正确答案的比例。对于有标注的样本,正确性可以通过与标准答案比较来确定;对于无标注的样本,TRAPO使用"多数投票"的方式生成伪标签,即把最常出现的答案当作正确答案。
随着训练进行,每个样本都会积累一个"通过率轨迹"。TRAPO维护一个"可靠轨迹数据库",最初包含所有有标注样本的轨迹,这些轨迹代表了"正确的学习模式"。然后,TRAPO会计算每个无标注样本的轨迹与这个可靠数据库中平均轨迹的相似度。
相似度计算使用的是余弦相似度,这是一个衡量两个向量方向一致性的数学工具。简单来说,如果两个学习轨迹的"形状"相似——比如都是先慢后快地提升,或者都保持稳定的上升趋势——那么它们的余弦相似度就会很高。
TRAPO设置了两个筛选标准来选择可靠的无标注样本。第一个标准是"取前p%",即选择相似度最高的一定比例的样本。第二个标准是"阈值筛选",即选择相似度超过某个固定阈值的所有样本。这种双重筛选机制既保证了选出的样本质量,又避免了过于保守而错失有价值的样本。
被选中的可靠无标注样本会被加入到训练过程中,它们的轨迹也会更新可靠轨迹数据库,形成一个正向循环。随着训练进行,数据库包含的可靠轨迹越来越多,TRAPO对哪些样本可靠的判断也越来越准确。
这种方法的巧妙之处在于,它不是简单地相信模型的自信度或多数投票结果,而是通过学习动态来判断样本的可靠性。一个样本即使在某个时刻看起来不太对,但如果它的学习轨迹与已知正确样本相似,TRAPO仍会认为它可能包含有价值的信息。相反,即使某个样本当前看起来很有信心,但如果其轨迹与可靠样本差异很大,TRAPO也会保持谨慎。
三、实验验证:少量数据创造最优效果
研究团队在多个数学推理基准测试上验证了TRAPO的效果,结果表明这种方法确实能用极少的标注数据达到卓越的性能。
实验设计采用了严格的对比框架。研究者选择了六个广泛使用的数学推理数据集作为域内测试,包括AIME 2024/2025、AMC、MATH-500、Minerva和Olympiad等国际知名数学竞赛题目。同时,他们还选择了三个域外测试集(ARC-c、GPQA-diamond、MMLU-pro)来评估模型的泛化能力,这些测试集涵盖了开放领域推理、研究生水平科学问题和学术推理等不同类型的任务。
实验的基础模型是Qwen2.5-Math-7B,这是一个专门针对数学推理优化的大型语言模型。研究团队将其与多种对比方法进行比较,包括无监督强化学习方法(如TTRL、自信度最大化、熵最小化等)、监督强化学习方法,以及简单的半监督组合方法。
最令人印象深刻的实验结果来自于数据效率对比。当TRAPO使用1000个标注样本和3000个无标注样本进行训练时,在域内测试中获得了42.6%的平均准确率,而使用45000个无标注样本的最佳无监督方法仅达到38.3%的准确率。这意味着TRAPO用仅仅千分之一的标注数据,就超越了需要大量无标注数据的传统方法。
更令人惊讶的发现是TRAPO在扩大数据规模时的表现。当使用4000个标注样本和12000个无标注样本时,TRAPO在域内测试中达到45.6%的准确率,在域外测试中达到59.7%的准确率。作为对比,使用全部45000个标注样本的完全监督方法分别只达到45.5%和57.3%的准确率。这个结果表明,TRAPO不仅在数据效率上有优势,在绝对性能上也能超越传统方法。
研究团队还进行了跨域泛化实验,这个实验特别有意思。他们用1000个数学领域的标注样本作为指导,配合1000个非数学领域的无标注样本进行训练。这种设置模拟了现实中常见的情况:我们在某个领域有少量高质量数据,但希望模型能够处理其他相关领域的问题。
实验结果显示,即使在这种跨域设置下,TRAPO仍然表现出色。在域内数学推理任务中达到41.0%的准确率,在域外任务中达到56.9%的准确率,分别比最佳无监督基线高出1.8%和3.5%。这个结果证明了TRAPO的轨迹匹配机制确实能够识别出跨域的可靠推理模式。
为了验证方法的普适性,研究团队还在其他模型上测试了TRAPO。在LLaMA-3.1-8B-Instruct模型上,TRAPO同样表现出一致的改进效果。在DeepSeek-R1-Distill-Qwen-1.5B这个更小的模型上,TRAPO也展现了良好的泛化能力,证明这种方法不依赖于特定的模型架构。
研究团队还进行了详细的消融实验,分析了TRAPO各个组件的贡献。他们发现,轨迹相似性匹配是性能提升的关键因素,而简单的半监督组合(直接将监督和无监督目标相加)只能带来边际改进。这验证了他们的核心假设:重要的不是简单地结合两种方法,而是要找到正确的方式来识别和利用可靠的无标注样本。
四、理论基础:为什么学习轨迹如此重要
TRAPO方法的成功并非偶然,而是有着深厚的理论基础。研究团队从神经切线核理论和域适应理论两个角度为这种方法提供了严格的数学证明。
神经切线核理论是近年来深度学习理论研究的重要突破。简单来说,这个理论表明,当神经网络足够宽(有足够多的参数)时,网络的训练行为可以用一个固定的核函数来近似。这就像用一个万能公式来预测网络在训练过程中的变化。
在TRAPO的情境下,这个理论有着特殊的含义。当两个推理问题在语义上相似时,模型在处理它们时的"梯度方向"也会相似。梯度可以理解为模型参数的调整方向,就像指南针指向的方向一样。如果两个问题的梯度方向相似,意味着模型在学习解决这两个问题时采用了相似的策略。
研究团队证明了一个重要定理:在神经切线核框架下,如果两个问题的梯度具有高度相似性,那么它们的学习轨迹(通过率随时间的变化)也会高度相似。这为TRAPO的核心假设提供了理论支撑——学习轨迹相似确实反映了推理模式的相似性。
更重要的是,研究团队还证明了轨迹一致性如何转化为泛化性能的改进。他们建立了一个泛化误差界限,表明当无标注样本的轨迹与标注样本轨迹越相似,模型在目标任务上的泛化误差就越小。这个界限包含几个关键组成部分:源域(标注数据)上的经验风险、轨迹不一致性带来的惩罚、以及模型置信度相关的正则化项。
这个理论结果非常重要,因为它不仅解释了TRAPO为什么有效,还为进一步改进提供了指导。比如,理论表明提高模型在标注数据上的性能、增强轨迹一致性、以及提升模型置信度都有助于改善最终的泛化性能。
研究团队还从域适应的角度分析了TRAPO。域适应是机器学习中的一个重要概念,它研究如何让在一个领域训练的模型能够在另一个相关领域工作。在TRAPO的设定中,标注数据可以看作源域,无标注数据可以看作目标域。
传统的域适应方法通常需要显式地对齐两个域的特征分布,这在实践中往往很困难。TRAPO的创新在于,它通过轨迹匹配隐式地实现了域对齐。当无标注样本的学习轨迹与标注样本相似时,它们在某种意义上属于"同一个域",因此可以安全地用于训练。
理论分析还揭示了TRAPO的一个重要性质:随着训练进行,可靠轨迹数据库会变得越来越准确,从而形成一个正向反馈循环。这解释了为什么TRAPO能够稳定地改进性能,而不会像无监督方法那样出现模型坍塌。
五、实际应用前景与局限性
TRAPO方法的成功为人工智能在资源受限环境下的应用开辟了新的可能性。在许多实际应用场景中,获得大量高质量标注数据既困难又昂贵,TRAPO提供了一个切实可行的解决方案。
在医疗领域,TRAPO的潜在价值尤为突出。医疗诊断数据的标注需要专业医生投入大量时间,而且不同医生的判断可能存在差异。如果能够用少量由权威专家标注的病例作为"指南针",结合大量未标注的医疗记录进行训练,就可能大大降低构建医疗AI系统的成本。
金融风控领域也面临类似挑战。虽然金融机构拥有海量交易数据,但准确标注哪些交易涉及欺诈需要昂贵的人工审查。TRAPO可以利用少量确认的欺诈案例来识别具有相似模式的可疑交易,从而提升整个风控系统的效率。
在法律服务领域,TRAPO可以用于训练法律文档分析和案例推理系统。法律专家的时间宝贵,但法律文档数量庞大。通过用少量专家标注的关键案例指导大量法律文档的学习,可以构建更智能的法律AI助手。
教育技术也是TRAPO的一个重要应用方向。个性化学习系统需要理解每个学生的学习模式,但收集每个学生的详细学习数据成本很高。TRAPO可以用少量精心设计的测试题目作为"锚点",结合学生在其他练习中的表现来更好地评估和预测学习效果。
然而,TRAPO也存在一些局限性需要注意。首先,这种方法对标注数据的质量要求很高。如果用作"指南针"的标注数据本身存在错误或偏见,可能会误导整个学习过程。因此,在应用TRAPO时,需要特别注意标注数据的选择和质量控制。
其次,TRAPO的效果在很大程度上依赖于标注数据和无标注数据之间的相关性。如果两者的分布差异太大,轨迹匹配可能失效。这在跨域应用中尤其需要注意,可能需要针对性的预处理或特殊设计。
计算成本是另一个考虑因素。虽然TRAPO减少了标注成本,但需要额外的计算来追踪学习轨迹和计算相似度。在大规模应用中,这些额外计算可能成为瓶颈。
最后,TRAPO目前主要在推理任务上得到验证,其在其他类型任务(如图像生成、语言翻译等)上的效果还有待进一步研究。不同类型的任务可能需要不同的轨迹定义和相似度计算方法。
六、技术细节与实现要点
TRAPO的成功实现需要仔细处理多个技术细节。理解这些细节对于实际应用这种方法至关重要。
轨迹计算是TRAPO的核心组件。对于每个训练样本,系统需要在每个训练轮次记录模型的表现。具体来说,模型会对同一个问题生成多个答案(通常是8个),然后计算其中正确答案的比例。这个比例就是该轮次的"通过率"。
通过率的计算方式略有不同,取决于样本是否有标注。对于有标注的样本,通过率就是生成答案中与标准答案匹配的比例。对于无标注样本,TRAPO使用多数投票机制:把出现次数最多的答案当作"伪标准答案",然后计算与这个伪答案匹配的生成答案比例。
随着训练进行,每个样本会积累一个通过率序列,比如[0.2, 0.3, 0.5, 0.7],表示在前四个训练轮次中的通过率变化。这个序列就是所谓的"学习轨迹"。
相似度计算使用余弦相似度,这是一个标准的向量相似性度量。在计算前,轨迹向量会被标准化,确保比较的是轨迹的"形状"而非绝对数值。研究团队发现,相比于欧几里得距离等其他度量,余弦相似度更能捕捉学习模式的相似性。
样本选择策略是TRAPO的另一个关键设计。系统维护一个"可靠轨迹数据库",最初包含所有标注样本的轨迹。在每个训练轮次,系统会计算每个无标注样本轨迹与数据库中平均轨迹的相似度,然后使用两个标准选择可靠样本:选取相似度最高的前p%样本,以及所有相似度超过阈值Γ的样本。
温热启动机制确保系统在早期训练阶段的稳定性。在前几个训练轮次中,TRAPO只使用标注数据进行训练,同时收集无标注样本的轨迹信息。这个"预热"阶段让模型建立基础能力,避免在训练初期因为轨迹信息不足而做出错误判断。
参数设置在实际应用中需要根据具体情况调整。研究团队在实验中发现,前10%的相似度阈值(top-p=0.1)和0.4的固定阈值(Γ=0.4)在多数情况下效果较好。预热阶段长度通常设为8-10个训练轮次,但具体数值需要根据数据规模和任务复杂度调整。
损失函数的设计保持了简洁性。TRAPO使用标准的GRPO(Group Relative Policy Optimization)目标函数,只是在计算无标注数据的损失时加入了选择掩码。具体来说,只有被标记为"可靠"的无标注样本才会对梯度更新产生贡献。
实现过程中还需要注意内存管理。存储所有样本的完整轨迹可能消耗大量内存,特别是在大规模数据集上。一个实用的优化是只保留最近若干轮次的轨迹信息,或者使用压缩的轨迹表示。
并行化处理可以显著提升训练效率。轨迹相似度计算是高度并行的操作,可以利用GPU加速。同时,样本选择和数据库更新也可以与梯度计算并行进行,减少额外的计算开销。
TRAPO框架展现出了良好的模块化设计,可以与不同的基础优化算法结合。研究团队验证了它与多种无监督强化学习方法的兼容性,包括熵最小化、自信度最大化和多数投票等。这种灵活性使得TRAPO可以作为一个通用的改进组件,提升现有方法的效果。
说到底,TRAPO为我们展示了一种全新的思考方式:在机器学习中,有时候问题不在于我们拥有多少数据,而在于如何聪明地利用有限的高质量数据来指导对大量普通数据的学习。这种"少而精"指导"多而广"的策略,不仅在技术上实现了突破,更在实用性上为资源受限的AI应用开辟了新路径。
通过巧妙的轨迹匹配机制,TRAPO证明了AI系统可以像人类学习者一样,通过观察学习过程中的模式和规律来判断信息的可靠性。这种能力让AI在面对有限监督信号时仍能保持高效学习,避免被错误信息误导。
对于普通用户而言,TRAPO的成功意味着未来可能出现更多高质量但成本较低的AI应用。无论是个人助手、教育工具还是专业分析软件,都可能因为这种高效的训练方法而变得更加智能和实用,同时保持相对亲民的价格。这项研究发表在arXiv平台上,编号为2512.13106v1,有兴趣深入了解技术细节的读者可以通过该编号查找完整论文。
Q&A
Q1:TRAPO是什么?它解决了什么问题?
A:TRAPO是由浙江大学和蚂蚁集团联合开发的半监督强化学习框架,主要解决大型语言模型训练中标注数据成本过高的问题。它能让AI模型用极少量的标准答案配合大量无标准答案的数据进行学习,就像用少数几个好老师指导一大群学生互相学习。
Q2:TRAPO如何判断哪些无标注数据是可靠的?
A:TRAPO通过追踪每个样本在训练过程中的"学习轨迹"来判断可靠性。它观察模型在处理不同问题时正确率的变化模式,如果某个无标注样本的学习轨迹与已知正确样本相似,就认为这个样本包含有价值的信息,可以用于训练。
Q3:使用TRAPO方法能节省多少标注成本?
A:实验显示TRAPO能大幅节省标注成本,用4000个标注样本配合12000个无标注样本的效果,甚至超过了使用45000个全标注样本的传统方法。这意味着标注工作量可以减少到原来的十分之一,同时还能获得更好的效果。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。