微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

人工智能学会了"无师自通"：清华大学团队让AI在没有标准答案的情况下自我进化

测试时强化学习人工智能自主学习

人工智能学会了"无师自通"：清华大学团队让AI在没有标准答案的情况下自我进化

作者：科技行者

2025-07-17 09:26

分享至：

清华大学研究团队开发出TTRL技术，让AI无需标准答案即可自我学习。通过"多数投票"机制，AI分析自己的多个解答找出最佳答案并以此改进。在数学竞赛中表现卓越，AIME 2024正确率提升159%。这种"无师自通"能力标志着AI向真正自主智能迈进的重要突破。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-17 09:26 • 科技行者

在人工智能的发展历程中，训练一个聪明的AI通常需要大量的标准答案作为"教材"，就像学生需要老师提供正确答案才能学习一样。然而，清华大学和上海AI实验室的研究团队最近发表了一项突破性研究，他们开发出了一种名为"测试时强化学习"（TTRL）的新方法，让AI能够在没有标准答案的情况下自我学习和进化。这项研究于2025年6月30日发表在arXiv预印本平台上，论文编号为arXiv:2504.16084v3，有兴趣深入了解的读者可以通过https://github.com/PRIME-RL/TTRL 获取相关代码和详细信息。

这项研究的意义就像是教会了AI"无师自通"的能力。在传统的AI训练中，研究人员需要准备大量的问题和标准答案，AI通过不断对比自己的回答和标准答案来学习改进。但在现实世界中，许多新出现的问题并没有现成的标准答案，特别是一些高难度的数学竞赛题目或者全新的科学问题。研究团队想要解决的核心问题是：能否让AI在面对这些没有标准答案的新问题时，仍然能够自我改进？

研究团队的核心发现令人振奋。他们发现，AI可以通过一种类似"集体智慧"的方式来自我学习。具体来说，当AI面对一个没有标准答案的问题时，它会生成多个不同的解答，然后通过"多数投票"的方式找出最可能正确的答案，并以此作为学习的基础。这就像是一群学生在考试时，即使没有老师给出标准答案，他们也可以通过互相讨论、比较各自的答案，最终找到最合理的解答。

更令人惊喜的是，这种方法的效果超出了研究人员的预期。在著名的AIME 2024数学竞赛中，使用TTRL训练的Qwen-2.5-Math-7B模型的正确率从原来的16.7%提升到了43.3%，提升幅度达到159.3%。这意味着AI的解题能力获得了显著提升，而这种提升完全是通过自我学习实现的，没有使用任何额外的标准答案。

一、让AI学会"无师自通"的巧妙方法

TTRL的工作原理可以用一个生动的比喻来理解。假设你面对一道复杂的数学题，但手边没有标准答案。传统的学习方法就像是反复做同一道题，但永远不知道自己做得对不对。而TTRL的方法则不同，它让AI用不同的思路多次解答同一个问题，就像是邀请多个"虚拟同学"一起思考。

在这个过程中，AI首先会针对一个问题生成多个不同的解答方案。研究团队发现，即使AI的整体水平还不够高，但在多个答案中，正确答案出现的频率往往是最高的。这就像是在一群水平参差不齐的学生中，虽然每个人都可能犯错，但正确答案仍然最容易成为"多数派"。

接下来，AI会采用"多数投票"的策略，选择出现频率最高的答案作为"临时标准答案"。然后，AI会根据这个临时标准答案来评判自己的每一个解答尝试，给表现好的解答高分，给表现差的解答低分。通过这种自我评价和改进的循环，AI逐渐学会产生更好的解答。

这种方法的巧妙之处在于，它并不需要外部提供的标准答案，而是通过AI自身的"集体智慧"来产生学习信号。研究人员发现，这种方法特别适合那些有明确对错标准的问题，比如数学题、编程题等，因为这些问题的答案要么对要么错，很容易通过多数投票找到最可能正确的答案。

更有趣的是，TTRL采用了"在线学习"的方式，也就是说AI在解决问题的过程中实时学习和改进。这就像是一个学生在考试过程中不断总结经验，下一道题就能发挥得更好。这种动态学习机制使得AI的能力能够持续提升，而不是停留在原有水平上。

二、令人惊讶的学习效果

研究团队在多个challenging数学竞赛和科学问题上测试了TTRL的效果，结果令人震撼。除了前面提到的AIME 2024数学竞赛，在AMC数学竞赛中，AI的正确率从38.6%提升到67.5%，提升幅度达到74.9%。在MATH-500数学题集上，正确率从50.6%飙升到84.2%，提升幅度为66.4%。

这些数字背后的意义远比表面看起来更加重要。要知道，这些提升完全是在没有任何新的训练数据、没有任何标准答案的情况下实现的。AI仅仅通过观察和分析自己生成的多个答案，就实现了如此显著的性能提升。这就像是一个学生仅仅通过反思自己的多次练习，就大幅提高了考试成绩。

更令研究人员惊喜的是，TTRL展现出了一种"自我超越"的能力。按照常理，AI通过多数投票得出的"临时标准答案"应该是它能力的上限，就像学生小组讨论的结果不应该超过小组中最聪明学生的水平。但实验结果显示，经过TTRL训练的AI最终表现竟然超越了这个理论上限。

这种现象可以用"协同提升"来解释。当AI在学习过程中不断优化自己的回答策略时，它生成的答案质量也在同步提升。这意味着用于多数投票的答案池质量在不断改善，从而产生了一种正向循环：更好的答案导致更准确的投票结果，更准确的投票结果又指导AI产生更好的答案。这就像是一个学习小组，随着每个成员水平的提高，整个小组的讨论质量也在提升，最终达到了超越任何单个成员初始水平的效果。

研究团队还发现，TTRL的效果具有很好的可扩展性。在不同规模的AI模型上，从1.5B参数到32B参数，TTRL都表现出了一致的改进效果。更大的模型往往能产生更准确的多数投票结果，因此也能获得更显著的性能提升。这说明这种方法具有广泛的适用性，不仅仅局限于特定规模或类型的AI模型。

三、为什么这种"无师自通"真的有效

要理解TTRL为什么能够成功，我们需要深入探讨几个关键因素。首先是"幸运命中"现象的作用。即使AI对一个问题给出了错误的标准答案，这个错误答案仍然可能帮助AI学习。

举个具体例子来说明这一点。假设一道数学题的正确答案是3，AI通过多数投票得出的答案是2（错误的）。现在AI生成了8个不同的解答：1、1、2、2、2、4、5、6。按照传统思维，由于标准答案是错误的，AI应该无法正确学习。但实际上，即使使用错误的标准答案2，AI仍然能给大部分错误答案（1、4、5、6）分配低分，只给答案2分配高分。虽然这个评分系统不完美，但它确实帮助AI学会了避免更多类型的错误答案。

这种"幸运命中"现象在AI的答案比较分散时特别有效。研究人员发现，当AI的水平还不够高时，它的错误答案往往非常分散，正确答案或接近正确的答案反而容易成为"相对多数"。这就像是在一群水平不高的学生中，虽然大家都会犯不同的错误，但正确的思路往往是最容易被多人想到的。

另一个关键因素是强化学习本身的鲁棒性。与传统的监督学习不同，强化学习更关注的是行为的相对好坏，而不是绝对的对错。即使奖励信号有一定噪声，强化学习算法仍然能够从中提取有用的信息来改进策略。这就像是在模糊的反馈中寻找改进方向，虽然不是每个反馈都完全准确，但总体趋势仍然是正确的。

在线学习机制也发挥了重要作用。TTRL不是一次性训练完成，而是在解决问题的过程中持续学习。这意味着随着AI能力的提升，它生成的答案质量也在改善，从而产生更准确的多数投票结果。这形成了一个良性循环：更好的能力产生更好的答案，更好的答案产生更准确的学习信号，更准确的学习信号又进一步提升能力。

研究团队还发现，多个候选答案的存在增加了学习的稳定性。在传统的学习方法中，如果某个答案的评判出现错误，可能会严重影响学习效果。但在TTRL中，每次生成多个答案意味着即使某些答案的评判有误，其他答案仍然能提供正确的学习信号。这就像是投资组合中的风险分散原理，多个投资标的可以降低整体风险。

四、方法的局限性与适用边界

虽然TTRL展现出了令人印象深刻的效果，但研究团队也诚实地指出了这种方法的局限性。首先，TTRL的成功很大程度上依赖于AI模型的"先验知识"，也就是说，AI必须具备一定的基础能力才能让这种方法发挥作用。

这可以用登山的比喻来理解。如果一个人完全不会爬山，即使有最好的装备和技巧，也很难攀登高峰。同样，如果AI模型的基础能力太弱，即使使用TTRL，也很难在困难任务上取得突破。研究人员通过实验验证了这一点：在MATH-500数据集的不同难度级别上，TTRL在简单问题上的改进幅度可达175%，但在最困难的问题上，改进幅度下降到75%。

超参数的设置也是一个需要谨慎处理的方面。就像烹饪需要恰当的火候一样，TTRL的成功需要合适的参数配置。研究团队发现，温度参数和训练批次大小对最终效果有显著影响。如果温度设置得太高，AI会产生过于随机的答案，导致多数投票失效；如果设置得太低，AI可能陷入局部最优，缺乏足够的探索性。

另一个重要的局限性是TTRL主要适用于有明确对错标准的问题。在数学题、编程题这类问题上，答案通常是确定的，多数投票容易找到正确答案。但在一些主观性较强的任务上，比如创意写作或开放性讨论，多数投票可能无法提供有效的学习信号。

研究团队还发现，当AI模型的回答过于集中时，TTRL的效果会受到影响。如果AI总是给出相似的答案，多数投票就失去了意义，就像是一个人的多次投票代替不了多人的民主决策。相反，当AI的回答比较分散时，多数投票更容易识别出相对正确的答案。

五、广泛的应用潜力与未来展望

TTRL的成功不仅仅是一个技术突破，更重要的是它开启了AI自主学习的新篇章。这种方法的应用潜力远远超出了数学竞赛的范围。在科学研究中，许多前沿问题都没有现成的标准答案，研究人员需要通过假设、实验、验证的循环来逐步接近真理。TTRL为AI提供了类似的自主探索能力，使其能够在未知领域中进行有效学习。

在软件开发领域，程序员经常面对没有标准解决方案的新问题。传统的AI编程助手主要依赖于已有的代码库和文档，但TTRL使AI能够通过尝试多种编程方案、评估运行结果，自主学习出解决新问题的方法。这就像是让AI具备了程序员的"试错和优化"思维。

教育领域也是TTRL的一个潜在应用方向。传统的AI教学系统需要大量的标准答案数据，但现实中的教学场景往往更加复杂和多样化。TTRL使AI教师能够在缺乏标准答案的情况下，通过观察学生的多种解答方案，自主学习出更好的教学策略。

更令人兴奋的是，TTRL展现出了跨任务泛化的能力。研究团队发现，在某个数学竞赛上训练的AI模型，在其他类型的数学问题上也表现出了改进。这说明AI通过TTRL学到的不仅仅是特定问题的解答技巧，而是更加通用的推理和问题解决能力。

然而，要真正实现TTRL的广泛应用，还需要解决一些技术挑战。首先是计算资源的需求。由于TTRL需要生成多个候选答案，计算成本比传统方法更高。研究团队正在探索更高效的实现方式，比如动态调整候选答案的数量，或者使用更小的模型进行初步筛选。

另一个挑战是如何扩展到更加开放性的任务。目前TTRL主要在有明确评价标准的任务上取得成功，但现实世界中的许多问题都具有主观性和多样性。研究团队正在探索将TTRL与人类反馈相结合的方法，让AI能够在更广泛的任务上进行自主学习。

六、对AI发展的深远影响

TTRL的成功标志着AI发展的一个重要转折点。在此之前，AI的学习主要依赖于人类提供的大量标注数据，这种模式存在明显的瓶颈：标注数据的获取成本高昂，而且人类的标注能力有限。TTRL证明了AI可以在很大程度上摆脱对外部标注的依赖，通过自身的探索和试错来实现能力提升。

这种变化的意义可以用工业革命来类比。在手工业时代，生产完全依赖于工匠的技能和经验；工业革命引入了机械化生产，大大提高了效率和规模。TTRL代表了AI学习的"工业革命"，从依赖人工标注的"手工作坊"模式，转向基于自主学习的"自动化工厂"模式。

从更深层次来看，TTRL体现了AI向真正智能迈进的重要一步。人类智能的一个显著特征就是能够在缺乏明确指导的情况下自主学习和改进。婴儿学习走路时没有详细的教学手册，科学家探索未知领域时没有标准答案，艺术家创作时也没有固定模板。他们都是通过观察、尝试、反思、改进的循环来不断提升自己的能力。TTRL为AI提供了类似的自主学习机制，使其更接近人类的学习方式。

这种发展趋势也带来了一些需要思考的问题。当AI能够自主学习时，我们如何确保它的学习方向是正确的？如何防止AI在自主学习过程中产生有害的行为模式？这些问题需要AI研究社区和政策制定者共同关注和解决。

另一个值得关注的问题是TTRL对AI研究范式的影响。传统的AI研究强调算法的理论性能和在标准数据集上的表现，但TTRL的成功表明，AI在实际应用中的自主学习能力可能更加重要。这可能会推动AI研究向更加实用和动态的方向发展。

七、技术实现的精妙细节

深入了解TTRL的技术实现，我们可以发现其设计的精妙之处。整个系统的核心是一个巧妙的反馈循环：AI模型接收问题输入，生成多个候选答案，通过多数投票选择最可能正确的答案，然后基于这个"参考答案"来评估和改进自己的生成策略。

在具体实现中，研究团队采用了一种叫做GRPO（Group Relative Policy Optimization）的强化学习算法。这个算法特别适合处理有多个候选答案的情况，它不是简单地给每个答案打分，而是比较不同答案的相对质量。这就像是比赛评委不需要给出绝对分数，只需要判断哪个选手表现更好。

为了保证训练的稳定性，研究团队还设计了一套精心调优的参数配置。他们将学习率设置为5×10^-7，使用余弦学习率调度器，并采用AdamW优化器。这些参数的选择都经过了大量实验验证，确保AI既能够有效学习，又不会出现训练不稳定的问题。

在数据处理方面，TTRL采用了一种"先投票后采样"的策略。系统首先生成64个候选答案进行投票，然后从中采样32个用于实际训练。这种设计既保证了投票结果的可靠性，又控制了计算成本。就像是在大选中先进行民意调查，然后基于调查结果进行正式投票。

温度参数的设置也体现了研究团队的深入思考。在不同类型的任务中，他们使用了不同的温度值：对于数学专门模型使用0.6，对于通用模型使用1.0。较高的温度会增加答案的多样性，有助于探索更多可能的解决方案，但也可能引入更多噪声。这种差异化设置体现了对不同模型特性的深刻理解。

八、实验验证的全面性

研究团队进行了极其全面的实验验证，涵盖了多个维度的测试。他们不仅在不同的数学竞赛数据集上验证TTRL的效果，还在不同规模和类型的AI模型上进行了测试。这种全面性确保了研究结果的可靠性和普适性。

在模型选择上，研究团队测试了从1.5B到32B参数的各种规模模型，包括Qwen系列、LLaMA系列、Mistral系列、DeepSeek系列等多个主流AI模型家族。这就像是在不同品牌和型号的汽车上测试同一种燃油添加剂的效果，确保结果具有广泛的适用性。

特别值得注意的是，研究团队还在一些已经经过大量训练和优化的"大型推理模型"（如DeepSeek-R1、Qwen3-8B）上测试了TTRL。这些模型本身已经具备很强的推理能力，但TTRL仍然能在它们的基础上实现进一步改进。这证明了TTRL不仅适用于基础模型，也能为高级模型提供额外的能力提升。

在任务设计上，研究团队选择了具有不同难度级别的数学问题，从相对简单的AMC竞赛题目到极具挑战性的AIME题目，还包括了科学问答任务GPQA。这种多样化的测试确保了TTRL在不同复杂度任务上的有效性。

研究团队还进行了详细的消融实验，分析了TTRL各个组成部分的作用。他们发现多数投票机制是整个系统的核心，在线学习机制提供了持续改进的能力，而强化学习算法则保证了学习的稳定性。这种分析帮助我们理解TTRL成功的根本原因。

九、与传统方法的比较优势

将TTRL与传统的AI训练方法进行比较，可以清楚地看出其独特优势。传统的监督学习就像是"填鸭式教育"，需要大量的标准答案作为教材，AI只能被动地模仿和记忆。而TTRL更像是"启发式教育"，AI通过自主探索和反思来获得能力提升。

在数据需求方面，传统方法需要大量高质量的标注数据，而获取这些数据往往需要专家的参与，成本高昂且耗时。TTRL则完全不需要额外的标注数据，仅凭AI自身生成的答案就能实现学习。这就像是从"需要老师一对一辅导"转变为"学生小组自主学习"。

在适应性方面，传统方法训练完成后，AI的能力基本固定，面对新类型的问题时难以快速适应。而TTRL支持在线学习，AI可以在解决新问题的过程中持续改进。这种适应性使得AI能够更好地应对现实世界中不断变化的挑战。

在泛化能力方面，研究结果显示TTRL训练的模型具有良好的跨任务迁移能力。在一个数学竞赛上训练的模型，在其他类型的数学问题上也表现出了改进。这说明TTRL帮助AI学到的是更加通用的推理能力，而不是特定任务的记忆模式。

从训练效率的角度看，虽然TTRL在单次推理时需要生成多个候选答案，计算成本相对较高，但考虑到它不需要额外的数据收集和标注工作，总体效率仍然具有竞争优势。特别是在那些难以获得大量标注数据的领域，TTRL的优势更加明显。

十、未来发展的无限可能

TTRL的成功为AI发展开辟了新的道路，其未来发展潜力巨大。研究团队已经规划了几个重要的发展方向，每个方向都可能带来革命性的进展。

在理论分析方面，研究团队计划开发TTRL的形式化收敛性分析。目前的研究主要基于经验观察，但深入的理论分析将帮助我们更好地理解TTRL的工作机制，并为进一步优化提供指导。这就像是从经验丰富的工匠发展为理解科学原理的工程师。

在实时学习方面，研究团队正在探索将TTRL扩展到流数据环境中。在这种环境下，AI需要处理持续到达的新问题，并在处理过程中不断学习和适应。这种能力对于实际应用具有重要意义，比如在客服系统中，AI需要根据用户反馈持续改进回答质量。

大规模自监督训练是另一个令人兴奋的发展方向。研究团队设想在海量无标注数据上应用TTRL，让AI能够从互联网上的大量文本中自主学习推理能力。这可能会带来AI能力的根本性提升，就像是让AI获得了在"知识海洋"中自由遨游的能力。

在应用扩展方面，研究团队正在探索将TTRL应用到更加复杂的任务中，比如多步骤的科学推理、创意问题解决、甚至是一些需要主观判断的任务。这些扩展需要克服技术挑战，但成功后将大大拓展AI的应用边界。

说到底，TTRL代表了AI发展的一个重要里程碑。它不仅仅是一种新的训练技术，更是AI向真正自主智能迈进的重要一步。通过让AI学会"无师自通"，我们正在逐步接近创造真正智能系统的目标。这项由清华大学和上海AI实验室联合开展的研究，为整个AI研究领域提供了新的思路和方向，其影响力必将在未来的发展中得到更充分的体现。

对于普通人而言，TTRL的成功意味着未来的AI系统将更加智能和自主，能够在更多领域为人类提供帮助。无论是教育、科研、还是日常生活中的问题解决，这种能够自我学习和改进的AI都将发挥重要作用。有兴趣深入了解这项研究技术细节的读者，可以访问研究团队在GitHub上公开的代码和文档，链接为https://github.com/PRIME-RL/TTRL。

Q&A

Q1：TTRL是什么？它与传统AI训练有什么不同？ A：TTRL是"测试时强化学习"的简称，它让AI在没有标准答案的情况下通过"多数投票"自我学习。传统AI训练需要大量标准答案作为教材，而TTRL让AI通过分析自己生成的多个答案来自主改进，就像学生小组讨论代替老师一对一教学。

Q2：TTRL会不会在所有问题上都有效？ A：不会。TTRL主要适用于有明确对错标准的问题，如数学题、编程题等。对于主观性强的任务（如创意写作），效果可能有限。另外，AI必须具备一定基础能力，如果底子太差，这种方法也难以发挥作用。

Q3：普通人能否使用TTRL技术？ A：目前TTRL还主要是研究阶段的技术，普通用户无法直接使用。但随着技术成熟，未来的AI产品可能会集成这种自我学习能力，让AI助手在使用过程中不断改进。感兴趣的技术人员可以通过GitHub获取相关代码进行研究。

测试时强化学习人工智能自主学习

分享至