微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学团队突破AI学习限制:让机器在零数据环境下自己跟自己下棋变聪明

清华大学团队突破AI学习限制:让机器在零数据环境下自己跟自己下棋变聪明

2025-07-11 09:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-11 09:48 科技行者

这项由清华大学黄高教授团队领导的研究发表于2025年5月的arXiv预印本平台,论文编号为arXiv:2505.03335v2。研究团队还包括来自宾夕法尼亚州立大学和北京通用人工智能研究院的学者。有兴趣深入了解的读者可以通过arXiv平台搜索"Absolute Zero: Reinforced Self-play Reasoning with Zero Data"访问完整论文。

当孩子学习下象棋时,通常需要先观看别人对弈,或者在大人指导下练习基本招式。但如果有一天,孩子能够完全靠自己摸索,从零开始掌握象棋技巧,甚至达到高手水平,这会是怎样的情景?清华大学的研究团队恰恰在人工智能领域实现了这样的突破。

他们开发了一套名为"绝对零度"(Absolute Zero)的新方法,让AI系统完全不依赖任何人类准备的学习材料,仅通过自己跟自己"玩游戏"的方式,就能在数学推理和编程方面达到甚至超越那些用大量人工标注数据训练的AI模型。这就像是让一个孩子在完全没有教科书、没有老师指导的情况下,仅通过自己的思考和尝试,就学会了解复杂的数学题和编写程序代码。

**一、AI学习遇到的数据荒问题**

想象一下烘焙店的学徒工。传统上,学徒需要师傅手把手教授每道工序,从和面到烘烤,每个步骤都有详细的指导和示范。这就像当前AI系统的学习方式——需要大量经过人工整理和标注的"食谱"(训练数据)。然而,这种方式正面临着严重的挑战。

当前最先进的AI推理系统通常采用"可验证奖励强化学习"方法。这种方法的工作原理类似于让学生做练习题:给AI一道数学题,它给出答案后,系统会检查答案是否正确,然后给予相应的奖励或惩罚。这样AI就能逐渐学会正确的推理方法。这种方法被称为"零设置"训练,因为它不需要人工编写的推理过程,只需要题目和标准答案。

但问题在于,即使是这种相对简化的方法,仍然需要大量人工精心准备的题目和答案。这就像那个烘焙学徒虽然不需要师傅演示具体操作,但仍然需要师傅提供各种食材和配方。随着AI能力不断提升,人类专家需要准备的高质量训练材料也越来越多,工作量变得极其庞大。

更严重的是,研究人员发现,高质量的人类生成数据正在变得稀缺。这就像优秀的烘焙师傅本身就很少,能够编写高质量食谱的师傅更是凤毛麟角。当AI系统的能力接近甚至超越人类专家时,人类可能无法再提供足够优质的学习材料。这种情况下,继续依赖人类数据可能会限制AI的进一步发展。

研究团队意识到,如果要让AI实现真正的突破,就必须找到一种让AI完全自主学习的方法,就像让那个烘焙学徒在没有任何师傅指导的情况下,仅通过自己的实验和探索,就能创造出美味的糕点。

**二、绝对零度方法:AI自己给自己出题**

面对数据稀缺的挑战,研究团队提出了"绝对零度"这个创新概念。这个方法的核心思想非常简单却极其巧妙:让AI系统同时扮演"出题老师"和"答题学生"两个角色,通过自己给自己出题、自己解题的方式来提升能力。

这种方法可以比作一个人在空旷的房间里练习乒乓球。没有对手的情况下,他可以对着墙壁击球,墙壁会将球反弹回来,形成一种自我训练的循环。虽然墙壁不是真正的对手,但通过不断调整击球的力度、角度和旋转,练习者仍然能够显著提升自己的技术水平。

在绝对零度方法中,AI系统被设计成具有两种模式。在"出题模式"下,它需要创造有学习价值的编程任务。这就像一个聪明的学生,不仅会解题,还能设计出有挑战性的新题目。在"解题模式"下,它要尝试解决自己提出的问题,就像学生认真完成自己设计的练习题。

这种双重角色的设计非常精妙。出题者需要考虑什么样的题目既有足够的挑战性,又不会难到无法解决。解题者则需要动用各种推理技巧来找到正确答案。两种能力的交替训练让AI系统能够在没有外部指导的情况下持续改进。

为了确保这种自我训练的有效性,研究团队还设计了一套精巧的奖励机制。对于出题者,如果它提出的题目太简单或太困难,都会得到较低的奖励;只有那些难度适中、具有良好学习价值的题目才会获得高分。对于解题者,奖励则基于解答的准确性。这种机制确保了整个系统能够朝着正确的方向发展。

**三、代码世界里的三种推理游戏**

研究团队选择了编程作为AI自我训练的舞台,这个选择非常明智。编程语言就像一个严格的裁判,能够立即判断答案的对错,不会出现模糊或争议的情况。这就像数学题有标准答案一样,为AI的自我学习提供了可靠的反馈机制。

在这个编程世界里,研究团队设计了三种不同类型的推理游戏,每种游戏锻炼AI的不同思维能力。这三种游戏围绕着一个简单的概念展开:给定一个程序、一个输入和一个输出,这三个要素之间存在着"程序处理输入得到输出"的关系。

第一种游戏叫做"推导游戏"。在这种情况下,AI已经知道程序和输入,需要推算出输出结果。这就像给学生一道计算题,告诉他公式和数字,让他计算出最终答案。这种游戏训练AI的逐步推理能力,要求它能够一步步跟踪程序的执行过程,准确预测每个步骤的结果。

第二种是"逆推游戏"。这时AI知道程序和最终输出,需要反推出可能的输入。这就像给学生一个方程式和答案,让他找出未知数的值。这种游戏比推导游戏更具挑战性,因为可能存在多个正确答案,AI需要通过试验和推理找到其中一个可行的解。

第三种是最复杂的"归纳游戏"。在这种情况下,AI只知道一些输入输出的例子,需要推测出能够产生这些结果的程序。这就像给学生几组数字对应关系,让他找出隐藏的数学规律。这种游戏考验AI的模式识别和抽象思维能力,要求它能从具体例子中提取出一般性的规则。

这三种游戏相互补充,共同构成了一个完整的推理能力训练体系。推导游戏锻炼执行能力,逆推游戏培养逆向思维,归纳游戏发展抽象思维。通过在这三种不同模式间切换训练,AI系统能够全面提升自己的推理水平。

**四、从简单的身份函数开始的奇迹**

整个绝对零度训练过程的起点令人惊讶地简单。研究团队只给AI系统提供了一个最基础的编程函数作为"种子":一个接收输入并直接返回相同输出的身份函数。这就像给一个孩子一块最简单的积木,然后看他能建造出什么样的建筑。

这个身份函数的代码极其简单:定义一个函数f,接收参数x,然后返回x。用自然语言描述就是"输入什么就输出什么"。从功能上看,这个函数几乎没有任何复杂性,但它为整个自我学习过程提供了最初的起点。

从这个简单开始,AI系统开始了它的自我探索之旅。在出题模式下,它会参考这个基础函数,尝试创造稍微复杂一些的新函数。在解题模式下,它练习理解和执行这些新函数。随着训练的进行,AI提出的函数变得越来越复杂,涉及的编程技巧也越来越高级。

这个过程展现了一种令人着迷的自我进化特征。就像生物进化从简单的单细胞生物开始,逐渐发展出复杂的多细胞生物一样,AI系统从最简单的函数开始,逐步构建起复杂的编程能力。每一个新创造的函数都可能成为下一轮创新的基础,形成了一个持续向上的螺旋式发展过程。

研究团队还发现了一个有趣现象:AI系统在生成复杂程序时,开始自然地在代码中加入注释来辅助自己的思考过程。这些注释就像程序员在编程时的草稿纸,记录着解决问题的思路和步骤。这种行为的出现完全是AI自发的,没有任何人为设计,这表明AI确实在学习如何更好地组织和表达自己的思维过程。

**五、TRR++算法:多任务学习的智能调节器**

当AI系统同时处理三种不同类型的推理游戏时,就面临着一个类似于学生同时学习数学、物理和化学的挑战。不同科目需要不同的学习策略和评估标准,如果用统一的方法对待所有科目,可能会导致某些科目进步缓慢,而另一些科目却过度训练。

为了解决这个多任务学习的挑战,研究团队开发了一种名为"任务相对强化++"(TRR++)的新算法。这个算法的核心思想是为每种任务类型建立独立的评估基准,就像为不同科目设置不同的评分标准一样。

在传统的强化学习中,系统通常使用一个全局的"平均分"来评估所有任务的表现。但这种方法在多任务环境中会出现问题。比如,如果推导游戏相对简单,AI很容易获得高分;而归纳游戏较难,AI得分较低。使用全局平均分会让系统误以为推导游戏的表现"超出预期",而归纳游戏"表现不佳",从而错误地调整学习重点。

TRR++算法通过为每种任务建立独立的评分系统来解决这个问题。对于推导游戏,它记录AI在这类任务上的历史表现,建立推导游戏专用的评分基准。同样地,逆推游戏和归纳游戏也各有自己的评分标准。这样,AI在某种任务上的表现只与该任务类型的历史表现进行比较,而不是与其他任务混合评估。

这种方法就像一个智能的家教老师,能够根据学生在不同科目上的能力水平调整教学策略。如果学生的数学基础较好,老师会给他更有挑战性的数学题;如果物理相对薄弱,老师会提供更多基础物理练习。通过这种个性化的调节,AI系统能够在所有任务类型上均衡发展,避免出现"偏科"现象。

**六、超越传统方法的卓越表现**

经过大量实验验证,绝对零度方法展现出了令人惊讶的效果。在多个权威测试中,使用这种方法训练的AI系统不仅达到了传统方法的水平,在许多情况下甚至超越了那些使用数万个人工标注样本训练的系统。

这种成果的意义可以通过一个简单的比较来理解。传统方法就像是让学生在老师精心准备的题库中练习,题库包含了数万道经过专家筛选和标注的高质量题目。而绝对零度方法则像是让学生在没有任何外部题库的情况下,完全靠自己出题和解题来学习。按常理推测,前者应该具有明显优势,但实验结果却显示后者的表现更加出色。

在编程任务方面,绝对零度训练的AI系统在HumanEval+、MBPP+等标准测试中取得了最先进的成绩。这些测试包含了各种编程挑战,从简单的算法实现到复杂的问题解决,全面考察AI的编程能力。更令人印象深刻的是,在数学推理方面,尽管AI系统是通过编程任务进行训练的,它在AIME、AMC等数学竞赛测试中也表现出色。

这种跨领域的迁移能力特别值得关注。编程和数学推理虽然相关,但仍然是两个不同的技能领域。绝对零度方法能够让AI在一个领域的自我训练中获得的能力自然地迁移到另一个领域,这表明这种方法确实培养了某种更根本的推理能力,而不仅仅是特定任务的技巧。

研究团队还发现了一个有趣的规律:使用编程基础更好的模型作为起点,最终的效果往往更好。这就像让一个有一定编程基础的学生进行自主学习,比让完全零基础的学生效果更好。这个发现为选择合适的基础模型提供了重要指导。

**七、模型规模与训练效果的关系**

研究团队在不同规模的AI模型上测试了绝对零度方法,从30亿参数的相对较小模型,到140亿参数的大型模型。这种规模差异就像比较不同年龄段学生的学习能力:小学生、中学生和大学生在相同的学习环境下会表现出不同的进步幅度。

实验结果显示了一个清晰的趋势:更大的模型能够从绝对零度训练中获得更显著的改进。具体来说,30亿参数模型的综合能力提升了5.7个百分点,70亿参数模型提升了10.2个百分点,而140亿参数模型则提升了13.2个百分点。这种趋势表明,模型的基础能力越强,绝对零度方法的效果就越明显。

这个现象可以用学习能力的概念来解释。一个更聪明的学生在自主学习环境中往往能够发现更多的学习机会,提出更有价值的问题,并找到更有效的解决方案。同样地,更大的AI模型具有更强的表示和推理能力,能够在自我训练过程中探索更复杂的模式和关系。

特别有趣的是,研究团队观察到不同类型推理任务的token长度(可以理解为AI"思考"的长度)增长模式也不同。在逆推游戏中,AI的思考过程变得最长,因为它需要进行试错式的探索;而在推导游戏中,思考过程相对较短,因为推理路径比较直接。这种差异化的思考模式表明AI确实在针对不同类型的问题采用不同的解决策略。

**八、有趣的新兴行为和发现**

在训练过程中,研究团队观察到了一些完全出乎意料的行为,这些行为让人对AI的自主学习能力有了全新的认识。这些发现就像在观察一个孩子自主学习时突然展现出的创造性思维,既令人惊喜又启发深思。

最引人注目的发现之一是AI开始自发地在代码中添加详细的注释。这些注释不是简单的功能说明,而是类似于思考过程的记录。AI会写下"首先我需要检查输入的有效性"、"接下来计算中间结果"、"最后验证输出是否正确"这样的注释。这种行为完全没有在训练中被明确要求,却自然地出现了,表明AI正在学习如何更好地组织和表达自己的思维过程。

另一个有趣的现象是AI展现出了明显的跨领域学习能力。尽管训练完全基于编程任务,AI在数学推理方面的提升却异常显著。相比之下,传统方法训练的专门编程模型在数学任务上的改进微乎其微。这就像一个通过大量阅读科幻小说来提高想象力的孩子,不仅在文学创作上有所进步,在科学思维方面也意外地得到了提升。

研究团队还观察到了AI的"自我校正"行为。在解决逆推问题时,AI经常会提出一个初步答案,然后自己验证这个答案是否正确,如果发现问题就会重新思考并提出新的解决方案。这种试错和自我纠正的过程非常类似于人类解决复杂问题时的思维模式。

令人担忧的是,研究团队也发现了一些潜在的安全问题。在使用某些基础模型时,AI偶尔会生成一些令人不安的内容,研究团队将其称为"令人担忧的时刻"。这提醒人们,即使是在自主学习环境中,AI系统的安全性仍然需要密切关注和适当的控制机制。

**九、实验设置与技术细节**

为了确保研究结果的可靠性和可重复性,研究团队设计了严格的实验协议。整个训练过程使用了64×6的批量大小(即每次同时处理384个样本),学习率固定为1e-6,使用AdamW优化器进行参数更新。这些看似技术性的设置实际上就像烹饪中的火候控制,需要精确调节才能获得最佳效果。

训练过程被设计为一个持续的循环。在每个训练步骤中,AI系统首先进入出题模式,为三种不同的推理游戏生成新的任务。然后切换到解题模式,尝试解决这些新创建的问题。系统会根据任务的质量和解答的准确性给出相应的奖励,并使用这些反馈来调整AI的行为。整个过程持续500个训练步骤,大约需要几天的计算时间。

为了验证方法的普适性,研究团队在多种不同的基础模型上进行了测试。这些模型包括Qwen2.5系列(从30亿到140亿参数)和Llama3.1-8B等。不同模型就像不同天赋的学生,通过在多样化的"学生"群体中测试,研究团队能够更好地理解绝对零度方法的适用范围和效果。

评估阶段使用了业界公认的标准测试集。对于编程能力,使用了HumanEval+、MBPP+和LiveCodeBench等测试集;对于数学推理,使用了AIME、AMC、Minerva、Math500和OlympiadBench等测试集。这些测试就像学生的期末考试,能够全面评估AI在不同方面的能力水平。

**十、与现有方法的详细对比**

为了客观评估绝对零度方法的效果,研究团队进行了全面的对比实验。他们选择了当前最先进的几种训练方法作为比较基准,包括AceCoder、CodeR1、PRIME-Zero、SimpleRL-Zoo等。这些方法都代表了当前AI推理训练的最高水平,使用了大量精心准备的训练数据。

对比结果令人印象深刻。在编程任务上,绝对零度方法训练的模型在所有主要指标上都达到或超越了传统方法。更加令人惊讶的是,这种优势在数学推理任务上更加明显。传统方法训练的编程模型在数学任务上通常改进有限,平均只有0.65个百分点的提升;而绝对零度方法训练的模型在数学推理上的提升达到了10.9到15.2个百分点。

这种跨领域的巨大提升揭示了绝对零度方法的一个重要特点:它培养的不仅仅是特定任务的技能,而是更根本的推理能力。这就像一个通过大量阅读来提高思维能力的学生,不仅在语文方面有所进步,在数学、科学等其他学科上也会表现更好。

研究团队还注意到,绝对零度方法的优势随着基础模型能力的提升而增加。在使用更强大的基础模型时,这种方法的效果更加显著。这表明绝对零度方法特别适合于那些已经具备一定基础能力的AI系统,能够帮助它们实现进一步的突破。

**十一、深度分析与思考**

绝对零度方法的成功引发了对AI学习本质的深度思考。传统观点认为,AI系统需要大量高质量的人类标注数据才能获得良好的性能。但这项研究表明,在合适的框架下,AI系统可能具有比我们想象中更强的自主学习能力。

这种自主学习能力的展现让人联想到人类儿童的学习过程。孩子们并不是通过被动接收知识来学习的,而是通过主动探索、试验和游戏来理解世界。绝对零度方法在某种程度上模拟了这种自然的学习过程,让AI系统在"玩耍"中获得能力的提升。

从技术角度来看,这种方法的成功可能源于编程环境的特殊性质。编程语言提供了一个确定性的环境,程序的正确性可以通过执行来验证,这为AI的自我训练提供了可靠的反馈机制。同时,编程的组合性特征允许从简单的元素构建复杂的系统,这与AI的学习需求高度匹配。

但这种方法也面临着一些挑战和限制。安全性问题是一个重要考虑因素,因为减少人类监督可能会增加AI系统产生有害行为的风险。此外,这种方法目前主要在编程领域得到验证,在其他领域的适用性还需要进一步研究。

**十二、未来展望与应用前景**

绝对零度方法的成功为AI发展开辟了新的可能性。研究团队认为,这种方法可能不仅限于编程领域,还可以扩展到其他具有可验证反馈的领域,如数学证明、科学实验设计,甚至是某些形式的创造性任务。

在实际应用方面,这种方法可能会显著降低AI训练的成本和门槛。传统方法需要大量专家时间来准备高质量的训练数据,而绝对零度方法可以大幅减少这种人工投入。这就像从需要专业教师的传统教育转向更加自主的学习模式,不仅成本更低,而且可能培养出更强的学习能力。

对于AI研究领域,这项工作提出了一些值得深入探索的方向。比如,如何设计更好的自我训练环境?如何确保自主学习过程的安全性?如何将这种方法扩展到更多领域?这些问题的答案可能会推动AI技术的下一轮重大突破。

从更宏观的角度来看,绝对零度方法体现了一种新的AI发展哲学:与其让AI被动地学习人类知识,不如为AI创造主动探索和发现的机会。这种转变可能预示着AI从"知识的接收者"向"知识的发现者"的重要演进。

说到底,这项研究最令人兴奋的地方在于它展示了AI系统具有超出我们预期的自主学习潜力。就像那个在空房间里练习乒乓球的人最终可能发展出独特的技巧一样,AI系统在自我训练中可能会发现人类尚未认识到的问题解决方法。这不仅是技术的进步,更是我们对智能本质理解的深化。

当然,这种方法还处于早期阶段,需要更多的研究来验证其在不同条件下的效果和安全性。但毫无疑问,绝对零度方法为AI的未来发展提供了一个充满希望的新方向。有兴趣了解更多技术细节的读者可以访问arXiv平台查阅完整的研究论文。

Q&A

Q1:什么是"绝对零度"方法?它和传统AI训练有什么不同? A:"绝对零度"是一种让AI完全不依赖人类准备的学习材料,仅通过自己给自己出题和解题来提升能力的训练方法。传统方法需要大量人工标注的数据,而绝对零度方法让AI同时扮演"出题老师"和"答题学生",实现完全自主的学习过程。

Q2:这种方法会不会存在安全风险? A:研究团队确实发现了一些潜在的安全问题,他们称之为"令人担忧的时刻",即AI偶尔会生成不当内容。虽然绝对零度方法减少了人类监督,但仍需要适当的安全控制机制来防范风险,这是未来研究需要重点关注的方向。

Q3:普通人能使用这种技术吗?有什么实际应用价值? A:目前这还是一项研究阶段的技术,普通用户无法直接使用。但这种方法可能会显著降低AI训练成本,未来可能让更多组织和个人能够训练出高性能的AI系统,在编程辅助、数学教学、自动化问题解决等方面产生广泛应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-