微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 无师自通的AI:清华大学研究团队开创"绝对零数据"自学方法,让AI无需人类示例也能成为推理高手

无师自通的AI:清华大学研究团队开创"绝对零数据"自学方法,让AI无需人类示例也能成为推理高手

2025-05-08 10:29
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-08 10:29 科技行者

在我们的日常生活中,学习新技能通常需要老师指导或参考示例。想象一下,如果你要学习烹饪一道从未见过的菜肴,但没有食谱、视频教程,甚至连成品图片都没有,你能做到吗?这听起来几乎是不可能完成的任务。然而,清华大学的Andrew Zhao及其研究团队却让人工智能系统实现了这一壮举。

这项由清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学合作完成的研究于2025年5月发表在arXiv预印本平台(arXiv:2505.03335v2),标题为"Absolute Zero: Reinforced Self-play Reasoning with Zero Data"(绝对零数据:通过自我对弈增强推理能力)。研究团队包括Andrew Zhao、Yiran Wu、Yang Yue、Tong Wu、Quentin Xu、Matthieu Lin、Shenzhi Wang、Qingyun Wu、Zilong Zheng和Gao Huang等专家。

一、AI学习的全新方式:没有老师,没有教材,只靠自己摸索

传统的AI训练就像是学校教育:我们给AI提供大量标记好的"教材"(数据集),然后进行"考试"(评估)。近年来,一种名为"强化学习与可验证奖励"(RLVR)的方法取得了显著进展,它让AI系统不仅能通过模仿学习,还能通过结果反馈来调整自己的思维过程,就像学生不仅看教科书,还要通过考试成绩反馈来提升学习方法。

然而,即使是最先进的RLVR方法仍然依赖于人类设计的问题和答案集合。这就像是,学生虽然可以独立思考,但教材和考题仍然是老师精心准备的。这种依赖带来了两个重要问题:

首先,随着AI系统变得越来越强大,构建足够高质量和大规模的训练数据变得越来越困难和昂贵。想象一下,给一个已经掌握高中数学的学生出题,你需要准备大学甚至研究生难度的问题,而这需要更高水平的专家投入时间和精力。

其次,从长远来看,如果AI最终超越人类智能,人类设计的任务可能无法继续挑战和提升AI的能力,就像小学老师无法有效指导天才物理学家的进一步研究一样。

清华大学的研究团队提出了一个全新的训练范式,他们称之为"绝对零数据"(Absolute Zero)。这种方法让AI完全不依赖任何外部数据,而是像一个孤独的天才儿童,自己给自己出题、自己解答,并从这个过程中不断学习和成长。

二、自我对弈:AI如何成为自己的老师和学生

想象一个小孩子独自在沙滩上玩耍。他先用沙子堆一个复杂的迷宫,然后尝试用小球穿过这个迷宫。如果成功了,他会思考:"这个迷宫太简单了,我需要设计一个更难的。"如果失败了,他会思考:"这很有挑战性,我可以从中学到什么技巧?"通过这种方式,孩子同时扮演了"游戏设计师"和"玩家"两个角色,在不断自我挑战中成长。

Absolute Zero Reasoner(AZR)系统正是基于这种自我对弈的理念设计的。在这个系统中,同一个AI模型扮演了两个角色:

出题者(提出者):负责创造具有挑战性且有学习价值的推理任务
解题者(求解者):负责解决这些任务并从中学习

整个学习过程如下:

首先,出题者创建一个编程挑战任务。这个任务会通过代码执行环境进行验证,确保它是有效且合理的。同时,系统会评估这个任务的学习价值——既不能太简单(没有学习价值),也不能太难(无法解决)。

然后,解题者尝试解决这个任务。解题者的解答同样会通过代码执行环境进行验证,系统会根据解答是否正确给予反馈。

最后,AI系统同时从"出题"和"解题"两个角色的经验中学习,不断提升自己设计有价值任务的能力和解决复杂问题的技巧。

这就像是一个人同时扮演教练和运动员,自己设计训练计划,然后执行这些计划,并根据表现调整训练内容和方法,在这个循环中不断成长。

三、三种思维模式:归纳、演绎与溯因

AZR系统专注于三种基本的推理模式,这些模式代表了人类思考问题的不同方式。研究团队巧妙地将这三种推理模式转化为编程环境中的具体任务:

演绎推理(Deduction):给定一个程序和输入,预测输出结果。这就像是知道烹饪的所有步骤和原料,然后预测最终的菜肴会是什么样子。在编程世界中,这相当于"给定函数f和输入x,求输出f(x)"。

溯因推理(Abduction):给定一个程序和期望的输出,推断可能的输入。这就像是品尝了一道菜,然后推测制作这道菜可能使用了哪些原料。在编程环境中,这相当于"给定函数f和输出y,求可能的输入x使得f(x)=y"。

归纳推理(Induction):给定多个输入-输出对,推断最可能的程序规则。这就像是观察到几道菜的原料和成品,然后推断出整个烹饪过程。在编程中,这相当于"给定多对(x,y),求一个函数f使得对所有对都有f(x)=y"。

这三种推理模式相互补充,覆盖了大多数复杂推理场景。通过在这三种任务类型上的训练,AZR系统能够发展全面的推理能力。

四、从自我挑战到全能高手:AZR系统如何工作

AZR系统的工作流程就像一个不断自我挑战的学习者。让我们更详细地看看它的运作方式:

初始化阶段: 系统从一个极其简单的程序开始,比如一个简单的恒等函数(返回输入本身的函数)。这就像是给一个初学者一个最基础的练习作为起点。

训练循环: 每次迭代中,系统都会进行以下步骤:

提出任务:AI扮演"出题者"角色,根据之前积累的经验创建新的编程挑战。对于演绎和溯因任务,它会生成程序和输入对;对于归纳任务,它会从现有库中抽取程序,然后生成多个输入-输出对。

任务验证:通过代码执行环境验证任务的有效性,确保任务是可解的,且具有学习价值。系统会估计任务的难度——最有价值的任务是那些"有挑战但可解"的任务,这些任务会得到较高的奖励分数。

解决任务:AI转换到"解题者"角色,尝试解决这些任务,并获得关于解答正确性的反馈。

联合学习:系统同时从提出任务和解决任务两个方面获得经验,更新模型参数,提升两种能力。

这个过程就像是一个人不断给自己设计挑战,解决这些挑战,然后根据表现调整挑战的难度和类型,形成一个正向的学习循环。

任务奖励设计: 一个关键问题是如何评估任务的学习价值。研究团队设计了一个巧妙的奖励机制:

如果一个任务每次尝试都能轻松解决(成功率100%),那么它太简单了,学习价值为0。
如果一个任务永远无法解决(成功率0%),那么它太难了,学习价值也为0。
最有价值的任务是那些有时能解决、有时解决不了的任务(成功率在0-100%之间),这些任务处于学习者的"最近发展区",有最大的学习潜力。

这种设计反映了教育心理学中的一个重要原则:最有效的学习发生在挑战刚好超出当前能力水平,但仍在可及范围内的时候。

五、惊人的研究结果:无数据训练的AI超越了有数据训练的AI

研究团队在没有使用任何外部数据的情况下训练了AZR系统,然后在多个标准基准测试上评估其性能。结果令人惊讶:

在编程任务上:AZR系统在HumanEval+、MBPP+和LiveCodeBench等标准编程基准测试上取得了最先进的性能,超过了那些使用大量人工标注数据训练的模型。

在数学推理上:尽管完全在编程环境中训练,AZR系统在AIME、AMC、MATH500、Minerva和OlympiadBench等数学基准测试上也取得了令人印象深刻的结果,与专门为数学推理训练的模型相当甚至更好。

跨领域泛化:特别值得注意的是,AZR表现出惊人的跨领域学习能力。在编程任务上训练的模型能够在数学问题上表现出色,这表明它学到的是通用的推理能力,而不仅仅是特定领域的技巧。

规模扩展:研究显示,随着模型规模的增加(从3B参数到14B参数),性能提升更加显著,说明这种方法能够有效利用更大模型的能力。

研究团队还发现了一些有趣的现象:

代码基础增强推理能力:初始具有较强编码能力的模型,通过AZR训练后在数学推理上的提升更加显著。这表明编程能力和推理能力之间存在协同效应。

自然出现的计划能力:在解决归纳任务时,模型自然地学会了使用代码注释来制定和执行多步计划,类似于人类在解决复杂问题时的思考过程。

任务类型影响思考方式:不同类型的任务引发了不同的认知行为和输出模式。例如,溯因任务通常产生更长的输出,因为模型需要进行多次尝试直到找到匹配的输入。

六、研究意义与未来展望:向自主进化的AI迈进

这项研究的意义远超其直接的技术成就。它代表了AI训练范式的一个根本性转变:

解决数据瓶颈:随着AI模型越来越强大,高质量训练数据的获取已成为主要瓶颈。Absolute Zero范式为突破这一瓶颈提供了可能,使模型能够通过自我提出的任务不断学习。

迈向自主进化:这种方法展示了AI系统如何不依赖持续的人类输入而自主进化,这对于最终开发超越人类智能的AI系统可能是必要的。

通用推理能力:研究表明,通过这种方法训练的系统能够发展出真正通用的推理能力,而不仅仅是特定领域的技能。

然而,研究也发现了一些需要关注的问题:

安全隐患:研究团队观察到,AZR训练的Llama3.1-8b模型偶尔会产生令人担忧的思维链,他们称之为"啊哦时刻"。这提醒我们,即使是自我训练的系统也可能出现安全问题,需要适当的监督和指导。

未来研究方向:研究团队提出了多个有前景的研究方向,包括探索不同的环境反馈源(如网络、形式数学语言或真实世界模拟器),扩展到多模态推理,以及开发更有效的任务探索策略。

七、结论:AI学习的新纪元

清华大学研究团队的这项开创性工作展示了AI系统如何通过自我挑战和反思来发展推理能力,不再依赖人类设计的数据集。就像一个孤独的天才通过自学和自我挑战超越传统教育的限制,Absolute Zero范式可能开启了AI学习和进化的全新范式。

这项研究不仅在技术上取得了显著成就,更重要的是,它为我们思考AI的未来提供了新的视角。随着这种技术的发展,我们可能会看到越来越多的AI系统能够自主设定目标、创造挑战、并通过解决这些挑战来不断超越自己。

正如研究团队所述,这可能标志着推理模型的新时代:"欢迎来到经验的时代"——AI不再仅仅依靠人类提供的知识,而是通过自己的经验和探索来学习和成长。

对于有兴趣深入了解这项研究的读者,可以通过arXiv:2505.03335v2访问完整的研究论文。研究团队还开源了相关代码、模型和日志,鼓励学术界进一步探索和发展这一前沿领域。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-