这项由腾讯AI实验室西雅图分部的郑童等研究人员完成的突破性工作,发表于2025年9月的arXiv预印本平台,论文编号为arXiv:2509.07980v1。有兴趣深入了解的读者可以通过https://github.com/zhengkid/Parallel-R1访问完整论文和开源代码。
当你遇到一道复杂的数学题时,你的大脑会做什么?很可能是这样的:一边尝试用公式法求解,一边考虑能否用图形方法理解,同时还在想有没有更简单的思路。这种"一心多用"的思考方式,就是我们今天要聊的"平行思维"。
现在,腾讯AI实验室的研究人员成功教会了人工智能这种原本属于人类的思考技巧。不同于以往AI只能按部就班、一步步推理的方式,他们开发的Parallel-R1系统让AI学会了"脚踏两条船"——同时探索多个解题路径,就像一个熟练的象棋高手能同时考虑好几种走法一样。
这项研究最令人惊叹的地方在于,它不仅仅是让AI模仿人类的思考模式,更是通过强化学习让AI自主发现和掌握了这种能力。研究团队发现,当AI掌握平行思维后,在国际数学奥林匹克竞赛等高难度数学测试中的表现提升了42.9%,这个进步幅度相当可观。
更有趣的是,研究人员通过观察发现,AI使用平行思维的策略会随着训练的深入而发生变化。刚开始学习时,AI像个初学者,通过平行思维来广泛探索不同的解题方法,就像撒网捕鱼一样希望能碰到正确答案。但随着能力的提升,AI变得更加聪明,开始把平行思维当作验证工具——先用最有把握的方法得出答案,然后启动平行思维从不同角度验证这个答案是否正确。
一、从模仿到创新:AI学会平行思维的奥秘
要理解这项研究的意义,我们先来看看传统AI是怎么解决问题的。就像一个按照食谱做菜的新手厨师,传统AI只能严格按照步骤一步步来:先做A,再做B,最后做C。这种线性思维虽然稳定可靠,但遇到复杂问题时往往效率不高,容易钻牛角尖。
人类的思维却完全不同。当面对一个难题时,我们的大脑像是开了多个窗口的电脑,可以同时运行几个不同的思路。比如解一道几何题时,你可能一边画图,一边套用公式,同时还在回想类似题目的解法。这种"多线程"的思考方式让人类在解决复杂问题时更加灵活高效。
Parallel-R1的突破就在于成功将这种人类独有的思维模式迁移到了人工智能上。但这个过程并不简单,就像教一个习惯了按部就班的人学会一心多用一样困难。
研究团队面临的第一个挑战是"冷启动问题"。AI从来没有见过平行思维的例子,就像一个从未听过交响乐的人突然要学习指挥多个乐器同时演奏。为了解决这个问题,研究人员设计了一个渐进式的训练课程。
他们首先用相对简单的数学题(比如小学生常见的应用题)来教AI学习平行思维的基本格式。在这个阶段,AI学会了使用特殊的标记符号:当需要开启平行思维时使用"<Parallel>"标签,不同的思路用"<Path>"标签分隔,最后用"<Summary>"标签总结各个思路的结论。这就像教AI学会了一套"思维语言"。
接下来是更关键的强化学习阶段。研究人员让AI在解决更复杂的数学问题时自由探索,通过奖励机制鼓励AI主动使用平行思维。这个过程类似于教孩子骑自行车——开始时可能摇摇摆摆,但通过不断练习和调整,最终能够熟练掌握。
二、两种架构设计:给AI装上"思维处理器"
在技术实现上,研究团队开发了两种不同的系统架构,就像给AI装上了两种不同类型的"思维处理器"。
第一种被称为"Parallel-R1-Seen",采用的是相对宽松的架构。在这种设计下,AI的不同思维路径可以相互"窥探",就像几个人围坐在一张桌子旁讨论问题,每个人都能听到其他人的想法,并受到影响。这种设计的优势是灵活性高,不同思路之间可以相互启发,但缺点是可能导致思维路径之间相互干扰。
第二种架构"Parallel-R1-Unseen"则更加严格,采用了特殊的注意力机制来确保不同思维路径完全独立。这就像给每个思维路径戴上了"隔音耳机",确保它们不会相互影响。研究人员通过修改AI的注意力层和位置编码来实现这种隔离,确保每个思维路径只能看到共同的问题和自己的思考过程,而看不到其他路径的内容。
这种设计的灵感来源于人类大脑的工作方式。当我们进行平行思考时,不同的思维路径往往是相对独立的,直到最后才汇聚在一起形成综合判断。通过这种架构设计,AI能够更好地模仿人类的真正平行思维。
令人惊讶的是,实验结果显示第一种相对宽松的架构在实际应用中表现更好。这提醒我们,有时候完全的隔离并不总是最优选择,适度的信息交流可能反而有助于提升整体性能。
三、训练秘籍:循序渐进的学习之路
要让AI学会平行思维,训练过程的设计至关重要。研究团队采用了类似于人类学习的渐进式方法,将整个训练分为三个阶段。
第一阶段是基础格式学习,就像教小孩学写字先从笔画开始一样。研究人员使用相对简单的GSM8K数学题集,让AI熟悉平行思维的基本表达方式。在这个阶段,AI主要学习何时使用"<Parallel>"标签,如何在"<Path>"标签内组织不同的思路,以及如何在"<Summary>"标签中综合各种观点。
这个阶段的关键发现是,现有的强大AI模型在简单问题上能够产生83.6%的高质量平行思维数据,但在复杂问题上的成功率几乎为零。这就像一个会算加减法的孩子突然面对微积分题目一样无从下手。因此,从简单问题开始训练是非常必要的策略选择。
第二阶段是强化学习的初步应用。在掌握了基本格式后,AI开始在同样的简单问题上通过强化学习来巩固和优化平行思维的使用。这个阶段类似于让学会了基本动作的运动员进行重复练习,目标是让平行思维成为一种自然而然的反应。
研究人员在这个阶段使用了巧妙的奖励机制设计。他们不仅奖励AI得出正确答案,还特别奖励使用平行思维的行为。具体来说,只有当AI既使用了平行思维又得出了正确答案时,才能获得最高奖励。这种设计确保AI不会为了追求正确率而放弃平行思维。
第三阶段是能力泛化,让AI在更复杂的数学问题上应用平行思维。这个阶段使用了DAPO数据集,包含了各种高难度的数学问题。在这个阶段,研究人员主要关注准确率的提升,让AI学会在真正困难的问题上灵活运用平行思维技能。
四、奖励机制设计:平衡表演与实用的艺术
在训练AI学习平行思维的过程中,奖励机制的设计起到了关键作用。这就像教育孩子时的奖惩制度一样,设计得好能够引导正确行为,设计得不好可能适得其反。
研究团队尝试了三种不同的奖励策略。第一种是纯粹的准确率导向,只要AI得出正确答案就给奖励,不管是否使用平行思维。这种方法的问题在于AI很快就发现,使用平行思维虽然可能得到更好的解决方案,但也增加了出错的风险,因此AI倾向于放弃平行思维而采用更保守的单线思维。
第二种策略走向了另一个极端,只奖励使用平行思维的行为,不管答案是否正确。这种做法的结果是AI变成了"表演艺术家",拼命展示复杂的平行思维过程,但往往忽略了解决问题的实际效果。
最终,研究团队发现了一种巧妙的平衡方案:交替奖励策略。在大部分时间里(80%),AI因为得出正确答案而获得奖励;在少数时间里(20%),系统会特别奖励那些既使用了平行思维又得到正确答案的情况。这种方法就像是告诉AI:"我们希望你主要关注解决问题,但偶尔也要展示你的多元思维能力。"
这种设计的智慧在于它模仿了人类学习的自然过程。在现实生活中,我们主要因为解决问题而获得满足感,但偶尔也会因为使用了巧妙的思维方法而感到额外的成就感。通过这种交替策略,AI学会了在追求正确答案的同时保持思维的多样性。
五、意外发现:AI思维策略的自然演变
研究过程中最有趣的发现之一是AI使用平行思维策略的自然演变。通过追踪训练过程中AI在解题时启动平行思维的时机,研究人员发现了一个令人惊讶的模式。
在训练初期,AI像一个毫无经验的新手,一遇到问题就匆忙启动平行思维,试图通过"撒网式"的探索来寻找解决方案。这时的平行思维更多是一种探索工具,AI希望通过同时尝试多种方法来提高找到正确答案的概率。
随着训练的深入,AI的行为开始发生微妙的变化。它开始更倾向于在解题过程的后期才启动平行思维,而不是一开始就"开火全开"。这种变化反映了AI策略思维的成熟。
到了训练后期,AI已经变成了一个经验丰富的"老手"。它会首先使用最有把握的方法来解决问题,只有在接近得出最终答案时才启动平行思维。这时的平行思维不再是探索工具,而是验证工具——AI用它来从不同角度检查自己的答案是否正确。
这种演变过程非常类似于人类专家的思维发展轨迹。新手往往会同时尝试很多方法,希望碰运气找到答案;而专家则更倾向于先使用最可靠的方法,然后用其他方法来验证结果。AI能够自发地展现出这种策略演变,说明它不仅学会了平行思维的技能,更掌握了如何智慧地使用这种技能。
六、探索支架效应:平行思维的意外价值
研究团队在实验过程中发现了一个意想不到的现象,他们称之为"中期训练探索支架效应"。这个发现可能比平行思维本身更具革命性意义。
具体来说,研究人员设计了一个两阶段实验。第一阶段强制AI使用平行思维来解决各种问题,就像给AI戴上了"多重思维眼镜",迫使它从多个角度观察和分析问题。第二阶段则取消这种强制要求,让AI自由选择是否使用平行思维。
令人惊讶的是,即使在第二阶段AI很少主动使用平行思维,它的整体表现仍然显著优于那些从未经历过平行思维训练的AI。在最具挑战性的AIME25数学竞赛中,经历过"平行思维洗礼"的AI最终获得了25.6%的准确率,相比基线模型提升了42.9%。
这个发现揭示了一个深刻的道理:平行思维的价值不仅仅在于它能够直接提升解题能力,更重要的是它在训练过程中扮演了"思维拓展器"的角色。就像运动员在训练时会做各种看似与比赛无直接关系的练习一样,平行思维训练帮助AI探索了更广阔的解题策略空间。
这种"探索支架效应"的机制可能是这样的:当AI被迫使用平行思维时,它必须尝试各种不同的解题路径,其中包括一些在常规训练中永远不会尝试的方法。这些多样化的探索经历丰富了AI的"经验库",即使后来不再明确使用平行思维,这些经验仍然在潜移默化地影响着AI的决策。
七、性能评估:数据说话的成果展示
为了全面评估Parallel-R1的效果,研究团队在四个不同难度级别的数学竞赛数据集上进行了测试:AIME'24、AIME'25、AMC'23和MATH。这些测试就像是给AI安排了从小学奥数到国际数学竞赛的全套考试。
在相对基础的MATH数据集上,Parallel-R1取得了86.7%的准确率,相比基准模型的83.5%有了明显提升。但真正令人印象深刻的是在高难度竞赛中的表现。在AIME'25这个最具挑战性的测试中,Parallel-R1达到了19.2%的准确率,虽然绝对数值看起来不高,但要知道这些都是连人类数学专家都感到困难的题目。
更重要的是性能提升的一致性。在所有四个测试集上,Parallel-R1都实现了稳定的性能提升,平均提升幅度达到了8.4%。这种一致性说明平行思维不是在某个特定类型问题上的"偶然成功",而是一种通用的能力提升。
研究团队还进行了大量的消融实验来验证设计选择的合理性。他们发现,渐进式训练策略中的每个阶段都是必要的。跳过基础格式学习阶段的AI无法有效掌握平行思维;而跳过强化学习阶段的AI虽然能够生成平行思维的格式,但使用效果大打折扣。
特别值得注意的是不同架构设计的对比结果。虽然理论上完全隔离的"Parallel-R1-Unseen"架构看起来更符合真正的平行思维概念,但在实际测试中,允许适度信息交流的"Parallel-R1-Seen"架构表现更好。这个结果提醒我们,理论上的完美设计未必是实用的最优选择。
八、实际案例:看AI如何"思考"数学题
为了更直观地展示AI的平行思维能力,研究团队提供了两个具体的解题案例。这些案例像窗口一样让我们能够直接观察AI的"思维过程"。
第一个案例是一道关于进制转换的数学题:寻找所有使得17_b整除97_b的整数进制b > 9。面对这道题,训练早期的AI表现出了典型的探索式平行思维。
AI首先将问题转换为十进制:17_b = b + 7,97_b = 9b + 7,所以问题变成找到所有使得(b + 7)整除(9b + 7)的b值。然后AI启动了平行思维,同时尝试两种不同的方法。
在第一个思维路径中,AI使用了因式分解方法。它发现9b + 7 = 9(b + 7) - 56,因此(b + 7)必须整除56。通过分析56的因子,AI找到了可能的b值。
在第二个思维路径中,AI尝试了基于进制运算的方法,从97_b - 17_b = 80_b的角度来分析问题。虽然这个路径最终没有直接给出答案,但它提供了问题的另一种理解方式。
最后,AI综合两个路径的信息,确认b = 21和b = 49是唯一的解,并验证了答案的正确性。整个过程展现出了典型的探索式平行思维特征。
第二个案例展示的是训练后期AI的验证式平行思维。面对同样的问题,成熟的AI首先使用最直接的方法得出了答案,然后才启动平行思维来验证结果。这时的平行思维更像是一个"质检员",从不同角度确认答案的正确性,而不是用来寻找解决方案。
九、技术细节:让平行思维成为现实的关键技术
要实现真正的平行思维,技术实现层面需要解决许多复杂的挑战。研究团队在这方面做出了多项创新。
在模型架构方面,对于"Parallel-R1-Unseen"变体,研究人员设计了专门的注意力掩码机制。这种机制确保每个思维路径只能关注到共享的问题描述和自己的思考内容,而看不到其他路径的内容。这就像给每个思维路径创造了一个独立的"思考房间"。
位置编码的处理也是一个技术难点。在传统的序列生成中,每个词的位置是连续编号的。但在平行思维中,不同路径可能同时进行,如何给它们分配位置编码成了问题。研究团队使用了"多宇宙位置编码"方案,给每个路径分配独立的位置编码空间,避免相互干扰。
在训练算法方面,研究团队采用了Group Relative Policy Optimization (GRPO)算法。这个算法特别适合处理生成多个候选答案的情况,能够有效地从多个平行路径中学习最优策略。
数据处理也是一个关键环节。研究团队开发了专门的格式检查算法,确保AI生成的平行思维内容符合预期格式。这个算法类似于编程语言的语法检查器,能够识别标签是否正确配对,思维路径是否完整等问题。
为了确保训练的稳定性,研究团队还设计了渐进式的数据混合策略。在训练初期使用更多简单问题的数据,随着训练的进行逐步增加复杂问题的比例。这种策略类似于健身训练中的渐进加重,确保AI能够稳步提升而不会因为难度跳跃过大而"拉伤"。
归根结底,这项研究的意义远不止于让AI学会一种新的思考方式。它开辟了一个全新的研究方向:如何让人工智能获得更加灵活、多元的推理能力。就像人类从单纯的逻辑思维发展到能够进行创造性思考一样,AI也正在从机械化的步骤执行向更高层次的认知能力迈进。
更重要的是,这项研究揭示了一个深刻的道理:有时候,训练过程本身比最终结果更有价值。平行思维训练作为"探索支架"所带来的能力提升,可能比直接使用平行思维更具实用意义。这提醒我们,在AI训练中应该更多地关注多样化探索的价值。
当然,这项研究也还有许多值得进一步探索的方向。比如,如何将平行思维扩展到数学以外的其他领域?如何让AI自主决定何时需要使用平行思维?如何处理不同思维路径之间的冲突?这些问题的答案将决定平行思维技术的未来发展前景。
不过可以肯定的是,Parallel-R1为我们展示了AI发展的一个重要方向:不仅要让AI变得更聪明,更要让它们的思维变得更加丰富和灵活。就像人类智慧的精髓不在于单一的逻辑链条,而在于多元思维的交织融合一样,未来的AI可能也需要掌握这种"一心多用"的能力。
对于普通人来说,这项研究的价值可能体现在未来更智能的AI助手上。想象一下,当你向AI询问一个复杂问题时,它不再是给出一个标准答案,而是能够同时从多个角度分析问题,提供更全面、更有深度的回答。这样的AI助手无疑会成为我们思考和决策的更好伙伴。
Q&A
Q1:什么是Parallel-R1系统?它有什么特别之处?
A:Parallel-R1是腾讯AI实验室开发的首个能够进行"平行思维"的AI系统。它的特别之处在于能像人类一样同时从多个角度思考问题,而不是传统AI的单线性推理。这个系统通过强化学习训练,让AI学会在解决复杂数学问题时自动启动多个思维路径并综合分析结果。
Q2:平行思维训练对AI性能提升有多大?
A:实验结果显示,使用平行思维的AI在各种数学竞赛测试中平均提升了8.4%的准确率。更惊人的是"探索支架效应"——即使AI后来很少主动使用平行思维,经历过平行思维训练的AI在最难的AIME25数学竞赛中仍然比基线模型提升了42.9%。
Q3:平行思维的AI是如何训练出来的?
A:研究团队采用了渐进式训练方法。首先用简单数学题教AI学会平行思维的基本格式和标签使用,然后通过强化学习让AI在这些简单题目上熟练掌握技能,最后将这种能力泛化到复杂的数学竞赛问题上。整个过程类似于从基础练习到高难度挑战的循序渐进学习。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。