微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快思与慢想:让AI学会像人一样思考的突破性研究——DualityRL团队的"思想家"模型

快思与慢想:让AI学会像人一样思考的突破性研究——DualityRL团队的"思想家"模型

2025-06-01 16:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 16:35 科技行者

在2025年5月发布于arXiv预印本平台的一项创新研究中,DualityRL的Stephen Chung和Wenyu Du与上海AI实验室的Jie Fu共同提出了一种全新的AI训练方法,这项研究题为"Thinker: Learning to Think Fast and Slow"(思想家:学习快速与缓慢思考)。这篇论文以心理学中的"双重加工理论"为灵感,旨在解决大型语言模型(LLMs)在推理过程中的效率和准确性问题。论文编号为arXiv:2505.21097v1,目前正在接受审核。

想象一下,当你面对一个复杂的数学问题时,你的大脑是如何工作的。你可能会先凭直觉快速给出一个初步答案,然后仔细检查这个答案是否正确,如果不对,你会更加深入地思考,最后总结出一个清晰的解决方案。人类的这种思考模式正是这项研究所模拟的核心。

研究人员注意到,虽然通过强化学习可以提高大型语言模型在数学和编程等领域的推理能力,但这些模型常常产生冗长、重复且缺乏信心的回答。就像一个不太确定自己解题方法的学生,不断地自我怀疑、返工和尝试不同路径,最终虽然可能得到正确答案,但过程效率低下。

为什么会出现这种情况?研究团队发现问题出在训练方式上。在传统的问答训练中,只要模型最终给出正确答案,整个生成过程都会被同等奖励,无论中间有多少无用的尝试或不确定的验证。这就像奖励一个学生解出了数学题,但没有教他如何更有效率地思考——直觉(快速识别有希望的解题路径)和验证(自信地评估解题路径)这两种能力并没有被专门训练。

受到心理学家丹尼尔·卡尼曼在《思考,快与慢》中提出的双重加工理论启发,研究团队设计了一个名为"思想家"(Thinker)的任务结构。在这个结构中,AI的思考过程被分为四个阶段:

首先是"快速思考"阶段,模型必须在严格的令牌预算限制下(比如1000个令牌)快速给出初步答案,这类似于人类的系统1思维——直觉性、快速但可能不够深入。

接下来是"验证"阶段,模型需要评估自己的初步答案是否正确,如果通过验证,就接受这个答案;如果没通过,则进入下一阶段。

第三阶段是"慢速思考",模型在更大的令牌预算下(比如6000个令牌)深入思考,这类似于人类的系统2思维——慢速、深入、分析性的。

最后是"总结"阶段,模型将前一阶段的深入思考提炼成精确的步骤,形成一个简洁而准确的解答。

这种设计的妙处在于,每个阶段都有专门针对该阶段能力的奖励信号。比如,在快速思考阶段,模型会根据初步答案的正确性获得奖励,这鼓励它培养更好的直觉;而在慢速思考阶段,模型则被鼓励学习如何修正错误的初步答案。这就像是在教导AI既要有灵活的直觉,又要有严谨的分析能力,两者相辅相成。

为了测试这种方法的效果,研究人员对两种公开可用的模型进行了微调:Qwen2.5-1.5B和DeepSeek-R1-Distill-Qwen-1.5B。他们发现,经过"思想家"任务训练的模型在各种数学基准测试中表现一致优于传统问答任务训练的模型。具体来说,Qwen2.5-1.5B模型的平均准确率从24.9%提高到了27.9%,而DeepSeek-R1-Qwen-1.5B模型的准确率则从45.9%提高到了49.8%。

更令人惊讶的是,对于Qwen2.5-1.5B模型,仅使用"快速思考"模式就能达到26.8%的准确率,而且只使用不到1000个令牌,这意味着在实际应用中可以大大提高推理效率。就像一个经过良好训练的学生,能够快速且相对准确地解决问题,而不需要冗长的思考过程。

研究团队还发现,经过"思想家"任务训练的模型在推理过程中明显减少了自我反思模式,推理路径更加直接和自信。这就像是从一个不断怀疑自己、反复检查的解题者,变成了一个更加自信、高效的问题解决者。

这项研究的意义远不止于提高数学问题的解决能力。它揭示了一个更加普遍的AI训练原则:通过模拟人类的认知过程,分解复杂任务,并为每个子任务提供针对性的训练和反馈,可以培养出更加全面、高效的AI能力。这种方法不仅适用于数学推理,理论上也可以应用于各种需要复杂思考过程的任务。

未来的研究方向可能包括将这种方法应用到更大型号的模型上(初步实验显示7B参数的模型也能从这种方法中受益),或者扩展到其他领域如科学推理、伦理决策等。研究团队也承认了一些局限性,比如实验仅限于两个1.5B参数的模型,以及一些超参数是基于启发式而非系统调优设定的。

总的来说,这项研究为我们提供了一个全新的视角:AI不仅需要学习"思考",还需要学习"如何思考"——既要快又要慢,既要直觉又要分析,就像人类一样。这种更接近人类认知的AI训练方法,可能是未来AI发展的一个重要方向。

思考的两种模式:快与慢

心理学家丹尼尔·卡尼曼在他的著作中描述了人类思维的两个系统:系统1是快速、直觉性的,而系统2是慢速、深思熟虑的。这两个系统并不是相互独立的,而是紧密合作的。当我们面对一个问题时,系统1通常会先快速生成一个候选答案,然后系统2会评估这个答案,如果评估通过就接受它,否则就进行修正或寻找新的答案。

研究团队发现,现有的AI模型在训练过程中并没有明确区分这两种思考模式。特别是在使用强化学习训练大型语言模型时,如果最终答案正确,整个生成序列都会得到相同的奖励,无论中间过程是否高效。这导致模型学习到冗长、重复的推理路径,不能有效区分何时需要快速直觉,何时需要深入思考。

为了解决这个问题,研究人员提出了"思想家"任务,将单轮问答拆分为四个阶段,每个阶段都有明确的目标和专门的奖励信号。这就像是教一个学生不仅要知道答案,还要知道如何高效地思考问题。

在第一阶段"快速思考"中,模型需要在严格的令牌限制下(1000个令牌)给出初步答案。这就像是在训练模型的"第一感觉"或直觉。如果这个直觉是正确的,模型就会得到奖励,这鼓励它培养准确的直觉能力。

在第二阶段"验证"中,模型需要评估自己的初步答案是否正确。这个阶段模型可以使用更多的令牌(6000个),但重点不是重新解决问题,而是确认初步答案的正确性。这就像是训练模型的"自我检查"能力。

如果验证结果为"是",那么初步答案就被接受为最终答案;如果为"否",模型就会进入第三阶段"慢速思考"。在这个阶段,模型可以使用大量令牌(6000个)来重新思考问题,并给出新的答案。这就像是当直觉失败时,转向更深入、系统性的思考。

最后在第四阶段"总结"中,模型需要将慢速思考中的推理过程提炼成简洁的步骤。这不仅训练了模型的整合能力,还有助于改进其直觉能力,因为提炼出的简洁推理可以作为未来快速思考的参考。

这种设计的独特之处在于,它不仅模拟了人类的思考过程,还为每个阶段提供了专门的训练信号。例如,在快速思考阶段,模型根据答案是否正确获得二元奖励;在验证阶段,模型根据验证结果是否与实际情况一致获得奖励;在慢速思考阶段,模型根据最终答案是否正确获得奖励;在总结阶段,模型则根据总结是否准确且与快速思考阶段的输入一致获得奖励。

通过这种方式,模型不仅学会了解决问题,还学会了如何高效地思考——何时依赖直觉,何时需要深入分析,以及如何验证自己的答案。这种能力在传统的单轮问答训练中是很难培养的。

实验设计与结果分析

为了验证"思想家"任务的有效性,研究团队使用了两个公开可用的模型进行实验:Qwen2.5-1.5B(简称Q1.5B)和DeepSeek-R1-Distill-Qwen-1.5B(简称R1.5B)。这两个模型虽然有相同的基础架构,但R1.5B经过了额外的蒸馏训练,使用了DeepSeek-R1的推理数据,因此初始推理能力更强。

研究团队使用强化学习方法PPO(近端策略优化)对这两个模型进行了微调,分别使用"思想家"任务和标准问答任务(作为基线)。他们使用了Open-Reasoner-Zero提供的129K数学问答数据集进行训练,每次训练大约需要7天,使用两个计算节点,每个节点配备8个A100 GPU。

在训练过程中,研究人员监测了模型在训练数据上的表现。对于"思想家"任务,他们跟踪了"快速准确率"(快速思考阶段的准确率)和"最终准确率"(包括慢速思考阶段后的准确率)。他们发现,使用"思想家"任务训练的模型,无论是快速准确率还是最终准确率都稳步提高,而基线模型的准确率则很快达到平台期。

更重要的是,在Q1.5B模型中,"快速思考"模式的准确率甚至超过了基线模型的准确率,这表明"思想家"任务不仅提高了模型的整体性能,还特别增强了其直觉能力。

为了全面评估模型性能,研究人员使用了多个常见的数学基准测试:MATH500、AIME2024、AIME2025、GPQA Diamond、Olympiadbench、AMC23、Minerva Math和CollegeMath。他们发现,在几乎所有基准测试中,使用"思想家"任务训练的模型都优于使用标准问答任务训练的模型。

具体来说,对于Q1.5B模型,使用"思想家"任务训练后的平均准确率从24.9%提高到了27.9%,相对提升了11.9%。而对于R1.5B模型,平均准确率从45.9%提高到了49.8%,相对提升了8.50%。

更有趣的是,仅使用"快速思考"模式,Q1.5B模型就能达到26.8%的准确率,R1.5B模型能达到37.6%的准确率。这意味着在实际应用中,我们可以只使用"快速思考"模式,用更少的计算资源获得接近甚至超过基线模型的性能。

研究人员还分析了模型的推理过程。他们发现,使用"思想家"任务训练的模型在推理过程中明显减少了反思模式的使用。就像一个经验丰富的专家,不需要不断怀疑和修正自己的解题路径,而是能够更直接、自信地得出答案。

然而,研究人员也注意到,尽管减少了反思模式,但"思想家"模型的回答长度通常比基线模型长。这主要是因为在验证阶段,模型倾向于进行重复的自我验证(例如,"让我检查一下...是的。让我再检查一下...是的。")。这可能是因为答案提取只关注最后一个方框输出,鼓励模型在令牌还有剩余时进行重复和修正。

为了进一步了解"总结"阶段的重要性,研究人员进行了消融实验,移除了总结阶段后再训练模型。他们发现,没有总结阶段的模型在训练过程中反思模式使用更频繁,响应长度也更加波动。更重要的是,快速思考的准确率从26.8%下降到了24.8%,这表明总结阶段对于提升模型的直觉能力确实有帮助。

此外,研究人员还探究了"快速思考"阶段对整体性能的影响。他们使用不同训练阶段的模型检查点生成"快速思考"响应,而使用完全训练的模型生成后续阶段的响应。结果显示,"快速思考"质量对最终性能有显著影响,但这种影响随着"快速思考"性能的提高而减弱。这说明"慢速思考"模式能够在一定程度上弥补"快速思考"的不足,但如果初始直觉太差(如在预训练模型中),后续阶段可能难以完全纠正。

案例研究与模型行为分析

为了更直观地理解"思想家"任务训练的模型如何工作,研究团队进行了详细的案例研究。让我们看一个具体例子:

想象有一个关于正六边形游泳池周围路径的几何问题。在"快速思考"阶段,模型可能会做出一个直觉性假设,例如认为大六边形的边长是小六边形边长加上固定值(如a + 4)。这种快速但不够严谨的假设可能导致错误答案,例如得出"6√3 - 12"这样的结果,这甚至可能是负值,在物理上不合理。

接着在"验证"阶段,模型会直接质疑这个假设:"大六边形的边长可能是s + 4?或者是s + 2?等等,让我重新考虑..."。通过仔细分析几何关系,模型可能发现正确的关系是S = s + √3/4。基于这个修正的理解,模型确认初始答案是错误的。

然后在"慢速思考"阶段,模型会利用验证阶段的洞察,明确关注"apothems(从中心到边的垂线)的差异"来重新推导边长关系。模型系统地解出边长s,并计算出正确的周长,18 - 4√3。模型甚至会进行数值检查,展示出更深层次的思考和对结果的信心。

最后在"总结"阶段,模型会将核心数学步骤提炼成清晰、简洁的逻辑序列,准确建立内外六边形边长的关系,正确公式化路径面积的方程,并高效计算出游泳池的周长。

这个案例展示了"思想家"任务如何引导模型从系统1式的启发式思考(快速思考)转向更严谨的系统2式方法(验证和慢速思考)。各阶段之间的明确引用——验证阶段批评快速思考的"初始方法",慢速思考直接基于验证阶段的洞察——突显了结构化任务在培养连贯、自我纠正思维过程方面的有效性。

然而,并非所有案例都能成功纠正错误。研究人员还观察到一些反例,其中错误从验证阶段传播到慢速思考阶段。例如,在一个复杂的数列问题中,快速思考可能给出一个猜测性答案。验证阶段虽然正确识别初始答案可能错误,但可能引入自己的错误启发式,如"由于每一项都小于1,多项相乘可能趋向于0"。如果慢速思考阶段接受并强化这个错误启发式而不是挑战其有效性,就会导致最终答案也不正确。

这种案例表明,尽管"思想家"任务通常能促进更好的推理,但它也可能受到锚定偏差的影响,即后续阶段可能过度依赖前一阶段引入的错误假设。这提醒我们,即使是结构化的思考过程也不能完全避免推理错误,特别是在处理非常复杂的问题时。

此外,研究人员还进行了初步实验,将"思想家"任务应用于更大的模型(DeepSeek-R1-Distill-Qwen-7B)。结果表明,即使是参数量更大的模型也能从这种结构化训练中受益,平均准确率从54.4%提高到了58.9%,相对提升了8.3%。这意味着"思想家"方法可能具有较好的可扩展性,适用于不同规模的模型。

对未来AI发展的启示

这项研究不仅仅是一种训练AI解决数学问题的新方法,它代表了对AI训练范式的重新思考。传统上,我们倾向于将AI训练为一个"黑盒",给它输入问题,期望它直接输出正确答案。但"思想家"任务提示我们,也许我们应该更多地关注思考过程本身。

就像教育孩子时,我们不仅关心他们能否得出正确答案,还关心他们是如何思考的,是否有效率,是否能自我检验。"思想家"任务正是将这种教育理念应用到了AI训练中。通过分解思考过程,为每个阶段提供专门的训练和反馈,我们可以培养出更加全面、高效的AI能力。

这种方法的一个关键优势是灵活性。在实际应用中,我们可以根据需要选择使用完整的四阶段过程,或者只使用"快速思考"模式。对于简单问题或需要快速响应的情境,我们可以只使用"快速思考"模式,以更少的计算资源获得相对可靠的答案;对于复杂问题或需要高精度的情境,我们可以使用完整的四阶段过程,以获得更可靠的结果。

研究人员指出,这种环境增强方法在强化学习中还有很大的探索空间。虽然很多研究关注算法开发,但环境设计——即任务如何结构化,奖励如何分配——同样关键。"思想家"任务展示了通过精心设计环境,提供更丰富的输入、更结构化的交互或更细致的奖励信号,可以解锁AI能力的新水平。

未来的研究方向可能包括:探索更动态的任务,能够适应AI的学习状态;明确针对更广泛的认知能力开发;将这种方法应用到除数学之外的其他领域,如科学推理、伦理决策或创造性写作;以及研究不同阶段之间的交互如何影响整体学习过程。

总的来说,这项研究为我们提供了一个全新的视角:AI不仅需要学习"思考",还需要学习"如何思考"。通过模拟人类认知的双重加工理论,分解复杂任务,并为每个子任务提供针对性的训练和反馈,我们可能会培养出更加人性化、高效且可靠的AI系统。就像丹尼尔·卡尼曼所示,人类思维的力量来自系统1和系统2的协同工作,也许未来的AI也将通过这种"快与慢"的结合,达到新的认知高度。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-