微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 马里兰大学揭秘:AI推理过程竟然和人类解题思路惊人相似

马里兰大学揭秘:AI推理过程竟然和人类解题思路惊人相似

2025-10-15 12:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 12:08 科技行者

这项由马里兰大学的明李、张楠、范晨瑞、焦红等研究团队领导的研究发表于2025年1月的arXiv预印本平台,论文编号为arXiv:2509.14662v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当下最先进的AI推理模型,比如OpenAI的GPT-o1和开源的DeepSeek-R1,已经能够生成长篇大论的思考过程来解决复杂问题。这些模型就像是在纸上展示自己思考步骤的学生,会写出详细的推理链条。然而,我们一直缺乏一个科学的框架来理解这些AI"大脑"究竟是如何组织自己的思考过程的。

想象一下,如果我们能像心理学家观察人类学生解题一样,来观察AI是如何思考的,那会是什么样子?马里兰大学的研究团队做了一件极具开创性的事情——他们借用了一个在数学教育领域已经验证了40年的经典理论,来分析现代AI的推理过程。

这个理论叫做"舍恩菲尔德情节理论",是由数学教育专家艾伦·舍恩菲尔德在1985年提出的。当年,舍恩菲尔德花费了数百小时录制学生解决数学难题的过程,让学生大声说出自己的思考步骤,然后将这些思考过程分解成不同的"情节"或"阶段"。就像把一部电影分成不同的场景一样,他把解题过程分成了七个基本环节:阅读题目、分析问题、制定计划、执行计算、探索新思路、验证答案,以及监控整个过程。

研究团队发现了一个令人惊讶的现象:当他们用同样的框架来分析AI模型的推理过程时,发现AI的思考模式与人类学生的解题过程惊人相似。AI也会先仔细"阅读"问题,然后"分析"相关的数学原理,接着"制定计划",再"执行"具体的计算步骤。当遇到困难时,AI还会"探索"不同的方法,最后"验证"自己的答案是否正确。

为了验证这个发现,研究团队做了一项大规模的标注工作。他们收集了1385道SAT数学题目,让DeepSeek-R1模型来解答,然后对模型生成的推理过程进行了详细的人工标注。这就像是给AI的思考过程做"心理解剖",将每一句话、每一段推理都按照舍恩菲尔德的七个类别进行分类。

整个标注过程分为两个层次。在段落层次,研究者将每个段落标记为三大类:一般性解题(直接朝着答案前进的思考)、探索性思考(尝试不同方法的思考)、或验证性检查(确认答案正确性的思考)。在句子层次,则使用更细致的七个类别来标注每一句话的功能。

这项工作的意义远不止是简单的分类。通过分析AI在不同思考阶段之间的转换模式,研究团队发现了一些有趣的规律。比如,AI最常见的思考转换是从"阅读"到"分析",从"制定计划"到"执行计算",以及从"探索"到"分析"。这些转换模式与人类学生的思考习惯高度一致。

一、AI思考的"情节剧本":七种基本思维模式

当我们观察AI解数学题的过程时,就像在看一出精心编排的"情节剧"。研究团队发现,AI的每一句推理都可以归类为七种基本的思维模式,这些模式组成了AI解题的完整"剧本"。

首先是"阅读"阶段,这是AI理解题目的时刻。就像学生拿到考试卷时先仔细读题一样,AI也会重新表述问题,确保自己真正理解了题目要求。比如AI会说:"这道题要求我们找到方程2x+5=10中x的值。"这看似简单,但实际上是AI在确认自己对问题的理解是准确的。

接下来是"分析"阶段,AI开始调动相关的数学知识。这个阶段就像是学生在脑海中搜索相关公式和定理的过程。AI会说出类似"根据勾股定理,直角三角形斜边的平方等于两直角边的平方和"这样的话,表明它正在将抽象的数学知识与具体问题联系起来。

然后是"制定计划"阶段,AI明确宣布自己接下来要做什么。这就像是学生在草稿纸上写下解题步骤一样。AI会说:"接下来,我们将对方程两边同时求导"或"下一步是将x=3代入方程验证"。这个阶段体现了AI的策略性思维。

"执行计算"阶段是真正的动手操作时刻。AI开始进行具体的数学运算,就像学生在草稿纸上一步步计算一样。AI会展示详细的计算过程:"将x=3代入方程,得到2(3)+5=6+5=11。"这个阶段最能体现AI的计算能力。

有趣的是,AI还会进入"探索"阶段,就像学生遇到困难时会尝试不同方法一样。AI会说:"也许我们可以尝试代入不同的x值来寻找规律"或"让我们考虑另一种解法"。这种探索性思维表明AI具有一定的创造性和灵活性。

"验证"阶段是AI的自我检查时刻。就像谨慎的学生会验算自己的答案一样,AI会说:"让我再次检查计算过程:2×3+5=11,这与之前的结果一致。"这种自我验证能力是高质量推理的重要特征。

最后是"监控"阶段,这些通常是简短的自我反思表达,比如"嗯..."、"等等..."、"让我想想"。这些看似不起眼的表达实际上反映了AI的元认知能力——对自己思考过程的觉察和调节。

研究团队通过对3087个句子的详细分析,发现AI在这七种思维模式之间的切换是有规律的。最常见的转换模式是从阅读到分析,这说明AI总是先理解问题再调动知识;从制定计划到执行计算,这体现了AI的执行力;以及从探索回到分析,这表明AI会在尝试新方法后重新审视问题。

二、分层解码:从段落到句子的思维解剖

为了更好地理解AI的复杂思维过程,研究团队采用了一种"分层解码"的方法,就像医生做CT扫描时需要从不同角度观察一样。他们同时从段落层面和句子层面来分析AI的推理过程,这样既能看到宏观的思维流程,又能捕捉到微观的思维细节。

在段落层面,研究者将AI的推理过程划分为三大类型的"思维场景"。第一类是"一般性解题"场景,这是AI直接朝着问题解答前进的时候。就像学生按部就班地按照标准方法解题一样,AI在这种场景下会有条不紊地分析问题、制定计划、执行计算。这种场景通常出现在问题相对简单、解题路径清晰的时候。

第二类是"探索性思考"场景,当AI遇到困难或者想要尝试不同解法时就会进入这种模式。这就像学生在做难题时需要"换个思路"一样,AI会暂时偏离主要解题路径,去尝试各种可能的方法。在这种场景下,AI的语言会变得更加试探性,经常使用"也许"、"或者"这样的词汇。

第三类是"验证性检查"场景,AI专门用来确认答案正确性的段落。这种场景就像学生做完题后的检查过程,AI会重新审视自己的解答,或者用不同的方法来验证结果的正确性。

在句子层面,研究团队发现了一个有趣的现象:即使在同一个段落场景内,AI的每句话也可能承担不同的思维功能。比如,在一个主要用于验证的段落中,AI仍然可能需要制定验证的具体计划,或者分析验证的逻辑依据。这就像在一场主要用于防守的足球比赛中,球员仍然需要进行传球、跑位等不同的具体动作一样。

这种分层分析方法解决了一个重要的标注难题。有时候,AI会说出"在验证过程中制定计划"这样的复合行为,如果只用一个层面的分类系统,就很难准确描述这种复杂的思维状态。通过分层标注,研究者可以同时标记段落层面的"验证"和句子层面的"制定计划",完整地捕捉AI思维的多重属性。

研究团队对38个数学问题、915个段落和3087个句子进行了详细标注。这个过程就像给AI的思维过程制作了一份详细的"地图",标明了每一个思维节点的性质和功能。标注工作由经过专业训练的人员完成,他们需要达到足够高的一致性才能确保标注结果的可靠性。

为了验证这套分析框架的实用性,研究团队还尝试了自动化标注方法。他们测试了使用先进的语言模型(如GPT-4.1)来自动识别AI推理过程中的不同思维阶段。结果显示,当提供了详细的标注指南后,自动化方法能够达到相当高的准确率,这为将来大规模分析AI推理过程提供了可能。

三、思维转换的秘密:AI如何在不同思考模式间切换

研究团队制作了一个特殊的"思维转换地图",就像交通流量图一样,显示了AI在七种不同思维模式之间切换的频率和规律。这个发现揭示了AI思考过程中一些令人惊讶的模式。

最频繁的思维转换发生在"阅读"到"分析"之间。这很好理解——AI总是先要理解问题,然后才开始调动相关知识。这种转换占所有转换的29%,就像人们拿到一道数学题后,总是先读懂题目,然后开始思考需要用什么定理或公式一样。

第二个高频转换是从"制定计划"到"执行计算",占所有转换的40%。这个模式体现了AI良好的执行力——一旦确定了解题策略,就会立即付诸行动。这就像一个有条理的学生,在决定使用某种解题方法后,会马上开始具体的计算步骤。

第三个有趣的模式是从"探索"回到"分析",占25%的转换频率。这说明AI在尝试新方法时,往往需要重新分析问题的本质。就像学生在一种方法行不通时,会重新审视题目,寻找其他的解题角度。

研究团队还发现,AI具有很强的"自我持续性"——在每种思维模式内,AI都有相当高的概率继续保持在同一模式中。比如,当AI进入"执行计算"模式后,有63%的概率会继续进行计算,这反映了AI在执行具体任务时的专注性和连贯性。

更有趣的是,研究者发现AI的思维转换模式与人类学生的模式高度相似。在以往的教育心理学研究中,成功的问题解决者通常会表现出类似的转换模式:先理解问题,再分析相关知识,然后制定计划,接着执行,在遇到困难时探索新方法,最后验证答案。AI几乎完美地重现了这个过程。

然而,也有一些差异。AI在"验证"阶段的行为与人类学生略有不同。人类学生往往在解题过程中就会进行一些即时的检查,而AI更倾向于在得出答案后进行集中的验证。这可能反映了AI与人类在认知负荷管理上的不同策略。

研究团队还注意到一个特殊现象:AI很少从"验证"直接跳转到"探索"。这说明当AI进入验证模式时,通常是对自己的答案有一定信心的,不太会在验证过程中突然质疑解题方向。相比之下,人类学生在检查答案时如果发现问题,更容易产生"要不要换个方法试试"的想法。

这些发现不仅让我们更好地理解了AI的思维过程,也为改进AI系统提供了重要线索。比如,如果我们希望AI更善于发现和纠正错误,可能需要在验证阶段增加更多的探索性思维元素。

四、自动化分析的突破:让机器理解机器的思考

在完成人工标注后,研究团队面临了一个新的挑战:如何让计算机自动识别AI的思维过程?这就像训练一个"思维翻译员",能够自动解读AI推理过程中每个步骤的含义。

研究团队测试了多种自动化方法。首先是零样本学习方法,就像让一个从未见过数学解题过程的人直接去分析AI的推理步骤。他们使用了当前最先进的大语言模型,包括GPT-4.1、GPT-4o和Gemini-2.0,让这些模型直接识别AI推理过程中的不同思维阶段。

结果显示,仅仅依靠模型本身的理解能力,准确率并不理想。GPT-4.1在段落层面的准确率只有44.4%,在句子层面更是只有59.5%。这就像让一个外行人去分析专业的音乐演奏一样,虽然能听出一些端倪,但很难准确把握每个细节的真正含义。

然后研究团队尝试了提供示例的方法,就像给"思维翻译员"看一些标准答案作为参考。这种方法明显提升了性能,GPT-4.1的段落准确率提高到55.9%,句子准确率也达到了60.4%。这说明具体的例子能够帮助AI更好地理解标注任务的要求。

最大的突破来自于提供详细指导手册的方法。研究团队编写了一份详尽的标注指南,就像给"思维翻译员"提供了一本完整的操作手册。这份指南不仅包含了每个思维类别的定义,还提供了大量的例子、关键词提示和判断标准。

当使用这份指导手册后,效果立竿见影。GPT-4.1的段落准确率跃升到74.0%,句子准确率达到67.6%。如果同时提供示例和指导手册,准确率还能进一步提升到段落层面75.7%,句子层面68.1%。这个结果已经相当接近人类标注员的水平。

研究团队还对比了传统机器学习方法的表现。他们使用BERT等经典模型,在标注数据上进行训练。有趣的是,传统方法的表现虽然不如最先进的大语言模型,但也达到了相当可观的准确率。BERT在句子层面的准确率达到73.2%,这说明AI思维模式的识别确实是一个可以通过机器学习解决的问题。

通过混淆矩阵分析,研究团队发现了一些有趣的错误模式。最容易混淆的类别是"分析"和"验证"、"执行"和"验证",以及"验证"和"执行"。这种混淆很好理解——这些思维活动在表面形式上确实很相似,都涉及对数学内容的处理,差别主要在于目的和上下文。

这些发现对于未来的AI系统开发具有重要意义。自动化的思维分析工具可以帮助AI开发者更好地理解自己系统的推理过程,发现潜在的问题和改进空间。比如,如果发现某个AI系统很少使用"验证"思维,开发者就可以有针对性地加强这方面的训练。

更重要的是,这种自动化分析能力使得大规模的AI思维研究成为可能。研究团队目前只分析了38个数学问题的推理过程,但有了自动化工具,就可以分析成千上万个推理过程,从而发现更加普遍和深入的规律。

五、研究局限与未来展望:探索的边界在哪里

这项开创性研究虽然取得了重要突破,但研究团队也诚实地指出了当前工作的局限性。就像任何科学探索一样,每一个发现都会带来新的问题和挑战。

首先是研究范围的局限。目前的分析主要基于SAT数学题目,这些题目虽然涵盖了高中数学的主要领域,但整体难度相对适中。SAT作为美国的大学入学考试,主要测试学生的数学基础能力,而不是顶尖的数学思维。研究团队计划在未来纳入更具挑战性的数学竞赛题目,比如数学奥林匹克竞赛的问题,来测试这套分析框架在面对真正困难问题时的适用性。

自动化标注的准确率也有待进一步提升。虽然当前最好的方法已经达到了80%左右的准确率,但这意味着仍有20%的判断是错误的。对于需要大规模分析的研究来说,这个误差率还是比较高的。研究团队正在探索更加精细的提示工程技术和多模型集成方法,希望能够进一步提高自动化分析的准确性。

另一个重要的局限是研究的深度。当前的分析主要关注AI思维过程的表面结构,即AI说了什么,按什么顺序说的。但对于AI为什么会产生这样的思维过程,以及这种思维过程与最终解题质量之间的关系,还需要更深入的研究。比如,是不是进行更多验证步骤的AI就一定能得出更准确的答案?不同的思维转换模式是否会影响解题效率?

研究团队也承认,目前的分析主要集中在一个AI模型(DeepSeek-R1)上。不同的AI模型可能会表现出不同的思维模式,甚至同一个模型在不同版本或训练阶段也可能有所差异。为了得出更加普遍的结论,需要在更多样化的AI系统上进行类似的分析。

此外,舍恩菲尔德的情节理论虽然在数学教育领域得到了广泛验证,但它最初是为分析人类学生的行为而设计的。AI的思维过程虽然表面上与人类相似,但本质机制可能存在根本差异。未来的研究需要更深入地探讨这种相似性的真正含义,以及是否需要为AI开发专门的思维分析框架。

尽管存在这些局限,这项研究的价值和潜力是显而易见的。它为理解AI的推理过程提供了一个科学的、系统的框架,这对于AI的可解释性研究具有重要意义。在AI系统越来越复杂、越来越"黑盒化"的今天,能够理解AI的思维过程对于建立人类对AI的信任至关重要。

未来的研究方向十分广阔。除了扩展到更多的数学问题和AI模型外,研究团队还计划将这套分析框架应用到其他领域,比如科学推理、逻辑论证、创意写作等。如果这套框架能够在更广泛的认知任务中发挥作用,那么它就有可能成为理解AI认知能力的通用工具。

另一个有趣的方向是反向应用:利用对AI思维过程的理解来改进AI系统本身。比如,如果发现某些思维转换模式与更好的解题效果相关,就可以在AI训练中有意识地强化这些模式。这可能会带来新一代更加智能、更加可靠的AI推理系统。

说到底,这项研究最重要的意义可能在于它建立了一座桥梁——连接了人类对思维过程的理解和AI系统的发展。通过这座桥梁,我们不仅能更好地理解AI,也可能对人类自己的思维过程有新的认识。毕竟,当我们用人类的理论来分析AI时,也在某种程度上验证和深化了我们对人类认知的理解。

这种跨学科的研究方法——将认知科学的理论应用到AI分析中——代表了一种新的研究范式。它提醒我们,在AI快速发展的时代,人文社科的知识依然具有重要价值,甚至可能是理解和改进AI系统的关键所在。

Q&A

Q1:舍恩菲尔德情节理论是什么?为什么要用它来分析AI?

A:舍恩菲尔德情节理论是1985年由数学教育专家提出的,通过观察学生解数学题的过程,将思维过程分为阅读、分析、制定计划、执行计算、探索、验证和监控七个阶段。研究团队发现AI的推理过程与人类学生解题过程惊人相似,都会经历这些思维阶段,因此这个理论特别适合用来分析AI的思考模式。

Q2:这项研究发现了AI思考的什么规律?

A:研究发现AI在不同思维模式间的转换是有规律的,最常见的是从"阅读"到"分析"(29%)、从"制定计划"到"执行计算"(40%),以及从"探索"回到"分析"(25%)。这些转换模式与人类学生的思考习惯高度一致,说明AI确实在某种程度上模拟了人类的推理过程。

Q3:这项研究对普通人有什么意义?

A:这项研究帮助我们理解AI是如何"思考"的,就像给AI的大脑做了一次透视扫描。这对于建立人类对AI的信任很重要,也为开发更可靠、更智能的AI系统提供了科学依据。未来我们可能会看到思考过程更清晰、更符合人类习惯的AI助手。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-