这项由加州大学伯克利分校郭俊宇等研究团队领导的研究发表于2025年9月,论文编号为arXiv:2509.20868v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
一、当AI遇到考试——五种"思考风格"大比拼
想象一下,如果AI也要参加考试,它们会选择什么样的答题策略呢?有的可能会像学霸一样一步步详细列出解题过程,有的可能会快速草拟几个要点就给出答案,还有的可能会同时考虑好几种解法然后挑选最佳方案。伯克利大学的研究团队就对这个有趣的问题进行了深入研究。
在人工智能的世界里,大语言模型(也就是我们常说的AI聊天机器人)的表现很大程度上取决于它们采用什么样的"思考方式"来处理问题。就好比同一道数学题,有些学生喜欢按部就班地一步步计算,有些学生则倾向于先画个草图理清思路,还有些学生会尝试多种解法再选择最简单的一种。
研究团队识别出了五种主要的AI推理风格。第一种叫"思维链"(Chain-of-Thought),就像我们做数学题时在草稿纸上一步步写出解题过程一样,AI会把每个推理步骤都明确地展示出来。第二种是"思维树"(Tree-of-Thought),这就像是同时考虑多条解题路径,然后选择最有希望的那条继续走下去,类似于下棋时考虑多个可能的走法。
第三种被称为"算法思维"(Algorithm-of-Thought),这种方式允许AI在发现某条思路行不通时回头尝试其他方法,就像走迷宫时遇到死路会回头换条路一样。第四种是"草图思维"(Sketch-of-Thought),这种方式强调用最简洁的符号和步骤来表达推理过程,就像我们解题时只写关键步骤而省略冗长的解释。最后一种叫"草稿链"(Chain-of-Draft),它采用反复修改完善的策略,先给出一个粗略答案,然后不断改进,直到得出满意的结果。
二、史上最大规模AI推理能力测试
为了搞清楚这些不同的"思考方式"到底哪种更厉害,研究团队设计了一个前所未有的大规模测试。他们就像是给AI们组织了一场超级考试,涵盖了15个不同"智力水平"的AI模型,从参数只有2.7亿的"小学生"到参数高达1200亿的"博士生",应有尽有。
这些AI需要应对五个不同类型的挑战,就像参加一个综合能力测试一样。首先是数学推理测试,使用的是GSM8K数据集,包含了各种小学到初中水平的数学应用题,比如"如果一个蛋糕店有24个羊角面包,上午卖出9个,然后又烤了12个,最后还有多少个?"这类问题。
接下来是常识推理测试,使用CommonsenseQA数据集,考查的是AI对日常生活常识的理解,比如"读报纸是练习什么能力的方法之一?"这样的问题。第三个挑战是逻辑推理测试,通过LogiQA数据集检验AI的逻辑分析能力,包含各种需要严密逻辑推导的题目。
第四个测试项目是数学竞赛级别的AIME问题,这些题目的难度相当于美国数学邀请赛的水平,对AI来说是真正的硬骨头。最后一个挑战是"24点游戏",给出四个数字,要求用加减乘除运算得到24,这考验的是AI的搜索和组合能力。
整个测试过程就像是一场马拉松式的智力竞赛,每个AI模型都需要用五种不同的思考方式来解答这些问题。研究团队为了确保结果的公平性,将所有AI的"温度"参数都设置为0,这相当于让它们在完全冷静的状态下作答,避免随机性影响结果。
三、大模型的"学霸效应"——规模越大,选择余地越多
测试结果揭示了一个有趣的现象,研究团队称之为"规模效应"。就好比在学校里,成绩优秀的学霸几乎用任何学习方法都能考出好成绩,而成绩一般的学生则需要找到最适合自己的特定方法才能有所提升。
在AI的世界里也是如此。那些参数量庞大的"学霸"级AI模型,比如拥有720亿参数的Qwen2.5-72B或者1200亿参数的GPT-OSS-120B,它们几乎可以用任何一种思考方式都取得不错的成绩。这就像是天才学生无论用什么方法学习都能掌握知识一样。
然而,对于那些参数量较小的"普通学生"级AI,情况就大不相同了。它们必须选择最适合特定任务的思考方式才能发挥出最佳水平。比如,在处理那些需要多步骤搜索的开放性问题时,小模型往往力不从心,而大模型则能够游刃有余地运用复杂的思维树或算法思维方法。
更有趣的是,研究发现了一个出人意料的现象:在高难度任务上,小模型通常不会用尽所有可用的"思考时间"(也就是生成更多文字来详细推理),而是会很快给出一个答案,无论这个答案是否正确。这就像是学习能力较弱的学生在面对难题时,往往会放弃深入思考而选择快速猜测一个答案。
相比之下,大模型会更有耐心地进行深入思考,用更多的文字和步骤来分析问题。这种行为差异说明了模型规模不仅影响知识储量,还影响"思考习惯"和问题解决策略。
四、专业对口很重要——不同任务需要不同思维方式
研究最令人惊讶的发现之一是,不同类型的任务确实需要不同的思考方式,就像不同的工作需要不同的专业技能一样。这种"专业对口"的现象在AI的表现中体现得非常明显。
在数学推理任务中,传统的"思维链"方法表现得最为出色。这就像解数学题时,按部就班地写出每一步计算过程往往是最可靠的方法。研究团队发现,对于GSM8K这类标准数学题,采用思维链方法的AI平均准确率比其他方法高出15-20个百分点。这种方法的优势在于它强制AI展示完整的推理过程,减少了跳跃式思维可能带来的错误。
然而,当面对需要大量搜索和尝试的开放性问题时,情况就完全不同了。在"24点游戏"这类任务中,思维树和算法思维方法表现得更加出色。这些方法允许AI同时探索多个可能的解决路径,就像是同时尝试多种不同的数字组合,然后从中找出能够得到24的正确组合。
在逻辑推理任务中,"草图思维"方法展现出了独特的优势。这种方法特别适合处理那些有标准答案的选择题,因为它能够快速抓住问题的关键逻辑关系,而不会被繁琐的推理细节所拖累。在LogiQA测试中,草图思维方法的表现比思维链方法高出了约10个百分点。
更有趣的是,在常识问答任务中,所有的复杂推理方法并没有显示出明显优势。这是因为常识问题更多依赖的是AI预训练时积累的知识,而不是复杂的推理能力。就好比问"天空为什么是蓝色的"这类问题,关键在于是否知道光的散射原理,而不在于推理过程有多复杂。
五、效率与准确性的平衡艺术
研究团队还深入分析了不同思考方式在效率方面的表现,这就像比较不同的工作方式哪种更节省时间和精力。结果显示,追求准确性和追求效率之间存在着微妙的平衡关系。
"草图思维"和"草稿链"方法在这方面表现得特别出色。它们就像是高效的速记员,能够用最少的文字表达最核心的思路。在LogiQA任务中,草图思维方法产生的文本比思维链方法少了94%,但准确率却基本相当。这种极致的效率让人联想到经验丰富的专家能够一眼看穿问题本质,而新手却需要冗长的分析过程。
相比之下,思维树和算法思维方法虽然在某些复杂任务上表现出色,但它们的"思考成本"也相对较高。这些方法需要生成更多的文本来探索不同的可能性,就像是为了找到最优解而付出更多的计算资源。在实际应用中,这意味着更高的运行成本和更长的响应时间。
研究团队通过token使用量的统计发现,在AIME这类高难度数学题上,不同模型和方法的资源消耗差异巨大。小模型往往很快就放弃深入思考,而大模型则愿意投入更多资源进行充分的探索。这种差异反映了不同规模AI在面对困难任务时的不同策略选择。
更令人深思的是,研究发现最昂贵的方法并不总是最有效的。有时候,选择适合任务特点的简单方法反而能够以更低的成本获得更好的结果。这提醒我们在实际应用中需要根据具体需求来选择合适的AI推理策略,而不是盲目追求最复杂的方法。
六、格式规范——小细节暴露大问题
在深入分析AI的回答质量时,研究团队发现了一个意想不到的细节问题,这个问题就像是考试中的书写规范一样重要,但经常被忽视。
小规模的AI模型经常会忽略输出格式的要求,就像是学生做题时不按照标准格式作答一样。研究团队要求所有AI在给出最终答案时都要使用特定的格式,比如用\boxed{}将答案括起来,但许多小模型会完全无视这个要求。它们可能会随意地在答案周围加上各种奇怪的符号,比如"<A>"或者"<2>",而不是按照指定的格式。
这种看似微小的格式问题实际上反映了更深层次的问题。它表明小规模AI模型缺乏足够的"指令遵循能力",也就是说,它们难以同时处理任务本身和格式要求这两个层面的需求。这就像是一个学生可能知道正确答案,但却不会按照老师要求的格式来呈现答案。
更严重的是,这种格式问题会给自动评分系统带来困扰。研究团队不得不开发额外的程序来从各种不规范的输出中提取真正的答案,这无疑增加了评估的复杂性。在实际应用中,这种问题可能会导致AI系统无法与其他程序正确交互,从而影响整体的工作流程。
相比之下,大规模AI模型在格式遵循方面表现得much better。它们能够在保证答案质量的同时,严格按照指定的格式输出结果。这种能力看起来简单,但实际上需要AI具备良好的多任务处理能力和指令理解能力。
七、搜索策略的智慧——开放问题需要探索精神
在分析不同AI模型如何处理"24点游戏"这类搜索型任务时,研究团队发现了推理策略选择的重要性。这类问题就像是在一个巨大的数字组合迷宫中寻找正确路径,需要AI具备良好的搜索和回溯能力。
算法思维方法在这类任务中表现出了明显的优势,因为它允许AI在发现某条路径行不通时及时回头尝试其他可能性。研究团队记录了一个典型的成功案例:面对数字2、3、13、13的组合,AI首先尝试了简单的加法和乘法组合,发现无法得到24后,便回溯到之前的步骤,尝试了更复杂的运算顺序,最终找到了正确的表达式(13×3-13)-2=24。
相比之下,传统的思维链方法在这类任务上经常会陷入困境。由于它只能沿着一条固定路径前进,一旦最初选择的方向错误,就很难纠正。研究团队观察到,许多采用思维链方法的AI会在错误的路径上越走越远,最终得出"无解"的错误结论。
更有趣的是,草图思维和草稿链这类简洁方法在面对搜索型任务时显得力不从心。它们虽然在结构化问题上表现优秀,但在需要大量尝试和探索的开放性问题上缺乏足够的"耐心"。这就像是一个习惯了快速决策的人在需要深度思考的问题面前会感到不适应。
研究结果表明,不同类型的问题确实需要不同的解决策略。对于有明确解法的结构化问题,效率优先的方法更合适;而对于需要探索的开放性问题,则需要更加灵活和全面的搜索策略。
八、模型规模的门槛效应——能力跃升的临界点
通过对不同规模AI模型的比较分析,研究团队发现了一个类似"门槛效应"的有趣现象。这就像是学习某项技能时存在一个临界点,一旦跨越这个临界点,能力就会发生质的飞跃。
在处理Game24这类复杂任务时,参数量少于7B的小模型基本上都会失败,无论采用什么思考方式。它们就像是还没有掌握基本运算规则的学生,即使给予再多的解题策略也难以取得突破。这些模型往往会产生一些看似合理但实际错误的答案,比如使用同一个数字两次,或者得出完全错误的计算结果。
然而,当模型规模达到30B参数以上时,情况就开始发生变化。这个规模的AI开始能够理解任务的基本规则,虽然不一定能找到正确答案,但至少不会犯基础性错误。研究团队观察到,32B参数的Qwen模型能够生成符合规则的表达式,尽管结果仍然不正确。
真正的突破发生在70B参数以上的大模型身上。这些模型不仅能够理解规则,还能够灵活运用不同的思考策略来寻找正确答案。72B参数的Qwen模型和120B参数的GPT-OSS模型都能够成功解决复杂的24点问题,展现出了质的飞跃。
这种门槛效应不仅体现在任务完成能力上,还体现在对不同推理策略的适应性上。小模型往往只能在特定策略下勉强工作,而大模型则能够熟练掌握多种策略,并根据问题特点自动选择最合适的方法。
九、自动策略选择的挑战——AI还不会"因材施教"
研究团队还尝试了一个更加雄心勃勃的目标:训练AI自动选择最适合特定问题的推理策略。这就像是培养一个能够根据学生特点选择教学方法的智能老师。
他们使用7B参数的Qwen模型进行了专门的训练,希望它能够学会在面对不同类型问题时自动选择最优的思考方式。训练数据包含了3000个问题及其对应的最佳策略选择,就像是给AI提供了一本"策略选择指南"。
然而,实验结果令人失望。训练后的模型并没有学会真正的策略选择技巧,而是发展出了一种简单粗暴的偏好:无论遇到什么问题,都倾向于选择"草稿链"方法。这就像是一个学生无论遇到什么科目都用同一种学习方法,完全没有理解"因材施教"的道理。
更深入的分析显示,这种现象反映了当前AI训练方法的局限性。模型倾向于记忆训练数据中的表面模式,而不是真正理解不同策略的本质特点。在训练数据中,草稿链方法确实是最常用的最优策略(占58.28%),但这并不意味着它适用于所有情况。
这个失败的实验提醒我们,让AI学会元认知能力(也就是"思考如何思考"的能力)比想象中更加困难。目前的训练方法还无法让AI真正理解不同推理策略的适用条件和内在逻辑,这仍然是人工智能领域需要攻克的重要挑战。
十、实用指南——选择合适的AI"思考方式"
基于大量的实验数据和分析结果,研究团队为实际应用提供了一套实用的策略选择指南。这就像是一份针对不同场景的"使用说明书",帮助人们根据具体需求选择最合适的AI推理方式。
对于数学计算和逻辑推理类任务,传统的思维链方法仍然是最可靠的选择。它就像是数学考试中的标准解题格式,虽然可能不是最快的,但能够确保准确性和可追溯性。这种方法特别适合那些有明确步骤和标准答案的问题。
当面对需要创新思维和多重尝试的开放性问题时,思维树和算法思维方法更值得推荐。它们就像是头脑风暴会议中的发散思维,能够同时探索多个可能性,从而找到非常规的解决方案。不过需要注意的是,这些方法需要更强大的模型支撑,小规模AI往往难以发挥其优势。
对于那些追求效率和成本控制的应用场景,草图思维和草稿链方法是理想的选择。它们能够以最少的计算资源快速给出合理的答案,特别适合大规模的实时应用。这就像是快餐店的标准化作业流程,虽然不一定是最精致的,但足够满足大多数基本需求。
在模型选择方面,研究结果显示了明确的规律:如果预算充足,大规模模型配合任何推理策略都能取得不错的效果;如果资源有限,则需要仔细匹配任务类型和推理策略,小模型只有在"专业对口"的情况下才能发挥出应有水平。
十一、未来展望——AI思维能力的进化方向
这项研究不仅揭示了当前AI推理能力的现状,还为未来的发展方向提供了重要线索。研究团队认为,AI推理能力的进化将沿着几个重要方向发展。
首先是推理策略的自适应能力。虽然当前的自动策略选择实验并未成功,但这个方向仍然具有巨大潜力。未来的AI系统可能会像经验丰富的专家一样,能够根据问题的特点自动调整思考方式,而不需要人工指定策略。
其次是推理效率的持续提升。研究显示,简洁的推理策略在保证准确性的同时能够大幅减少计算成本。未来的AI系统将更加注重这种效率与性能的平衡,特别是在需要大规模部署的商业应用中。
模型规模的门槛效应也提示了一个重要方向:通过架构优化和训练方法改进,有可能在较小的模型中实现原本只有大模型才具备的推理能力。这就像是通过更好的教学方法让普通学生也能掌握原本只有天才学生才能理解的知识。
另一个值得关注的方向是多模态推理能力的发展。当前的研究主要关注文本推理,但现实世界的问题往往涉及图像、声音、视频等多种信息类型。未来的AI系统需要能够整合多种感官输入,进行更加全面和深入的推理。
最后,研究团队特别强调了推理过程可解释性的重要性。随着AI系统在关键决策中发挥越来越重要的作用,人们需要能够理解和验证AI的推理过程。这要求未来的推理策略不仅要准确高效,还要足够透明和可信。
说到底,这项研究就像是给AI的"思考能力"做了一次全面体检。结果显示,AI确实具备了多种"思考方式",但每种方式都有自己的专长和局限。就好比人类社会中有各种不同性格和能力的人,有的擅长逻辑分析,有的善于创新思维,有的注重效率执行。关键在于根据具体任务选择最合适的"思考风格",这样才能让AI发挥出最大的潜力。
对普通人来说,这项研究的意义在于帮助我们更好地理解和使用AI工具。当我们在日常工作中使用AI助手时,了解它们的不同"思考方式"可以帮助我们提出更合适的问题,获得更好的答案。未来,随着这些技术的不断发展和普及,我们每个人都可能受益于更加智能和高效的AI助手。
这项开创性研究为我们打开了理解AI推理能力的新窗口,也为开发更加智能和实用的AI系统指明了方向。随着技术的不断进步,我们有理由期待AI在不久的将来会展现出更加令人惊叹的思考和推理能力。
Q&A
Q1:StyleBench测试中的五种AI推理方式有什么不同?
A:五种推理方式就像不同的解题策略。思维链像一步步详细解题,思维树像同时考虑多种解法,算法思维允许遇到死路时回头换路,草图思维用最简洁的方式表达要点,草稿链则是先给粗略答案再不断改进。每种方式都有自己的专长领域。
Q2:为什么大模型比小模型在推理任务上表现更好?
A:就像学霸和普通学生的区别。大模型(70B参数以上)几乎用任何方法都能取得好成绩,还能根据问题特点灵活选择策略。小模型则必须找到最适合的特定方法才能发挥,而且经常在难题面前快速放弃深入思考,选择猜测答案。
Q3:在实际使用AI时应该如何选择推理方式?
A:要根据任务类型选择。数学计算用思维链最可靠,创新性问题用思维树或算法思维,追求效率的场景用草图思维或草稿链。如果用的是大模型,基本什么方式都行;如果是小模型,就必须选择最对口的方式才能有好效果。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。