你是否好奇过,当AI语言模型像人类一样"思考"更久时,它们的回答是否会变得更加准确?丹麦奥尔堡大学计算机科学系的Mike Zhang、Johannes Bjerva和Russa Biswas三位研究者就对这个问题进行了深入探索。他们的研究成果已于2025年5月16日发表在arXiv预印本平台(arXiv:2505.11140v1),这项研究揭示了推理过程的扩展如何影响大语言模型回答事实性问题的准确度。
想象一下,如果你遇到一个复杂的问题,例如"2020年欧盟的人口总数是多少?",你可能会先回忆你知道的信息,然后进行一连串的推理:"欧盟大约有27个成员国,主要国家如德国有8000多万人口,法国有6000多万人口..."等等。大语言模型也可以采用类似的方式,通过一步步地"思考"来得出答案。但问题是,让AI模型进行更长时间的思考真的会让它的回答更加准确吗?
我们都知道,在解决数学问题时,仔细思考每一步通常会带来更准确的结果。但在处理现实世界的事实问题时,例如"哪个科学家发明了电灯泡?"或"日本的首都是哪里?",更长的推理过程是否同样有效呢?这正是此项研究要探索的核心问题。
研究团队构建了一个庞大的实验框架,分析了长推理过程如何影响大语言模型在开放域问答任务中的事实准确性。他们从最先进的推理模型中提取思考轨迹,利用知识图谱增强这些轨迹,然后对各种规模的模型进行微调,最终通过六个不同的基准数据集(共22.6K个问题)进行测试。整体实验包括168次运行,生成了约170万个推理轨迹!这就像是让AI在回答问题时"放声思考",然后研究者们仔细分析这些思考过程的价值。
这项研究不仅揭示了推理能力扩展的价值,还提出了一种名为"fs1"的新方法,利用知识图谱路径来增强模型的事实推理能力。它就像是给AI提供了一本可查阅的百科全书,让它在思考时能够参考可靠的信息源,而不仅仅依赖自己"记忆"中的知识。
接下来,让我们深入了解这项研究的具体内容,看看研究团队如何设计实验、收集数据并得出结论,以及这对我们理解和改进AI系统有何启示。
一、研究背景:为什么研究推理与事实准确性?
想象一下,你在解决一道复杂的数学题。你会怎么做?通常,你会一步步地思考,写下中间步骤,检查每一步的正确性,必要时回过头来修正错误,直到得出最终答案。这个过程就像是你大脑中的"思考"过程。
最近的研究表明,大语言模型(LLM)可以通过类似的"思考过程"来提高其解决复杂问题的能力。例如,Muennighoff等人在2025年的研究表明,通过让模型生成长思考链并在推理过程中使用额外计算资源,模型在数学推理任务上的表现得到了显著提升。这就像是给AI更多的"思考时间",让它能够更仔细地分析问题。
然而,一个关键问题仍然存在:这种长推理过程对于提高模型在处理事实性问题时的准确度是否同样有效?例如,当模型被问到"哪位艺术家创作了星空"或"埃菲尔铁塔位于哪个城市"时,更长的推理链是否会带来更准确的答案?
张、比尔瓦和比斯瓦斯的研究就是要回答这个问题。他们特别关注复杂的多跳问答场景,这类问题需要模型连接多个信息点才能得出答案。例如,"马克·扎克伯格创办的公司总部位于哪个州?"需要模型先知道扎克伯格创办了Facebook,然后知道Facebook总部在加利福尼亚州。
研究团队的方法与众不同之处在于,他们不仅关注推理过程的长度,还尝试通过知识图谱来增强推理的质量。知识图谱是一种结构化的知识表示,包含实体(如人物、地点、组织)和这些实体之间的关系。通过将知识图谱引入推理过程,模型可以更好地将其推理建立在可验证的事实基础上,而不仅仅依赖于它在训练期间学到的知识。
该研究在实践上的重要性在于:如果长推理过程确实提高了事实准确性,那么我们可以通过简单地增加模型在推理上的计算资源来提高其在回答事实性问题时的可靠性,而无需收集更多的训练数据或训练更大的模型。这就像是通过更有效地使用现有资源来提高AI的表现,而不是简单地投入更多资源。
二、研究方法:从推理轨迹提取到知识增强
研究团队的方法可以想象成为AI大语言模型设计了一套"思考训练计划",并研究这种训练如何影响它们回答事实性问题的准确度。这个过程包括几个关键步骤:提取推理轨迹、用知识图谱增强这些轨迹、微调模型,以及在各种基准测试上评估性能。
首先,研究者们需要收集AI的"思考过程"。他们选择了ComplexWebQuestions (CWQ)数据集作为起点,这是一个专门设计用于测试复杂多跳问题的数据集。这些问题就像是多层拼图,需要连接多个信息点才能找到答案。例如,问题可能是"哪位西班牙裔艺术家参加了Stars Dance巡回演唱会?",需要模型先确定谁举办了Stars Dance巡回演唱会,然后判断这个人的族裔背景。
研究团队使用了两个先进的推理模型——QwQ-32B和Deepseek-R1(671B)——来回答这些问题,并记录它们的思考过程。这些思考过程被称为"推理轨迹"(rt),记录了模型从问题到答案的整个思考链。这就像是让一个优秀的学生在解题时把每一步思考都写下来,然后用这些笔记来教其他学生如何思考。
但研究者们并不满足于简单收集这些推理轨迹。他们注意到,即使是先进的模型在推理过程中也可能包含事实错误。为了解决这个问题,他们想出了一个创新方法:利用知识图谱来增强推理轨迹。
想象一下,普通推理模型就像一个只依靠记忆来回答问题的学生,而增强后的模型则像一个可以查阅百科全书的学生。研究团队使用Wikidata(一个大型结构化知识库)中的信息来"指导"模型的推理。他们将问题中涉及的实体映射到Wikidata中的对应实体,然后提取相关的知识图谱路径。例如,对于Stars Dance巡回演唱会的问题,他们可能提取出这样的路径: ""
这些知识图谱路径被用来"引导"模型的推理,但不直接给出答案。研究者们使用这样的提示:"回答问题时,请利用以下线性化图谱作为推理灵感,而不是唯一答案:[知识图谱路径]"。通过这种方式增强的推理轨迹被称为"fs1"。
研究表明,fs1推理轨迹在准确性方面明显优于原始推理轨迹。例如,使用QwQ-32B生成的原始推理轨迹的精确匹配准确率为0.46,而使用fs1增强后,准确率提高到了0.63。这相当于将错误率减少了约三分之一!
接下来,研究团队使用这些高质量的推理轨迹来微调不同大小的模型,从最小的0.5B参数到最大的32B参数。这就像是用优秀学生的思考方式来教导其他学生,希望他们能学会类似的推理技巧。
最后,他们在六个不同的问答基准数据集上评估了这些微调模型的性能,共计22.6K个问题。这些数据集涵盖了各种类型的事实性问题,从时间相关的问题到多语言问题,构成了一个全面的测试场景。
三、研究发现:思考更久真的有用吗?
研究团队通过大量实验得出了几个关键发现,解答了长推理过程是否提高事实准确性的疑问。这些发现可以帮助我们理解AI"思考"的价值,以及如何最有效地利用计算资源来提高模型性能。
首先,研究表明,对于较小的模型(0.5B-1.5B参数),长推理确实能显著提高事实准确性。想象一下,这就像是给智力较一般的学生提供详细的解题步骤,这些学生能够从结构化的思考过程中获益良多。例如,0.5B参数的模型在经过推理轨迹微调后,在CWQ数据集上的准确率从19.2%提高到了24.3%,这是一个显著的提升。
然而,随着模型规模的增大(3B参数以上),简单的推理微调带来的改进变得不那么明显。这就像是高智商的学生已经掌握了基本的思考技巧,仅仅教他们常规的思考方法无法带来太大提升。对于这些较大的模型,知识图谱增强(fs1)的价值也相应减小。
一个重要的发现是测试时计算资源扩展(test-time scaling)的价值。研究团队探索了两种扩展方式:并行扩展和顺序扩展。
并行扩展就像是让多个学生独立解决同一个问题,然后采用多数投票或选择最佳答案。研究显示,对于相同的计算预算,让模型生成多个答案然后取最佳结果,比让模型进行更长时间的推理更有效。例如,在CWQ数据集上,当生成16个答案并采用"any@k"策略(只要有一个答案正确就算正确)时,准确率可以从单次推理的约50%提高到85%左右。
顺序扩展则类似于给学生更多的时间来思考一个问题。研究团队通过"预算强制"实验探索了推理长度对准确性的影响。他们发现,随着推理令牌预算从256增加到2048,准确率稳步提高,但在2048令牌之后趋于平稳。这表明,对于事实推理任务,中等长度的思考(大约2K令牌)可能是最优的,提供了准确性和效率之间的良好平衡。
这一发现与常识相符:思考太少可能导致错过重要信息,但思考太多可能引入噪音或导致"过度思考"。这就像人类在解决问题时,适量的思考是有帮助的,但过度分析有时反而会导致混淆。
另一个重要发现是知识图谱增强(fs1)在提高推理质量方面的价值。通过将可验证的事实引入推理过程,模型能够生成更加准确的答案。这表明,即使是先进的大语言模型,在处理事实性问题时也能从外部知识源中获益。
总体而言,研究结果支持这样一个观点:适度的长推理结合知识增强和测试时计算扩展可以显著提高大语言模型在事实性问答任务上的性能,特别是对于较小的模型。对于大型模型,虽然简单的推理微调带来的收益有限,但它们仍然可以从测试时的计算扩展中获益。
四、案例分析:从错误到正确的转变
为了更具体地理解研究成果,让我们看一个实际例子,展示不同方法如何影响模型回答问题的准确性。
假设问题是:"参加Stars Dance巡回演唱会的西班牙裔艺术家的族裔是什么?"
在原始的指令微调模型中,模型可能直接回答:"墨西哥裔"。这是一个错误的回答,因为没有进行充分的推理。
使用链式思考方法时,模型会尝试更结构化地思考,例如:"让我一步步思考...我的答案是古巴裔。"但这仍然是错误的。
使用标准思考方法(rt)时,模型会进行更详细的思考:"好的,我需要...(思考过程)...星Dance巡回演唱会的西班牙裔艺术家是罗密欧·桑托斯,他的族裔是多米尼加裔。"这也是错误的。
然而,当使用知识图谱增强的思考方法(fs1)时,模型能够接触到实际的知识:""和""。这让模型能够基于可验证的事实进行推理,最终给出正确答案:"意大利裔美国人"。
这个例子展示了如何通过结构化思考和知识增强来提高模型的事实准确性。当模型能够参考可靠的知识源并有足够的"思考空间"时,它能够从错误的初始直觉转变为正确的答案。
研究中的许多实例展示了类似的模式:模型在简单回答时可能犯错,但通过深入思考并参考可靠知识,它们能够纠正初始错误并达到更高的准确性。这与人类的认知过程相似——我们也常常通过深入思考和查阅参考资料来改进最初的判断。
五、研究启示:推理、知识和计算的价值
这项研究为AI系统设计者和用户提供了几个重要启示,帮助我们理解如何最有效地利用大语言模型处理事实性问题。
首先,研究清楚地表明,对于较小的模型(0.5B-1.5B参数),教导它们如何推理可以显著提高事实准确性。这意味着,即使没有庞大的计算资源来训练超大模型,我们也可以通过教导更小的模型进行结构化思考来提高它们的性能。这就像是教给普通学生良好的解题方法,即使他们的基础知识有限,也能取得更好的成绩。
其次,研究显示,知识图谱增强是提高推理质量的有效方法。通过将可验证的事实引入推理过程,模型能够生成更加准确的答案。这表明,未来的AI系统可能需要更紧密地结合结构化知识库和大语言模型,而不是仅仅依赖于模型内部"记忆"的知识。
第三,测试时计算扩展是提高事实准确性的强大工具。特别是,并行扩展(生成多个答案并选择最佳结果)似乎是一种特别有效的策略。这对实际应用有重要启示:在资源允许的情况下,让模型生成多个候选答案然后进行选择可能是提高准确性的简单而有效的方法。
第四,长推理不是万能的。研究发现,超过2K令牌的推理带来的额外收益有限。这表明,对于事实推理任务,存在一个最优的推理长度,超过这个长度不会带来显著改进。这有助于指导AI系统的设计者如何最有效地分配计算资源。
最后,研究结果表明,没有一种通用的最佳策略适用于所有模型大小和任务。较小的模型从长推理和知识增强中获益更多,而较大的模型则从测试时计算扩展中获益更多。这意味着,AI系统的设计应该考虑模型大小、任务类型和可用计算资源,采用定制化的策略来最大化性能。
六、未来方向:推理、知识和事实性的新前沿
虽然这项研究在理解推理对事实准确性的影响方面取得了重要进展,但它也揭示了一些值得进一步探索的方向。
一个重要的后续研究方向是开发更好的流程级验证方法。目前,大多数验证推理质量的工作集中在数学领域,因为在数学中,我们可以清楚地检查每一步是否正确。在事实推理中,验证中间步骤的正确性要困难得多。未来的研究可能需要开发专门的事实性奖励模型,能够验证推理过程中的每一步,而不仅仅是最终答案。
另一个有前途的方向是探索混合扩展策略的潜力。研究表明,并行扩展和顺序扩展各有优势。未来的系统可能采用混合策略,例如,生成多个中等长度的推理轨迹,而不是一个非常长的轨迹或多个简短的直接答案。
此外,知识图谱与大语言模型的更紧密结合也是一个值得探索的方向。虽然fs1方法展示了知识图谱在引导推理方面的价值,但未来的研究可能探索更深层次的整合,例如,在生成过程中实时查询知识图谱,或者训练模型直接生成可以在知识图谱中验证的事实陈述。
最后,研究团队发布的所有代码、模型和170万个推理轨迹为未来的研究提供了宝贵资源。这些数据可以用于训练更好的奖励模型,研究不同推理模式的特征,或者开发新的事实性验证方法。
七、结论:推理能力扩展的价值与限制
总结这项研究,我们可以得出几个关键结论:
首先,推理能力的扩展确实可以提高大语言模型在事实性问答任务上的准确性,特别是对于较小的模型。这表明,教导模型如何思考可以部分弥补它们在参数量上的劣势。
其次,知识图谱增强是提高推理质量的有效方法。通过将可验证的事实引入推理过程,模型能够生成更加准确的答案,这表明未来的AI系统可能需要更紧密地结合结构化知识和大语言模型。
第三,测试时计算扩展,特别是并行扩展,是提高事实准确性的强大工具。在资源允许的情况下,生成多个答案并选择最佳结果可以显著提高准确性。
然而,研究也揭示了长推理的局限性。对于较大的模型,简单的推理微调带来的改进有限,超过2K令牌的推理也不会带来显著收益。这表明,推理能力扩展不是解决所有事实性问题的万能钥匙,而是需要与其他方法结合使用。
总的来说,这项研究为理解和提高大语言模型的事实准确性提供了重要见解。通过适当的推理、知识增强和测试时计算扩展,我们可以使AI系统在回答事实性问题时变得更加可靠,这对于AI在教育、研究和决策支持等领域的应用具有重要意义。
如果你对这项研究感兴趣,可以在arXiv上查看完整论文(arXiv:2505.11140v1),或访问研究团队的GitHub仓库(https://github.com/jjzha/fs1)和Hugging Face页面(https://huggingface.co/jjzha/fs1)了解更多细节。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。