
这项由香港理工大学的游润阳、李永齐等研究人员,联合山东建筑大学、中国科学技术大学和哈尔滨工业技术(深圳)等机构完成的研究,发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07745v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。
人工智能的"思考"过程一直是个谜。传统的AI模型在解决复杂问题时,需要逐字逐句地写出推理步骤,就像学生做数学题必须写出完整的解题过程一样。但最近,科学家们发现了一种更巧妙的方法——让AI在"脑海中"进行推理,不需要用具体的文字表达出来。这种方法被称为"潜在推理",就好比人类在思考时,很多想法是以模糊的概念和直觉形式存在的,而不是完整的语句。
然而,这种新颖的推理方式遇到了一个关键问题:如何让AI产生不同的思考路径?在传统方法中,AI可以通过随机选择不同的词汇来产生多样化的推理过程,就像一个学生可以用不同的表达方式来解释同一道题。但在"脑海推理"中,AI的思考是抽象的数字向量,没有具体的词汇选择机制,这使得它很难产生多样化的思考路径。
香港理工大学的研究团队巧妙地解决了这个难题。他们的创新在于开发了两种让AI在"想象中"产生不同思考路径的方法,并且设计了一套评价系统来判断哪种思考路径更有希望得到正确答案。这项研究的最大价值在于,它让AI能够在不需要额外训练的情况下,仅仅通过在推理时投入更多计算资源,就能显著提升解决问题的能力。
研究团队在数学推理任务上验证了他们的方法。实验结果显示,当AI采用这种并行思考策略时,随着投入计算资源的增加,解题准确率会稳步提升。这就像给一个聪明的学生更多时间思考,他就能想出更多解题思路,从而提高答对的概率。
一、让AI学会"胡思乱想"的艺术
要让AI产生多样化的思考,就必须在它的思维过程中引入一些"不确定性"。研究团队借鉴了不确定性理论,将这种不确定性分为两类:一类是因为AI本身知识有限而产生的不确定性,另一类是因为输入信息本身存在噪声或模糊性而产生的不确定性。基于这个理论基础,他们设计了两种让AI"胡思乱想"的方法。
第一种方法叫做"蒙特卡洛随机失活",这个名字听起来很复杂,但原理其实很简单。在AI的"大脑"中,有无数个连接点负责信息传递。正常情况下,所有连接点都会工作。但这种方法会随机让一些连接点"打盹",就像一个人思考时某些神经元偶尔会休息一样。每次让不同的连接点休息,AI就会产生不同的思考路径。这种方法的巧妙之处在于,它模拟的是AI因为自身知识局限而产生的不同理解。
第二种方法叫做"加性高斯噪声",听起来更加学术化,但本质上就是在AI的每个思考步骤中加入一些随机的"杂音"。这就好比一个人在嘈杂环境中思考,外界的干扰会让他的思路产生微妙的变化,从而探索到平时可能想不到的方向。这种方法模拟的是外界环境的不确定性对思维过程的影响。
研究团队通过大量实验发现,这两种方法有着截然不同的"个性"。蒙特卡洛随机失活就像一个谨慎的探索者,它会沿着特定方向深入思考,产生结构化程度较高的思维路径。而加性高斯噪声则像一个大胆的冒险家,它会向四面八方发散思维,产生更加多样化但也更加分散的想法。
更有趣的是,这两种方法在处理不同难度问题时表现出了不同的优势。对于相对简单的问题,加性高斯噪声表现更好,因为正确答案通常就在常规思路附近,适度的随机扰动能够帮助AI找到最优路径。而对于困难问题,蒙特卡洛随机失活更有优势,因为这类问题往往需要跳出常规思维框架,而这种方法正好擅长产生突破性的思考方向。
二、智能评委:判断哪种思考路径更靠谱
有了多样化的思考路径还不够,关键是要能判断哪条路径更有希望得到正确答案。这就好比一个学生想出了十种不同的解题思路,但需要有经验的老师来指导他应该重点发展哪几种思路。
传统的AI推理可以通过计算每个词出现的概率来评估思考质量,但潜在推理中的思考过程是抽象的数字向量,无法直接计算概率。研究团队巧妙地设计了一个"潜在奖励模型"来解决这个问题。
这个奖励模型就像一位经验丰富的老师,它能够评估AI在思考过程中每一步的"质量"。为了训练这位"老师",研究团队采用了一种叫做"随机推演"的方法。具体来说,对于AI思考过程中的每一步,他们会让AI从这一步开始,用随机的方式完成剩余的推理过程,重复很多次,然后统计最终得到正确答案的比例。如果从某一步开始能够高概率得到正确答案,就说明这一步的质量很高。
但这种简单的统计方法还不够精细。研究团队进一步采用了"对比学习"的策略,让奖励模型不仅要判断单个步骤的好坏,还要能够比较同一阶段不同思考路径的相对优劣。这就像让老师不仅要给每个学生的答案打分,还要能够排出这些答案的优劣顺序。
通过这种训练方式,奖励模型学会了在AI的思考过程中担当"导航员"的角色。它能够在每个思考步骤给出评分,指导AI优先选择那些更有希望通向正确答案的思维路径。这种评估能力使得AI可以采用"最优N选择"或"束搜索"等策略,从多个思考路径中挑选出最有前景的几条进行深入探索。
三、实验验证:数字不会说谎
为了验证这套方法的有效性,研究团队在三个数学推理数据集上进行了大规模实验。这些数据集包括GSM8K测试集(包含1300个数学问题)、GSM8K困难版(将原问题中的数字放大以增加难度)和MultiArith(专注于多步骤算术推理的600个问题)。
实验采用了三个代表性的潜在推理模型:COCONUT(逐步将传统推理替换为潜在推理)、CODI(通过自蒸馏将传统推理压缩到潜在空间)和CoLaR(使用强化学习进行动态潜在压缩)。这些模型分别基于不同的技术架构,为实验结果的可靠性提供了保障。
实验结果令人印象深刻。随着采样数量的增加,两种随机化策略都能够持续提升问题解决的成功率,这证明了增加计算资源确实能够带来性能提升。更重要的是,这种提升呈现出清晰的规律性:在样本数量较少时,性能提升较为明显;随着样本数量增加,边际收益逐渐递减,但仍然保持正向增长。
两种策略的表现特征也得到了实验验证。在大部分情况下,蒙特卡洛随机失活的表现优于加性高斯噪声,特别是在需要更多样本的情况下。但在某些特定场景下,加性高斯噪声展现出了更好的稳定性,即使在引入较大随机性的情况下也能维持较高的准确率。
研究团队还深入分析了两种方法产生的思维多样性。他们发现,随着随机程度的增加,思维多样性会先上升后下降,存在一个"甜蜜点"。过少的随机性导致思维路径过于相似,浪费计算资源;过多的随机性则会导致思维发散过度,偏离正确方向。找到这个平衡点是应用这些方法的关键。
四、深入洞察:为什么这样做有效
为了更好地理解两种随机化策略的工作机制,研究团队进行了详细的可视化分析。他们使用t-SNE降维技术将AI的抽象思考过程投射到二维平面上,就像将复杂的三维立体图形投影到平面纸张上一样。
可视化结果揭示了两种方法截然不同的探索模式。蒙特卡洛随机失活产生的思考路径呈现出"定向漂移"的特征——就像水流沿着河床流动一样,思维路径会沿着特定方向密集而连续地扩展。这种模式特别适合处理需要深度思考的困难问题,因为它能够在promising的方向上进行充分探索。
相比之下,加性高斯噪声产生的思维模式更像"烟花绽放"——以确定性思考为中心,向四面八方均匀扩散。这种各向同性的探索模式虽然覆盖面广,但在每个方向上的探索深度有限。这解释了为什么它在简单问题上表现良好(因为答案就在附近),但在困难问题上不如蒙特卡洛随机失活有效。
研究团队还发现了一个有趣的现象:随着问题难度的增加,不同AI模型之间的性能差距会逐渐缩小。这意味着当投入足够的计算资源进行并行思考时,即使是性能相对较弱的模型也能通过"量变引起质变"的方式达到较好的效果。
关于奖励模型的有效性,研究团队进行了详细的消融实验。他们发现,如果移除对比学习机制,仅使用简单的二分类方法训练奖励模型,性能会明显下降。这证明了相对比较比绝对评价更加有效。同时,如果不使用随机推演来生成标签,而是仅根据最终答案的正确性来评价中间步骤,效果也会大打折扣。这说明了细致的中间过程评估的重要性。
五、意义与展望:开启AI推理新纪元
这项研究的意义远超出了技术层面的创新。它首次证明了潜在推理模型也能够像传统模型一样从并行计算中获益,这为AI系统的发展开辟了一条全新道路。在实际应用中,这意味着我们可以通过增加推理时的计算投入,而不是重新训练整个模型,来显著提升AI系统的问题解决能力。
从计算效率的角度来看,这种方法具有显著优势。传统的模型改进通常需要收集更多数据、设计新的网络架构或进行长时间的重训练,成本高昂且周期漫长。而这种方法允许用户根据具体需求灵活调整计算资源的投入,在准确性和效率之间找到最佳平衡点。
研究团队也诚实地指出了当前方法的局限性。首先,在实际部署时,这种方法可能需要额外的工程优化才能达到实时应用的要求。其次,两种随机化策略都需要调整参数(随机失活概率和噪声强度),虽然这个过程相对简单,但仍然需要针对具体应用场景进行优化。
更广阔的前景在于,这项研究为AI推理能力的提升提供了一个全新的维度。未来的研究可能会将这种并行思考机制与强化学习相结合,让AI系统能够自动学习最优的探索策略。这种自适应的推理系统将能够根据问题的特点动态调整思考方式,在面对不同类型挑战时展现出更强的灵活性。
从更宏观的视角来看,这项研究揭示了AI思维的一个重要特征:就像人类一样,AI也能够从"换个角度思考"中获益。这种认知上的相似性不仅有助于我们更好地理解AI的工作机制,也为人机协作提供了新的可能性。当AI能够产生多样化的思考路径时,它就能够为人类提供更加丰富和创新的解决方案建议。
说到底,这项研究最大的价值在于证明了一个简单而深刻的道理:有时候,让机器"慢慢想想"比让它"更聪明"更有效。就像我们在面对困难问题时会反复思考、从不同角度分析一样,AI也能够通过这种"深思熟虑"的方式获得更好的表现。这不仅为AI技术的发展指明了一个新方向,也让我们对人工智能与人类智能之间的相似性有了更深入的认识。
随着这种技术的不断完善,我们有理由相信,未来的AI系统将能够在保持高效运行的同时,展现出更加细腻和深入的推理能力。这将为教育、科研、医疗诊断等需要复杂推理的领域带来革命性的改变。
Q&A
Q1:潜在推理和传统AI推理有什么区别?
A:传统AI推理需要逐字逐句写出完整的思考过程,就像学生做题必须写出每一步解题步骤。而潜在推理让AI在"脑海中"用抽象的数字向量进行思考,类似人类的直觉思维,更高效但也更难控制多样性。
Q2:蒙特卡洛随机失活和加性高斯噪声这两种方法有什么不同?
A:蒙特卡洛随机失活像谨慎的探索者,通过随机让AI的一些连接点"打盹"来产生结构化的思考路径,适合困难问题。加性高斯噪声像大胆的冒险家,在思考中加入随机"杂音"产生发散性思维,适合简单问题。
Q3:这项技术能应用到哪些实际场景中?
A:这项技术特别适合需要复杂推理的场景,如教育辅导、医疗诊断、科学研究等。它的最大优势是无需重新训练AI模型,仅通过增加推理时的计算资源就能显著提升问题解决能力,为用户提供准确性和效率之间的灵活选择。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。