这项由蒙特利尔大学与Mila魁北克AI研究所的Xiaoqiang Wang、Suyuchen Wang、Apple公司的Yun Zhu,以及蒙特利尔大学兼加拿大CIFAR AI讲席教授Bang Liu共同完成的研究,于2025年5月发表在arXiv预印本平台(arXiv:2505.18962v2),展示了一种全新的思维方式,让大型语言模型既能保持准确性,又能大幅提升效率。
想象一下,我们人类在思考问题时,有时会快速直觉地作出判断(就像看到1+1=2这样简单的问题),有时则需要慢慢推理(比如解决复杂的数学问题)。大型语言模型(LLM)目前的思考方式却很死板——它们要么使用"快思考"模式直接给出答案,要么需要通过"思维链"(Chain-of-Thought,CoT)方式进行冗长的推理,就像一个学生必须在每道数学题上都写出所有步骤,即使是最简单的问题。
当前的AI系统面临着一个明显的效率困境:如果使用思维链推理,虽然准确率高,但生成大量中间文本会耗费大量计算资源;如果直接回答,虽然速度快,但准确率又会下降。一些研究者提出了在AI内部"潜在空间"中进行推理的方法(不生成可见的推理文本),但这些方法要么让所有推理步骤都走"快路",要么都走"慢路",没有区分哪些步骤需要深思熟虑,哪些可以快速处理。
就像我们人类不会对每个问题投入同样的思考精力一样,AI系统也应该能够灵活调整其思考方式。这就是蒙特利尔大学研究团队提出的"System-1.5推理"系统的核心理念——它能够智能地判断哪些推理步骤是关键的(需要深入思考),哪些是非关键的(可以快速处理),哪些甚至可以直接跳过,从而在保持准确率的同时大大提高效率。
这个创新系统就像是为AI装上了一个智能交通系统,通过在"潜在空间"中建立"动态捷径",让思考过程更加灵活高效。研究结果表明,这种方法在GSM8K数学推理数据集上,与传统思维链方法相比,推理速度提高了20倍以上,同时减少了92.31%的文本生成量,且准确率保持不变。
一、System-1.5推理:思考也需要灵活变通
想象一下,如果你正在解决一系列数学问题。对于"2+3=?"这样的简单问题,你可能立刻就知道答案;而面对"小明有5个苹果,吃掉2个,又买了3个,现在有几个苹果?"这类稍复杂的问题,你可能需要稍作思考;至于"求解这个二次方程:3x?+5x-2=0"这样的难题,你则需要认真推导每一步骤。这就是人类思考的灵活性——我们会根据问题的难度自动调整思考的深度和步骤。
然而,目前的大型语言模型(LLM)在进行推理时却缺乏这种灵活性。它们要么使用快速直觉的"System-1"思考方式直接给出答案(就像直接说"2+3=5"),要么采用细致推理的"System-2"思考方式生成完整的思维链(就像写出"首先,我有2,然后加3,得到5")。前者虽然快速但容易出错,后者虽然准确但效率低下,需要生成大量中间文本并进行额外的计算。
研究团队提出的System-1.5推理正是为了解决这一困境。这个系统能够动态调整推理路径,在潜在空间(即模型内部的隐藏状态,而非生成可见的文本)中创建"捷径",从而实现灵活高效的推理。具体来说,System-1.5推理引入了两种动态捷径:
首先是"模型深度捷径"(DS),就像在高速公路上设置快速通道和详细检查通道。对于简单的推理步骤(比如基本的算术),模型可以选择通过浅层网络快速处理;而对于复杂的推理步骤(比如需要逻辑整合的步骤),则会通过更深的网络层进行仔细处理。这就像我们在思考简单问题时只动用大脑的一小部分,而面对复杂问题时则全力以赴。
其次是"推理步骤捷径"(SS),它允许模型在解决问题时跳过一些琐碎的步骤。就像你在解决"小明有5个苹果,吃掉2个,然后又吃掉1个,还剩几个?"这个问题时,可能会直接计算5-2-1=2,而不是先算5-2=3,再算3-1=2。模型通过复用早期退出层的隐藏状态,直接将它们传递给下一个解码步骤,从而避免了对琐碎步骤的重复处理。
二、如何训练一个既快又准的思考者
那么,研究团队是如何训练这个聪明的System-1.5推理系统的呢?他们采用了一个两阶段的蒸馏过程,就像传统武术中的"传功"——先掌握基本功,再学习精简招式。
第一阶段是"语言到潜在空间的对齐"。研究人员首先训练一个标准的思维链模型(称为"教师模型"),它能够生成完整的推理步骤和最终答案。然后,他们训练一个"学生模型",使其学会在潜在空间中进行推理,而不需要生成中间的文本步骤。具体来说,他们提取教师模型最后一层的隐藏状态(可以理解为教师的"思考过程"),并让学生模型的隐藏状态与之对齐。这就像是让学生学会"心算",而不是必须在纸上写出每一步骤。
第二阶段是"System-2到System-1.5的蒸馏"。研究人员利用"原子思维分解"技术,将思维链分解为一个有向无环图,识别出哪些步骤是关键的(需要逻辑整合的步骤),哪些是非关键的(独立的子问题)。然后,他们冻结原始Transformer参数,只训练路由器-适配器模块,鼓励非关键步骤通过早期退出,而关键步骤则继续通过更深的网络层进行处理。
这个训练过程有点像教导一个学生:先让他学会如何一步一步地解题(第一阶段),然后再教他如何聪明地跳过不必要的步骤,集中精力在关键点上(第二阶段)。
三、惊人的效果:速度提升20倍,准确率不减
System-1.5推理的效果如何呢?研究团队在多个推理任务上进行了评估,结果令人印象深刻。
在GSM8K数学推理数据集上,System-1.5推理达到了46.66%的准确率,与传统CoT微调方法的46.94%几乎相当。但是,推理速度提高了20.27倍,同时减少了92.31%的文本生成量。这意味着,原本需要花费一分钟的推理任务,现在只需要不到3秒钟!
在更具挑战性的GSM-HARD数据集上,System-1.5推理同样表现出色,准确率为38.28%,与CoT的38.32%相当,同时速度提升了12.45倍。
更令人惊喜的是,在StrategyQA常识推理数据集上,System-1.5推理的准确率达到48.61%,甚至超过了传统CoT的47.62%,同时速度提升了惊人的55.65倍!这表明,在需要处理多项文本证据的任务中,System-1.5推理的潜在空间推理方式甚至可能优于显式的文本推理。
与其他高效推理方法相比,System-1.5推理也展现出明显优势。相比于早期退出方法(如LITE和LayerSkip),System-1.5推理通过动态步骤捷径机制,实现了更高的FLOPs(浮点运算次数)减少率。而与潜在空间压缩推理方法(如iCoT、Coconut和CODI)相比,System-1.5推理则保持了更高的准确率。
四、技术深度解析:动态捷径如何工作
System-1.5推理的核心在于其动态捷径架构。想象一下,这个系统就像一座有多条路径的城市交通网络,能够根据"交通状况"(即推理步骤的复杂性)智能地选择最佳路线。
具体来说,研究团队在每个标准Transformer层中插入了一个路由器-适配器模块。这个模块就像一个交通指挥官,它可以动态决定是让令牌(token,可以理解为信息的基本单位)继续通过标准Transformer层进行深入处理,还是通过轻量级适配器分支提前退出。
在训练过程中,每一层的输出是适配器输出和Transformer输出的加权组合,权重由路由器决定。而在推理过程中,路由器的输出会与预设的深度退出阈值λdepth进行比较,以决定是否在当前层停止计算。
步骤捷径则通过复用早期退出点的隐藏状态并直接将它们用作下一个解码步骤的隐藏状态来实现。这避免了从第一层开始重新处理这些状态的需要,大大提高了效率。
通过结合模型深度和解码步骤两个维度上的动态捷径,System-1.5推理实现了在潜在空间中自适应推理的最大灵活性,更好地模拟了人类思考的方式——困难的推理步骤通过深思熟虑的System-2思考方式处理,简单的步骤通过启发式的System-1思考方式快速处理,而琐碎的步骤则自然地被跳过。
五、可控的测试时间缩放:灵活调整计算预算
System-1.5推理的另一个优势是其灵活的测试时间缩放能力。不同于语言空间推理,后者在缩放测试时间计算时往往需要探索复杂的结构依赖关系或强制多个轨迹之间的解决方案一致性,System-1.5推理允许通过简单的阈值调整来精细控制计算预算。
具体来说,System-1.5推理引入了两个控制参数:深度退出阈值λdepth,它调整每个解码步骤的自适应计算深度(垂直跨模型层),以及解码步骤常数λstep,它决定何时停止中间潜在思维生成并输出最终答案(水平跨解码步骤)。
研究表明,性能对这两个维度的调整大约同样敏感,这进一步验证了沿着模型深度和解码步骤进行自适应推理的动机。此外,深度缩放饱和得更快,更深的推理需要显著更高的训练计算,这表明System-1.5推理中训练时间缩放和灵活测试时间缩放之间存在协同关系。
六、更智能的未来:System-1.5推理的意义
System-1.5推理代表了AI推理发展的一个重要里程碑。它不仅大大提高了推理效率,还为未来的LLM部署提供了一个更具可扩展性的框架。
与传统的思维链方法相比,System-1.5推理减少了大量的中间文本生成,从而节省了计算资源和时间。这对于移动设备或边缘计算设备上的AI应用尤其重要,因为这些设备通常受到计算资源的限制。
更重要的是,System-1.5推理通过模拟人类思考的灵活性,为AI系统提供了一种更自然、更高效的推理方式。它能够智能地判断哪些步骤需要深入思考,哪些可以快速处理,从而在准确率和效率之间取得更好的平衡。
这种方法也为未来的研究打开了新的方向。例如,研究者可以进一步探索如何更准确地估计推理步骤的关键性,或者如何将这种自适应推理方法应用到更广泛的任务中,如多模态推理或代码生成。
总的来说,System-1.5推理展示了AI系统如何通过更灵活、更高效的推理方式,更好地模拟人类思考的过程。它不仅提高了AI系统的效率,还为未来的AI发展提供了一个重要的方向——不是简单地增加模型的规模或训练数据的量,而是通过更智能的推理方式提高AI系统的能力和效率。
就像我们人类有时会直觉判断,有时会深思熟虑,有时会跳过一些琐碎的步骤,未来的AI系统也将能够更灵活地调整其思考方式,从而更好地服务于我们的需求。System-1.5推理正是朝着这个方向迈出的重要一步。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。