微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

System-1.5 推理：蒙特利尔大学研究团队打造动态捷径，让AI思考更灵活高效

人工智能潜在空间推理动态计算

System-1.5 推理：蒙特利尔大学研究团队打造动态捷径，让AI思考更灵活高效

作者：科技行者

2025-06-04 11:14

分享至：

这项来自蒙特利尔大学研究团队的突破性工作提出了System-1.5推理框架，通过在潜在空间中创建动态捷径，使大语言模型能够灵活调整思考路径。研究者设计了模型深度捷径和推理步骤捷径，让AI系统能像人类一样区分关键与非关键推理步骤，在不损失准确性的情况下将推理速度提升20倍以上。这种方法在数学推理和常识推理任务上表现出色，为解决大语言模型推理效率问题提供了全新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 11:14 • 科技行者

这项由蒙特利尔大学与Mila魁北克AI研究所的Xiaoqiang Wang、Suyuchen Wang、Apple公司的Yun Zhu，以及蒙特利尔大学兼加拿大CIFAR AI讲席教授Bang Liu共同完成的研究，于2025年5月发表在arXiv预印本平台（arXiv:2505.18962v2），展示了一种全新的思维方式，让大型语言模型既能保持准确性，又能大幅提升效率。

想象一下，我们人类在思考问题时，有时会快速直觉地作出判断（就像看到1+1=2这样简单的问题），有时则需要慢慢推理（比如解决复杂的数学问题）。大型语言模型（LLM）目前的思考方式却很死板——它们要么使用"快思考"模式直接给出答案，要么需要通过"思维链"（Chain-of-Thought，CoT）方式进行冗长的推理，就像一个学生必须在每道数学题上都写出所有步骤，即使是最简单的问题。

当前的AI系统面临着一个明显的效率困境：如果使用思维链推理，虽然准确率高，但生成大量中间文本会耗费大量计算资源；如果直接回答，虽然速度快，但准确率又会下降。一些研究者提出了在AI内部"潜在空间"中进行推理的方法（不生成可见的推理文本），但这些方法要么让所有推理步骤都走"快路"，要么都走"慢路"，没有区分哪些步骤需要深思熟虑，哪些可以快速处理。

就像我们人类不会对每个问题投入同样的思考精力一样，AI系统也应该能够灵活调整其思考方式。这就是蒙特利尔大学研究团队提出的"System-1.5推理"系统的核心理念——它能够智能地判断哪些推理步骤是关键的（需要深入思考），哪些是非关键的（可以快速处理），哪些甚至可以直接跳过，从而在保持准确率的同时大大提高效率。

这个创新系统就像是为AI装上了一个智能交通系统，通过在"潜在空间"中建立"动态捷径"，让思考过程更加灵活高效。研究结果表明，这种方法在GSM8K数学推理数据集上，与传统思维链方法相比，推理速度提高了20倍以上，同时减少了92.31%的文本生成量，且准确率保持不变。

一、System-1.5推理：思考也需要灵活变通

想象一下，如果你正在解决一系列数学问题。对于"2+3=?"这样的简单问题，你可能立刻就知道答案；而面对"小明有5个苹果，吃掉2个，又买了3个，现在有几个苹果？"这类稍复杂的问题，你可能需要稍作思考；至于"求解这个二次方程：3x?+5x-2=0"这样的难题，你则需要认真推导每一步骤。这就是人类思考的灵活性——我们会根据问题的难度自动调整思考的深度和步骤。

然而，目前的大型语言模型（LLM）在进行推理时却缺乏这种灵活性。它们要么使用快速直觉的"System-1"思考方式直接给出答案（就像直接说"2+3=5"），要么采用细致推理的"System-2"思考方式生成完整的思维链（就像写出"首先，我有2，然后加3，得到5"）。前者虽然快速但容易出错，后者虽然准确但效率低下，需要生成大量中间文本并进行额外的计算。

研究团队提出的System-1.5推理正是为了解决这一困境。这个系统能够动态调整推理路径，在潜在空间（即模型内部的隐藏状态，而非生成可见的文本）中创建"捷径"，从而实现灵活高效的推理。具体来说，System-1.5推理引入了两种动态捷径：

首先是"模型深度捷径"（DS），就像在高速公路上设置快速通道和详细检查通道。对于简单的推理步骤（比如基本的算术），模型可以选择通过浅层网络快速处理；而对于复杂的推理步骤（比如需要逻辑整合的步骤），则会通过更深的网络层进行仔细处理。这就像我们在思考简单问题时只动用大脑的一小部分，而面对复杂问题时则全力以赴。

其次是"推理步骤捷径"（SS），它允许模型在解决问题时跳过一些琐碎的步骤。就像你在解决"小明有5个苹果，吃掉2个，然后又吃掉1个，还剩几个？"这个问题时，可能会直接计算5-2-1=2，而不是先算5-2=3，再算3-1=2。模型通过复用早期退出层的隐藏状态，直接将它们传递给下一个解码步骤，从而避免了对琐碎步骤的重复处理。

二、如何训练一个既快又准的思考者

那么，研究团队是如何训练这个聪明的System-1.5推理系统的呢？他们采用了一个两阶段的蒸馏过程，就像传统武术中的"传功"——先掌握基本功，再学习精简招式。

第一阶段是"语言到潜在空间的对齐"。研究人员首先训练一个标准的思维链模型（称为"教师模型"），它能够生成完整的推理步骤和最终答案。然后，他们训练一个"学生模型"，使其学会在潜在空间中进行推理，而不需要生成中间的文本步骤。具体来说，他们提取教师模型最后一层的隐藏状态（可以理解为教师的"思考过程"），并让学生模型的隐藏状态与之对齐。这就像是让学生学会"心算"，而不是必须在纸上写出每一步骤。

第二阶段是"System-2到System-1.5的蒸馏"。研究人员利用"原子思维分解"技术，将思维链分解为一个有向无环图，识别出哪些步骤是关键的（需要逻辑整合的步骤），哪些是非关键的（独立的子问题）。然后，他们冻结原始Transformer参数，只训练路由器-适配器模块，鼓励非关键步骤通过早期退出，而关键步骤则继续通过更深的网络层进行处理。

这个训练过程有点像教导一个学生：先让他学会如何一步一步地解题（第一阶段），然后再教他如何聪明地跳过不必要的步骤，集中精力在关键点上（第二阶段）。

三、惊人的效果：速度提升20倍，准确率不减

System-1.5推理的效果如何呢？研究团队在多个推理任务上进行了评估，结果令人印象深刻。

在GSM8K数学推理数据集上，System-1.5推理达到了46.66%的准确率，与传统CoT微调方法的46.94%几乎相当。但是，推理速度提高了20.27倍，同时减少了92.31%的文本生成量。这意味着，原本需要花费一分钟的推理任务，现在只需要不到3秒钟！

在更具挑战性的GSM-HARD数据集上，System-1.5推理同样表现出色，准确率为38.28%，与CoT的38.32%相当，同时速度提升了12.45倍。

更令人惊喜的是，在StrategyQA常识推理数据集上，System-1.5推理的准确率达到48.61%，甚至超过了传统CoT的47.62%，同时速度提升了惊人的55.65倍！这表明，在需要处理多项文本证据的任务中，System-1.5推理的潜在空间推理方式甚至可能优于显式的文本推理。

与其他高效推理方法相比，System-1.5推理也展现出明显优势。相比于早期退出方法（如LITE和LayerSkip），System-1.5推理通过动态步骤捷径机制，实现了更高的FLOPs（浮点运算次数）减少率。而与潜在空间压缩推理方法（如iCoT、Coconut和CODI）相比，System-1.5推理则保持了更高的准确率。

四、技术深度解析：动态捷径如何工作

System-1.5推理的核心在于其动态捷径架构。想象一下，这个系统就像一座有多条路径的城市交通网络，能够根据"交通状况"（即推理步骤的复杂性）智能地选择最佳路线。

具体来说，研究团队在每个标准Transformer层中插入了一个路由器-适配器模块。这个模块就像一个交通指挥官，它可以动态决定是让令牌（token，可以理解为信息的基本单位）继续通过标准Transformer层进行深入处理，还是通过轻量级适配器分支提前退出。

在训练过程中，每一层的输出是适配器输出和Transformer输出的加权组合，权重由路由器决定。而在推理过程中，路由器的输出会与预设的深度退出阈值λdepth进行比较，以决定是否在当前层停止计算。

步骤捷径则通过复用早期退出点的隐藏状态并直接将它们用作下一个解码步骤的隐藏状态来实现。这避免了从第一层开始重新处理这些状态的需要，大大提高了效率。

通过结合模型深度和解码步骤两个维度上的动态捷径，System-1.5推理实现了在潜在空间中自适应推理的最大灵活性，更好地模拟了人类思考的方式——困难的推理步骤通过深思熟虑的System-2思考方式处理，简单的步骤通过启发式的System-1思考方式快速处理，而琐碎的步骤则自然地被跳过。

五、可控的测试时间缩放：灵活调整计算预算

System-1.5推理的另一个优势是其灵活的测试时间缩放能力。不同于语言空间推理，后者在缩放测试时间计算时往往需要探索复杂的结构依赖关系或强制多个轨迹之间的解决方案一致性，System-1.5推理允许通过简单的阈值调整来精细控制计算预算。

具体来说，System-1.5推理引入了两个控制参数：深度退出阈值λdepth，它调整每个解码步骤的自适应计算深度（垂直跨模型层），以及解码步骤常数λstep，它决定何时停止中间潜在思维生成并输出最终答案（水平跨解码步骤）。

研究表明，性能对这两个维度的调整大约同样敏感，这进一步验证了沿着模型深度和解码步骤进行自适应推理的动机。此外，深度缩放饱和得更快，更深的推理需要显著更高的训练计算，这表明System-1.5推理中训练时间缩放和灵活测试时间缩放之间存在协同关系。

六、更智能的未来：System-1.5推理的意义

System-1.5推理代表了AI推理发展的一个重要里程碑。它不仅大大提高了推理效率，还为未来的LLM部署提供了一个更具可扩展性的框架。