微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI大脑里的"捷径地图"：瑞士Idiap研究所找到让大模型少说废话的几何方法

大语言模型潜在推理生成效率优化

AI大脑里的"捷径地图"：瑞士Idiap研究所找到让大模型少说废话的几何方法

作者：科技行者

2026-06-08 10:46

分享至：

瑞士Idiap研究所提出几何潜在推理（GLR）方法，通过让AI在词汇空间内连续"滑行"代替逐词推理，实现生成步数大幅缩短，同时保持数学推理准确率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 10:46 • 科技行者

这项由瑞士Idiap研究所、洛桑联邦理工学院（EPFL）以及捷克布尔诺理工大学（BUT）联合开展的研究，于2026年6月1日以预印本形式发布，论文编号为arXiv:2606.02248。感兴趣的读者可通过该编号在arXiv平台查询完整原文。

**当AI开始"自言自语"……**

你有没有遇到过这样的场景：向某位同事问一个简单问题，结果他洋洋洒洒讲了半小时，从历史背景讲到未来展望，最后才说出那个其实三句话就能说清楚的答案？现代AI大语言模型，尤其是那些擅长推理的"思考型"模型，正面临着类似的困境。

当你问它"2加3等于几"，它可能先在内部"想"上几百个词："好的，这是一道加法题，加法是数学中的基本运算，2是一个正整数，3也是一个正整数，根据基本算术规则……"，最终才吐出"5"。这种把推理过程逐字写出来的方式，在技术上叫做"思维链"（Chain-of-Thought，简称CoT）。它确实让AI变聪明了很多，但代价是极其冗长，就像那位喋喋不休的同事。

研究团队思考了一个关键问题：AI在内心"思考"的时候，真的必须把每一个念头都转化成文字吗？还是说，有些思考步骤可以在更底层、更紧凑的形式下悄悄完成，然后在恰当的时候才开口说话？正是围绕这个问题，他们提出了一种叫做**几何潜在推理**（Geometric Latent Reasoning，简称GLR）的新方法。

**一、AI思考时，大脑里到底在发生什么**

要理解这项研究，先要对AI的"大脑构造"有个基本印象。

每一个大语言模型，在它的最底层，都维护着一张巨大的"词汇地图"。这张地图里，每一个单词、每一个字符，都被表示成一个由成千上万个数字组成的点——专业上叫做"词嵌入"（token embedding）。这些点并不是随机散布的，语义相近的词会挤在相近的位置，就像地图上相邻城市距离更近一样。

当AI生成一段推理过程时，它其实是在这张地图上一步步"跳格子"：先落在"好的"这个词的位置，再跳到"这是一道"的位置，再跳到"加法题"的位置……每一跳都要精确落在某个具体词汇所在的格子上。这就是"离散化"——每个中间状态都必须对应一个真实存在的词。

研究团队把这个过程想象成一条轨迹，一条穿越词汇空间的路径。他们发现了一件很有趣的事：这条路径上的格子（词汇点）周围，存在着一片连续的"邻域"。也就是说，词汇点旁边那些不对应任何具体单词的空白区域，同样可以作为有意义的中间状态被AI处理——即使那里没有格子，AI也不会"摔倒"。

这个发现并非凭空猜想。早先已经有研究者观察到，当你把几个词的嵌入按概率加权平均，得到一个不对应任何单词的"软嵌入"，喂给AI之后，它依然能接收到有效的信号并继续推理。这就好比说，地图上两个城市之间的空旷原野，也是可以行走的，不是说你只能踩在有城市标记的点上才能移动。

**二、几何捷径：用向量方向代替逐词跳跃**

基于上述发现，研究团队提出了一个大胆的想法：既然AI思考时走的是词汇空间里的一条轨迹，那能不能不让它一格一格地跳，而是直接在空间里连续地"滑行"？

这就是GLR方法的核心思路。研究团队为AI模型添加了一个非常轻量的"过渡头"（transition head）——可以把它理解为模型大脑里新装的一个小型导航仪。这个导航仪的工作原理非常直接：在每一步，它不问"下一个词是什么"，而是问"下一步应该往哪个方向移动多少距离"。用数学语言说，它预测的是当前位置到下一个词位置之间的方向向量（displacement vector）。

训练的时候，研究团队给导航仪提供了大量真实的推理轨迹作为参考。每一条推理轨迹，就是模型在词汇空间里留下的一串连续位置记录。导航仪的目标，就是学会预测这些位置之间的跳跃方向。训练目标采用了一种叫做"带位置折扣的均方误差"的损失函数——这个名字听起来很绕，但本质很简单：对推理轨迹前期的方向预测要求更严格，后期允许更多偏差。这就像你背一段路线，起点附近的转弯你必须记准，但走了很远之后的小弯道可以有些误差。

训练过程采用了"两次前向传播"的策略。第一次，模型按正常方式处理带有推理链的文本，同时让导航仪预测每一步的移动方向。第二次，用导航仪预测的连续位置替换掉原本的离散词语嵌入，再次运行模型，检验在这种替换下模型能否依然给出正确答案。这个双重验证的机制，确保了导航仪不仅学会了"怎么滑行"，还保证了"滑行后落脚的地方是有用的"。

值得一提的是，在这个第二次前向传播里，研究团队明确不对被替换的推理位置施加"猜词"的损失——也就是说，导航仪预测的中间状态，不需要对应任何具体词汇，它的价值完全由"是否帮助最终答案更准确"来衡量。这个设计决定非常关键：它给了连续推理状态真正的自由，不需要把自己伪装成某个单词。

**三、推理时，模型走的是一条"斜切路"**

训练完成后，GLR在实际回答问题时的工作方式如下：

模型接收到问题后，进入思考阶段。此时，它不立即开始逐词生成推理文本，而是先由导航仪带领，在词汇空间里走K步连续的"滑行"。K是一个由用户预先设定的参数，表示用多少步连续潜在移动来代替传统的离散文字推理。

每一步滑行，模型从当前位置出发，由导航仪算出一个方向向量，然后直接移动到新位置——这个新位置不落在任何词汇格子上，它就漂浮在词汇空间的"原野"里。K步走完后，模型才切换回正常模式，开始生成可见的文字答案。

从旁观者的角度看，这个过程就像是：一个思维清晰但沉默的人，在内心快速完成了思维的大部分工作，然后才开口，直接说出相对靠近答案的内容，而不是把每一个念头都大声读出来。

在论文附录的定性案例里，研究团队展示了一个生动的例子。面对问题"一辆公共汽车上男女比例是5:9，总乘客84人，下一站20名女性下车，剩余多少名女性？"，使用了20步潜在推理的GLR模型，在完成20次连续滑行后，第一个说出的词居然是"54 - 20 = 34"——它直接跳过了"总部数是14"、"每部6人"、"女性共54人"这些中间推导步骤，直接从潜在状态中提取出了关键数字并给出差值。更有趣的是，它随后再用完整的文字把推导过程补全，以供人类核对。这说明潜在推理阶段确实完成了真实的数学计算，而不只是"跳过了几个词"。

**四、短了多少？实验数据说话**

研究团队在多个数学推理基准测试上进行了系统评估，使用的模型是阿里云开源的Qwen3，分别测试了0.6B（6亿参数）和1.7B（17亿参数）两个规模。测试集涵盖了从小学算术到奥数级别的六个数据集：GSM8K（小学数学应用题）、SVAMP（变形算术题）、MultiArith（多步骤算术）、MATH500（高中竞赛数学）、AMC23（美国数学竞赛）以及OlympiadBench（奥林匹克数学）。

实验的设置非常公平：GLR和对照组（只使用传统文字推理链微调的模型，简称CoT-SFT）使用完全相同的训练数据（从Open-R1数据集中随机采样的1万条推理样本），完全相同的训练超参数，唯一区别是GLR额外装配了导航仪，并且输入嵌入层被冻结不允许更新（这是为了防止词汇位置在训练中漂移，导致导航仪的目标不断变化，类似于射击练习时不能让靶子自己移动）。

**在受限生成预算下的表现**

第一个令人印象深刻的发现，发生在"受限生成预算"这个场景下。研究团队为模型设置了一个"最多能生成多少步"的上限，然后观察在不同上限下两种方法的准确率。

当上限设置得很小时——比如对于MATH500数据集，只允许生成512步——传统的CoT-SFT模型准确率接近于零。原因很简单：它的推理链太长了，512步根本不够它写完推理过程，答案还没出口就被截断了。而GLR-10（10步潜在推理的版本）在同样的512步限制下，准确率超过40%。注意，这里GLR的"512步"包含了它的10步潜在推理，所以实际上它和CoT-SFT拿到的"步数配额"是一样多的——差别仅在于GLR用了10步在词汇空间里悄悄滑行，剩下的配额才用来生成文字。

**正确答案需要的步数大幅减少**

第二个关键发现，是当两个方法都不受预算限制、可以自由生成时，GLR做对一道题所需要的总步数远远少于CoT-SFT。

以MATH500数据集上的1.7B模型为例，CoT-SFT答对一道题的中位数生成长度约为2000个词元（token），而GLR-10和GLR-20的中位数仅约350步——减少了近六倍。在GSM8K上，CoT-SFT的正确答案中位数约为1000步，而GLR-5和GLR-10的中位数都在200步以下。

尤其值得一提的是SVAMP数据集——这是一组非常简单的算术题，只需要加减法。逻辑上讲，这些题目用不了几步就能算出来，但CoT-SFT偏偏为这类简单题生成了长达500到700步的推理文字，这说明传统文字推理存在一种"序列化开销"——即使实际需要的计算很短，写出来的推理链也会很长，就像某些人无论回答什么问题都要先说"这是一个很好的问题"然后再绕几个圈才到正题一样。GLR在SVAMP上把正确答案的中位数步数压缩到了约100步，显示出潜在推理可以有效跳过这种冗余的"序列化包装"。

**一个关键的排除实验**

为了确认这种缩短效果真的来自于连续潜在推理，而不只是来自GLR训练方式的某些副作用（比如它对推理位置不施加"猜词"损失），研究团队还测试了GLR-0——也就是同样用GLR方法训练，但推理时K设为0，完全不使用任何连续滑行步骤。结果很明确：GLR-0模型的正确答案生成长度中位数约为1000步，与CoT-SFT处于同一量级。只有当K大于0、真正启用连续潜在推理时，步数才急剧下降。这强有力地证明，缩短效果确实来自连续移动本身，而不是训练技巧的副产品。

**K值的选择：并非越多越好**

另一个有趣的发现是，K值（潜在步数）的效果是非单调的。对于1.7B的模型，K在10到20之间时效果最佳；但当K增加到80或100时，准确率明显下降。研究团队对此的解释是：导航仪被训练为"局部移动预测器"，适合做小步快走；如果连续走80步不回头，误差会累积，越走越偏离词汇空间里有意义的区域，就像一艘船在开阔水域上连续微调方向100次，最终可能偏离原定航线很远。这一现象揭示了连续推理的一个稳定性上限，也暗示了未来改进的方向。

**五、这项研究的边界与未来方向**

研究团队对自己的工作局限性保持了清醒的认识，并在论文中坦诚地列出了几点需要注意的地方。

训练规模是最主要的限制因素。由于计算资源有限，他们只在1万条样本上进行了训练，使用的也是相对较小的模型（0.6B和1.7B）。这意味着导航仪的学习范围有限，在面对多样化的推理路径时可能覆盖不全，这或许是大K值下性能下降的部分原因。扩大到更大的模型和更多的训练数据，结果可能会更稳定。

评测范围目前只覆盖了数学推理领域。数学是一个逻辑结构极强、推理路径相对标准化的领域，GLR在这里表现良好。但在代码生成、科学推理、多跳问答、规划类任务等其他需要推理的场景，是否同样奏效，还有待验证。

当生成预算足够充裕时，传统CoT-SFT反而往往在最终准确率上追平甚至超越GLR。这说明连续潜在推理在极端受限的场景下最有价值，但当模型有足够的"纸张"可以写时，让它把思路完整写出来仍然是稳妥的策略。两种方法并非对立，而是互补的。

可解释性问题同样值得关注。连续潜在推理的中间状态无法被人类读取，这使得模型的部分推理过程变成了一个黑盒。虽然最终答案仍然是文字，推理质量可以通过答案对错来间接评估，但如果模型犯了错误，定位错误发生在哪个潜在步骤会比较困难。

展望未来，研究团队提出了几个颇具启发性的扩展方向。一是将确定性的路径预测升级为扩散模型或流匹配模型，这样在推理时可以通过多次采样不同路径来进行"集成推理"，就像同时模拟多条从起点到终点的滑行路线，取最佳的那条。二是将GLR应用到数学之外的领域，检验"连续潜在前缀可以压缩推理"这一现象是否具有普遍性。三是在更大规模的模型和更丰富的训练数据上验证整个方法体系，看看导航仪的上限究竟在哪里。

说到底，这项研究揭示的是一件既直觉又反直觉的事：AI的推理不一定非得完全"说出来"。人类在思考时，大脑里发生的那些快速、模糊、说不清楚的联想和跳转，占据了大量的认知工作，但最终表达出来的往往只是一个精炼的结论。GLR给AI模型提供了一个类似的机制——用连续的空间移动代替部分文字自言自语——结果发现这条"捷径"不只是快，还是真实有效的：它确实承载了推理内容，而不只是压缩了废话。

这对于那些越来越依赖超长推理链的AI系统来说是一个很有价值的提醒：也许正确答案和过度表达之间，存在着一片可以用来高效穿行的连续空间。如何在这片空间里走得既快又准，是接下来值得深入探索的方向。想进一步了解这项研究全貌的读者，可通过arXiv编号2606.02248查阅完整论文。

---

Q&A

Q1：GLR方法中的"潜在步数K"应该设置为多少才合适？

A：根据实验结果，K值的效果并非越大越好。对于1.7B规模的模型，K在10到20之间时表现最佳，准确率和生成效率的平衡最优。当K增大到80或100时，准确率明显下降，原因是导航仪连续预测步数过多后会累积误差，让推理状态偏离有效区域。不同模型规模和任务难度下，最优K值可能有所不同，需要通过实验调整。

Q2：GLR和传统思维链微调相比，哪种方法的最终准确率更高？

A：这取决于生成预算的限制情况。在严格限制生成步数时（如只允许512步），GLR的准确率远高于传统CoT-SFT，因为CoT-SFT的推理链太长会被截断。但当生成预算充裕时，传统CoT-SFT往往能追平甚至超越GLR的最终准确率。两种方法各有优势，互为补充，GLR更适合对推理速度和长度有要求的场景。

Q3：GLR方法中"冻结输入嵌入层"是什么意思，为什么要这样做？

A：输入嵌入层是存储每个词汇位置坐标的"词汇地图"。冻结它意味着在训练过程中这张地图不会变动。之所以这样做，是因为导航仪学习的是词与词之间的移动方向，如果地图本身也在动，导航仪的目标就会不断漂移，就像在移动的船上学习固定航线一样，训练会变得不稳定。冻结嵌入层确保了导航仪有一个稳定的参考系来学习。

大语言模型潜在推理生成效率优化

分享至