微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI大脑里的"捷径地图":瑞士Idiap研究所找到让大模型少说废话的几何方法

AI大脑里的"捷径地图":瑞士Idiap研究所找到让大模型少说废话的几何方法

2026-06-08 10:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 10:46 科技行者

这项由瑞士Idiap研究所、洛桑联邦理工学院(EPFL)以及捷克布尔诺理工大学(BUT)联合开展的研究,于2026年6月1日以预印本形式发布,论文编号为arXiv:2606.02248。感兴趣的读者可通过该编号在arXiv平台查询完整原文。

**当AI开始"自言自语"……**

你有没有遇到过这样的场景:向某位同事问一个简单问题,结果他洋洋洒洒讲了半小时,从历史背景讲到未来展望,最后才说出那个其实三句话就能说清楚的答案?现代AI大语言模型,尤其是那些擅长推理的"思考型"模型,正面临着类似的困境。

当你问它"2加3等于几",它可能先在内部"想"上几百个词:"好的,这是一道加法题,加法是数学中的基本运算,2是一个正整数,3也是一个正整数,根据基本算术规则……",最终才吐出"5"。这种把推理过程逐字写出来的方式,在技术上叫做"思维链"(Chain-of-Thought,简称CoT)。它确实让AI变聪明了很多,但代价是极其冗长,就像那位喋喋不休的同事。

研究团队思考了一个关键问题:AI在内心"思考"的时候,真的必须把每一个念头都转化成文字吗?还是说,有些思考步骤可以在更底层、更紧凑的形式下悄悄完成,然后在恰当的时候才开口说话?正是围绕这个问题,他们提出了一种叫做**几何潜在推理**(Geometric Latent Reasoning,简称GLR)的新方法。

**一、AI思考时,大脑里到底在发生什么**

要理解这项研究,先要对AI的"大脑构造"有个基本印象。

每一个大语言模型,在它的最底层,都维护着一张巨大的"词汇地图"。这张地图里,每一个单词、每一个字符,都被表示成一个由成千上万个数字组成的点——专业上叫做"词嵌入"(token embedding)。这些点并不是随机散布的,语义相近的词会挤在相近的位置,就像地图上相邻城市距离更近一样。

当AI生成一段推理过程时,它其实是在这张地图上一步步"跳格子":先落在"好的"这个词的位置,再跳到"这是一道"的位置,再跳到"加法题"的位置……每一跳都要精确落在某个具体词汇所在的格子上。这就是"离散化"——每个中间状态都必须对应一个真实存在的词。

研究团队把这个过程想象成一条轨迹,一条穿越词汇空间的路径。他们发现了一件很有趣的事:这条路径上的格子(词汇点)周围,存在着一片连续的"邻域"。也就是说,词汇点旁边那些不对应任何具体单词的空白区域,同样可以作为有意义的中间状态被AI处理——即使那里没有格子,AI也不会"摔倒"。

这个发现并非凭空猜想。早先已经有研究者观察到,当你把几个词的嵌入按概率加权平均,得到一个不对应任何单词的"软嵌入",喂给AI之后,它依然能接收到有效的信号并继续推理。这就好比说,地图上两个城市之间的空旷原野,也是可以行走的,不是说你只能踩在有城市标记的点上才能移动。

**二、几何捷径:用向量方向代替逐词跳跃**

基于上述发现,研究团队提出了一个大胆的想法:既然AI思考时走的是词汇空间里的一条轨迹,那能不能不让它一格一格地跳,而是直接在空间里连续地"滑行"?

这就是GLR方法的核心思路。研究团队为AI模型添加了一个非常轻量的"过渡头"(transition head)——可以把它理解为模型大脑里新装的一个小型导航仪。这个导航仪的工作原理非常直接:在每一步,它不问"下一个词是什么",而是问"下一步应该往哪个方向移动多少距离"。用数学语言说,它预测的是当前位置到下一个词位置之间的方向向量(displacement vector)。

训练的时候,研究团队给导航仪提供了大量真实的推理轨迹作为参考。每一条推理轨迹,就是模型在词汇空间里留下的一串连续位置记录。导航仪的目标,就是学会预测这些位置之间的跳跃方向。训练目标采用了一种叫做"带位置折扣的均方误差"的损失函数——这个名字听起来很绕,但本质很简单:对推理轨迹前期的方向预测要求更严格,后期允许更多偏差。这就像你背一段路线,起点附近的转弯你必须记准,但走了很远之后的小弯道可以有些误差。

训练过程采用了"两次前向传播"的策略。第一次,模型按正常方式处理带有推理链的文本,同时让导航仪预测每一步的移动方向。第二次,用导航仪预测的连续位置替换掉原本的离散词语嵌入,再次运行模型,检验在这种替换下模型能否依然给出正确答案。这个双重验证的机制,确保了导航仪不仅学会了"怎么滑行",还保证了"滑行后落脚的地方是有用的"。

值得一提的是,在这个第二次前向传播里,研究团队明确不对被替换的推理位置施加"猜词"的损失——也就是说,导航仪预测的中间状态,不需要对应任何具体词汇,它的价值完全由"是否帮助最终答案更准确"来衡量。这个设计决定非常关键:它给了连续推理状态真正的自由,不需要把自己伪装成某个单词。

**三、推理时,模型走的是一条"斜切路"**

训练完成后,GLR在实际回答问题时的工作方式如下:

模型接收到问题后,进入思考阶段。此时,它不立即开始逐词生成推理文本,而是先由导航仪带领,在词汇空间里走K步连续的"滑行"。K是一个由用户预先设定的参数,表示用多少步连续潜在移动来代替传统的离散文字推理。

每一步滑行,模型从当前位置出发,由导航仪算出一个方向向量,然后直接移动到新位置——这个新位置不落在任何词汇格子上,它就漂浮在词汇空间的"原野"里。K步走完后,模型才切换回正常模式,开始生成可见的文字答案。

从旁观者的角度看,这个过程就像是:一个思维清晰但沉默的人,在内心快速完成了思维的大部分工作,然后才开口,直接说出相对靠近答案的内容,而不是把每一个念头都大声读出来。

在论文附录的定性案例里,研究团队展示了一个生动的例子。面对问题"一辆公共汽车上男女比例是5:9,总乘客84人,下一站20名女性下车,剩余多少名女性?",使用了20步潜在推理的GLR模型,在完成20次连续滑行后,第一个说出的词居然是"54 - 20 = 34"——它直接跳过了"总部数是14"、"每部6人"、"女性共54人"这些中间推导步骤,直接从潜在状态中提取出了关键数字并给出差值。更有趣的是,它随后再用完整的文字把推导过程补全,以供人类核对。这说明潜在推理阶段确实完成了真实的数学计算,而不只是"跳过了几个词"。

**四、短了多少?实验数据说话**

研究团队在多个数学推理基准测试上进行了系统评估,使用的模型是阿里云开源的Qwen3,分别测试了0.6B(6亿参数)和1.7B(17亿参数)两个规模。测试集涵盖了从小学算术到奥数级别的六个数据集:GSM8K(小学数学应用题)、SVAMP(变形算术题)、MultiArith(多步骤算术)、MATH500(高中竞赛数学)、AMC23(美国数学竞赛)以及OlympiadBench(奥林匹克数学)。

实验的设置非常公平:GLR和对照组(只使用传统文字推理链微调的模型,简称CoT-SFT)使用完全相同的训练数据(从Open-R1数据集中随机采样的1万条推理样本),完全相同的训练超参数,唯一区别是GLR额外装配了导航仪,并且输入嵌入层被冻结不允许更新(这是为了防止词汇位置在训练中漂移,导致导航仪的目标不断变化,类似于射击练习时不能让靶子自己移动)。

**在受限生成预算下的表现**

第一个令人印象深刻的发现,发生在"受限生成预算"这个场景下。研究团队为模型设置了一个"最多能生成多少步"的上限,然后观察在不同上限下两种方法的准确率。

当上限设置得很小时——比如对于MATH500数据集,只允许生成512步——传统的CoT-SFT模型准确率接近于零。原因很简单:它的推理链太长了,512步根本不够它写完推理过程,答案还没出口就被截断了。而GLR-10(10步潜在推理的版本)在同样的512步限制下,准确率超过40%。注意,这里GLR的"512步"包含了它的10步潜在推理,所以实际上它和CoT-SFT拿到的"步数配额"是一样多的——差别仅在于GLR用了10步在词汇空间里悄悄滑行,剩下的配额才用来生成文字。

**正确答案需要的步数大幅减少**

第二个关键发现,是当两个方法都不受预算限制、可以自由生成时,GLR做对一道题所需要的总步数远远少于CoT-SFT。

以MATH500数据集上的1.7B模型为例,CoT-SFT答对一道题的中位数生成长度约为2000个词元(token),而GLR-10和GLR-20的中位数仅约350步——减少了近六倍。在GSM8K上,CoT-SFT的正确答案中位数约为1000步,而GLR-5和GLR-10的中位数都在200步以下。

尤其值得一提的是SVAMP数据集——这是一组非常简单的算术题,只需要加减法。逻辑上讲,这些题目用不了几步就能算出来,但CoT-SFT偏偏为这类简单题生成了长达500到700步的推理文字,这说明传统文字推理存在一种"序列化开销"——即使实际需要的计算很短,写出来的推理链也会很长,就像某些人无论回答什么问题都要先说"这是一个很好的问题"然后再绕几个圈才到正题一样。GLR在SVAMP上把正确答案的中位数步数压缩到了约100步,显示出潜在推理可以有效跳过这种冗余的"序列化包装"。

**一个关键的排除实验**

为了确认这种缩短效果真的来自于连续潜在推理,而不只是来自GLR训练方式的某些副作用(比如它对推理位置不施加"猜词"损失),研究团队还测试了GLR-0——也就是同样用GLR方法训练,但推理时K设为0,完全不使用任何连续滑行步骤。结果很明确:GLR-0模型的正确答案生成长度中位数约为1000步,与CoT-SFT处于同一量级。只有当K大于0、真正启用连续潜在推理时,步数才急剧下降。这强有力地证明,缩短效果确实来自连续移动本身,而不是训练技巧的副产品。

**K值的选择:并非越多越好**

另一个有趣的发现是,K值(潜在步数)的效果是非单调的。对于1.7B的模型,K在10到20之间时效果最佳;但当K增加到80或100时,准确率明显下降。研究团队对此的解释是:导航仪被训练为"局部移动预测器",适合做小步快走;如果连续走80步不回头,误差会累积,越走越偏离词汇空间里有意义的区域,就像一艘船在开阔水域上连续微调方向100次,最终可能偏离原定航线很远。这一现象揭示了连续推理的一个稳定性上限,也暗示了未来改进的方向。

**五、这项研究的边界与未来方向**

研究团队对自己的工作局限性保持了清醒的认识,并在论文中坦诚地列出了几点需要注意的地方。

训练规模是最主要的限制因素。由于计算资源有限,他们只在1万条样本上进行了训练,使用的也是相对较小的模型(0.6B和1.7B)。这意味着导航仪的学习范围有限,在面对多样化的推理路径时可能覆盖不全,这或许是大K值下性能下降的部分原因。扩大到更大的模型和更多的训练数据,结果可能会更稳定。

评测范围目前只覆盖了数学推理领域。数学是一个逻辑结构极强、推理路径相对标准化的领域,GLR在这里表现良好。但在代码生成、科学推理、多跳问答、规划类任务等其他需要推理的场景,是否同样奏效,还有待验证。

当生成预算足够充裕时,传统CoT-SFT反而往往在最终准确率上追平甚至超越GLR。这说明连续潜在推理在极端受限的场景下最有价值,但当模型有足够的"纸张"可以写时,让它把思路完整写出来仍然是稳妥的策略。两种方法并非对立,而是互补的。

可解释性问题同样值得关注。连续潜在推理的中间状态无法被人类读取,这使得模型的部分推理过程变成了一个黑盒。虽然最终答案仍然是文字,推理质量可以通过答案对错来间接评估,但如果模型犯了错误,定位错误发生在哪个潜在步骤会比较困难。

展望未来,研究团队提出了几个颇具启发性的扩展方向。一是将确定性的路径预测升级为扩散模型或流匹配模型,这样在推理时可以通过多次采样不同路径来进行"集成推理",就像同时模拟多条从起点到终点的滑行路线,取最佳的那条。二是将GLR应用到数学之外的领域,检验"连续潜在前缀可以压缩推理"这一现象是否具有普遍性。三是在更大规模的模型和更丰富的训练数据上验证整个方法体系,看看导航仪的上限究竟在哪里。

说到底,这项研究揭示的是一件既直觉又反直觉的事:AI的推理不一定非得完全"说出来"。人类在思考时,大脑里发生的那些快速、模糊、说不清楚的联想和跳转,占据了大量的认知工作,但最终表达出来的往往只是一个精炼的结论。GLR给AI模型提供了一个类似的机制——用连续的空间移动代替部分文字自言自语——结果发现这条"捷径"不只是快,还是真实有效的:它确实承载了推理内容,而不只是压缩了废话。

这对于那些越来越依赖超长推理链的AI系统来说是一个很有价值的提醒:也许正确答案和过度表达之间,存在着一片可以用来高效穿行的连续空间。如何在这片空间里走得既快又准,是接下来值得深入探索的方向。想进一步了解这项研究全貌的读者,可通过arXiv编号2606.02248查阅完整论文。

---

Q&A

Q1:GLR方法中的"潜在步数K"应该设置为多少才合适?

A:根据实验结果,K值的效果并非越大越好。对于1.7B规模的模型,K在10到20之间时表现最佳,准确率和生成效率的平衡最优。当K增大到80或100时,准确率明显下降,原因是导航仪连续预测步数过多后会累积误差,让推理状态偏离有效区域。不同模型规模和任务难度下,最优K值可能有所不同,需要通过实验调整。

Q2:GLR和传统思维链微调相比,哪种方法的最终准确率更高?

A:这取决于生成预算的限制情况。在严格限制生成步数时(如只允许512步),GLR的准确率远高于传统CoT-SFT,因为CoT-SFT的推理链太长会被截断。但当生成预算充裕时,传统CoT-SFT往往能追平甚至超越GLR的最终准确率。两种方法各有优势,互为补充,GLR更适合对推理速度和长度有要求的场景。

Q3:GLR方法中"冻结输入嵌入层"是什么意思,为什么要这样做?

A:输入嵌入层是存储每个词汇位置坐标的"词汇地图"。冻结它意味着在训练过程中这张地图不会变动。之所以这样做,是因为导航仪学习的是词与词之间的移动方向,如果地图本身也在动,导航仪的目标就会不断漂移,就像在移动的船上学习固定航线一样,训练会变得不稳定。冻结嵌入层确保了导航仪有一个稳定的参考系来学习。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-