微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Meta公司发布"软令牌"新技术:让AI思考过程更像人类大脑的连续推理

Meta公司发布"软令牌"新技术:让AI思考过程更像人类大脑的连续推理

2025-10-14 22:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-14 22:44 科技行者

这项由阿姆斯特丹大学的娜塔莎·巴特(Natasha Butt)与Meta FAIR实验室、纽约大学的多位研究者共同完成的研究发表于2025年9月,论文编号为arXiv:2509.19170v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们解决数学题时,大脑并不是一步一步严格按照固定程序运行的,而是在多个思路之间游走,同时考虑不同的可能性。然而,目前的AI大语言模型在进行"思维链"推理时,却只能像机械钟表一样,严格按照离散的步骤一个接一个地生成文字。这种思考方式虽然有效,但缺乏人类思维的灵活性和创造性。

巴特和她的团队想要改变这种状况。他们提出了一个革命性的想法:让AI在思考过程中使用"软令牌"(soft tokens),这种技术允许AI同时处理多种可能性,就像我们的大脑能够在潜意识中同时探索多条推理路径一样。这是首次有研究团队成功开发出可扩展的方法,让AI能够学会这种连续性的思考模式,而且不需要依赖预先准备好的标准答案作为训练数据。

传统的AI推理过程就像一个人在迷宫中只能选择一条路走到底,而新的软令牌技术让AI能够像幽灵一样同时探索多条路径,在虚拟的"思维空间"中游走,直到找到最佳答案。研究团队通过在数学推理任务上的大量实验证明,这种方法不仅能达到传统方法的准确率,在需要多样化答案的情况下表现更加出色,同时对原始模型的干扰更小,保持了AI在其他任务上的原有能力。

一、从离散到连续:AI思维方式的革命性转变

要理解这项研究的意义,我们可以把传统的AI思考过程想象成用积木搭建房子。每个积木就是一个"令牌"(token),也就是一个词或符号。AI必须一块一块地放置积木,每次只能选择一个特定的积木,然后才能继续下一步。这种方式虽然稳定可靠,但也限制了创造的可能性。

软令牌技术的革新之处在于,它让AI不再被迫选择单一的积木,而是可以同时使用多个积木的"混合体"。想象你在调配颜料,不是只能用纯红色或纯蓝色,而是可以使用各种比例的紫色调。这种连续性的处理方式让AI能够在思考过程中保持多种可能性的叠加状态,直到最终需要给出明确答案时才"坍缩"到具体选择。

从理论角度来看,这种方法的优势是显而易见的。研究人员引用了"叠加推理"(Reasoning by Superposition)的理论框架,证明连续思考向量能够同时编码多个搜索前沿,实现高效的广度优先推理。这就像一个棋手不是只考虑一步棋,而是在脑海中同时模拟多种走法的可能后果。在有向图可达性这样的问题上,浅层变换器使用连续思维链能够以O(n)的复杂度解决问题,而传统的离散方法需要O(n?)的复杂度。

然而,将这种理论优势转化为实际应用却面临着巨大挑战。以往的研究要么只能在推理阶段使用连续令牌,要么在训练时需要依赖已有的离散思维链作为"教师",而且由于计算复杂度的限制,只能处理非常短的思维链。巴特团队的突破在于开发了一种全新的训练方法,让AI能够从零开始学会使用连续思维链,而且可以处理数百个令牌长度的复杂推理过程。

二、创新训练方法:在噪声中寻找智慧

巴特团队解决训练难题的关键在于一个看似简单但极其巧妙的想法:给连续令牌添加噪声。这听起来可能有些反直觉,但实际上这种噪声起到了探索的作用,就像科学家在实验中故意引入随机变量来测试理论的鲁棒性。

具体来说,研究团队开发了两种变体:软令牌和模糊令牌。软令牌使用相对较高的温度参数(0.5)来计算词汇表上的概率分布,然后将这个分布转换为嵌入向量,再加上高斯噪声。模糊令牌则使用接近零的温度参数(0.0001),使得非噪声嵌入几乎等同于离散令牌的嵌入,然后同样添加噪声。

这种噪声的作用可以比作学习骑自行车时的小幅度摇摆。如果没有这些微小的不稳定性,学习者就无法探索平衡的边界,也就无法真正掌握平衡技巧。对于AI来说,噪声提供了必要的探索空间,让强化学习算法能够发现更好的推理策略。

研究团队选择将噪声标准差设置为令牌嵌入均方根范数的0.33倍,确保噪声足够提供探索性,但又不会完全掩盖原始信号。他们还进行了大量消融实验,证明算法对于小于或等于1.0的比例都表现出良好的鲁棒性,但当比例达到3.0时,噪声过大会导致学习过程崩溃。

训练过程采用了RLOO(Reinforce with Leave-One-Out baseline)算法,这是一种基于强化学习的方法。在每次更新中,系统会为每个提示生成32个不同的序列,然后根据最终答案的正确性给予奖励。正确答案获得100分,可以提取答案但不正确的获得10分,其他情况为0分。这种奖励机制鼓励AI不仅要给出正确答案,还要学会合理的推理过程。

三、实验设计:在数学推理中验证新方法

为了全面评估软令牌技术的效果,研究团队设计了一系列严格的实验。他们选择了三种不同规模的模型进行测试:Llama 3.2 3B Instruct、Llama 3.1 8B Instruct和Qwen 2.5 3B Instruct,并在三个具有挑战性的数学推理数据集上进行训练:GSM8K、MATH和DeepScaleR。

实验设计的巧妙之处在于将训练方法和推理方法完全解耦。研究团队为每种训练方法(硬令牌、软令牌、模糊令牌)都测试了六种不同的推理设置,包括硬贪心解码、硬采样、软贪心解码、软采样、模糊贪心解码和模糊采样。这种全面的组合测试让研究者能够发现最佳的训练-推理组合。

在训练过程中,团队对GSM8K数据集限制最大思维链长度为128个令牌,对MATH和DeepScaler数据集限制为512个令牌。所有数据集的答案部分都限制为32个令牌。在评估阶段,所有设置都使用最大512个思维链令牌,确保了公平比较。每个实验设置都用3个独立的随机种子运行,报告结果的均值和标准差,保证了结果的可靠性。

评估指标包括了pass@1(单次尝试的成功率)和pass@32(32次尝试中至少一次成功的概率)。pass@1反映了模型的即时准确性,而pass@32更多地反映了模型生成多样化正确答案的能力。这种双重评估标准对于理解不同方法的特点至关重要。

四、突破性发现:软训练硬推理的最佳组合

实验结果揭示了一个令人惊喜的发现:使用连续令牌训练然后用离散令牌推理的组合表现最佳。这个结果具有重要的实际意义,因为它意味着从业者可以享受连续训练的好处,同时在部署时仍然使用标准的推理方法。

在pass@1性能方面,三种训练方法(硬、软、模糊)表现相当,统计上没有显著差异。这证明了软令牌训练方法的有效性,它能够达到传统离散训练的水平,而不会牺牲基本的准确性。

然而,在pass@32性能方面,软令牌和模糊令牌训练明显优于传统的硬令牌训练。这种优势表明连续训练方法能够产生更多样化的推理路径,这对于需要创造性思维或多种解决方案的任务特别有价值。研究团队观察到,基础模型和软/模糊训练模型在硬贪心和硬采样推理设置之间存在性能差距,而硬训练模型的这种差距很小,表明硬训练可能会降低模型的多样性。

特别值得注意的是Llama-8B-Instruct在GSM8K训练后的表现。传统硬令牌训练在分布外的MATH数据集上表现急剧下降(硬贪心仅20.2%,pass@32仅45.4%),而软令牌和模糊令牌训练则能够维持良好性能(硬贪心44.6-44.7%,pass@32 83.1-83.9%),同时保持在分布内GSM8K数据集上的性能。这种泛化能力的提升表明连续训练方法具有更强的鲁棒性。

研究团队还发现,与之前声称的软推理在硬训练模型上的优势不同,他们的实验中硬推理在所有模型上都表现最佳。这种差异可能源于实验设置的不同,但也提醒我们需要更谨慎地评估不同方法的实际效果。

五、模型鲁棒性:软触碰保护原有能力

除了在目标任务上的性能提升,研究团队还关注训练方法对模型原有能力的影响。他们在HellaSwag、ARC和MMLU三个标准基准上测试了训练后的模型,评估分布外泛化能力。

结果显示,虽然三种训练方法在成功率方面表现相当,但在负对数似然(NLL)指标上差异明显。硬训练显著降低了基础模型在分布外数据集上的NLL,而软训练和模糊训练则能够更好地保持原始模型的NLL分布。较低的NLL意味着模型对正确答案的置信度更高,这表明软训练方法对基础模型的"触碰"更加温和。

这种现象可以用医学中的微创手术来类比。传统的硬训练就像开放性手术,虽然能够解决目标问题,但对周围组织的损伤较大。而软训练更像是微创手术,能够达到同样的治疗效果,但对患者整体状态的影响更小。

六、深入分析:熵行为揭示内在机制

为了更深入地理解不同训练方法的内在机制,研究团队分析了模型在思维链生成过程中的熵行为。熵是信息论中衡量不确定性的指标,高熵意味着模型对下一个令牌的预测具有高度不确定性,而低熵则表示模型非常确信其预测。

基础Llama模型在贪心采样和温度采样下表现出截然不同的熵轮廓。在硬采样模式下,随着思维链的进展,熵急剧上升,表明模型的不确定性不断增加。但令人意外的是,在软采样或模糊采样模式下,基础模型并没有表现出这种熵爆炸现象。

训练后的模型行为更加有趣。软训练和模糊训练的模型无论是在贪心推理还是采样推理下,都能保持与基础模型相似的熵轮廓。相比之下,硬训练会改变模型的熵行为,使得硬采样时的熵轮廓变得类似于基础模型在贪心采样时的情况,这表明硬训练可能让模型变得过于自信。

这种熵行为的差异解释了为什么软训练在多样性指标(pass@32)上表现更好,以及为什么它在分布外任务上具有更好的鲁棒性。过度自信的模型虽然在单次预测上可能表现良好,但缺乏探索不同解决路径的能力,这在面对新问题时会成为限制因素。

七、技术细节:算法实现的巧思

软令牌技术的实现涉及对传统Transformer架构的精巧修改。在标准的硬令牌模型中,每个时间步都会从概率向量中采样一个离散令牌,其嵌入被传递给下一层。而在软令牌实现中,概率向量直接与嵌入矩阵相乘,得到概率加权的混合嵌入,然后添加高斯噪声。

强化学习训练的关键在于如何计算策略梯度。对于软令牌,噪声的引入使得我们可以定义明确的概率密度函数。给定前面的软令牌序列,当前软令牌的对数概率可以表示为高斯分布的对数密度:log π(h?|h<t) = -1/(2σ?)||h? - h?||? + 常数。这个公式使得标准的REINFORCE算法能够直接应用。

计算开销方面,软令牌训练相比传统训练的额外成本微乎其微。主要的额外操作包括在每个时间步存储词汇表大小的概率向量,以及在第一层添加噪声。这种低开销特性使得该方法可以扩展到数百个令牌的长思维链,远超之前方法的限制。

研究团队还探索了在不同位置添加噪声的效果。除了在嵌入层添加噪声,他们还尝试了在最终隐藏层和logits层添加噪声。结果表明,只有在嵌入层添加噪声才能取得理想的学习效果,这可能与噪声维度和信号强度的比例有关。

八、未来展望:连续推理的无限可能

这项研究开启了AI推理方式的新篇章,但也提出了许多值得深入探索的方向。首先,当前的方法主要在数学推理任务上得到验证,其在其他类型推理任务上的表现还需要进一步研究。自然语言推理、常识推理和创造性写作等任务可能会从连续推理中获得不同程度的益处。

另一个重要方向是探索更复杂的连续表示方法。当前的软令牌本质上是词汇表上的概率分布,但我们可以想象更加抽象的连续表示,比如直接在语义空间中操作的向量,或者能够表示结构化知识的连续符号系统。

从理论角度来看,理解连续推理的表达能力边界是一个重要问题。虽然已有工作证明了连续推理在特定问题上的优势,但我们还需要更全面的理论框架来刻画其能力和限制。这种理论理解将指导我们设计更有效的连续推理架构。

实际应用方面,软令牌技术的最大优势在于它与现有部署流程的兼容性。由于最佳策略是软训练配合硬推理,现有的推理基础设施无需改动即可享受这种新方法的益处。这大大降低了技术采用的门槛,可能加速其在实际产品中的应用。

教育应用是一个特别有前景的领域。传统AI的线性推理方式很难适应不同学生的学习节奏和理解方式,而连续推理的多样性特征可能让AI教师能够提供更加个性化的解释和指导。当一种解释方式不奏效时,AI可以自然地切换到其他推理路径,就像经验丰富的人类教师一样。

说到底,这项研究的真正价值在于它向我们展示了AI推理的另一种可能性。我们不必局限于人类语言的离散性,而可以让AI在更加抽象和连续的概念空间中思考。这种思考方式可能更接近人类大脑的实际工作机制,也可能帮助AI发现人类无法想象的推理路径。当我们让AI摆脱了一步一步的思维枷锁,它可能会给我们带来更多惊喜。归根结底,这不仅是技术的进步,更是我们对智能本质理解的深化。随着这项技术的不断完善和推广,我们可能会发现AI与人类在思维方式上的界限正在变得模糊,这将为人工智能的发展开辟全新的道路。

Q&A

Q1:软令牌技术与传统AI推理方式有什么根本差别?

A:传统AI推理就像按照严格步骤组装机器,每次只能选择一个固定零件。软令牌技术让AI能够同时考虑多种可能性,就像调色师可以混合不同比例的颜料产生新色调。这种连续性推理方式更接近人类大脑的思考模式,能够在抽象概念空间中灵活游走,而不是被迫按照线性步骤进行。

Q2:这项技术在实际应用中有什么优势?

A:软令牌技术最大的优势是既能保持传统方法的准确性,又能提供更多样化的解决方案。在需要创新思维的任务中表现更好,同时对原始模型的干扰更小。更重要的是,它可以使用传统的硬件和推理流程部署,这意味着现有的AI系统可以直接受益于这种新方法,无需大规模改造基础设施。

Q3:软令牌训练需要什么特殊条件吗?

A:软令牌训练的计算成本与传统训练几乎相同,主要是在嵌入层添加少量高斯噪声。这种噪声起到探索作用,帮助AI学会更灵活的推理方式。研究显示该方法对噪声强度具有良好的鲁棒性,不需要精确调参,这让它在实际应用中更加可靠和易于部署。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-