微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 技术界的新突破:以色列理工学院研究团队让AI模型学会"思维延续"的神奇技能

技术界的新突破:以色列理工学院研究团队让AI模型学会"思维延续"的神奇技能

2025-06-19 12:54
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-19 12:54 科技行者

在人工智能快速发展的今天,一个看似简单却极具挑战性的问题困扰着研究者们:如何让AI在思考问题时能够"想得更久一点"?就像我们人类在面对复杂数学题时,有时需要停下来重新思考,或者在草稿纸上多算几遍一样,AI模型有时也需要更多的思考时间来得出更准确的答案。最近,来自以色列理工学院计算机科学系的Liran Ringel和Yaniv Romano教授,以及独立研究者Elad Tolochinsky共同完成了一项令人瞩目的研究,他们成功地教会了AI模型一种全新的"继续思考"技能。

这项开创性研究发表于2025年6月12日的arXiv预印本平台(论文编号:arXiv:2506.11274v1),感兴趣的读者可以通过该编号在arXiv网站上找到完整的研究论文。研究团队首次提出了一种革命性的方法,通过训练一个特殊的"继续思考"标记(continue-thinking token),让AI模型能够在需要时延长推理时间,从而显著提升解题准确率。

想象一下,当你在解一道复杂的数学题时,刚开始可能想到一个答案,但内心觉得可能不太对,于是你会对自己说"等等,让我再想想",然后重新检查计算过程,最终得到正确答案。研究团队开发的这种技术,就是在教AI模型学会这种"再想想"的能力。

传统的AI推理模型就像一个急性子的学生,一旦给出答案就会立即停止思考。而现有的一些方法虽然能让模型思考更久,但就像给学生一个通用的"等等"指令,效果并不理想。研究团队的创新之处在于,他们专门为每个AI模型"量身定制"了一个独特的"继续思考"信号,这个信号经过专门训练,能够更有效地触发模型的深入思考过程。

在数学问题求解的测试中,这种方法展现出了令人惊喜的效果。以广受认可的GSM8K数学题库为例,传统的"等等"方法只能将准确率提升1.3个百分点,而他们的新方法却能提升4.2个百分点,改进幅度超过了三倍。这就好比原本只能让学生多做对一道题,现在却能让他们多做对三道题,效果提升相当显著。

一、传统AI推理的困境与突破口

要理解这项研究的价值,我们首先需要了解当前AI推理面临的核心挑战。现在的AI推理模型就像是参加限时考试的学生,它们需要在规定时间内给出答案,但有时候快速给出的答案可能并不准确。

目前主流的AI推理方法主要分为两大类,就像两种不同的考试策略。第一种叫做"并行方法",就像让学生同时写出多个不同的答案,然后通过投票或评分选出最佳答案。第二种叫做"顺序方法",更像我们人类的思考过程,让AI一步步推理,可以回头检查、修正错误、验证结果,最终形成一个完整的思考链条。

顺序方法的核心特点是AI会产生一个长长的"思考过程",就像学生在草稿纸上写下的所有计算步骤和思路。这种方法最著名的代表就是OpenAI公司的o1模型,它能够进行复杂的逐步推理。但是,这类模型有一个重要特点:它们会自己决定什么时候停止思考,通常是通过生成一个特殊的"结束思考"标记(比如)来表示思考完毕。

问题就出现在这里:用户无法直接控制AI思考的时间长度。有时候,AI可能想得太少就匆忙给出答案,就像学生做题时太急躁,没有充分验证就提交了答案。为了解决这个问题,研究者们之前提出了一种叫做"预算强制"的方法。

这种方法的工作原理很巧妙,就像给急性子的学生一个"慢下来"的提醒。当AI模型想要结束思考时(即生成标记),系统会偷偷地把这个标记替换成"Wait"(等等)这个词,强迫模型继续思考。这就好比当学生想要交卷时,老师说:"等等,再检查一遍。"学生只好继续思考下去。

这种"预算强制"方法确实能够延长AI的思考时间,在一定程度上提升准确率。但是,使用固定的"Wait"词汇有其局限性,就像给所有学生同样的提醒词,不一定对每个学生都最有效。不同的AI模型可能需要不同类型的"继续思考"信号才能发挥最佳效果。

正是基于这样的观察,研究团队提出了一个突破性的想法:既然固定的"Wait"词汇效果有限,为什么不为每个模型专门训练一个个性化的"继续思考"标记呢?这就像为每个学生量身定制一个最适合他们的提醒方式,有的学生可能对"再想想"反应更好,有的可能对"检查一下"更敏感。

研究团队将这个特殊的标记命名为<|continue-thinking|>,它不是一个普通的词汇,而是一个经过专门训练的"信号"。这个信号的特殊之处在于,它的"意义"是通过机器学习算法专门优化的,目的就是最大化地激发AI模型的进一步思考能力。

更令人惊喜的是,训练这个特殊标记的成本极低。研究团队只需要训练这一个标记的"含义"(技术上称为embedding),而保持AI模型的其他所有参数不变。这就像只需要教学生一个新的提醒词,而不需要重新训练学生的整个思维模式。这种方法不仅高效,而且可以应用到任何现有的AI推理模型上,具有很强的通用性。

二、巧妙的学习机制:让AI学会自我提醒

要让AI学会使用这个特殊的"继续思考"标记,研究团队设计了一套精巧的训练机制。整个过程就像训练一个学生学会在适当的时候提醒自己"再想想",并且这个提醒要真的能帮助他们得到更好的答案。

训练过程采用了一种叫做强化学习的方法,这种方法的核心思想是通过奖惩机制来引导学习。想象一下训练宠物的过程:当宠物做对了事情,我们给它零食奖励;当它做错了,我们不给奖励。经过反复训练,宠物就学会了什么行为能带来奖励。AI的训练也是类似的道理。

在这项研究中,奖励的标准很简单直接:如果AI使用了这个特殊的"继续思考"标记后能够得出正确答案,就给予奖励;如果还是错误,就不给奖励。更具体地说,研究团队设置了两种奖励:一种是"格式奖励",检查答案是否按照正确的格式给出(比如数学答案是否用\boxed{}包围);另一种是"正确性奖励",检查答案本身是否正确。

训练时,系统会反复进行这样的过程:让AI遇到一个数学问题,当它想要结束思考时,强制插入这个特殊的<|continue-thinking|>标记,然后看看AI继续思考后的答案质量如何。如果答案变好了,这个标记就会得到"好评";如果答案没有改善甚至变差了,就得到"差评"。经过成千上万次这样的训练,这个特殊标记就逐渐学会了如何最有效地触发AI的深入思考。

整个训练过程的技术细节体现了研究团队的精心设计。他们使用了一种叫做GRPO(群体相对政策优化)的算法,这是一种特别适合这种训练场景的强化学习方法。训练数据来自DeepScaleR-Preview-Dataset,这是一个包含4万道数学题的大型数据集,涵盖了各种不同难度和类型的数学问题。

为了确保训练的效率和效果,研究团队采用了一种巧妙的并行训练策略。传统的AI训练需要先生成所有答案,然后再进行学习,这样GPU(图形处理器)的利用率不高,就像工厂的生产线有时空闲有时忙碌。研究团队创新性地将大批次分解为多个小批次,一边生成答案一边进行学习,大大提高了训练效率。

在训练过程中,研究团队还做了一个重要的限制:他们将"强制继续思考"的次数限制为最多1次,也就是说,在一个问题中,AI最多只能被要求"再想想"一次。这样做的目的是让训练过程更加可控,避免AI陷入无休止的思考循环。但令人惊喜的是,即使训练时只允许1次强制继续,训练好的模型在测试时却能很好地适应2次甚至3次的强制继续,展现出了良好的泛化能力。

训练使用的基础模型是DeepSeek-R1-Distill-Qwen-1.5B,这是一个相对较小但经过精心调教的推理模型。研究团队选择这个模型是因为它既有足够的推理能力,又足够小巧,便于进行实验和验证。整个训练过程使用了8块NVIDIA A100 GPU,其中4块用于生成答案,4块用于进行学习,总共训练了约一周时间。

值得注意的是,这个特殊的<|continue-thinking|>标记在训练之初并不是完全"空白"的,研究团队巧妙地将它初始化为"Wait"词汇的表示,然后在此基础上进行优化。这就像给学生一个初始的提醒词,然后根据他们的反应逐步调整这个提醒词的"含义",使其变得更加有效。

三、令人印象深刻的实验结果

研究团队在多个著名的数学推理数据集上测试了他们的方法,结果展现出了令人瞩目的效果。这些测试就像让AI学生参加不同类型的数学考试,从小学水平的算术题到奥数竞赛级别的难题,全面检验这个"继续思考"标记的实际效果。

首先来看GSM8K-Platinum数据集的结果,这是一个包含1209道小学数学应用题的测试集。在这个相对基础的测试中,传统的"Wait"方法能够将准确率从78.41%提升到79.71%,提升了1.3个百分点。而研究团队的学习型标记却能将准确率提升到82.63%,足足提升了4.2个百分点。这种差异就好比在100道题的考试中,传统方法只能帮助学生多做对1道题,而新方法能帮助学生多做对4道题。

更令人惊喜的是,在MATH500数据集上的表现也同样优异。这个数据集包含500道更有挑战性的数学题,难度相当于高中到大学水平。在这里,学习型标记同样表现出了明显的优势,准确率从基准的79.43%提升到了81.67%,而传统的固定标记方法提升幅度要小得多。

研究团队还在两个更具挑战性的数据集上进行了测试:AIME24和AIME25,这些是美国数学邀请赛的真题,代表了高中数学竞赛的最高水平。在这些极具挑战性的题目上,所有方法的整体准确率都不高(约22-24%),但学习型标记仍然展现出了一定的改进效果,尽管改进幅度相对较小。这就像在奥数题这样的超高难度测试中,即使是最好的方法也只能带来有限的帮助。

特别有趣的是,研究团队发现了一个重要规律:在那些传统"预算强制"方法有效的场景中,他们的学习型标记总是能带来更大的改进;而在传统方法无效的场景中,学习型标记同样无法显著改善表现。这个发现很有启发性,说明学习型标记本质上是对现有"预算强制"方法的增强和优化,而不是一个完全独立的解决方案。

为了更深入地理解改进的原因,研究团队进行了详细的分析。他们发现,使用学习型标记后,AI模型生成的推理过程确实变得更长了,平均token数量明显增加。更重要的是,这种改进不仅仅体现在平均水平上,在不同长度的回答中都能观察到准确率的提升,说明改进来自于推理质量的真正提高,而不仅仅是因为回答变长了。

研究团队还通过概率分析验证了改进的实际意义。他们计算了在基准模型答对而学习型标记答错的概率,以及学习型标记答对而基准模型答错的概率。结果显示,在GSM8K和MATH500这样的数据集上,后者的概率明显高于前者,说明学习型标记确实能帮助模型解决更多原本无法解决的问题。

通过分析AI生成的推理过程,研究团队发现了一个有趣的现象:当插入学习型<|continue-thinking|>标记后,AI最常生成的后续词汇包括"wait"(等等)、"let"(让)、"actually"(实际上)、"hmm"(嗯)等,这些都是典型的"重新思考"信号词。这说明学习型标记确实学会了如何有效地触发AI的自我反思和验证过程。

研究团队还展示了一些具体的案例,其中最典型的是一道关于养鸡场收入计算的题目。在基准模型的推理中,AI首先计算出了错误答案7938美元,然后就准备结束思考。但当插入<|continue-thinking|>标记后,AI开始重新审视自己的计算过程,发现了错误,并最终得出了正确答案294美元。这个例子生动地展示了"继续思考"如何帮助AI发现和纠正自己的错误。

四、方法论的深度剖析与技术创新

这项研究的技术创新不仅体现在最终效果上,更体现在其精巧的方法设计中。整个方法的核心思想可以比作为每个学生量身定制一个最有效的学习提醒系统,而不是给所有人使用同样的通用提醒。

从技术角度来看,研究团队面临的核心挑战是如何在庞大的AI模型中只训练一个微小的部分,同时保持整体性能的稳定。传统的AI训练通常需要调整模型的所有参数,就像重新训练一个学生的整套学习方法。而这项研究只需要训练一个特殊标记的"含义",相当于只教给学生一个新词汇的特殊用法,其他所有知识和技能都保持不变。

这种"冻结大部分、训练极少数"的策略带来了多重优势。首先是效率优势:训练过程变得极其高效,因为需要优化的参数数量从数十亿个减少到仅仅几千个(embedding向量的维度)。这就像从重新培训整个乐团变成只训练一个新乐器的演奏者,工作量大大减少。

其次是泛化优势:由于AI模型的核心能力没有改变,学习到的"继续思考"技能可以很容易地应用到不同的问题类型和场景中。实验结果证实了这一点——即使模型只在单次强制继续的设置下进行训练,它也能很好地适应多次强制继续的测试场景。

研究团队在训练过程中采用的强化学习策略也体现了深刻的洞察。与传统的监督学习不同,强化学习允许AI通过试验和错误来发现最有效的"继续思考"方式。这就像让学生通过实际做题和得到反馈来学会何时以及如何进行自我检查,而不是简单地告诉他们固定的检查步骤。

特别值得注意的是,研究团队设计的奖励机制包含了两个层面:格式正确性和内容正确性。这种双重奖励确保了AI不仅能给出正确答案,还能以正确的格式呈现答案。这个设计反映了现实应用中的实际需求——在很多场景下,答案的格式规范性和内容准确性同样重要。

从计算资源的角度来看,这种方法展现出了显著的效率优势。传统的模型改进通常需要重新训练整个模型,这需要巨大的计算资源和时间投入。而这种方法只需要在原有模型基础上进行有限的训练,大大降低了计算成本。研究团队使用8块GPU训练一周就能达到显著效果,这在当今动辄需要数百块GPU训练数月的AI研究中是相当高效的。

技术实现的另一个亮点是并行训练策略的创新。研究团队将传统的"先生成后训练"模式改进为"边生成边训练"的流水线模式,这种改进类似于工厂生产线的优化——让各个环节并行工作而不是串行等待,从而大大提高了整体效率。

研究团队还展现了在评估方法上的创新思考。他们发现,传统的基于正则表达式的数学答案评估方法存在明显局限性——过于严格的格式要求可能会误判一些实际正确的答案。为了解决这个问题,他们引入了大语言模型作为评估器,用来判断那些格式不标准但内容正确的答案。这种"双重评估"策略确保了实验结果的可靠性和公正性。

有趣的是,这种双重评估揭示了一个重要发现:很多看似显著的性能改进实际上来自于格式规范性的提升,而不是推理能力的真正改善。这个发现对整个AI推理研究领域具有重要警示意义,提醒研究者们在评估模型性能时要区分真正的能力提升和表面的格式改善。

五、研究意义与未来展望

这项研究的价值远远超出了数学问题求解的范畴,它为整个AI推理领域提供了一种全新的思路和工具。就像发明了一把精密的手术刀,不仅可以用于特定的手术,还可以启发其他医疗工具的设计。

从实际应用的角度来看,这种"学习型继续思考"技术具有广泛的应用前景。在教育领域,可以帮助AI辅导系统更好地模拟人类导师的思考过程,在遇到复杂问题时能够展现更加深入和细致的推理过程。在科学研究中,这种技术可能帮助AI系统在分析复杂数据或理论问题时进行更加深入的思考,发现人类可能遗漏的关键insights。

在商业应用方面,这种技术特别适合那些对准确性要求极高的场景,比如金融分析、法律文件审查、医疗诊断辅助等。在这些领域,"再想想"的能力可能意味着避免代价高昂的错误决策。更重要的是,这种技术的低成本特性使得它可以很容易地集成到现有的AI系统中,而不需要重新构建整个系统。

从科学研究的角度来看,这项研究揭示了一个深刻的原理:AI模型的能力改进不一定需要增加模型规模或重新训练,有时候巧妙的"技巧"和"提示"就能带来显著效果。这种发现可能启发研究者们探索更多类似的"轻量级改进"方法,在不增加计算成本的前提下提升AI性能。

研究团队也诚实地指出了当前方法的局限性。最重要的一点是,这种方法的有效性似乎依赖于传统"预算强制"方法的有效性——如果基础的"等等"策略本身就无效,那么再精巧的学习型标记也难以带来改善。这个发现提醒我们,技术创新往往是在现有基础上的渐进改进,而不是革命性的突破。

另一个限制是,目前的研究主要集中在数学推理领域,对于其他类型的推理任务(如常识推理、道德判断、创意写作等)的效果还有待验证。不同类型的思维任务可能需要不同类型的"继续思考"策略,这为未来的研究提供了丰富的探索方向。

从技术发展的角度来看,这项研究开启了几个令人兴奋的未来研究方向。首先是多层次继续思考标记的探索——研究团队提到,可以为不同的"继续思考"位置训练不同的专用标记,就像为学生的不同学习阶段设计不同的提醒方式。其次是跨领域应用的探索,将这种技术扩展到数学之外的其他推理任务中。

研究团队还指出了将这种顺序推理改进与并行推理方法结合的可能性。如果能够在并行生成多个答案的同时,每个答案都经过"学习型继续思考"的改进,可能会带来更加显著的性能提升。

从更宏观的视角来看,这项研究体现了AI研究中一个重要趋势:从"更大更强"转向"更精更巧"。与那些通过增加模型规模来提升性能的研究不同,这种方法展示了如何通过巧妙的设计在不增加计算资源的前提下获得性能改进。这种思路对于AI技术的普及和应用具有重要意义,特别是对于那些计算资源有限的应用场景。

研究团队慷慨地将他们的代码和实现细节开源,这为其他研究者验证、改进和扩展这项技术提供了便利。这种开放的研究态度有助于整个学术社区的协作和进步,也体现了负责任的AI研究精神。

值得注意的是,这项研究还为AI的可解释性研究提供了新的视角。通过分析"继续思考"标记之后AI生成的内容,研究者们可以更好地理解AI的思维过程,观察它是如何进行自我反思和错误纠正的。这种洞察对于提高AI系统的可信度和可控性具有重要价值。

说到底,这项来自以色列理工学院的研究为我们展示了一种既简单又有效的AI改进方法。它不需要重新发明轮子,而是巧妙地在现有的轮子上加了一个精心设计的"助推器"。虽然改进幅度可能不是革命性的,但其高效性、通用性和实用性使其具有很高的应用价值。

对于AI技术的发展而言,这种研究思路提醒我们,有时候最有价值的创新不是最复杂的算法或最庞大的模型,而是那些能够精准解决实际问题的巧妙方法。就像一个小小的润滑剂可能让整个机器运转得更加顺畅一样,这个小小的"继续思考"标记可能让AI的推理能力得到实质性的提升。

未来,我们有理由期待看到更多类似的"轻量级但高效"的AI改进方法,它们将共同推动AI技术向着更加实用、更加可靠的方向发展。而对于那些希望在自己的应用中集成更强推理能力的开发者来说,这项技术提供了一个低成本、高效果的解决方案选择。感兴趣的读者可以通过arXiv:2506.11274v1这个论文编号,在arXiv网站上找到完整的研究论文,深入了解这项有趣而实用的技术创新。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-