
这项由荷兰格罗宁根大学的Daniel Scalena和Leonidas Zotos,联合意大利米兰比可卡大学的Elisabetta Fersini、Cohere Labs和Cohere公司的Malvina Nissim和Ahmet Ustün在2025年10月发表的研究,提出了一种名为EAGER(Entropy-Aware Generation for Adaptive Inference-Time Scaling,熵感知生成自适应推理时间扩展)的全新技术。这项研究发表在计算机科学领域的预印本平台,论文编号为arXiv:2510.11170v1,为大语言模型的推理优化开辟了全新的道路。
当前大语言模型在解决复杂推理问题时,就像一个学生在考试时要写出多种解题思路来增加答对的机会。传统的做法是让模型对每个问题都生成固定数量的答案序列,比如每道题都写32种解法。这种方法虽然能提高准确率,但就像用大炮打蚊子一样浪费资源——有些简单问题只需要一种解法就能搞定,而有些复杂问题可能需要更多尝试才能找到正确答案。
EAGER技术的核心创新在于让AI学会"看菜下饭"。它通过监测模型在生成每个词汇时的不确定性(用熵值来衡量),来决定何时需要探索更多可能的推理路径。当模型在某个步骤显得很确定时,就像学生对某道题很有把握一样,系统就不会浪费额外的计算资源。但当模型遇到高不确定性的时刻,就像学生在关键步骤犹豫不决时,系统会自动分支出多条推理路径来探索不同的可能性。
这种动态分配计算资源的方法带来了惊人的效果。在数学竞赛题AIME 2025等复杂推理任务上,EAGER能够减少高达65%的计算量,同时将答题准确率提升多达37%。更重要的是,这项技术完全不需要重新训练模型,可以直接应用到现有的大语言模型上。
一、智能的"计算管家"——EAGER如何重新分配AI的脑力
传统的AI推理就像一个不会理财的人,无论面对什么问题都花同样的钱。研究团队发现,这种"一刀切"的资源分配方式存在巨大浪费。有些问题对AI来说就像1+1=2一样简单,根本不需要反复思考,但系统仍然会强制生成32种不同的解答过程。另一些问题则像高等数学难题,需要更多的思考时间和不同的尝试角度,但传统方法给它们的资源却是固定的。
EAGER技术的突破在于引入了一个"智能管家"的概念。这个管家会时刻观察AI在思考过程中的每一步,通过测量"熵值"来判断AI此刻的困惑程度。熵值就像是AI内心的"纠结指数"——当AI对下一个词汇的选择很确定时,熵值就很低,就像你很确定要说"苹果是红色的"中的"红色"这个词;当AI面临多种可能选择且难以决定时,熵值就会飙升,就像你在餐厅菜单前犹豫该点什么菜。
这个系统的巧妙之处在于,它只在检测到高熵值(高度不确定性)的时刻才会"分叉",创建新的推理分支。这就像一个导航系统,在大部分路段都走主干道,只在遇到复杂路口时才计算多条备选路线。通过这种方式,EAGER避免了在简单步骤上的重复计算,同时确保在关键决策点有足够的探索空间。
研究团队通过大量实验发现,AI模型在生成序列时的熵值峰值与最终答题正确率之间存在显著的负相关关系。换句话说,那些在思考过程中表现出更多不确定性的回答,往往最终的准确率也更低。这个发现为动态资源分配提供了科学依据——当系统检测到高熵值时,确实需要投入更多计算资源来探索替代方案。
二、EAGER的双重省钱策略
EAGER技术采用了一套精妙的两阶段省钱策略,就像一个精明的家庭主妇既要节约开支又要保证生活质量。
第一阶段被称为"EAGER-init",这个阶段的核心任务是识别那些"容易题"并避免在它们身上浪费资源。系统会在生成过程中持续监控熵值,当熵值超过预设阈值时才会创建新的推理分支。对于那些从头到尾都很"顺滑"的推理过程,系统可能只生成一个序列就够了,而不是强制生成32个几乎相同的答案。
这种做法的效果就像一个聪明的老师,对于简单的加法题不会让学生写出十种不同的解法,而是把时间留给真正需要多种思路的复杂问题。通过这种方式,EAGER-init通常能将总的计算量削减到传统方法的一半左右。
第二阶段则是"预算再分配"策略。当系统从简单问题上节省下计算资源后,这些节省的"预算"不会被浪费,而是被重新投入到那些真正需要额外帮助的难题上。这就像把原本要买10件便宜T恤的钱,改为买5件T恤和1件高质量外套,整体效果更好。
研究团队设计了两种再分配策略。第一种适用于不知道正确答案的实际应用场景,系统会将额外资源分配给那些"用尽了分配序列数量"的问题,因为这些问题显然需要更多探索。第二种策略适用于训练场景,当知道标准答案时,系统会优先给那些"一个正确答案都没找到"的问题投入更多资源。
这种动态分配机制的巧妙之处在于,它不仅节约了总体计算成本,还提高了整体性能。在数学、科学和编程等多个领域的测试中,EAGER技术都展现出了显著的优势,同时减少计算量和提高准确率。
三、令人惊喜的实验成果
研究团队在多个知名AI模型上测试了EAGER技术,包括从30亿参数的SmolLM到200亿参数的GPT-oss等不同规模的模型。测试涵盖了数学竞赛题(AIME 2024/2025、哈佛MIT数学锦标赛)、科学问题(GPQA-Diamond)和编程任务(HumanEval Plus)等多个领域。
在数学推理方面,EAGER技术展现了令人瞩目的效果。以AIME 2025数学竞赛为例,当使用Qwen3-4B模型时,传统并行采样方法的通过率(至少产生一个正确答案的比例)为80%,而EAGER技术将这一数字提升到了83%。更重要的是,EAGER只使用了传统方法一半的计算资源就达到了更好的效果。
在最具挑战性的测试中,EAGER技术在GPT-oss 20B模型上将AIME 2025的通过率从90%提升到了97%,同时大幅减少了所需的计算token数量。这种提升不是偶然的,而是在多个不同模型和任务上都能稳定重现的结果。
特别有趣的是,研究团队发现即使是较小的模型也能从EAGER技术中获得显著收益。SmolLM 3B这个相对较小的模型,在使用传统方法时几乎无法解决任何问题(准确率接近0%),但在应用EAGER技术后,其性能出现了数百倍的提升。这表明EAGER技术不仅适用于大型模型,对于资源受限的应用场景同样具有重要价值。
编程任务的结果同样令人印象深刻。在HumanEval Plus编程测试中,EAGER技术在几乎所有测试模型上都实现了性能提升,同时显著减少了计算资源消耗。这种跨领域的一致性提升说明了EAGER技术的通用性和鲁棒性。
四、技术细节的精妙设计
EAGER技术的成功不仅在于其核心思想的创新,更在于实现细节的精心设计。整个系统的运行过程就像一个经验丰富的指挥家指挥乐团,既要保证整体和谐,又要在关键时刻突出重点。
在熵值计算方面,研究团队选择了"top-K熵"这种高效的近似方法。不同于计算整个词汇表的熵值(这会带来巨大的计算开销),top-K熵只考虑概率最高的K个词汇(通常是20个),这就像在投票时只关注得票最多的几个候选人,既能反映整体趋势又大大降低了计算复杂度。
分支策略的设计也颇具匠心。当系统检测到高熵值时,它不会随机创建多个分支,而是采用"贪婪+次优"的策略——选择概率最高的词汇继续原有路径,同时创建一个使用第二高概率词汇的新分支。这种做法确保了探索的多样性,同时避免了完全随机带来的效率损失。
为了防止系统在过于简单的问题上"过度思考",EAGER设置了一个巧妙的停止机制。如果一个推理序列在连续1000个词汇中都没有遇到需要分支的高熵值点,系统就会停止监控并专注于快速完成剩余部分。这就像一个学生在做简单的计算题时,如果前面的步骤都很顺利,就不需要在后续的每一步都反复检查。
在预算分配的实现上,研究团队采用了保守而实用的策略。节省下来的计算预算被限制在不超过原预算两倍的范围内,避免了极端情况下某些难题"吃掉"过多资源的问题。这种设计确保了系统的稳定性和可预测性。
五、对AI发展的深远影响
EAGER技术的意义远超其技术本身,它为AI领域的发展提供了一个全新的思考框架。这项研究首次从理论和实践两个层面证明了动态计算分配的可行性和优越性,为未来的AI系统设计提供了重要启示。
从经济角度来看,EAGER技术的出现正当其时。随着大语言模型规模的不断扩大,计算成本已成为制约AI应用普及的重要因素。一个需要大量GPU资源的推理任务,其成本可能高达数千美元。EAGER技术能够在保持甚至提升性能的同时大幅降低计算成本,这对于AI的商业化应用具有重大意义。
从技术发展的角度,EAGER技术开辟了一个新的研究方向——推理时的动态优化。传统的AI优化主要集中在训练阶段,而EAGER证明了在推理阶段同样存在巨大的优化空间。这种思路可能激发更多类似的创新,推动整个AI领域向更高效、更智能的方向发展。
更重要的是,EAGER技术体现了一种"因材施教"的AI哲学。它认识到不同问题需要不同程度的计算资源,这种个性化的资源分配策略更符合人类解决问题的自然方式。这种理念可能会影响未来AI系统的整体设计思路,推动AI向更加智能和高效的方向发展。
六、技术的通用性和适用性
EAGER技术最令人兴奋的特点之一是其出色的通用性。这种技术就像一个"万能插头",可以直接应用到现有的各种大语言模型上,而无需任何重新训练或模型结构修改。这种"即插即用"的特性为其广泛应用提供了可能。
在不同规模的模型上,EAGER都展现出了一致的改进效果。无论是参数量只有30亿的小型模型,还是拥有200亿参数的大型模型,都能从EAGER技术中获得显著收益。这种规模无关性表明该技术的核心原理具有普遍适用性,不依赖于特定的模型架构或参数规模。
跨领域的一致性提升更是证明了EAGER技术的鲁棒性。从抽象的数学推理到具体的编程实现,从科学问题解答到日常对话,EAGER在各个应用场景中都表现出了稳定的性能提升。这种跨领域的成功表明该技术捕捉到了推理过程中的某种基本规律,而不是针对特定任务的表面优化。
特别值得注意的是,EAGER技术在处理不同复杂程度的问题时都能自动调整其行为。对于简单问题,它会自动减少计算开销;对于复杂问题,它会投入更多资源进行深入探索。这种自适应能力使得同一套技术可以应用于从简单客服对话到复杂科研推理的各种场景。
研究团队还发现,EAGER技术在不同的"温度"设置下都能保持良好的性能。温度参数控制着AI生成文本的随机性,低温度产生更确定的输出,高温度则增加多样性。EAGER在这两种极端设置下都能提供稳定的改进,说明其设计考虑了AI推理过程的各种变化因素。
七、未来发展的无限可能
EAGER技术的成功为AI领域的未来发展开辟了多个令人兴奋的方向。当前的实现虽然已经取得了显著成果,但研究团队明确指出了进一步改进的巨大潜力。
在不确定性度量方面,除了当前使用的熵值,研究人员正在探索其他更精确的不确定性quantification方法。例如,Kullback-Leibler散度可能提供更细致的不确定性描述,帮助系统做出更精准的分支决策。这些改进可能带来更大的性能提升和资源节约。
动态分配策略也有很大的改进空间。当前的EAGER主要基于二分支策略,未来的版本可能支持更复杂的多分支决策,甚至可以根据问题的特性动态确定最优的分支数量。这种更加灵活的分配机制可能进一步提升系统的效率和准确性。
另一个令人兴奋的发展方向是将EAGER技术与其他AI优化技术结合。例如,将动态计算分配与模型压缩、知识蒸馏等技术相结合,可能创造出更加强大和高效的AI系统。这种技术融合的协同效应可能带来超越单一技术的性能提升。
在应用层面,EAGER技术为实时AI应用开辟了新的可能性。传统的推理优化主要关注离线场景,而EAGER的高效性使得在实时对话、即时翻译、在线问答等场景中应用高质量AI推理成为可能。这可能推动AI技术在更多日常应用中的普及。
更有趣的是,EAGER技术可能启发全新的AI架构设计。未来的AI系统可能从设计之初就考虑动态资源分配,而不是在现有系统上"打补丁"。这种从头设计的动态AI可能在效率和性能上实现质的飞跃。
说到底,EAGER技术的价值不仅在于其当前取得的显著成果,更在于它为AI领域提供了一种全新的思考方式。它证明了"智能分配"胜过"盲目投入",这个简单而深刻的道理在AI领域同样适用。随着计算资源变得越来越珍贵,这种高效的推理技术必将成为未来AI发展的重要方向。
对于普通用户而言,EAGER技术意味着他们将能够以更低的成本享受到更好的AI服务。无论是在手机上运行的AI助手,还是云端的大型AI应用,都可能因为这种技术而变得更加快速和经济。这种技术进步最终将惠及每一个AI技术的使用者,让智能服务真正走进千家万户。
有兴趣深入了解这项技术细节的读者,可以通过论文编号arXiv:2510.11170v1查询完整的研究论文,其中包含了更详细的技术实现和实验数据。
Q&A
Q1:EAGER技术是什么,它解决了什么问题?
A:EAGER是一种让AI变得更聪明省钱的技术。传统AI在解答问题时会为每个问题生成固定数量的答案,不管问题难易程度,就像每道菜都放同样多的调料。EAGER技术让AI学会"看菜下饭",对简单问题少花计算资源,对复杂问题多投入精力,既省钱又提高了准确率。
Q2:EAGER技术如何判断什么时候需要更多计算资源?
A:EAGER通过监测AI生成每个词时的"纠结程度"(专业术语叫熵值)来判断。当AI对下一个词很确定时,就像你很肯定要说"天空是蓝色的",系统就不会浪费额外资源。当AI很纠结不知道选哪个词时,系统就会创建多个思路分支来探索不同可能性。
Q3:普通人能使用EAGER技术吗,效果怎么样?
A:EAGER技术可以直接应用到现有的AI模型上,不需要重新训练。在测试中,它能减少65%的计算成本,同时将准确率提升37%。虽然目前主要在研究阶段,但未来很可能会集成到各种AI应用中,让大家以更低成本享受更好的AI服务。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。