
在人工智能领域,研究人员一直在寻找更好的方法来提升大型语言模型(比如ChatGPT这类AI系统)的推理能力。2025年5月,来自伊利诺伊大学厄巴纳-香槟分校的研究团队,包括Shivam Agarwal、Zimin Zhang、Lifan Yuan、Jiawei Han和Hao Peng,在一项令人惊讶的研究中发现,有一种出奇简单的方法可以让AI模型变得更聪明——熵最小化。这项研究发表在arXiv预印本平台(arXiv:2505.15134v1),标题为《大型语言模型推理中熵最小化的不合理有效性》。
什么是"熵"?别被这个专业术语吓到。在日常生活中,我们可以把熵理解为"不确定性"或"犹豫不决"的程度。想象一下,当你问朋友"我们今天去哪里吃午餐?",如果他给出了十几个选择且对每个选择都差不多的兴趣,那么他的回答就有"高熵"(高不确定性)。相反,如果他坚定地说"我们去那家意大利餐厅!",这就是"低熵"(低不确定性)的回答。
研究团队发现,仅仅通过鼓励AI模型减少这种"犹豫不决"(熵最小化),就能显著提高它在复杂数学、物理和编程任务上的表现,而且不需要任何标记数据或人工反馈。这就像是发现一个人只要坚定自己的决心,不左右摇摆,就能变得更聪明一样令人惊讶。
让我们深入了解一下这项研究的具体内容。研究团队提出了三种基于熵最小化的方法:无监督微调(EM-FT)、强化学习熵最小化(EM-RL)和推理时的熵最小化(EM-INF)。
一、无监督微调(EM-FT):让AI更自信,不用告诉它正确答案
传统上,要提升AI的能力,研究人员需要准备大量带有正确答案的训练数据。这就像是给学生提供习题和答案,让他们通过反复练习来提高。但EM-FT方法不同,它不需要提供任何正确答案。
这个方法的工作原理就像是鼓励一个人"相信自己的直觉"。研究团队让AI模型自己生成一些回答,然后训练它对自己最有把握的回答更加确信。具体来说,EM-FT计算模型在生成每个词时的"犹豫程度"(即词级别的熵),然后训练模型减少这种犹豫,让它生成更加坚定的答案。
令人惊讶的是,这种简单的方法在数学和编程任务上取得了显著效果。在Qwen-7B模型上,EM-FT在某些任务上甚至超过了使用60,000个带标签例子训练的GRPO和RLOO等先进方法。比如在Minerva数学任务上,EM-FT的准确率比GRPO高出了8.1%,在LeetCode编程任务上也表现更好。
这就像发现,只要鼓励一个学生对自己的答案更有信心,不需要告诉他正确答案,他就能在考试中表现得更好——这听起来不合理,但研究结果表明确实有效。
二、强化学习熵最小化(EM-RL):用"自信"作为奖励信号
研究团队还提出了一种基于强化学习的方法——EM-RL。在传统强化学习中,AI系统通过获得奖励来学习,就像训练狗做特技时给它小饼干作为奖励一样。通常,这些奖励信号来自外部评估或人类反馈。
但在EM-RL中,奖励信号仅仅来自于熵——也就是模型自身的确定性程度。研究团队设计了两种奖励方式:
1. 序列级熵最小化(EM-RL-sequence):这种方法奖励模型生成整体上更确定的输出序列。 2. 词级熵最小化(EM-RL-token):这种方法奖励模型在生成每个词时都更加确定。
这就像告诉一个学习者:"每当你回答问题时表现得更加自信,不管对错,我都会给你奖励。"直觉上,这似乎会鼓励人们胡说八道,但研究发现,对于预训练充分的AI模型来说,这种方法实际上提高了它们的性能。
在测试中,EM-RL在没有使用任何标记数据的情况下,达到了与使用60,000个标记例子训练的GRPO和RLOO相当甚至更好的性能。在AMC数学任务和LeetCode编程任务上,EM-RL显著超过了基线模型。
三、推理时熵最小化(EM-INF):即时提升AI的决断力
最后一种方法是EM-INF,它不需要任何训练或模型参数更新,只在AI生成回答的过程中进行实时调整。
想象一下,这就像是在考试过程中,有人不断提醒你:"别犹豫!选择你最确信的答案!"EM-INF在模型生成每个词时,优化其"决策过程"(技术上称为logit),减少模型的不确定性,促使它更倾向于选择自己最有把握的词。
研究发现,在科学编程任务(SciCode)等高度不确定性的复杂任务中,EM-INF特别有效。使用EM-INF后,Qwen-32B模型甚至能够匹配或超过GPT-4o、Claude 3 Opus和Gemini 1.5 Pro等顶级商业模型的表现。而且,EM-INF比自洽性推理和序列细化等方法计算效率高3倍,意味着它不仅效果好,而且更省计算资源。
四、局限性:并非所有模型和任务都适用
虽然熵最小化方法在多项任务上表现出色,但研究团队也发现了它的局限性。
首先,这种方法只有在模型的"自信度"与"正确性"有较强相关性时才有效。在一些需要与人类价值观对齐的任务中,模型的自信度可能不是质量的可靠指标。研究团队在个人价值推理任务上测试了Qwen-2.5模型,发现未经标记数据微调的模型表现不佳,而熵最小化也没有带来改善。
其次,熵最小化的效果取决于预训练模型本身的能力。研究团队发现,在Llama-3.1-8B模型上,熵最小化方法对数学推理任务的改进不如在Qwen-2.5上显著。这可能是因为Llama-3.1-8B在这些推理任务上的基础能力较弱。
这就像是"自信训练法"只适用于那些已经掌握了基本知识的学生,而对完全不懂的学生来说,光有自信没有知识反而可能适得其反。
五、实验结果展示:数据会说话
在各种数学和编程任务上的实验结果非常令人印象深刻。例如,在MATH-500数学任务上,基础的Qwen2.5-7b模型准确率为43.8%,而使用EM-FT后提升到67.2%,EM-RL-TOKEN提升到70.8%,甚至超过了使用标记数据训练的GRPO(71.8%)。
在编程任务上,EM-RL-SEQUENCE将LeetCode的准确率从基础模型的26.1%提升到31.1%,超过了RLOO(28.3%)和GRPO(25.0%)。
在科学编程任务SciCode上,使用EM-INF的Qwen2.5-32B模型在带背景知识的主问题上达到了10.7%的准确率,超过了GPT-4o(9.2%)、Claude3-Opus(4.7%)和Gemini 1.5 Pro(7.7%)等顶级商业模型。
关于计算效率,研究表明EM-INF在AMC任务上能以约三分之一的计算成本达到与自洽性方法相当的性能。这就像是发现了一种既省钱又高效的学习方法。
六、意义与展望:简单有时胜过复杂
这项研究最大的启示是,有时候最简单的方法反而最有效。在AI领域,研究人员经常设计复杂的训练方法和反馈机制,但这项研究表明,仅仅通过鼓励模型"更加自信"(熵最小化),就能显著提升其性能。
研究团队认为,许多预训练的大型语言模型实际上已经具备了强大的推理能力,只是这些能力没有被充分发挥出来。熵最小化方法就像是一把钥匙,能够解锁这些模型内在的、被低估的能力。
研究团队呼吁在未来的研究中,将熵最小化作为基准方法,以便更好地区分算法创新的贡献和模型本身固有能力的贡献。
总的来说,这项研究打开了一扇通往更简单、更高效的AI优化方法的大门。它提醒我们,有时候,让AI变得更聪明的方法不一定是喂给它更多数据或设计更复杂的算法,而可能只是教它更坚定地相信自己最有把握的答案。
这项发现对AI研究和应用有着深远的影响。例如,在资源有限的情况下,熵最小化可能是提升模型性能的一种高效选择。对于需要在线适应的系统,EM-INF提供了一种不需要更新模型参数就能提升性能的方法。
研究团队的代码已经在GitHub上公开(https://github.com/shivamag125/EM_PT),感兴趣的读者可以亲自尝试这些方法,看看它们是否真如论文中描述的那样神奇。
好文章,需要你的鼓励
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。
英国国王学院研究团队开发了潜在精炼解码(LRD)技术,解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程:先让AI在连续空间中"深思熟虑",保持多种可能性的混合状态,然后"果断行动",逐步确定答案。实验显示,LRD在编程和数学推理任务中准确性提升最高6.3个百分点,生成速度提升最高10.6倍,为AI并行文本生成开辟了新路径。
清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法,巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中,让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法,特别是在处理模型知识盲区时表现突出,同时有效避免了灾难性遗忘问题,为AI训练提供了更高效稳定的新范式。