在人工智能领域,研究人员一直在寻找更好的方法来提升大型语言模型(比如ChatGPT这类AI系统)的推理能力。2025年5月,来自伊利诺伊大学厄巴纳-香槟分校的研究团队,包括Shivam Agarwal、Zimin Zhang、Lifan Yuan、Jiawei Han和Hao Peng,在一项令人惊讶的研究中发现,有一种出奇简单的方法可以让AI模型变得更聪明——熵最小化。这项研究发表在arXiv预印本平台(arXiv:2505.15134v1),标题为《大型语言模型推理中熵最小化的不合理有效性》。
什么是"熵"?别被这个专业术语吓到。在日常生活中,我们可以把熵理解为"不确定性"或"犹豫不决"的程度。想象一下,当你问朋友"我们今天去哪里吃午餐?",如果他给出了十几个选择且对每个选择都差不多的兴趣,那么他的回答就有"高熵"(高不确定性)。相反,如果他坚定地说"我们去那家意大利餐厅!",这就是"低熵"(低不确定性)的回答。
研究团队发现,仅仅通过鼓励AI模型减少这种"犹豫不决"(熵最小化),就能显著提高它在复杂数学、物理和编程任务上的表现,而且不需要任何标记数据或人工反馈。这就像是发现一个人只要坚定自己的决心,不左右摇摆,就能变得更聪明一样令人惊讶。
让我们深入了解一下这项研究的具体内容。研究团队提出了三种基于熵最小化的方法:无监督微调(EM-FT)、强化学习熵最小化(EM-RL)和推理时的熵最小化(EM-INF)。
一、无监督微调(EM-FT):让AI更自信,不用告诉它正确答案
传统上,要提升AI的能力,研究人员需要准备大量带有正确答案的训练数据。这就像是给学生提供习题和答案,让他们通过反复练习来提高。但EM-FT方法不同,它不需要提供任何正确答案。
这个方法的工作原理就像是鼓励一个人"相信自己的直觉"。研究团队让AI模型自己生成一些回答,然后训练它对自己最有把握的回答更加确信。具体来说,EM-FT计算模型在生成每个词时的"犹豫程度"(即词级别的熵),然后训练模型减少这种犹豫,让它生成更加坚定的答案。
令人惊讶的是,这种简单的方法在数学和编程任务上取得了显著效果。在Qwen-7B模型上,EM-FT在某些任务上甚至超过了使用60,000个带标签例子训练的GRPO和RLOO等先进方法。比如在Minerva数学任务上,EM-FT的准确率比GRPO高出了8.1%,在LeetCode编程任务上也表现更好。
这就像发现,只要鼓励一个学生对自己的答案更有信心,不需要告诉他正确答案,他就能在考试中表现得更好——这听起来不合理,但研究结果表明确实有效。
二、强化学习熵最小化(EM-RL):用"自信"作为奖励信号
研究团队还提出了一种基于强化学习的方法——EM-RL。在传统强化学习中,AI系统通过获得奖励来学习,就像训练狗做特技时给它小饼干作为奖励一样。通常,这些奖励信号来自外部评估或人类反馈。
但在EM-RL中,奖励信号仅仅来自于熵——也就是模型自身的确定性程度。研究团队设计了两种奖励方式:
1. 序列级熵最小化(EM-RL-sequence):这种方法奖励模型生成整体上更确定的输出序列。 2. 词级熵最小化(EM-RL-token):这种方法奖励模型在生成每个词时都更加确定。
这就像告诉一个学习者:"每当你回答问题时表现得更加自信,不管对错,我都会给你奖励。"直觉上,这似乎会鼓励人们胡说八道,但研究发现,对于预训练充分的AI模型来说,这种方法实际上提高了它们的性能。
在测试中,EM-RL在没有使用任何标记数据的情况下,达到了与使用60,000个标记例子训练的GRPO和RLOO相当甚至更好的性能。在AMC数学任务和LeetCode编程任务上,EM-RL显著超过了基线模型。
三、推理时熵最小化(EM-INF):即时提升AI的决断力
最后一种方法是EM-INF,它不需要任何训练或模型参数更新,只在AI生成回答的过程中进行实时调整。
想象一下,这就像是在考试过程中,有人不断提醒你:"别犹豫!选择你最确信的答案!"EM-INF在模型生成每个词时,优化其"决策过程"(技术上称为logit),减少模型的不确定性,促使它更倾向于选择自己最有把握的词。
研究发现,在科学编程任务(SciCode)等高度不确定性的复杂任务中,EM-INF特别有效。使用EM-INF后,Qwen-32B模型甚至能够匹配或超过GPT-4o、Claude 3 Opus和Gemini 1.5 Pro等顶级商业模型的表现。而且,EM-INF比自洽性推理和序列细化等方法计算效率高3倍,意味着它不仅效果好,而且更省计算资源。
四、局限性:并非所有模型和任务都适用
虽然熵最小化方法在多项任务上表现出色,但研究团队也发现了它的局限性。
首先,这种方法只有在模型的"自信度"与"正确性"有较强相关性时才有效。在一些需要与人类价值观对齐的任务中,模型的自信度可能不是质量的可靠指标。研究团队在个人价值推理任务上测试了Qwen-2.5模型,发现未经标记数据微调的模型表现不佳,而熵最小化也没有带来改善。
其次,熵最小化的效果取决于预训练模型本身的能力。研究团队发现,在Llama-3.1-8B模型上,熵最小化方法对数学推理任务的改进不如在Qwen-2.5上显著。这可能是因为Llama-3.1-8B在这些推理任务上的基础能力较弱。
这就像是"自信训练法"只适用于那些已经掌握了基本知识的学生,而对完全不懂的学生来说,光有自信没有知识反而可能适得其反。
五、实验结果展示:数据会说话
在各种数学和编程任务上的实验结果非常令人印象深刻。例如,在MATH-500数学任务上,基础的Qwen2.5-7b模型准确率为43.8%,而使用EM-FT后提升到67.2%,EM-RL-TOKEN提升到70.8%,甚至超过了使用标记数据训练的GRPO(71.8%)。
在编程任务上,EM-RL-SEQUENCE将LeetCode的准确率从基础模型的26.1%提升到31.1%,超过了RLOO(28.3%)和GRPO(25.0%)。
在科学编程任务SciCode上,使用EM-INF的Qwen2.5-32B模型在带背景知识的主问题上达到了10.7%的准确率,超过了GPT-4o(9.2%)、Claude3-Opus(4.7%)和Gemini 1.5 Pro(7.7%)等顶级商业模型。
关于计算效率,研究表明EM-INF在AMC任务上能以约三分之一的计算成本达到与自洽性方法相当的性能。这就像是发现了一种既省钱又高效的学习方法。
六、意义与展望:简单有时胜过复杂
这项研究最大的启示是,有时候最简单的方法反而最有效。在AI领域,研究人员经常设计复杂的训练方法和反馈机制,但这项研究表明,仅仅通过鼓励模型"更加自信"(熵最小化),就能显著提升其性能。
研究团队认为,许多预训练的大型语言模型实际上已经具备了强大的推理能力,只是这些能力没有被充分发挥出来。熵最小化方法就像是一把钥匙,能够解锁这些模型内在的、被低估的能力。
研究团队呼吁在未来的研究中,将熵最小化作为基准方法,以便更好地区分算法创新的贡献和模型本身固有能力的贡献。
总的来说,这项研究打开了一扇通往更简单、更高效的AI优化方法的大门。它提醒我们,有时候,让AI变得更聪明的方法不一定是喂给它更多数据或设计更复杂的算法,而可能只是教它更坚定地相信自己最有把握的答案。
这项发现对AI研究和应用有着深远的影响。例如,在资源有限的情况下,熵最小化可能是提升模型性能的一种高效选择。对于需要在线适应的系统,EM-INF提供了一种不需要更新模型参数就能提升性能的方法。
研究团队的代码已经在GitHub上公开(https://github.com/shivamag125/EM_PT),感兴趣的读者可以亲自尝试这些方法,看看它们是否真如论文中描述的那样神奇。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。