在人工智能飞速发展的今天,大型语言模型(LLMs)如GPT-4o、Gemini和Claude 3已成为我们生活中不可或缺的一部分。然而,尽管这些模型在回答问题时表现出惊人的能力,但它们并非完美无缺。有时它们会对某些问题充满信心,回答一致而准确;有时却会给出互相矛盾的答案,显得犹豫不决。这种现象背后隐藏着一个重要信号:模型对不同问题的"确定性"各不相同。
2025年5月,浙江大学ReLER实验室的陈明涵、陈贵坤、王文冠和杨易发表了一篇题为"SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization"的研究论文,提出了一种创新的方法,利用这种不确定性信号来改进人工智能模型的学习过程。这项研究已在arXiv预印本平台上公开(arXiv:2505.12346v1)。
想象一下,当你面对一个你完全了解的问题时,无论别人怎么问,你的回答核心内容基本都是一致的。比如问你"3的立方是多少?",无论如何表述,你都会给出"27"这个答案。但如果问你一个你不太确定的问题,比如"某个复杂积分的值",你可能会给出各种不同的答案,这反映了你对这个问题的不确定性。
大型语言模型也存在类似的行为模式。当模型对某个问题充满信心时,即使生成多个回答,这些回答虽然表述不同,但核心意思往往一致。反之,当模型对问题把握不足时,会产生语义各异、甚至相互矛盾的多样化回答。
现有的一种名为"群组相对策略优化"(Group Relative Policy Optimization,简称GRPO)的训练方法,虽然已经在提升语言模型的推理能力方面取得了显著成效,但它对所有问题一视同仁,没有考虑模型自身对不同问题的确定性差异。就好比一位老师对待学生的所有问题都采用同样的教学强度,无论学生是否已经掌握了相关知识。
浙江大学的研究团队提出的SEED-GRPO方法,就像是一位能够感知学生理解程度的智慧老师。它通过计算"语义熵"(Semantic Entropy)来衡量模型对不同问题的不确定性程度,并据此调整学习的力度。对于模型比较确定的问题(低语义熵),保持正常学习力度;对于模型不太确定的问题(高语义熵),则采取更保守的学习策略。
这种方法的核心思想可以通过一个简单的例子来理解。假设有两道数学题:第一道是"求x的值,已知x?=27";第二道是"计算积分∫x?sin(2/x)dx"。对于第一道题,无论模型生成多少次答案,大多数答案都会指向"x=3"这一核心意思,表明模型对这类问题有很高的确定性。而对于第二道较难的积分题,模型可能会给出各种不同的答案,如"发散到无穷大"、"答案是2"、"面积总是1"等,这些答案语义各异,表明模型对这个问题的理解存在显著不确定性。
SEED-GRPO正是利用这种语义多样性的差异,来调整模型在不同问题上的学习力度。就像人类学习一样,对于我们已经基本掌握的知识,可以进行较大幅度的调整和完善;而对于我们尚未充分理解的复杂概念,则需要更谨慎、更小幅度的学习,避免过度拟合到可能有噪声的信息上。
研究团队在五个数学推理基准测试上评估了SEED-GRPO的性能,包括AIME24、AMC、MATH、Minerva和OlympiadBench等。结果表明,SEED-GRPO在所有这些基准测试上都取得了显著的性能提升,平均准确率达到58.2%,远超以往的方法。特别值得一提的是,在难度极高的AIME24奥林匹克数学竞赛基准测试上,SEED-GRPO取得了56.7%的准确率,这一成绩甚至超越了许多参数量为32B的大型模型。
这项研究不仅在技术上推动了大型语言模型的进步,更深层次地反映了一种学习哲学:真正高效的学习应该是自适应的,要根据对不同知识的把握程度来调整学习策略。就像人类在学习过程中,会自然地将更多注意力放在掌握较好的内容上进行深化,而对尚未掌握的内容则采取更谨慎的探索策略一样。
SEED-GRPO方法的原理并不复杂,但它带来的效果却十分显著。在计算机科学领域,这种将不确定性信号纳入学习过程的思路,为未来大型语言模型的训练提供了新的方向。随着这类方法的不断完善,我们可以期待人工智能系统在面对复杂推理任务时表现得更加智能、更加"有自知之明"。
让我们更深入地了解SEED-GRPO的工作原理。在传统的GRPO方法中,系统会为每个问题生成多个答案,然后根据这些答案的正确性计算奖励,并以此来更新模型参数。然而,SEED-GRPO在这个过程中增加了一个关键步骤:计算语义熵。
语义熵的计算并不直接基于表面的文本差异,而是基于答案的语义差异。想象一下,如果模型对问题"3的立方是多少?"给出了六个回答:"3的立方根是27"、"计算得27"、"答案是27"、"x=3满足方程"、"我认为是3"等,尽管这些回答在文字表述上各不相同,但它们本质上都在表达同一个意思:x=3。这种情况下,尽管有六个不同的回答,但它们实际上只形成了一到两个语义聚类,因此语义熵较低。
相比之下,如果对于复杂的积分问题,模型给出了"答案发散到无穷大"、"答案是2"、"面积总是1"、"值是sin(e)"、"没有解析解"等完全不同的答案,这些答案形成了多个语义聚类,表明模型对这个问题存在高度不确定性,因此语义熵较高。
在SEED-GRPO中,根据计算得到的语义熵值,系统会动态调整策略更新的幅度。具体来说,它使用一个不确定性感知的优势函数:
A_i = A_i · f(α · SE(q)/SE_max(q))
其中,A_i是原始优势值,SE(q)是问题q的语义熵,SE_max(q)是最大可能的语义熵,α是一个控制灵敏度的超参数,f是一个调制函数(可以是线性的、指数的或者其他形式的)。
通过这个函数,SEED-GRPO实现了一个关键的机制:当语义熵高(即模型不确定)时,优势值会被缩小,导致更保守的参数更新;当语义熵低(即模型确定)时,保持原有的学习强度。这就像是一个灵活的学习策略:对于我们较为熟悉的领域,可以大胆尝试和调整;而对于不太熟悉的领域,则需要更加谨慎,避免过度自信。
研究团队对不同的实现细节进行了详尽的消融研究。他们发现,α=0.02的线性调制函数在大多数任务上表现最佳,平均准确率达到56.6%。此外,增加每个问题的采样答案数量(从8个增加到16个)也能进一步提升性能,特别是在难度较高的AIME24基准测试上,准确率从46.7%提升到了56.7%。
有趣的是,当研究人员分析不同问题的语义熵分布时,他们发现语义熵与问题难度之间存在明显的相关性。对于模型能够轻松解决的问题,语义熵通常较低;而对于模型难以解决的问题,语义熵往往较高。这一发现进一步证实了语义熵作为模型不确定性指标的有效性。
当然,SEED-GRPO也存在一些局限性。目前,研究团队在数学推理任务中主要基于最终答案来进行语义聚类,而没有考虑中间推理步骤的差异。这种方法虽然简单有效,但对于没有唯一确定答案的开放性问题,可能无法充分捕捉推理过程的多样性。未来的研究方向包括将语义熵扩展到多模态任务(如图像-文本问答)、代码生成以及开放式文本问答等领域,这些领域可能会从不确定性感知的策略优化中获益更多。
总的来说,SEED-GRPO代表了人工智能学习方法的一个重要进步。它不仅在技术上提供了一种新的训练范式,更重要的是引入了一种更接近人类学习方式的自适应学习机制。在未来,随着这种方法的进一步完善和扩展,我们有望看到人工智能系统在复杂推理任务上展现出更强的能力,同时也能更好地知道"自己知道什么,不知道什么"——这正是真正智能系统的关键特征之一。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。