微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

强化微调的幻觉税:如何通过合成不可回答数据解决大语言模型的过度自信问题

2025-05-27 11:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-27 11:05 科技行者

这是一项由南加州大学的Linxin Song、Taiwei Shi和Jieyu Zhao共同发表于2025年5月20日arXiv预印本平台的研究,论文编号为arXiv:2505.13988v1。本研究介绍了大语言模型在进行强化微调后出现的一个关键副作用,即"幻觉税"现象。

我们先来理解一下什么是强化微调(Reinforcement Finetuning,简称RFT)。想象你在教一个聪明但有时会犯错的学生解题。最初,这个学生只会按照课本上学到的方式回答问题。但如果你不断给他反馈,表扬他正确的回答并指出错误,久而久之,他的回答会越来越准确。这就是强化微调的基本原理——通过奖励模型产生的正确答案,惩罚错误回答,让大语言模型逐渐调整自己的行为,提高解题能力。

然而,南加州大学的研究团队发现,这种训练方式存在一个意想不到的副作用,他们称之为"幻觉税"。就像前面那个学生,在得到了太多鼓励后,可能变得过度自信,即使面对无法回答的问题也会自信满满地给出答案,而不是诚实地说"我不知道"。具体到大语言模型,研究者发现经过强化微调后,模型拒绝回答不可回答问题的能力显著下降,导致它们更倾向于为没有明确答案的问题生成看似合理但实际上是"幻觉"的回答。

为了系统地研究这一问题,研究团队创建了一个名为"合成不可回答数学"(Synthetic Unanswerable Math,简称SUM)的高质量数据集。这个数据集包含了各种精心设计的数学问题,这些问题看起来是正常的数学题,但实际上因为缺少关键信息或条件模糊而无法回答。通过这个数据集,研究人员可以测试模型识别"无法回答"情况的能力。

研究结果令人担忧:标准的强化微调可能使模型的拒绝回答率降低超过80%,这意味着模型变得更容易产生幻觉。幸运的是,研究者也找到了解决方案——只需在强化微调过程中混入约10%的SUM数据,就能显著恢复模型适当拒绝回答的行为,同时对可回答任务的准确率几乎没有影响。

更令人惊喜的是,这种方法不仅使模型在数学问题上表现得更加谨慎,而且这种能力还能泛化到其他领域。模型学会了在推理过程中评估自己的不确定性和知识边界,不仅在数学问题上,甚至在事实性问答任务中也能更好地判断何时应该拒绝回答。

接下来,让我们深入了解这项研究的具体细节,看看研究团队是如何揭示并解决这一问题的。

一、研究背景:强化微调的兴起与隐患

想象你有一个聪明的助手,他通过阅读大量书籍学到了很多知识,但有时候他的回答并不完全符合你的期望。强化微调就像是一个训练过程,通过不断告诉助手哪些回答是好的(给予奖励),哪些是不好的(不给奖励),逐渐引导他提供更符合要求的回答。近年来,这种方法已成为提升大语言模型(如GPT系列、Claude等)推理能力的标准后训练策略。

研究人员们一直在努力让这种训练更高效,比如通过更少的计算资源获得更好的效果,或者在特定任务如数学和编程方面提高模型表现。然而,一个重要的问题被忽视了:这种训练对模型的可信度有何影响?

想象一下,如果你过度鼓励一个人回答问题,他可能会开始对任何问题都自信满满地给出答案,即使是他完全不了解的领域。同样,大语言模型在强化微调后也会变得过度自信,开始为模糊的、信息不足的、甚至根本无法回答的问题提供看似合理但实际上是编造的答案。

研究者将这种现象称为"幻觉税"——模型因强化微调而付出的代价,表现为拒绝回答能力的下降,导致对无法回答的问题也自信满满地产生幻觉回答。虽然之前有研究零星地观察到这种现象,但系统性的研究一直缺乏,直到这项工作的出现。

二、合成不可回答数学(SUM)数据集:教会模型何时该说"我不知道"

为了系统研究这个问题,研究团队需要一个特殊的数据集,包含那些看似普通但实际上无法回答的问题。这就像是给学生出一道看似标准但实际上缺少关键条件的数学题,正确的做法不是强行计算出一个答案,而是指出问题无法解决。

于是,研究团队创建了"合成不可回答数学"(SUM)数据集。这个数据集的特别之处在于,它包含的问题不是简单地无法回答(比如"宇宙的终极答案是什么?"),而是需要模型通过推理过程发现问题中缺少关键信息或存在矛盾,从而认识到无法给出确定答案。

他们定义了五种使问题无法回答的情况:

首先是关键信息删除,就像一道几何题告诉你要计算三角形的面积,但没有提供任何边长或角度。例如,原题是"Julie正在准备一个演讲,演讲必须持续半小时到四分之三小时之间。理想的演讲速度是每分钟150个单词。如果Julie以理想速度演讲,她的演讲应该包含多少个单词才合适?"而修改后的不可回答版本删除了时间范围这一关键信息。

第二是关键信息模糊,比如一道题目中使用了"一些正整数"而不是明确指定哪些整数。例如原题中明确说"考虑集合{1, 2, 3, ..., 2015}的所有1000元素子集",而修改后变成了"考虑某些正整数集合的所有1000元素子集",使问题变得模糊不清。

第三是不实际的条件,比如在多项式问题中设置自相矛盾的条件。第四是不相关对象,如时钟问题中询问与题目无关的角度。第五是问题删除,即完全删除问题的问句部分。

通过使用o3-mini模型根据这些标准修改已有的可回答数学问题,研究团队创建了高质量的不可回答问题集。这些问题看起来像正常的数学题,但仔细分析会发现它们缺少关键信息或存在矛盾。为了确保质量,研究人员进行了人工验证,最终确认o3-mini模型生成的不可回答问题质量高达86.93%。

三、实验设计:揭示幻觉税并寻找解决方案

为了全面研究强化微调的幻觉税问题,研究团队使用了多个不同规模和类型的语言模型,包括Qwen2.5-Math-1.5B、Qwen2.5-7B、Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct。这就像找来不同背景和能力的学生,测试同一种教学方法对他们的影响。

研究采用了DeepScaleR数据集进行强化微调训练,该数据集包含40,307个数学问答数据点,来自各种数学竞赛。研究人员随机选择了300个例子用于评估,剩余的40,007个用于训练。关键的实验设计是,他们将不同比例(0%、1%、10%、30%和50%)的训练数据替换为不可回答的变体,以测试这种混合训练对减轻幻觉的效果。

在训练过程中,研究团队使用了近端策略优化(PPO)算法进行强化微调,这就像是一种特殊的教学方法,可以更有效地引导模型学习。训练在配备8个A100 GPU的服务器上进行,对于1.5B参数的模型,训练200步大约需要70小时的GPU时间,而对于7B/8B模型则需要约150小时。

研究设计了一个巧妙的奖励函数,同时鼓励两种行为:对于可回答的问题,正确回答会得到奖励;对于不可回答的问题,拒绝回答(说"我不知道")才会得到奖励。这就像教导学生:知道就说,不知道就诚实承认,而不是胡乱猜测。

评估方面,研究团队使用了八个基准数据集:三个不可回答数据集(UWMP、SelfAware、SUM测试集)和五个可回答的数学问答数据集(GSM8K、MATH-500、OlympiadMath、Minerva、AMC23)。这样全面的评估确保了研究结果的可靠性和普适性。

四、实验结果:幻觉税的确认与缓解

实验结果清晰地揭示了强化微调的幻觉税现象。如图2所示,标准强化微调后,所有模型在面对不可回答问题时的拒绝率都显著下降。例如,Qwen2.5-7B-Instruct模型在UWMP数据集上的拒绝率从强化微调前的0.30降至微调后的0.08,其他模型也表现出类似的趋势。这证实了研究者的担忧:强化微调确实会无意中降低模型识别和适当拒绝回答不可回答问题的能力。

更令人振奋的是,研究发现将SUM数据集融入训练过程能够有效缓解这一问题。如表2所示,使用10%的SUM数据进行强化微调可以显著提高模型的拒绝率。例如,在SUM测试集上,Qwen2.5-7B的拒绝率从0.01提高到0.73(增加了0.72),Llama-3.1-8B-Instruct从0.00提高到0.75(增加了0.75)。这种提升不仅限于数学领域,在事实性问答数据集SelfAware上,模型也表现出类似的改进。

值得注意的是,这种改进几乎没有牺牲模型在可回答任务上的性能。大多数模型在可回答基准测试上的准确率变化幅度很小,通常在0.01-0.05之间。例如,Qwen2.5-7B-Instruct在GSM8K上的准确率从0.90略微下降到0.85。有些模型-数据集组合(如AMC23)的下降幅度稍大(最多-0.10),而其他一些组合则保持不变或甚至略有提高。

这一发现令人欣喜,因为它表明可以在不显著降低模型解题能力的情况下,教会模型更负责任地处理不确定性。就像教会学生在不确定的情况下诚实地说"我不知道",而不是为了展示知识而胡乱猜测。

研究团队还探索了不同SUM混合比例对性能的影响。如图3所示,更高的SUM比例通常会提高模型在不可回答任务上的表现,但可能会降低可回答任务的准确率。这表明存在一个权衡,需要根据具体应用场景选择适当的混合比例。对于大多数模型,10%的混合比例似乎提供了一个良好的平衡点。

五、学习动态分析:不同模型的学习曲线

研究团队进一步分析了模型在训练过程中的学习动态。有趣的是,他们发现已经经过指令微调的模型(如Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct)在学习拒绝不可回答问题方面比基础模型学习得更快。这些模型通常在前50步训练中就能达到高性能平台,而非指令微调的Qwen2.5-7B则学习得更为渐进,通常需要100-150步才能达到平台期。Qwen2.5-Math-1.5B只有在使用高比例(30%或50%)的不可回答数据时才显示出明显的学习效果。

关于可回答任务的表现,指令微调模型在初始快速学习阶段后,性能曲线波动更为明显,而非指令微调模型的学习曲线相对更平滑稳定。在面对不可回答数据混合导致的准确率下降方面,Qwen2.5-Math-1.5B表现最为稳健,即使在10%和30%的混合比例下也能很好地保持可回答准确率,只有在50%混合比例时才显示出明显下降。Qwen2.5-7B也展示了良好的弹性,而Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct则随着混合比例增加,可回答准确率下降更为明显。

六、深入讨论:平衡推理能力与可信度

这项研究揭示了强化微调存在一个关键的意外后果:模型在面对不可回答问题时拒绝回答能力的下降——这就是所谓的幻觉税。这一现象源于奖励函数与认知不确定性之间的错位。虽然强化微调提高了模型在推理密集型基准测试上的表现,但它隐含地鼓励模型生成确定性答案,即使在应该保持克制的情况下也是如此。

这种行为可能源于奖励建模或偏好数据的性质,其中拒绝回答可能未被充分表示或积极强化。研究表明,当前的强化微调流程未能充分准备模型应对涉及模糊或不完整信息的失败模式,因此在真实场景中使用时存在风险,尤其是在认知谦逊至关重要的场景。

虽然引入不可回答数据可以提高模型的谨慎性,但它也引入了推理能力和拒绝原则之间的微妙权衡。不可回答数据的高比例(如50%)可能降低可回答基准测试的性能,表明需要仔细校准训练混合。研究结果还提出了关于不同形式的指令微调和先前对齐如何影响模型产生幻觉或拒绝回答的倾向的问题——这是强化微调文献中一个尚未充分探索的领域。

总的来说,这项研究不仅揭示了强化微调的一个重要挑战,还提供了一个简单而有效的解决方案。通过混合少量的合成不可回答数据,可以在保持模型推理能力的同时,显著提高其对自身知识边界的认识,这对构建既智能又值得信赖的AI系统至关重要。

七、研究局限性与未来方向

尽管这项研究取得了令人鼓舞的结果,但研究团队也坦诚地指出了几点局限性。首先,研究主要关注数学推理任务中的不可回答问题和少量事实性问答基准测试。虽然SUM数据集能够泛化到一些领域外任务(如SelfAware),但还需要进一步评估这些泛化益处是否延伸到其他领域,如常识推理、法律问答或临床决策。

其次,尽管引入不可回答数据可以改善拒绝行为,但高比例混合可能会降低可回答任务的准确率。需要谨慎平衡不可回答数据,这可能需要针对特定数据集或模型进行调整。

关于SUM数据集的构建,虽然研究团队使用受控提示并进行了人工验证,但数据质量最终取决于编辑启发式的稳健性和审阅者判断。SUM的未来迭代可能受益于更广泛的审阅者多样性和正式的标注指南。

研究团队还强调,所有用于此研究的数据集都是为研究目的公开发布的。他们的派生数据集SUM是从DeepScaleR数学问题自动生成的,仅用于幻觉检测和拒绝行为研究。由于SUM不包含个人或敏感信息,所有示例都是竞赛问题的合成转换,隐私风险很小。

研究的社会影响方面,教导语言模型识别不确定性并适当拒绝回答可以减少面向公众的系统中过度自信的错误信息。然而,过度拒绝或仅在合成数据上训练的模型可能无意中限制对正确答案的访问或强化现有教育资源差距。为缓解此类风险,研究者强调在实际部署前,SUM应与全面的领域特定评估配对,并发布代码和数据以促进透明审查和负责任的后续工作。

八、结论:迈向更可靠的人工智能

这项研究对深度学习领域具有重要意义,因为它揭示了一个容易被忽视但影响重大的问题:强化微调虽然提高了模型的推理能力,但也增加了它们产生幻觉的倾向。就像我们不希望医生在不确定的情况下给出确定的诊断一样,我们也不希望AI系统在缺乏足够信息的情况下做出武断的判断。

研究团队提出的解决方案既简单又有效:在训练中混入约10%的合成不可回答问题,就能显著改善模型的拒绝行为,同时几乎不影响其解题能力。这类似于教导学生不仅要知道如何解答问题,还要识别什么时候问题本身就无法回答。

更令人惊喜的是,这种能力不仅限于训练数据所在的数学领域,还能泛化到事实性问答等其他任务。这表明模型学到的不仅是表面层面的拒绝模式,而是真正学会了利用推理时间来评估自己的不确定性和知识边界。

这项研究向我们展示,构建既智能又可靠的AI系统需要关注两个方面:一方面是提高模型解决问题的能力,另一方面是培养模型对自身局限性的认识。只有两者兼备,AI系统才能真正值得我们的信任。

对于关注AI发展的读者,这项研究提供了一个重要的启示:大语言模型的进步不应仅仅追求能力的提升,还应关注其可靠性和诚实度。通过适当的训练策略,我们有望构建出既强大又谦逊的AI系统,能够在知道的时候给出答案,在不知道的时候坦诚说"我不知道"。

有兴趣深入了解这项研究的读者可以通过arXiv:2505.13988v1编号访问完整论文。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-