微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 大型语言模型的可信评估新方法:揭秘"捷径神经元"如何影响AI真实能力测评

大型语言模型的可信评估新方法:揭秘"捷径神经元"如何影响AI真实能力测评

2025-06-07 16:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 16:00 科技行者

在人工智能快速发展的今天,如何公平、准确地评估大型语言模型(LLM)的真实能力已成为一个关键问题。2025年6月,来自中国科学院自动化研究所和清华大学的研究团队联合发表了一篇题为《通过捷径神经元分析建立可信的LLM评估》(Establishing Trustworthy LLM Evaluation via Shortcut Neuron Analysis)的研究论文,为解决这一难题提供了全新视角。该论文由朱科健、涂尚清(共同第一作者)、金卓然、侯磊、李娟子(通讯作者)和赵军(通讯作者)共同完成,目前已在arXiv上发布(arXiv:2506.04142v1)。感兴趣的读者可通过项目GitHub页面(https://github.com/GaryStack/Trustworthy-Evaluation)获取相关代码。

想象一下,你正在参加一场考试,发现有些同学之前已经见过试题,甚至记住了答案。这种情况下,考试还能公平地评估大家的真实能力吗?在大型语言模型的世界里,也存在类似的问题。当模型在训练过程中"偶遇"了测试数据,就会产生所谓的"数据污染"(data contamination)问题,导致评估结果不再可信。

研究团队发现,目前对大型语言模型的评估主要存在两大可信度问题:一是模型行为捷径,即模型可能没有进行真正的推理,而是利用训练中记住的捷径直接给出答案;二是输入格式捷径,即模型可能适应了特定测试集的输入格式,而非真正理解问题。这些问题严重影响了评估的公平性和可信度。

以往的研究主要通过构建动态基准测试集来缓解污染问题,但这种方法既耗费资源,又无法从根本上解决问题。而这个研究团队别出心裁,他们没有去不断创建新的测试集,而是直接研究模型内部机制,找出那些导致模型"作弊"的"捷径神经元"。

想象一下,如果大脑中某些特定的神经元负责记忆考试答案,而另一些负责真正的思考,那么我们能否通过"暂时关闭"那些纯记忆的神经元,来测试一个人的真实思考能力?这正是研究团队的核心思路。

他们发现,当模型在训练中接触过测试数据时,会形成一批特殊的"捷径神经元",这些神经元使模型能够在不进行真正推理的情况下,直接"记忆"出正确答案。更有趣的是,这些捷径神经元数量相对较少,在整个模型的神经元中仅占约1%左右。

基于这一发现,研究团队提出了一种名为"捷径神经元修补"的评估方法。通过识别并抑制这些捷径神经元的活动,他们成功地恢复了模型的真实能力表现。就像暂时屏蔽了"作弊神经元",让模型必须依靠真正的理解和推理能力来解决问题。

更令人兴奋的是,这种方法与最近发布的可信基准测试(如MixEval)结果高度一致,相关系数超过0.95,证明了该方法的可靠性。同时,研究还证明了该方法在不同基准测试和不同超参数设置下都具有良好的通用性。

接下来,让我们一起深入了解这项创新研究的细节,看看研究团队是如何发现并利用这些"捷径神经元"来构建更可信的评估体系的。

一、研究背景:为什么需要可信的语言模型评估?

在人工智能领域,大型语言模型(如GPT-4、Llama等)的迅猛发展令人目不暇接。这些模型在各种复杂任务上展现出惊人的能力,而开源技术的推广更是催生了众多新模型的涌现。在这样的背景下,如何公平、准确地评估这些模型的能力变得尤为重要,因为评估结果将直接影响未来语言模型的发展方向。

想象一下,如果你要比较两个厨师的烹饪能力,最公平的方式是让他们烹饪相同的菜品,且都是他们之前没有准备过的。但如果其中一位厨师恰好之前练习过这道菜,甚至拿到了详细的食谱,那么比赛结果还具有参考价值吗?这正是目前语言模型评估面临的核心问题。

研究团队指出,当前最迫切需要解决的是评估的可信度问题。由于大型语言模型通常使用海量且不透明的数据进行训练,很难确保这些训练数据中不包含用于评估的基准测试集样本。一旦发生这种"数据污染",模型在测试时可能是在"回忆"而非"思考",这将严重影响评估的公平性。

具体来说,当前的评估存在两个主要的可信度问题:首先是模型行为捷径。端到端的语言模型在解决复杂问题时,中间推理过程往往是不透明的。我们无法确定模型是真的完成了可靠的推理过程,还是走了某种推理捷径。其次是输入格式捷径。目前的基准测试集通常有固定的输入格式,与真实世界的询问方式不同。那些在基准测试集上(甚至是训练集)进行过微调的模型在评估时会占据优势,这也不够公平。

以往的研究主要通过构建动态基准测试集来缓解污染问题,比如使用最新文本创建的基准测试集或动态生成的测试问题。然而,这种策略不仅资源密集,而且由于语言模型不断更新,确保这些基准测试集的时效性仍然是一个重大挑战。更重要的是,这种方法并没有从根本上消除新发布模型受污染的风险。

正是基于对这些问题的深刻理解,研究团队提出了一个全新的视角:不是不断地创建新的测试集,而是直接研究受污染模型的内部机制。他们假设,当模型在训练中接触过基准测试样本时,会在参数中获取捷径解决方案,从而导致模型能力被高估。通过实验,他们发现这些捷径表现为模型中的特定神经元群,也就是所谓的"捷径神经元"。

这种发现开辟了一条全新的研究路径:如果能够识别并抑制这些捷径神经元,或许就能够恢复模型的真实能力表现,从而实现更可信的评估。

二、捷径神经元:模型"过度自信"的秘密武器

在深入理解研究团队的创新方法之前,我们需要先了解一下什么是"捷径神经元"以及它们是如何影响模型评估的。

想象一下,在学校考试中,有些学生可能提前看到了试题,他们不需要理解知识点就能回答正确。而在语言模型的世界里,当模型在训练过程中"偶遇"了测试数据时,也会形成类似的"捷径"——它们不需要真正理解问题或进行复杂推理,就能直接"回忆"出正确答案。

研究团队通过实验发现,这种"作弊"行为在神经网络层面上表现为特定神经元的异常活跃。就像人脑中负责记忆与负责思考的神经元不同,语言模型中也存在一些神经元主要负责"记忆"训练数据,而另一些则负责真正的"推理"能力。

具体来说,在Transformer架构的语言模型中(如LLaMA和Mistral等),每一层都包含多头注意力机制和前馈神经网络。前馈神经网络中的神经元(特别是激活前下投影的神经元)对信息处理至关重要。研究表明,这些神经元往往与模型的特定能力密切相关,比如有的负责存储事实知识,有的则与特定语言技能相关。

研究团队发现,当模型受到污染时,一小部分神经元会表现出特殊的激活模式。这些"捷径神经元"使模型能够绕过正常的推理过程,直接获取答案。更令人惊讶的是,这些捷径神经元相对稀疏,在整个模型的神经元中仅占约1.4%(LLaMA2-7B)到1.1%(Mistral-7B)。

为了验证这一发现,研究团队进行了一系列实验。他们首先微调了一系列受污染和未受污染的模型,然后观察随着修补的神经元数量增加,模型准确率的变化。结果显示,在修补约5,000个神经元后,受污染模型的准确率大致降至与未受污染模型相同的水平,而未受污染模型的准确率几乎没有变化。当修补超过20,000个神经元时,两种模型的准确率都开始下降,这表明前5,000个神经元对缓解模型污染有很好的效果。

这一发现无疑是激动人心的:通过识别并抑制这些捷径神经元,我们或许能够"剥离"模型中的污染效应,还原其真实能力表现。就像在考试中,即使有学生曾经看过试题,我们也能通过特殊的"反作弊"机制,评估他们的真实水平。

三、方法论:如何识别和抑制捷径神经元

研究团队提出了一种创新的方法来识别和抑制捷径神经元,从而实现更可信的评估。这个方法就像一位睿智的考官,能够分辨出学生是真正理解了知识,还是仅仅在背诵标准答案。

首先,研究团队需要识别哪些神经元是捷径神经元。他们基于两个关键指标:比较分析和因果分析。

比较分析就像对比两位学生解题时的思考过程。当一个学生真正理解了问题,而另一个学生只是记住了答案时,他们的思考方式会有明显差异。同样,研究团队通过比较受污染模型和未受污染模型处理相同基准样本时的神经元激活差异,来识别可能与记忆捷径相关的神经元。

具体来说,对于给定的神经元,他们计算受污染模型和未受污染模型在处理同一输入时的激活值差异。差异越大的神经元,越可能与污染相关。这就像找出哪些思考区域在"作弊"学生和"认真学习"学生之间存在最大差异。

因果分析则更像一场"思维实验",检验特定神经元对模型表现的影响。研究团队使用了一种称为"激活修补"的技术,分析每个神经元的因果效应。一个神经元被识别为捷径神经元需要满足两个因果效应:一是修补后能够恢复受污染模型的真实得分,二是不会影响模型的正常能力。

想象一下,如果暂时"关闭"某个神经元后,"作弊"学生的表现突然变差,而"认真学习"学生的表现基本不变,那么这个神经元很可能是专门用于"记忆答案"的。研究团队正是基于这种思路,计算了每个神经元的"因果得分"。

结合比较分析和因果分析的结果,研究团队成功识别出了一组捷径神经元。这些神经元主要负责模型在受污染数据上的过度表现,但对模型的真实能力影响较小。

接下来,研究团队提出了"捷径神经元修补"评估方法。这个方法的核心思想是:使用基础模型(未受污染的原始模型)中相应神经元的激活值,来替换待评估模型中捷径神经元的激活值,从而抑制捷径神经元的影响。

这就像在考试中,我们让学生使用标准的思考过程,而不是依赖记忆的捷径。通过这种方式,受污染模型被迫依靠真正的理解和推理能力来解决问题,而非简单地"回忆"训练中见过的答案。

具体实现上,研究团队采用了动态修补方法。在生成过程中,他们使用基础模型的神经元激活值来替换待评估模型中捷径神经元的激活值,而其他神经元保持不变。这种方法能够有效抑制模型利用捷径产生答案,从而更准确地反映模型的真实能力。

四、实验结果:捷径神经元修补的惊人效果

为了验证他们的方法是否有效,研究团队在LLaMA和Mistral两种流行的语言模型架构上进行了广泛的实验。他们微调了一系列受污染和未受污染的模型,然后应用捷径神经元修补方法进行评估。

首先,他们测试了这种方法在处理模型行为捷径方面的效果。实验结果令人印象深刻:受污染模型在修补后的表现显著下降,平均下降幅度达到37%。这表明该方法能够有效缓解污染影响,提高模型行为的可信度。同时,未受污染模型的准确率仅变化约3%,证明该方法对模型的正常推理能力影响很小。

想象一下,这就像一场特殊的考试,能够准确区分哪些学生是真正掌握了知识,哪些学生只是记住了答案。那些"作弊"的学生成绩会大幅下降,而真正有实力的学生则基本不受影响。

研究团队还选择了最近发布的OpenMathInstruct-2数学问题数据集作为未受污染的参考基准。结果显示,通过捷径神经元修补获得的分数与参考分数之间存在强烈的正相关,斯皮尔曼相关系数高达0.970。这证明了该方法能够通过避免污染带来的捷径,实现更可信的评估。

其次,研究团队测试了该方法在处理输入格式捷径方面的效果。实验结果表明,那些在基准测试集输入格式上进行过微调的模型(例如在GSM8K训练集上微调的模型)在修补后准确率也有所下降。这表明该方法能够缓解输入捷径,控制由于输入格式而非模型能力带来的增益。

为了验证该方法是否会影响模型的正常能力,研究团队还在数学基准测试MAWPS和综合基准测试MMLU上评估了修补后的模型。结果显示,模型的准确率没有显著变化,这表明该方法不会对语言模型的真实表现产生负面影响。

此外,研究团队还在真实世界的应用中测试了他们的方法。他们从Hugging Face上下载了一系列真实世界的模型进行评估,并选择了最近发布的可信基准测试MixEval(一个与真实用户查询相符的动态基准)作为参考。结果再次验证了他们方法的有效性:评估结果与MixEval分数之间存在强烈的线性相关,斯皮尔曼相关系数超过0.95。这意味着,通过捷径神经元修补获得的评估结果能够可靠地反映模型在真实世界中的表现。

最后,研究团队还进行了一系列实验,证明了他们的评估方法在不同基准测试和不同超参数设置下都具有良好的通用性。即使改变污染样本的出现频率和微调学习率等因素,该方法仍能与MixEval结果保持强相关,展示了其鲁棒性。

五、方法的通用性与适用性

任何一种评估方法的价值,都在于它能否广泛应用于不同的场景和模型。研究团队通过一系列实验,证明了他们的捷径神经元修补方法具有出色的通用性。

首先,在不同数据集上的通用性。研究团队希望在一个数据集(如GSM8K)上识别的捷径神经元,能够有效应用于其他受污染的数据集。为了验证这一点,他们将污染数据集更换为MAWPS和MATH,观察之前为GSM8K识别的捷径神经元是否仍然有效。

结果令人鼓舞:即使在MAWPS和MATH这样的不同数据集上,之前识别的捷径神经元仍然能够帮助实现可信评估。这就像一种通用的"反作弊"机制,不仅能识别数学考试中的作弊行为,还能应用于物理、化学等不同科目的考试。

其次,在不同超参数设置下的通用性。研究团队改变了多种训练策略(如学习率)和污染样本的出现频率,测试了他们的方法在不同设置下的表现。即使在这些变化下,他们的方法仍然能够给出与模型真实能力高度相关的评估结果,与MixEval分数保持强相关。

此外,研究团队还评估了该方法应用于不同架构的有效性。他们将方法扩展到LLaMA3-8B架构上,成功识别出了这一架构中的捷径神经元,并通过实验证明了方法的有效性。结果表明,该方法在LLaMA3-8B上也表现良好,能够有效降低受污染模型的表现到正常水平,同时保持未受污染模型的原始表现。

最后,研究团队还测试了训练数据顺序对方法效果的影响。他们在SFT阶段随机打乱了污染样本的顺序,构建了新的受污染模型,然后使用之前识别的捷径神经元进行修补。结果显示,即使改变了训练数据的顺序,该方法仍然能够实现可靠的评估。

这些实验结果充分证明了捷径神经元修补方法的强大通用性和适应性。无论是不同的数据集、不同的超参数设置、不同的模型架构,还是不同的训练数据顺序,该方法都能够有效识别和抑制捷径神经元,实现更可信的评估。

六、研究意义与未来展望

这项研究的意义远超出学术范畴,它为大型语言模型的评估提供了一个全新的视角和方法。

首先,这是首次从神经元层面分析模型在受污染后分数超过其真实能力的机制。研究团队提出了捷径假设,并通过实验证明了这一假设的合理性。这不仅加深了我们对语言模型内部工作机制的理解,也为解决评估可信度问题提供了理论基础。

其次,研究团队提出了一种通过比较和因果分析识别神经元的新方法,成功分离出与捷径推理密切相关的稀疏神经元集合。这种方法不仅适用于评估场景,也可能在模型解释性研究中发挥重要作用。

最重要的是,研究团队引入了捷径神经元修补方法,通过抑制捷径神经元来实现更可信的评估。这种方法不需要不断创建新的测试集,也不需要获取模型的训练数据,只需要分析模型本身,就能有效缓解污染问题。这大大降低了可信评估的成本和难度。

尽管这项研究取得了显著成果,但研究团队也坦诚地指出了一些局限性。由于计算资源的限制,他们只讨论了两种架构(LLaMA2-7B和Mistral-7B-v0.2)。未来,他们计划将研究扩展到更多架构。此外,在模拟实验中,他们使用了全参数微调来获取模型,而非预训练,这也是一个需要在未来工作中改进的方面。

研究团队的实验主要在数学推理基准测试上进行,他们认为这些是数据污染最具代表性的场景。未来,他们计划将捷径神经元修补方法应用于更广泛的基准测试,为语言模型评估做出更大贡献。

最后,研究团队发现不同架构下的捷径神经元存在较大差异,这可能会影响方法的泛化能力。这一问题将在未来的研究中进一步探讨。

总的来说,这项研究不仅提供了一种新的评估方法,也开启了语言模型内部机制研究的新方向。随着大型语言模型在各行各业的广泛应用,确保评估的可信度变得越来越重要。捷径神经元修补方法为我们提供了一种相对简单且有效的解决方案,有望在未来的模型开发和评估中发挥重要作用。

在人工智能快速发展的今天,我们需要更多这样的创新研究,不仅推动技术进步,也确保技术的可靠性和公平性。正如研究团队所展示的,有时候解决复杂问题的答案,就藏在问题本身之中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-