微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 别被表面现象迷惑:如何真正衡量大语言模型的自我偏好

别被表面现象迷惑:如何真正衡量大语言模型的自我偏好

2025-06-07 17:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:01 科技行者

在机器学习和人工智能领域的学术研究中,一项来自中国人民大学高瓴人工智能学院的重要研究最近引起了广泛关注。这项由陈智远、王浩、张馨予、胡恩睿和林颜凯共同完成的研究题为《超越表面:衡量大语言模型判断中的自我偏好》,于2025年6月3日发表在arXiv预印本平台(arXiv:2506.02592v1)。研究团队的代码和数据已在GitHub上公开,感兴趣的读者可以通过https://github.com/zhiyuanc2001/self-preference进行访问。

**为什么大语言模型会偏爱自己的回答?**

想象一下,你正在举办一场烹饪比赛,而其中一位参赛者同时也是评委。这位特殊的评委会不会对自己做的菜肴给予更高的评分呢?在人类社会中,我们通常会尽量避免这种明显的利益冲突。然而,在人工智能领域,尤其是大语言模型(LLMs)的评估中,这种"自我偏好"现象却十分普遍。

近年来,随着任务变得越来越多样化和复杂,传统的规则型评估方法(如BLEU得分)和人工评估方法都面临着明显的局限性。规则型方法缺乏灵活性,而人工评估则成本高昂且耗时。为了解决这一问题,研究人员开始使用大语言模型自身作为评判者。由于这些模型拥有丰富的世界知识和推理能力,它们在评判质量上往往与人类判断高度一致,并且提供了一种便捷、低成本的替代方案。

然而,实证研究表明,当大语言模型充当评判者时,它们容易表现出"自我偏好偏差"——也就是说,它们倾向于给自己生成的回答比给其他模型生成的回答更高的分数。这种偏见导致LLMs产生不准确的判断结果,降低了它们作为评判者的可靠性。

**传统测量方法的缺陷**

传统上,研究人员通常通过计算评判模型给自己的回答和给其他模型回答的分数差异来衡量自我偏好偏差(如图1上半部分所示)。然而,这种方法存在一个根本性问题:它混淆了回答质量与自我偏好偏差。具体来说,如果评判模型本身产生了高质量的回答,那么它给自己回答的高分可能是由于这些回答的实际质量高,而非自我偏好偏差。

想象一下,如果烹饪比赛中那位身兼评委的厨师确实做出了最美味的菜肴,他给自己的高分可能反映的是菜肴的真实品质,而非个人偏好。在这种情况下,仅仅基于分数差异来判断是否存在偏见是不准确的。

**一种更准确的测量方法:DBG分数**

为了解决这个问题,陈智远团队提出了一种新的衡量方法:DBG分数(图1下半部分)。这种方法引入了"黄金判断"作为回答实际质量的代理指标。DBG分数被定义为评判模型给自己回答的分数与相应黄金判断的差异。

回到烹饪比赛的例子,这就像是找来一组中立的专业评委(黄金判断)为所有菜肴打分,然后比较那位身兼评委的厨师给自己菜肴的分数与专业评委给的分数之间的差异。如果差异显著为正,那么可以认为这位厨师-评委确实存在自我偏好;如果差异接近零,则表明他的评判相对客观。

由于黄金判断反映了回答的真实质量,DBG分数能够有效减轻回答质量对偏差测量的混淆影响。为了获得可靠的黄金判断,研究团队聚合了多个强大LLM的评估结果,通过这些模型之间的共识,提供了对真实回答分数的可靠估计。

**实验设计:全面评估不同模型的自我偏好**

基于DBG分数,研究团队进行了全面的实验,评估了不同版本、不同规模和不同推理能力的LLM的自我偏好偏差。对于模型版本,他们考虑了预训练和后训练(指令微调)变体的LLM。对于模型规模,他们检查了从0.5B到72B参数的模型。对于推理能力,他们研究了大型推理模型(LRMs)。

实验采用了多种数据集,包括AlpacaEval(用于评估有用性)、WMT19(德-英翻译)和TruthfulQA(用于评估真实性)。为确保评估可靠,研究团队从每个数据集中随机抽取了500个样本。他们选择了GPT-4o-mini、Gemini-1.5-Flash和DeepSeek-V3作为黄金评判模型,并使用了一系列开源模型作为测试对象,包括Llama-3.1系列、Qwen2.5系列和Gemma-2系列。

实验采用配对比较的方法,即每次比较两个不同模型对同一指令的回答,由评判模型决定哪个回答更好。为了减轻位置偏差的影响,研究团队交换了回答的顺序,并计算了每个回答在两个位置上的平均概率。

**主要发现:自我偏好无处不在但有规律可循**

研究发现,无论是预训练还是后训练的模型,都在一定程度上表现出自我偏好偏差。例如,当Llama-3.1-8B与Qwen2.5-7B和gemma-2-9B配对时,它给自己的回答的胜率分数高于黄金判断给出的分数,表明Llama-3.1-8B作为评判者时倾向于偏爱自己的回答。

有趣的是,虽然后训练模型是在预训练模型基础上进行了额外的训练,但它们并不一定表现出更严重的自我偏好偏差。事实上,Llama-3.1-8B-Instruct的DBG分数低于Llama-3.1-8B(0.2%对比25.6%)。

研究还发现,更大规模的模型比小规模模型表现出更少的自我偏好偏差。例如,Llama-3.1-70B的DBG分数为0.4%,而Llama-3.1-8B的分数为21.6%,明显高于前者。研究团队推测,这可能是因为更大模型增强了指令跟随和判断能力,能够更公平、更准确地评估回答质量。

为了进一步研究自我偏好偏差如何随模型规模变化,研究团队使用了不同规模的Qwen2.5-Instruct模型,从0.5B到72B不等。结果表明,大于7B的模型比7B或更小的模型表现出显著更少的自我偏好偏差。例如,Qwen2.5-0.5B-Instruct的DBG分数为41.7%,而Qwen2.5-14B-Instruct的DBG分数仅为2.1%。这表明,LLM评判任务应该使用更大的模型以获得更准确、更无偏见的判断结果。

**黄金判断的可靠性**

为了验证黄金判断的可靠性,研究团队将其与人类评注进行了比较。他们从AlpacaEval中随机抽取了100个指令,并获取了来自Llama-3.1-70B-Instruct和Llama-3.1-8B-Instruct的相应回答。他们指导人类评注者比较这两个模型生成的回答,并确定哪个回答更有帮助。

实验结果显示,黄金判断与人类评注之间存在高度一致性。在100个样本中,人类评注给Llama-3.1-70B-Instruct的胜率为63%,而黄金判断给出的胜率为66%。更具体地说,人类评注和黄金判断结果在74%的样本上达成一致。这些实验结果验证了使用黄金判断的可靠性和有效性。

**推理模型也不例外**

研究团队还探究了推理能力对模型自我偏好偏差的影响。他们测试了DeepSeek-R1-Distill-Qwen-32B和QwQ-32B的自我偏好偏差,并将结果与Qwen2.5-32B-Instruct进行了比较。对于推理模型,研究团队移除了模型生成的推理内容,仅保留最终答案进行判断。

结果表明,即使是推理模型也表现出自我偏好偏差现象,它们给自己的回答的胜率分数高于黄金判断。值得注意的是,推理模型中的自我偏好偏差不一定比语言模型中的偏差小。例如,DeepSeek-R1-Distill-Qwen-32B的DBG分数为4.8%,而Qwen2.5-72B-Instruct的DBG分数仅为2.6%。这凸显了在后续研究中解决评判偏差的重要性,即使是使用推理模型作为评判者时。

**减轻自我偏好的因素**

为了探究影响和可能减轻自我偏好偏差的因素,研究团队研究了两个关键方面:回答文本风格和后训练数据。

对于回答风格,研究团队让DeepSeek-V3统一地将两个模型的回答重写为吸引人和幽默的风格。实验表明,修改模型回答的风格有助于减轻模型作为评判者时表现出的自我偏好偏差。例如,在风格修改前,预训练模型Llama-3.1-70B和Llama-3.1-8B的DBG分数分别为3.3%和18.7%。将它们的回答重写为吸引人的风格后,分数分别下降到1.4%和7.2%。

对于后训练数据,研究团队调查了在相同数据上微调两个不同预训练模型是否有助于减轻自我偏好偏差。他们在UltraChat-200k上微调了Llama-3.1-8B和Qwen2.5-7B,得到了Llama-3.1-8B-UltraChat和Qwen2.5-7B-UltraChat。结果表明,在相同数据上微调不同模型有助于减少它们的自我偏好偏差。具体来说,Llama-3.1-8B-Instruct和Qwen2.5-7B-Instruct的DBG分数分别为10.5%和2.1%。经过UltraChat-200k微调后,分数分别降至2.1%和1.1%。

**注意力分析揭示自我偏好的机制**

为了从注意力的角度分析自我偏好偏差,研究团队比较了不同评判模型如何为各种回答分配注意力分数。具体来说,他们使用Llama-3.1-8B和Llama-3.1-8B-Instruct作为评判者,计算了模型生成回答中所有标记的平均注意力分数。

分析表明,每个模型自然地倾向于对自己的回答分配比对另一个模型生成的回答更高的注意力。例如,Llama-3.1-8B对自己回答的注意力比Llama-3.1-8B-Instruct对Llama-3.1-8B回答的注意力更高,反之亦然。这表明模型自然地对自己的回答分配更多注意力,这可能部分解释了自我偏好现象的出现。

**研究的局限性和未来方向**

研究团队承认,他们的工作存在一些局限性。首先,他们使用了GPT-4o-mini、Gemini-1.5-Flash和DeepSeek-V3作为黄金评判者,而没有使用更强大的模型如GPT-4o或Gemini-1.5-Pro,这是由于成本限制。使用这些更强大的模型可能会提供更可靠的黄金标准判断,从而产生更准确的自我偏好偏差测量。

其次,虽然他们通过响应位置交换和长度限制等方法减轻了位置偏差和长度偏差的影响,但其他偏差,如权威偏差和情感偏差,可能仍然影响结果。此外,本研究仅限于指令跟随和翻译任务,未来的研究需要探索LLM在其他任务(如智能体任务和对话任务)中的自我偏好偏差。

**结论与启示**

总的来说,这项研究提出了DBG分数,一种更准确、更可靠地衡量LLM自我偏好偏差的方法。通过使用这一指标,研究团队进行了全面的实验,评估了不同版本、不同规模和不同推理能力的LLM的自我偏好偏差。

研究结果表明,无论是预训练还是后训练的模型,都在一定程度上表现出自我偏好偏差,但大规模模型比小规模模型表现出更少的偏差。此外,回答文本风格和后训练数据是影响和可能减轻自我偏好偏差的两个关键因素。

这项研究的重要启示是,在使用LLM作为评判者时,应该意识到并解决自我偏好偏差问题。使用更大的模型、对齐不同模型的回答风格、以及在相同数据上训练不同类型的模型可能有助于减轻这种偏差。此外,从注意力分布的角度了解自我偏好偏差的潜在机制,为未来研究提供了有价值的见解。

这项研究不仅深入探讨了LLM自我偏好偏差的问题,还提供了一种更准确的测量方法和潜在的缓解策略。随着LLM在评判任务中的应用越来越广泛,理解和解决自我偏好偏差变得越来越重要。通过这项研究,研究团队为这一领域做出了重要贡献,为未来的研究提供了有价值的指导。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-