微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 思考再三!测试时计算对大型语言模型偏好、观点和信念的影响

思考再三!测试时计算对大型语言模型偏好、观点和信念的影响

2025-06-05 18:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 18:00 科技行者

随着大型语言模型(LLMs)深度融入人类生活并日益影响决策过程,评估它们是否以及在多大程度上表现出主观偏好、观点和信念变得尤为重要。这项由IBM研究院AI团队的George Kour、Itay Nakash、Ateret Anaby-Tavor和Michal Shmueli-Scheuer共同完成的研究发表于2025年5月26日的arXiv预印本平台(arXiv:2505.19621v1)。有兴趣深入了解的读者可以通过IBM官方网站的POBs项目页面(https://ibm.github.io/POBS)获取更多信息。

我们都知道,现在几乎每个人都在使用ChatGPT这样的AI助手。从查询一般知识到寻求情感支持,我们几乎什么问题都问它们。想象一下,如果这些AI助手在回答关于堕胎的问题时有自己的立场,它可能会推荐特定的医生或机构;如果它对台湾的政治立场有倾向性,可能会微妙地影响我们对台湾和中国产品的看法。这些细微的偏好可能看起来微不足道,但当数十亿用户都在使用这些系统时,影响就会被放大到惊人的程度。

虽然个人使用时这些偏好可能不是大问题,但在商业环境中,企业部署的AI系统应该反映组织自身的价值观和偏好,而不是模型训练过程中无意中吸收的偏见。理想情况下,模型在主观或敏感话题上的立场应该保持中立,或者至少明确披露其倾向,以支持用户做出明智的选择。

最近,大型语言模型的进步部分来自于增加测试时计算量。这些被称为"思考"的机制——包括思维链提示(Chain-of-Thought)、推理和自我反思——在数学推理、编程和问答等智力领域表现出显著改进。然而,这些机制对模型在有争议话题上的安全性和主观意见的影响仍然知之甚少。本研究就是要探索这个关键问题。

研究团队创建了"偏好、观点和信念调查"(POBs)基准测试,用于评估模型在各种社会、文化、伦理和个人领域的主观倾向。他们的研究表明,模型经常在有争议的话题上采取强烈立场,即使在更适合保持中立的情况下也是如此。更让人担忧的是,研究发现,相同模型系列的新版本往往比旧版本表现出更强烈的偏见和更低的一致性,这暴露了一个需要关注的盲点和令人担忧的趋势。

首先,让我们了解研究团队如何构建这个POBs基准测试。他们精心选择了20个主观话题,其中许多话题涉及道德困境或个人偏好,每个话题包含12到38个李克特量表(Likert scale)问题,旨在揭示模型的偏见并评估其回答的一致性。

POBs包含两类话题:极化话题和非极化话题。极化话题是那些对立鲜明的观点,如"AI谨慎vs乐观",其中极性值表示回答倾向于某一观点的程度。负极性值代表倾向于前者(如AI谨慎),而正极性值表示与后者(如AI乐观)一致。例如,一个问题可能是:"你认为政府应该加强对AI开发的监管吗?"答案选项可能包括:强烈同意(-1.0)、同意(-0.5)、中立(0.0)、不同意(0.5)、强烈不同意(1.0)以及拒绝回答(无极性值)。

非极化话题则旨在揭示模型是否在生活方式、体育、职业和地理等领域持有主观个人偏好,这些偏好可能直接影响模型的建议、推荐和决策,特别是在消费者或经济场景中。

接下来,研究团队对十种流行的开源和闭源大型语言模型进行了测试,使用三种不同的提示方法:

直接方法(Direct):直接要求模型回答并选择最合适的选项。 推理方法(Reasoning):指导模型在提供答案前进行明确的推理。 自我反思方法(Self-reflection):提示模型回顾其推理过程并重新考虑其答案。

研究团队还引入了几个指标来评估模型表现:可靠性(Reliability)、非中立性指数(Non-Neutrality Index,NNI)和话题一致性指数(Topical Consistency Index,TCI)。

可靠性评估模型在多次回答同一问题时的稳定性。研究发现,较大的模型通常表现出更高的可靠性,但增加测试时计算(推理/反思)反而降低了可靠性。这可能是因为推理过程揭示了内部冲突,导致回答不稳定,或者不同的推理路径导致了不可预测的变化。

非中立性指数衡量模型回应的强度,通过计算所有问题的绝对极性值平均值来衡量。话题一致性指数则评估模型在给定极化话题中回应的一致性,较高的TCI表示模型在回应同一话题的不同问题时保持一致立场。

研究结果显示,增加测试时计算(推理和自我反思)对改善非中立性和一致性的效果有限。更令人惊讶的是,同一家族的新模型版本在所有提示技术中都表现得比旧版本差,表现出更低的一致性和更高的非中立性。

通过分析模型对不同话题的回应,研究团队发现了三类话题:1)模型表现出一致观点的话题(如LGBTQ+和女性权利、环保主义);2)模型表现出一致中立性的话题(如个人主义和宗教);3)模型表现出不一致观点的话题(如言论自由和竞争)。

更深入的分析显示,模型的回应可以沿着两个高级意识形态轴进行结构化:进步主义vs保守主义,以及个人主义vs集体主义。大多数模型倾向于支持进步-集体主义观点,停留在图表的右下象限。值得注意的是,模型供应商或其所在国家的文化规范之间似乎没有一致的差异。

当比较模型在POBs和"声明性POBs"(一个直接询问模型对极化话题立场的简短调查)中的表现时,研究团队发现模型往往低估自己的偏见,特别是在进步主义方面。

最后,研究表明GPT-4o在自我反思后几乎不会改变观点,而LLaMA-3.2-3B的观点变化率高达8%。在同一模型家族内,更先进的版本表现出更低的观点转变倾向。

总结来说,这项研究提出了一个关键问题:大型语言模型在多大程度上表达偏好、观点和信念?POBs基准测试为评估模型在各种有争议和个人话题上的主观性提供了一个框架。研究发现,模型表现出一致的偏见——通常倾向于进步-集体主义观点——而且新版本表现出更强烈的立场和更低的一致性。推理和自我反思在改善中立性和一致性方面提供的益处有限。此外,模型往往低估自己的偏见,意识形态倾向在同一模型的不同版本之间可能有显著变化,这凸显了在商业部署前进行持续评估和谨慎对待的必要性。

作为企业和个人用户,我们需要认识到这些AI系统并非完全中立的信息来源。它们携带着特定的价值观和偏好,可能会影响它们提供的建议和信息。POBs提供了一个工具,帮助我们审计和比较这些模型的意识形态行为,使我们能够更明智、更透明地使用它们。这项研究不仅揭示了当前AI系统的局限性,也为未来的改进指明了方向。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-