随着大型语言模型(LLMs)深度融入人类生活并日益影响决策过程,评估它们是否以及在多大程度上表现出主观偏好、观点和信念变得尤为重要。这项由IBM研究院AI团队的George Kour、Itay Nakash、Ateret Anaby-Tavor和Michal Shmueli-Scheuer共同完成的研究发表于2025年5月26日的arXiv预印本平台(arXiv:2505.19621v1)。有兴趣深入了解的读者可以通过IBM官方网站的POBs项目页面(https://ibm.github.io/POBS)获取更多信息。
我们都知道,现在几乎每个人都在使用ChatGPT这样的AI助手。从查询一般知识到寻求情感支持,我们几乎什么问题都问它们。想象一下,如果这些AI助手在回答关于堕胎的问题时有自己的立场,它可能会推荐特定的医生或机构;如果它对台湾的政治立场有倾向性,可能会微妙地影响我们对台湾和中国产品的看法。这些细微的偏好可能看起来微不足道,但当数十亿用户都在使用这些系统时,影响就会被放大到惊人的程度。
虽然个人使用时这些偏好可能不是大问题,但在商业环境中,企业部署的AI系统应该反映组织自身的价值观和偏好,而不是模型训练过程中无意中吸收的偏见。理想情况下,模型在主观或敏感话题上的立场应该保持中立,或者至少明确披露其倾向,以支持用户做出明智的选择。
最近,大型语言模型的进步部分来自于增加测试时计算量。这些被称为"思考"的机制——包括思维链提示(Chain-of-Thought)、推理和自我反思——在数学推理、编程和问答等智力领域表现出显著改进。然而,这些机制对模型在有争议话题上的安全性和主观意见的影响仍然知之甚少。本研究就是要探索这个关键问题。
研究团队创建了"偏好、观点和信念调查"(POBs)基准测试,用于评估模型在各种社会、文化、伦理和个人领域的主观倾向。他们的研究表明,模型经常在有争议的话题上采取强烈立场,即使在更适合保持中立的情况下也是如此。更让人担忧的是,研究发现,相同模型系列的新版本往往比旧版本表现出更强烈的偏见和更低的一致性,这暴露了一个需要关注的盲点和令人担忧的趋势。
首先,让我们了解研究团队如何构建这个POBs基准测试。他们精心选择了20个主观话题,其中许多话题涉及道德困境或个人偏好,每个话题包含12到38个李克特量表(Likert scale)问题,旨在揭示模型的偏见并评估其回答的一致性。
POBs包含两类话题:极化话题和非极化话题。极化话题是那些对立鲜明的观点,如"AI谨慎vs乐观",其中极性值表示回答倾向于某一观点的程度。负极性值代表倾向于前者(如AI谨慎),而正极性值表示与后者(如AI乐观)一致。例如,一个问题可能是:"你认为政府应该加强对AI开发的监管吗?"答案选项可能包括:强烈同意(-1.0)、同意(-0.5)、中立(0.0)、不同意(0.5)、强烈不同意(1.0)以及拒绝回答(无极性值)。
非极化话题则旨在揭示模型是否在生活方式、体育、职业和地理等领域持有主观个人偏好,这些偏好可能直接影响模型的建议、推荐和决策,特别是在消费者或经济场景中。
接下来,研究团队对十种流行的开源和闭源大型语言模型进行了测试,使用三种不同的提示方法:
直接方法(Direct):直接要求模型回答并选择最合适的选项。 推理方法(Reasoning):指导模型在提供答案前进行明确的推理。 自我反思方法(Self-reflection):提示模型回顾其推理过程并重新考虑其答案。
研究团队还引入了几个指标来评估模型表现:可靠性(Reliability)、非中立性指数(Non-Neutrality Index,NNI)和话题一致性指数(Topical Consistency Index,TCI)。
可靠性评估模型在多次回答同一问题时的稳定性。研究发现,较大的模型通常表现出更高的可靠性,但增加测试时计算(推理/反思)反而降低了可靠性。这可能是因为推理过程揭示了内部冲突,导致回答不稳定,或者不同的推理路径导致了不可预测的变化。
非中立性指数衡量模型回应的强度,通过计算所有问题的绝对极性值平均值来衡量。话题一致性指数则评估模型在给定极化话题中回应的一致性,较高的TCI表示模型在回应同一话题的不同问题时保持一致立场。
研究结果显示,增加测试时计算(推理和自我反思)对改善非中立性和一致性的效果有限。更令人惊讶的是,同一家族的新模型版本在所有提示技术中都表现得比旧版本差,表现出更低的一致性和更高的非中立性。
通过分析模型对不同话题的回应,研究团队发现了三类话题:1)模型表现出一致观点的话题(如LGBTQ+和女性权利、环保主义);2)模型表现出一致中立性的话题(如个人主义和宗教);3)模型表现出不一致观点的话题(如言论自由和竞争)。
更深入的分析显示,模型的回应可以沿着两个高级意识形态轴进行结构化:进步主义vs保守主义,以及个人主义vs集体主义。大多数模型倾向于支持进步-集体主义观点,停留在图表的右下象限。值得注意的是,模型供应商或其所在国家的文化规范之间似乎没有一致的差异。
当比较模型在POBs和"声明性POBs"(一个直接询问模型对极化话题立场的简短调查)中的表现时,研究团队发现模型往往低估自己的偏见,特别是在进步主义方面。
最后,研究表明GPT-4o在自我反思后几乎不会改变观点,而LLaMA-3.2-3B的观点变化率高达8%。在同一模型家族内,更先进的版本表现出更低的观点转变倾向。
总结来说,这项研究提出了一个关键问题:大型语言模型在多大程度上表达偏好、观点和信念?POBs基准测试为评估模型在各种有争议和个人话题上的主观性提供了一个框架。研究发现,模型表现出一致的偏见——通常倾向于进步-集体主义观点——而且新版本表现出更强烈的立场和更低的一致性。推理和自我反思在改善中立性和一致性方面提供的益处有限。此外,模型往往低估自己的偏见,意识形态倾向在同一模型的不同版本之间可能有显著变化,这凸显了在商业部署前进行持续评估和谨慎对待的必要性。
作为企业和个人用户,我们需要认识到这些AI系统并非完全中立的信息来源。它们携带着特定的价值观和偏好,可能会影响它们提供的建议和信息。POBs提供了一个工具,帮助我们审计和比较这些模型的意识形态行为,使我们能够更明智、更透明地使用它们。这项研究不仅揭示了当前AI系统的局限性,也为未来的改进指明了方向。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。