微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 大语言模型的认知偏见从何而来?以色列理工学院和希伯来大学揭示AI模型的"成长烦恼"

大语言模型的认知偏见从何而来?以色列理工学院和希伯来大学揭示AI模型的"成长烦恼"

2025-07-22 10:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-22 10:21 科技行者

这项由以色列理工学院的叶纳坦·贝林科夫教授和希伯来大学的加布里埃尔·斯坦诺夫斯基教授领导的研究团队,经过深入实验发现了一个令人意外的真相:那些看起来聪明伶俐的大语言模型,实际上也会像人类一样产生各种认知偏见。这项发表于2025年COLM会议的研究论文,首次通过严格的实验方法揭示了这些AI"思维误区"的真正来源。有兴趣深入了解的读者可以通过论文的GitHub页面(https://itay1itzhak.github.io/planted-in-pretraining)访问完整的研究代码和数据。

认知偏见就像是人类大脑中的"自动驾驶系统",它让我们在面对复杂情况时能够快速做出决定,但有时也会把我们带向错误的方向。比如,当医生告诉你一个手术有"90%的成功率"时,你可能会比听到"10%的失败率"更愿意接受,尽管这两个表述在数学上完全等价。这种现象被称为"框架效应",是认知偏见的一个典型例子。

令人惊讶的是,研究团队发现,那些被训练来帮助人类的大语言模型竟然也会表现出类似的偏见行为。当同样的信息以不同方式呈现时,这些AI模型会给出不同的答案,就像人类一样会被表达方式所影响。这个发现让研究者们产生了一个更深层的疑问:这些AI模型的偏见到底是从哪里来的?

一、AI模型的"成长经历":从预训练到微调的完整过程

要理解AI模型的偏见来源,我们首先需要了解这些模型是如何"成长"的。这个过程就像是培养一个孩子,需要经历多个阶段。

第一个阶段叫做"预训练",这就像是让孩子在图书馆里阅读海量的书籍。在这个阶段,AI模型会"阅读"互联网上的无数文本,从新闻报道到小说,从科学论文到社交媒体帖子,应有尽有。通过这个过程,模型学会了语言的基本规律,理解了词语之间的关系,掌握了各种知识和常识。

第二个阶段叫做"微调"或"指令调优",这就像是让已经博览群书的孩子学习如何与人对话。在这个阶段,研究人员会给模型展示大量的问答对话示例,教它如何理解人类的问题并给出有帮助的回答。经过这个训练后,原本只会"读书"的模型变成了能够与人类自然对话的助手。

以往的研究发现,经过微调的模型比原始的预训练模型表现出更强的认知偏见。这个发现就像是发现原本单纯的孩子在学会社交技能后反而变得更加"世故"。这引发了研究者们的深思:是微调过程本身导致了偏见的产生,还是这些偏见早就存在于预训练阶段,只是被微调过程激发了出来?

二、设计巧妙的实验:用"对调训练"揭示偏见的真正来源

面对这个复杂的问题,研究团队设计了一个极其巧妙的实验方案。他们的思路就像是侦探破案,需要通过精心设计的实验来找出真正的"罪魁祸首"。

研究团队首先选择了两个完全开源的大语言模型:OLMo-7B和T5-11B。选择这两个模型是因为它们的训练数据和训练方法都完全公开,就像是有着完整成长记录的孩子,研究者可以清楚地知道它们经历了什么。

更重要的是,研究团队发现这两个模型在某些认知偏见上表现出了完全相反的趋势。比如在"确定性效应"这个偏见上,T5模型在微调后偏见变得更强,而OLMo模型在微调后偏见反而变弱了。这种对比就像是找到了两个性格截然不同的孩子,为后续的实验提供了理想的对照条件。

实验的核心设计被称为"对调训练"。研究团队将两个模型的训练数据进行了"交换":用原本训练T5的数据来训练OLMo,用原本训练OLMo的数据来训练T5。这就像是让两个孩子交换成长环境,看看他们的性格特征会发生怎样的变化。

如果认知偏见主要来自于微调阶段的训练数据,那么经过对调训练后,两个模型的偏见模式应该会发生明显的变化。反之,如果偏见主要来自于预训练阶段,那么即使交换了微调数据,每个模型仍然会保持其原有的偏见特征。

三、排除随机干扰:训练过程中的"运气成分"

在进行主要实验之前,研究团队还需要解决一个重要问题:训练过程中的随机性。就像是同一个老师用相同的方法教两个学生,由于各种偶然因素,学生的表现可能会有所不同。

在AI模型的训练过程中,也存在类似的随机性。比如训练数据的呈现顺序、模型参数的初始化值等都可能影响最终结果。为了排除这种随机性的干扰,研究团队对每个实验都进行了多次重复,使用不同的"随机种子"来控制这些偶然因素。

通过这种方法,研究团队发现训练过程中的随机性确实会对模型的偏见程度产生一定影响,但这种影响相对较小。更重要的是,他们发现通过对多次实验结果进行平均,可以有效地消除随机性的干扰,揭示出模型偏见的真正模式。

这个发现就像是发现虽然每次考试的成绩可能有所波动,但学生的真实水平是相对稳定的。通过多次测试的平均结果,我们可以更准确地评估学生的真实能力。

四、令人意外的发现:偏见的"遗传性"

经过大量的实验和分析,研究团队得出了一个令人意外的结论:大语言模型的认知偏见主要来自于预训练阶段,而不是微调阶段。

这个发现就像是发现孩子的性格特征更多地受到遗传因素影响,而不是后天的教育环境。具体来说,研究团队发现,即使两个模型使用了完全相同的微调数据,它们的偏见模式仍然更像是使用了相同预训练数据的模型,而不是使用了相同微调数据的模型。

为了验证这个发现,研究团队使用了一种叫做"聚类分析"的方法。他们将每个模型在32种不同认知偏见上的表现记录下来,形成一个"偏见指纹"。然后,他们检查这些"指纹"是否更容易按照预训练模型来分组,还是按照微调数据来分组。

结果非常清晰:使用相同预训练数据的模型聚集在一起,而使用相同微调数据的模型则分散在不同的组中。这就像是发现同卵双胞胎即使在不同家庭长大,性格特征仍然比在同一家庭长大的非血缘兄弟姐妹更相似。

五、深入分析:32种认知偏见的全面考察

为了确保研究结果的全面性和可靠性,研究团队对32种不同类型的认知偏见进行了详细分析。这些偏见涵盖了人类思维中的各个方面,从决策制定到社交判断,从记忆回忆到风险评估。

比如"锚定偏见",当人们被要求估计一个数值时,往往会被之前听到的任何数字所影响,即使这个数字完全不相关。研究团队发现,AI模型同样表现出这种偏见:当问题中包含一个看似不相关的数字时,模型的回答会明显偏向这个数字。

又比如"损失厌恶",人们往往更害怕失去已有的东西,而不是获得同等价值的新东西。AI模型也表现出类似的倾向:当同样的选择以"避免损失"的方式呈现时,模型更倾向于选择它,而不是以"获得收益"的方式呈现。

通过对这32种偏见的全面分析,研究团队发现了一个一致的模式:无论是哪种类型的偏见,模型的表现都更多地受到预训练阶段的影响,而不是微调阶段。

六、外部验证:在其他模型上的重复实验

为了确保研究结果的普遍性,研究团队还在其他模型上进行了验证实验。他们选择了社区中已经训练好的Llama2-7B和Mistral-7B模型,这些模型使用了不同的训练数据和方法。

令人欣慰的是,在这些不同的模型上,研究团队观察到了完全相同的模式。即使是在不同的模型架构、不同的训练数据、不同的训练方法下,预训练阶段对认知偏见的决定性影响仍然存在。

这个发现就像是在不同的城市、不同的学校中都观察到了同样的教育现象,证明了这个发现的普遍性和可靠性。

七、技术细节:如何准确测量AI的"思维偏见"

为了准确测量AI模型的认知偏见,研究团队采用了一种精巧的对比实验方法。他们为每种偏见设计了两个版本的问题:一个是"中性版本",不包含任何可能引起偏见的元素;另一个是"诱导版本",包含了可能引起偏见的特定元素。

比如在测试"框架效应"时,中性版本可能会问:"这个治疗方案的效果如何?"而诱导版本则会说:"这个治疗方案有90%的成功率"或"这个治疗方案有10%的失败率"。虽然两种表述在逻辑上完全等价,但如果模型存在框架效应偏见,它对这两种表述的反应会有所不同。

研究团队通过比较模型对这两种版本问题的不同反应,计算出一个偏见分数。这个分数介于-1到1之间,接近0表示没有偏见,偏向1或-1表示存在明显的偏见。

八、数据分析:用数字说话的科学证据

通过大量的数据分析,研究团队用数字证明了他们的发现。在聚类分析中,按照预训练模型进行分组的效果明显优于按照微调数据进行分组。具体来说,使用预训练模型分组的Silhouette分数(一个衡量聚类质量的指标)达到了0.104,而使用微调数据分组的分数只有0.028。

这种差异就像是发现按照血型分组的准确率远高于按照星座分组的准确率,清楚地表明了哪个因素更重要。

更令人印象深刻的是,在主成分分析中,研究团队发现第一主成分几乎完全按照预训练模型来分离不同的样本。这意味着在所有影响模型偏见的因素中,预训练是最重要的那个。

九、实际影响:这项研究对AI发展的深远意义

这项研究的发现对AI的发展具有深远的影响。首先,它告诉我们,如果想要减少AI模型的认知偏见,仅仅在微调阶段下功夫是不够的,必须从预训练阶段就开始关注这个问题。

这就像是发现要培养一个品格优良的孩子,不能只在青春期才开始关注品德教育,而应该从幼儿期就开始重视。对于AI模型来说,这意味着我们需要更加仔细地选择和处理预训练数据,确保这些数据不会引入过多的偏见。

其次,这项研究也为我们理解AI模型的行为提供了新的视角。以前,人们往往认为AI模型的最终表现主要由微调阶段决定,但现在我们知道,预训练阶段的影响可能更加根本和持久。

十、未来展望:如何打造更公正的AI系统

基于这项研究的发现,研究团队提出了几个改进AI系统的方向。首先,在预训练阶段,我们需要更加仔细地筛选和处理训练数据,识别并减少可能导致偏见的内容。

这就像是为孩子选择更好的阅读材料,避免让他们接触到有害或偏颇的信息。对于AI模型来说,这可能意味着开发更好的数据过滤技术,或者设计新的训练方法来减少偏见的形成。

其次,虽然微调阶段的影响相对较小,但仍然可以用来调整和改善模型的行为。研究团队发现,通过精心设计的指令和对话示例,可以在一定程度上减少某些类型的偏见。

最后,这项研究也提醒我们,在评估AI系统的公正性时,需要使用更全面和深入的方法。仅仅测试模型在特定任务上的表现是不够的,我们需要系统地评估模型在各种情况下的偏见表现。

这项由以色列理工学院和希伯来大学联合开展的研究,为我们理解AI模型的认知偏见提供了前所未有的深入洞察。通过巧妙的实验设计和严格的数据分析,研究团队不仅发现了偏见的真正来源,还为未来开发更公正、更可靠的AI系统指明了方向。

说到底,这项研究告诉我们一个重要的道理:AI模型就像人类一样,它们的"性格"和"思维习惯"很大程度上是在早期的"成长经历"中形成的。如果我们想要培养出更加公正和可靠的AI助手,就必须从最开始的训练阶段就给予足够的重视和关注。这不仅是技术发展的需要,更是我们对未来智能社会的责任。

Q&A

Q1:什么是认知偏见?AI模型为什么会有认知偏见? A:认知偏见是指在做决定时偏离理性判断的心理倾向,比如同样的信息用不同方式表达会影响我们的选择。AI模型之所以会有认知偏见,是因为它们是通过学习人类创造的大量文本数据来训练的,这些数据本身就包含了人类的各种偏见和思维习惯。

Q2:这项研究发现AI的偏见主要来自哪个阶段? A:研究发现AI模型的认知偏见主要来自预训练阶段,而不是后续的微调阶段。这就像是孩子的性格特征更多受到遗传因素影响,而不是后天教育环境。即使使用相同的微调数据,不同预训练模型的偏见模式仍然保持各自的特征。

Q3:如何减少AI模型的认知偏见? A:基于这项研究的发现,减少AI偏见需要从预训练阶段就开始重视。具体包括:更仔细地筛选和处理训练数据,开发更好的数据过滤技术,设计新的训练方法来减少偏见形成。同时,在微调阶段通过精心设计的指令和对话示例也能在一定程度上改善模型行为。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-