如今,算法中存在的偏见问题比大家所能想到的更为普遍。
比如:在2012年发表的一篇学术论文指出,来自Cognitec的人脸识别系统对非裔美国人的检测效果比白种人要差5%至10%。另外,研究人员还在2011年的调查中发现,由中国、日本以及韩国开发的模型往往难以区分高加索人与东亚人。而在最近的另一项研究中,谷歌与亚马逊推出的高人气智能扬声器在服务非本地用户时,结果显示其理解非美国口音的能力要低出30%。而此前在2016年的一篇论文也提到,谷歌新闻文章中的嵌入词往往对女性与男性表现出刻板的性别印象。
对于这个困扰业界许久的问题,麻省理工学院算机科学与人工智能实验室(简称MIT SCAIL)的科学家们不久前发表了一篇题为《Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure(通过学习潜在结构提示并缓解算法偏见)》的论文(在“科技行者”对话界面回复“MIT论文”获取论文下载链接>,这篇论文由博士生Alexander Amini与Ava Soleimanhy、硕士研究生Wilko Schwarting以及麻省理工学院教授Sangeeta Bhatia与Daniela Rus共同撰写。
论文中描述了如何通过重新采样确保人工智能系统对数据自动“消除偏见”,从而使最终给出的观点结果更为中立。他们表示,当在专门设计用于测试计算机视觉系统偏见的数据集上进行评估时,这套方案表现出了更优越的性能以及“更低的分类偏见”。
作为作者之一的Amini在一份声明中解释称:“虽然大家普遍认为人脸识别已经是一项较为成熟的技术,但很明显,即使是其中经常使用的数据集也并没有得到适当的审查。对这些问题加以纠正尤其重要,因为我们已经开始看到这些算法被应用于安全、执法以及其它众多领域。”
事实上,这已经不是MIT SCAIL第一次就这个问题展开研究——在2018年的一篇论文中,David Sontag教授及其同事就提出了一种能够减少AI偏见而又不致降低预测结果准确性的方法。但此次提出的新论文采用了一种新颖的、半监督式的端到端深度学习算法。该算法会同时学习需要完成的任务本身(例如人脸识别)以及训练所用数据的潜在结构,通过对后者的学习,能够帮助其及时发现训练数据中隐藏或隐含的偏见,并在训练期间自动消除这种偏见,而完全无需数据预处理或注释。
实现方式
研究人员打造的这套AI系统的核心,其实是一套变分自动编码器(简称VAE),能够模拟人脑中神经元的数学函数层,其本质是一种神经网络,具体包括编码器、解码器以及损失函数。编码器负责将原始输入映射至特征表示,而解码器则将特征表示作为输入,以利用其完成预测并生成输出结果。(损失函数则测量算法对于给定数据的建模效果。)
在使用这套VAE方案的情况下(论文中将其称为去偏见-VAE,简称DB-VAE),编码器能够在一定程度上学习特定数据点内潜在变量的真实分布近似情况,而解码器则立足潜在空间重建输入内容。对解码结果的重建使得系统能够在训练期间对潜在变量进行无监督学习。
为了验证去偏见算法在具有 “重大社会影响”的真实世界问题中的表现,研究人员们使用包含40万幅图像的数据集训练DB-VAE模型,并以八成对二成的比例将其划分为训练集与验证集。在此之后,他们在PPB测试数据集上进行评估——这套数据集包含来自非洲与欧洲各国总计1270名男女议员的图像。
结果令人眼前一亮。根据研究人员的说法,DB-VAE不仅学会了识别面部特征,例如感知到肤色与头发的存在,还学会了区分性别及年龄等其它特征。立足个人人口统计(种族/性别)及PPB数据集,在对多种模型进行去偏见与未去偏见结果比较之后,DB-VAE显示出更高的分类准确性并降低了由种族与性别引发的分类偏见——研究团队认为,这是人工智能朝着公平与公正发展方向迈出的重要一步。
在论文中,研究人员这样写道:“系统的开发与部署对于防止意外歧视并保证这些算法的长期有效运作至关重要。我们希望自己提出的方法能够成为一种真正的系统化工具,从而促进现代AI系统的算法公平性。”
技术进展
过去十年以来,一系列失误事件让我们意识到人工智能确实存在潜在偏见,这无疑令人沮丧万分。然而,问题的出现也让学术界在实现更准确、更客观中立的系统开发方面取得了可喜的进展。
除了麻省理工学院此次研究结果之外,还有许多企业也在该领域不断进行尝试和努力。比如:
如果一切顺利,那么上述举措——以及像麻省理工学院CSAIL新算法这样的开创性工作,将有望给人工智能的偏见问题带来喜人的整体性改善。
好文章,需要你的鼓励
现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。
想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。
想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。
想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。