微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

特伦托大学研究团队开发SEM技术：AI"火眼金睛"消除视觉语言模型偏见

人工智能稀疏表示学习算法公平性

特伦托大学研究团队开发SEM技术：AI"火眼金睛"消除视觉语言模型偏见

作者：科技行者

2026-04-01 10:36

分享至：

特伦托大学研究团队开发SEM技术，通过稀疏自编码器将AI视觉语言模型的文本嵌入分解为独立特征，精确识别和调制偏见神经元，在四个数据集上显著改善性别和种族偏见问题。该技术提供三种变体适应不同需求，兼具模块化特性，可与现有方法组合使用，为构建更公平的AI系统提供实用解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-01 10:36 • 科技行者

这项由意大利特伦托大学和意大利布鲁诺·凯斯勒基金会、比利时丰田汽车欧洲公司合作完成的研究，发表于2026年3月的计算机视觉领域预印本论文中，编号为arXiv:2603.19028v1。感兴趣的读者可以通过该论文编号查询完整研究内容。

当今AI视觉语言模型就像一面"有色眼镜"，总是带着偏见看世界。当你让CLIP这样的AI模型搜索"医生"的图片时，它更倾向于显示男性医生的照片，而搜索"护士"时则偏爱展示女性护士。更糟糕的是，如果你搜索"罪犯"或"小偷"，模型可能会偏向展示某些特定种族的人群照片。这些偏见不仅反映了训练数据中的社会刻板印象，还在AI应用中不断放大和传播这些偏见，严重影响了AI系统的公平性和可靠性。

特伦托大学的研究团队发现了解决这个问题的创新方法，他们开发了一种名为SEM（稀疏嵌入调制）的新技术。这项技术就像给AI装上了一副"矫正眼镜"，能够精准识别并消除模型中的偏见，同时保持模型原有的智能水平。

过去的解决方案就像用大锤敲核桃一样粗糙。传统方法通常在整个密集的嵌入空间中进行操作，就好比要修理一台精密钟表，却只能用粗糙的工具在整个钟表上敲敲打打。这些方法往往假设偏见可以用一个简单的线性方向来表示，然后通过正交投影将其移除。然而，像性别或种族这样复杂的偏见概念并不能简单地用一个方向来描述，而且在密集的嵌入空间中，偏见信息和任务相关信息高度纠缠在一起，粗糙的干预往往会在消除偏见的同时破坏模型的语义保真度。

研究团队的突破在于认识到需要在一个更加精细的层面上进行干预。他们引入了稀疏自编码器（SAE）这一关键工具，将密集纠缠的CLIP文本嵌入分解为高维稀疏的特征空间。就像把一团乱麻般的线团仔细分解成单独的线条一样，SAE能够将原本纠缠在一起的概念分离开来，让研究人员能够识别哪些"神经元"与内容相关，哪些与偏见相关。

为了验证SAE确实能够实现更好的解耦，研究团队设计了一个巧妙的实验。他们构建了一个包含100个职业的平衡数据集，每个职业在所有偏见类别中都有相等的代表性。然后他们训练了线性探针来预测职业和偏见属性，并提出了一个"解耦评分"来衡量特征空间的解耦程度。结果显示，原始的CLIP嵌入高度纠缠，解耦评分低至5-15%，而SAE潜在空间将性别属性的解耦程度提高了1.7-2.6倍，种族属性提高了5.6-5.7倍。这个实验证明SAE确实成功地将职业特征从偏见特征中分离出来，为精准干预奠定了基础。

一、SEM技术的核心原理：像厨师精准调味一样操控AI神经元

SEM技术的工作原理可以用厨师精准调味来比喻。传统方法就像在一锅汤里随意加调料，可能会让整锅汤变味。而SEM技术则像经验丰富的厨师，能够精确识别每种调料的作用，知道哪些调料增强风味，哪些调料掩盖异味，然后精准调配。

具体来说，SEM首先使用稀疏自编码器将CLIP的文本嵌入投射到一个高维稀疏空间中。在这个空间里，原本纠缠在一起的语义信息被分解为独立的"神经元"特征。就像把一幅复杂的画作分解为不同的颜色层一样，每个神经元负责表达特定的概念。

接下来，SEM对每个神经元进行两种评分。第一种是内容相关性评分，用于识别哪些神经元对查询内容真正重要。比如当用户搜索"医生"时，系统会识别出那些真正与医疗专业相关的神经元，而不是那些与性别或种族相关的神经元。这个过程通过比较查询激活与多样化中性提示的激活来实现，就像通过对比来找出真正独特的特征。

第二种是偏见敏感性评分，用于识别哪些神经元容易被偏见信息激活。这个过程使用预定义的偏见提示集，比如包含性别或种族信息的句子。系统会测量每个神经元在面对这些偏见信息时的反应强度和特异性，从而识别出那些专门对偏见信息敏感的神经元。

最后，SEM将这两个评分组合成调制系数，对神经元激活进行精准调节。内容相关的神经元会被增强，偏见敏感的神经元会被抑制，那些既不相关也不敏感的神经元则保持中性。这种精准的调制方式确保了在消除偏见的同时，模型的核心语义理解能力得到保留。

二、三种变体适应不同需求：从简单到复杂的渐进式解决方案

SEM技术提供了三种不同的变体，就像同一个工具箱里的不同工具，可以根据用户掌握的信息量和具体需求来选择使用。

第一种变体是SEMi（偏见无关型），这是最简单也是最通用的版本。当用户只知道要搜索的内容，但不清楚具体要对抗哪种偏见时，就可以使用这个版本。SEMi通过大型语言模型生成查询的多个释义，然后计算这些释义的稳健激活模式，识别出真正与内容相关的神经元。其他可能与虚假相关性或偏见相关的神经元则被抑制。这种方法的优势在于完全不需要用户提供偏见信息，但仍能有效减少模型的偏见表现。

第二种变体是SEMb（偏见感知型），适用于用户明确知道要对抗特定类型偏见的情况。比如用户知道系统存在性别偏见问题，就可以提供一系列性别相关的提示。SEMb会使用这些提示来精确识别偏见敏感神经元，然后结合内容相关性评分进行更有针对性的调制。这种方法能够实现更精确的偏见控制。

第三种变体是SEMbi（完整型），它结合了前两种方法的优势。SEMbi既使用释义来增强内容相关性的识别，又利用偏见提示来精确定位偏见敏感神经元。这种组合方法在实验中表现最为出色，能够在保持高性能的同时实现最佳的公平性效果。

这三种变体的设计体现了研究团队对实际应用场景的深刻理解。在真实世界中，用户的专业知识水平和可用信息各不相同，有些用户可能只是感觉AI系统有偏见但说不清具体是什么偏见，有些用户则能明确指出问题所在。SEM技术的多变体设计确保了无论用户处于哪种情况，都能找到合适的解决方案。

三、突破性实验结果：在多个任务上实现显著改善

研究团队在四个具有挑战性的数据集上验证了SEM技术的效果，这些数据集涵盖了社会偏见和虚假相关性两大类问题。实验使用了两种不同的CLIP模型（ViT-B/16和ViT-L/14@336px），确保了结果的普适性。

在跨模态检索任务中，SEM表现出了显著的公平性改善。以FairFace数据集上的种族偏见为例，使用ViT-B/16模型时，基线CLIP的KL散度为0.237（数值越低表示越公平），而SEMi将其降低到0.170，SEMb降低到0.231。在UTKFace数据集上，性别偏见的改善更加明显，SEMi将KL散度从0.134降低到0.064，几乎减少了一半。

在零样本分类任务上，SEM的优势更加突出，特别是在改善最差群体准确性方面。传统方法往往在这个指标上表现不佳，因为它们无法有效处理严重的虚假相关性问题。以Waterbirds数据集为例，这个数据集测试模型是否会过度依赖背景信息来识别鸟类。基线CLIP的最差群体准确性只有39.6%，而SEMbi将其大幅提升到67.6%，提升了28个百分点。这个结果表明SEM成功解决了传统零样本方法的核心局限性。

更令人印象深刻的是，SEM在改善公平性的同时并没有牺牲整体性能。在大多数情况下，SEM不仅改善了公平性指标，还保持或甚至提高了检索精度。比如在CelebA发色查询任务中，SEMb在改善偏见指标的同时，将检索精度从62.9%提升到72.8%。

研究团队还发现SEM具有模块化特性，可以与其他去偏方法组合使用。当将SEMbi与现有的BendVLM方法结合时，组合方法在28个指标中的24个都超越了单独的BendVLM，展现了SEM作为通用改善工具的潜力。这种模块化特性意味着SEM不是要取代现有方法，而是可以作为一个增强组件来提升任何现有系统的公平性。

四、技术细节解析：从神经科学角度理解AI偏见

为了深入理解SEM技术的工作机制，研究团队进行了详细的消融研究和定性分析。这些分析就像给AI做"大脑扫描"，让我们能够看到偏见是如何在神经网络中形成和传播的。

稀疏自编码器的选择并非偶然，而是基于对神经网络表示学习的深刻理解。传统的密集嵌入就像一个高度压缩的信息包，所有概念都混合在一起。研究团队使用的Matryoshka稀疏自编码器（MSAE）能够学习层次化的稀疏表示，将这个信息包"解压"为独立的特征维度。每个维度对应一个相对独立的概念，这使得精确干预成为可能。

神经元评分机制的设计体现了研究团队对语言理解和偏见形成机制的深刻洞察。内容相关性评分通过百分位排名来衡量每个神经元相对于中性基线的激活异常程度。如果一个神经元在面对特定查询时的激活远高于其在多样化中性句子上的平均激活，那么这个神经元很可能编码了查询相关的语义信息。

偏见敏感性评分则更为复杂，它不仅要求神经元对偏见信息高度响应，还要求这种响应具有特异性。系统会计算两个子分数：通用分数衡量神经元相对于中性基线的激活强度，特异性分数衡量神经元对特定偏见类别相对于其他偏见类别的选择性。只有同时满足这两个条件的神经元才被认为是偏见敏感的，这种设计避免了将一般性概念神经元误认为偏见神经元。

调制公式的设计同样经过深思熟虑。研究团队发现，简单的线性组合往往无法处理复杂的概念纠缠。他们采用了平方根变换来增强对比度，使得内容相关性和偏见敏感性之间的差异更加明显。同时，公式中的内容增强项被证明对防止性能崩溃至关重要，特别是在处理像Waterbirds这样具有强虚假相关性的任务时。

五、方法的局限性和未来发展方向

尽管SEM技术取得了显著成果，但研究团队也诚实地承认了当前方法的局限性，这些局限性为未来的研究指明了方向。

首先是计算效率问题。虽然SEM是后处理方法，不需要重新训练基础模型，但稀疏自编码器的训练仍需要大量计算资源。当前实验中使用的SAE需要在8.5百万个字幕上训练约1.5小时，这对于资源受限的研究者来说可能是个挑战。未来的研究可能需要探索更高效的稀疏表示学习方法。

其次是偏见定义的依赖性。SEMb和SEMbi变体需要用户明确定义要对抗的偏见类型，这要求用户对问题域有一定的了解。对于那些隐藏较深或定义模糊的偏见，现有方法可能无法有效识别和处理。未来的研究可能需要开发更智能的偏见发现机制。

第三是跨领域泛化能力。当前的实验主要集中在图像检索和分类任务上，SEM在其他类型的多模态任务（如图像生成、视频理解等）上的表现还需要进一步验证。不同任务可能需要不同的神经元评分策略和调制机制。

最后是偏见的动态性问题。社会偏见会随时间和文化背景而变化，一个在当前时空背景下有效的去偏方法未来可能需要调整。如何设计能够适应这种变化的自适应系统是一个重要的研究方向。

尽管存在这些局限性，SEM技术仍然代表了AI公平性研究的重要进步。它首次在特征层面实现了精确的偏见控制，为构建更公平的AI系统开辟了新的技术路径。

研究团队相信，随着稀疏表示学习技术的不断发展和计算资源的日益丰富，SEM这样的方法将变得更加高效和易用。更重要的是，这项研究展示了在不损害模型核心能力的前提下消除AI偏见的可能性，为AI技术的负责任发展提供了重要的技术支撑。

说到底，SEM技术的价值不仅在于其技术创新，更在于它为AI公平性问题提供了一个实用的解决方案。在AI技术日益普及的今天，确保这些系统公平对待所有用户群体已经成为技术发展的重要责任。SEM技术的出现，让我们看到了构建更加公平、更加负责任的AI系统的希望。对于那些希望在自己的AI应用中消除偏见的开发者来说，这项研究提供了一个强大而灵活的工具。而对于普通用户来说，这意味着未来的AI系统将更加公正地对待每一个人，不论其性别、种族或其他身份特征。

Q&A

Q1：SEM稀疏嵌入调制技术是什么？

A：SEM是特伦托大学开发的一种AI去偏技术，它通过稀疏自编码器将AI视觉语言模型的文本嵌入分解为独立特征，然后精确识别和调制偏见相关的神经元，就像给AI装上"矫正眼镜"消除偏见。

Q2：SEM技术如何消除AI模型中的性别和种族偏见？

A：SEM首先用稀疏自编码器将密集纠缠的信息分解为独立神经元，然后对每个神经元评分，识别哪些与内容相关、哪些与偏见相关，最后精准增强内容神经元、抑制偏见神经元，避免了传统方法的粗糙干预。

Q3：普通用户能否使用SEM技术改善AI系统的公平性？

A：SEM提供三种变体适应不同需求，最简单的SEMi版本不需要用户提供偏见信息就能自动减少偏见，而且具有模块化特性，可以与现有AI系统组合使用，为开发更公平的AI应用提供了实用工具。

人工智能稀疏表示学习算法公平性

分享至