微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 人工智能遇上"偏科生"难题:中国人民大学团队让AI在不平衡世界中也能公平学习

人工智能遇上"偏科生"难题:中国人民大学团队让AI在不平衡世界中也能公平学习

2025-09-25 14:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-25 14:42 科技行者

在人工智能的世界里,有一个很现实的问题:就像学校里有些班级学霸很多、学渣很少一样,真实世界的数据也是"偏科"的。比如在动物识别任务中,可能有成千上万张猫狗照片,但珍稀动物的照片却屈指可数。这种不平衡让AI系统变得"势利眼"——它们很擅长识别常见事物,但面对稀罕东西就抓瞎了。

这项由中国人民大学陈嘉豪、黄志远、刘雨柔和苏兵组成的研究团队发表于2025年的研究,专门解决了这个棘手问题。他们提出了一个叫做LoFT(Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning)的新方法,简单说就是让AI在面对不平衡数据时也能保持公平。有兴趣深入了解的读者可以通过arXiv:2509.09926v1访问完整论文。

研究团队发现,传统的方法就像让一个从零开始学习的学生同时掌握热门科目和冷门科目一样困难。相反,他们选择了一个更聪明的策略:让已经接受过良好教育的"优等生"(预训练的基础模型)来处理这个问题。这就好比请一位知识渊博的老师来教授偏门学科,而不是让新手从头摸索。

更有意思的是,研究团队还考虑了一个更贴近现实的场景:在真实世界中,用于学习的无标签数据里可能混入了完全无关的内容,就像在学习识别鸟类的图片库里混入了汽车照片一样。他们开发的LoFT-OW(LoFT under Open-World scenarios)能够智能地过滤掉这些"杂音",专注于真正有用的信息。

这项研究最令人惊喜的地方在于其效率:即使只使用了以往研究1%的无标签数据,新方法的表现依然超越了传统approaches。这就像一个聪明的学生用更少的练习题就能达到更好的成绩一样。

一、传统方法的困境:为什么AI会变成"势利眼"

在机器学习的世界里,长尾分布是一个普遍存在的现象。简单来说,就是少数几个类别占据了绝大多数样本,而大量类别只有很少的样本。这种现象在现实生活中随处可见:网购平台上热销商品的评价成千上万,而小众商品可能只有几条评价;社交媒体上热门话题被频繁讨论,而专业话题却门可罗雀。

面对这种不平衡,AI系统很容易产生偏见。就像一个只见过大量猫狗照片的人,突然看到熊猫时可能会犹豫不决一样,AI模型在处理稀有类别时往往表现不佳。传统的长尾半监督学习方法试图通过使用大量未标记数据来缓解这个问题,其基本思路是为未标记数据生成伪标签,然后用这些伪标签指导模型训练。

然而,这种从零开始训练的方式存在两个致命缺陷。首先是过度自信问题:传统的卷积神经网络就像一个初出茅庐却自以为是的新手,经常对错误预测给出很高的置信度,特别是在处理稀有类别时更是如此。这就好比一个刚学会开车的人在复杂路况下依然觉得自己技术过硬,结果往往事与愿违。

其次是早期预测不可靠的问题。在训练初期,模型的判断能力还很弱,就像刚入学的学生对知识一知半解,却要为其他同学提供学习建议。这种低质量的伪标签不仅无法帮助学习,反而可能误导整个训练过程。

研究团队通过实验证实了这些问题的严重性。他们发现,在ImageNet-LT和Places365-LT这两个标准测试集上,从零开始训练的模型在处理稀有类别时表现出严重的过度自信现象。具体来说,这些模型在整个数据集上的期望校准误差(ECE)高达0.1372,意味着模型的置信度与实际准确率之间存在显著偏差。更糟糕的是,这种偏差在稀有类别上更为严重,模型经常对错误预测给出过高的置信度。

二、基础模型的优势:站在巨人肩膀上学习

为了解决传统方法的弊端,研究团队将目光投向了基础模型,特别是像CLIP这样在大规模数据上预训练的视觉-语言模型。这个选择就像是请一位博学的教授来指导学习,而不是让完全的新手从头摸索。

基础模型的优势首先体现在校准性能上。通过大规模预训练,这些模型已经积累了丰富的视觉知识,就像一位经验丰富的医生能够准确评估自己的诊断置信度一样。研究团队的实验显示,经过参数高效微调的模型在各个类别群体上都表现出了良好的校准性能,特别是在处理稀有类别时不再表现出严重的过度自信。

具体来说,研究团队将类别按照样本数量分为三组:"多样本"、"中等样本"和"少样本"类别。实验结果表明,使用参数高效微调的模型在所有三个组别上的置信度都与实际准确率高度吻合,这意味着模型能够准确评估自己预测的可靠性。相比之下,从零开始训练的模型在稀有类别上表现出严重的校准偏差,经常对错误预测给出过高的置信度。

除了校准性能,基础模型还展现出了强大的异常检测能力。在开放世界场景下,未标记数据中可能包含与目标任务无关的样本,就像在学习鸟类识别的数据集中混入了汽车图片。研究团队测试了模型识别这些"入侵者"的能力,结果令人印象深刻。

在CIFAR-100-LT数据集上,他们使用多个异常数据集进行测试,包括纹理图像、手写数字、自然图像等。使用CLIP和OpenCLIP作为基础模型的微调版本在异常检测任务上取得了优异成绩。以OpenCLIP为基础的模型在六个异常检测数据集上的平均得分达到86.51,显著超越了传统的异常检测方法。这种强大的异常检测能力为处理开放世界场景奠定了坚实基础。

三、LoFT方法详解:巧妙平衡硬标签与软标签

LoFT方法的核心思想是充分利用基础模型的校准性能来改进伪标签的质量。就像一位经验丰富的老师能够准确判断哪些知识点学生已经掌握、哪些还需要进一步巩固一样,校准良好的模型能够准确评估自己预测的置信度。

在传统的半监督学习中,通常使用固定的置信度阈值来筛选可靠的伪标签,这种"一刀切"的做法就像用同一个标准要求所有学生一样,往往不够灵活。LoFT采用了一种更加精细的策略:根据模型的置信度将未标记样本分为高置信度和低置信度两类,然后采用不同的学习策略。

对于高置信度样本,LoFT使用硬伪标签,即直接将模型预测的最可能类别作为标签。这就像对于已经熟练掌握的知识点,学生可以直接给出明确答案。对于低置信度样本,则使用软伪标签,保留完整的概率分布信息。这种做法就像对于还不够确定的知识点,保持开放态度,不急于下定论。

这种策略的巧妙之处在于它充分利用了基础模型良好的校准性能。实验表明,高置信度预测通常对应更高的准确率,因此使用硬标签可以提供清晰的监督信号。而低置信度预测虽然不够准确,但其概率分布仍然包含有用信息,软标签能够提供更平滑的监督,避免错误标签的负面影响。

在具体实现上,LoFT定义了一个二值掩码来区分高低置信度样本。当样本的最大软最大概率超过阈值时,被认为是高置信度样本,使用硬伪标签进行训练;否则使用软伪标签。这个阈值的选择至关重要,研究团队通过大量实验发现,将阈值设置为0.6时能够达到最佳的性能平衡。

有趣的是,由于基础模型在各个类别上都表现出良好的校准性能,LoFT不需要为不同类别设置不同的置信度阈值。这与传统方法形成鲜明对比——传统方法往往需要为稀有类别单独设计复杂的处理策略。这种简化不仅减少了超参数的数量,也使得方法更加robust和易于使用。

四、应对开放世界:LoFT-OW的两阶段过滤策略

现实世界的数据往往比实验室环境复杂得多。在实际应用中,用于训练的未标记数据很可能包含与目标任务完全无关的样本,就像在训练野生动物识别模型时,数据集中可能混入了宠物或者人造物品的图片。这种"杂音"如果不加处理,会严重影响模型的学习效果。

为了解决这个问题,研究团队提出了LoFT-OW,采用了一种两阶段的过滤策略。第一阶段利用基础模型的零样本能力进行粗过滤。零样本分类就像是让一位博学的专家在没有具体学习某个任务的情况下,仅凭已有知识进行判断。CLIP等基础模型由于在大规模数据上预训练,具备了这种跨领域的判断能力。

在零样本过滤阶段,系统会为每个未标记样本计算零样本置信度分数。只有置信度超过高阈值的样本才会被保留进入下一阶段,这个阈值通常设置为0.95,确保只有最可靠的样本通过初步筛选。这就像是一位严格的门卫,只允许"看起来很像"的访客进入大楼。

第二阶段则利用微调后模型的异常检测能力进行精细过滤。经过微调的模型不仅保持了基础模型的丰富知识,还针对特定任务进行了优化,因此能够更准确地识别哪些样本真正属于目标分布。这个阶段使用最大软最大概率作为判断标准,设置另一个阈值来决定样本是否应该参与训练。

这种两阶段过滤策略的效果非常显著。研究团队在模拟开放世界场景的实验中,将COCO数据集(包含与目标任务无关的物体类别)混入未标记数据中。结果显示,LoFT-OW能够有效识别并过滤掉这些异常样本,避免它们对模型训练产生负面影响。

更重要的是,这种过滤并非简单的排除,而是智能的选择。系统会为每个样本计算一个"适合度"分数,就像一位经验丰富的教师能够判断哪些习题适合当前的教学内容一样。这种精细化的处理使得模型能够在复杂的开放世界环境中保持稳定的学习效果。

五、实验验证:用数据说话的优异表现

为了验证LoFT和LoFT-OW的效果,研究团队在多个标准数据集上进行了全面的实验评估。这些实验就像是全面的学术能力测试,从不同角度检验新方法的性能。

在CIFAR-100-LT数据集上的实验结果令人印象深刻。这个数据集模拟了现实世界中的长尾分布,其中部分类别有大量样本,而其他类别样本稀少。传统的FixMatch方法在不同设置下的准确率在40.0%到58.1%之间变动,而加入各种改进策略(如ACR、BEM等)后能提升到48.0%-73.4%。

相比之下,LoFT的表现consistently superior。使用CLIP作为基础模型时,LoFT在各种实验设置下都达到了75.3%-81.1%的准确率,显著超越了传统方法。更令人惊喜的是,使用OpenCLIP时性能进一步提升,最高达到83.6%的准确率。这种提升幅度相当可观,特别考虑到这是在更少的训练迭代下实现的。

在ImageNet-127这个更大规模的数据集上,LoFT的优势更加明显。传统方法需要250,000次训练迭代才能达到42.3%-67.8%的准确率,而LoFT仅用10,000次迭代就达到了73.3%-74.2%的准确率。这种效率提升不仅意味着更快的训练速度,也表明基础模型的先验知识确实为长尾学习提供了强有力的支持。

更值得注意的是,在ImageNet-127的实验中,研究团队仅使用了传统方法1%的未标记数据量,却取得了更好的结果。这就像用更少的练习材料达到更好的学习效果,充分展现了LoFT方法的数据效率优势。

对于开放世界场景,LoFT-OW的表现同样令人满意。虽然由于需要处理异常数据,性能相比LoFT略有下降,但仍然显著优于传统方法。在CIFAR-100-LT上,LoFT-OW的准确率保持在73.6%-82.1%之间,在ImageNet-127上达到73.1%-74.2%。考虑到这些结果是在包含大量噪声数据的困难条件下取得的,这种性能表现相当出色。

六、深入分析:超参数选择的智慧

任何机器学习方法都涉及超参数的选择,LoFT也不例外。研究团队进行了详细的消融实验,就像精密调节乐器一样,找到了各个参数的最优设置。

置信度阈值cu的选择对LoFT的性能有重要影响。这个参数控制着硬标签和软标签的分配比例,就像调节学习过程中"确定性"和"探索性"的平衡。实验显示,当cu设置为0.2时,准确率为74.0%;随着阈值增加到0.6,准确率上升至78.8%的峰值;继续增加到0.95时,准确率下降至75.3%。

这个倒U型的性能曲线很有启发性。阈值过低时,过多样本被分配软标签,导致监督信号不够明确;阈值过高时,过多样本被强制分配硬标签,可能引入噪声。0.6这个最优值恰好在确定性和灵活性之间找到了最佳平衡点。

对于LoFT-OW中的异常检测阈值cood,实验结果显示类似的模式。当cood为0.1时,准确率为75.6%;在0.6时达到76.5%的峰值;0.7时下降至75.2%。这个结果表明,过于宽松的过滤会让太多噪声样本通过,而过于严格的过滤又会丢失有用信息。

有趣的是,两个关键超参数的最优值都是0.6,这绝非偶然。在长尾半监督学习的标准设置中,0.6对应着一个相当高的置信度水平,足以将预测视为可靠;在开放世界设置中,0.6同样代表着一个合理的边界,高于此阈值的样本很可能属于目标分布。这种一致性不仅简化了参数调节,也揭示了方法背后的内在logic。

七、可视化分析:直观感受模型的判断力

为了更直观地展示LoFT-OW的工作原理,研究团队提供了一系列可视化案例。这些案例就像是透过模型的"眼睛"看世界,了解它是如何做出判断的。

在ImageNet-127的测试中,系统展示了四个样本的处理过程。对于一张鸟类图片,模型给出了0.9797的高置信度分数,并正确识别为"Bird";对于运动员图片,置信度达到0.9980,识别为"Athlete";哺乳动物图片的置信度更是高达0.9997。这些高置信度预测都得到了可靠的伪标签,参与后续训练。

相比之下,对于一个明显的异常样本(与目标类别无关的图片),模型只给出了0.1297的极低置信度。这个分数远低于设定的阈值,因此该样本被正确识别为异常并从训练集中排除。这种stark contrast清晰地展示了模型的判断准确性。

这些可视化结果不仅验证了方法的有效性,也提供了关于模型行为的宝贵洞察。高质量的样本通常具有清晰的特征和明确的类别归属,模型能够confident地给出预测;而异常样本由于与训练目标不匹配,自然得到较低的置信度评分。

八、方法的理论基础:为什么LoFT如此有效

LoFT方法的成功并非偶然,而是有着深厚的理论基础。首先是校准理论:一个校准良好的模型意味着其置信度与实际准确率高度相关。当模型说它有90%的把握时,实际正确率也应该接近90%。基础模型由于在大规模数据上的充分训练,天然具备这种校准特性。

其次是迁移学习理论:预训练模型已经学习了丰富的视觉表示,这些表示能够很好地迁移到下游任务。相比从随机初始化开始训练,利用这些预训练权重能够显著加速收敛并提高最终性能。在长尾场景下,这种优势更加明显,因为稀有类别的有限样本更容易受益于强大的预训练表示。

参数高效微调的理论基础在于,只调整少量参数能够在保持预训练模型强大能力的同时,适应特定任务的需求。这种approach避免了过拟合的风险,特别是在数据不平衡的情况下。实验证实,相比全参数微调,参数高效微调在长尾数据上表现更加稳定。

异常检测的理论依据来自于分布差异。真正属于目标任务的样本应该与训练分布相符,而异常样本则会表现出明显的分布偏移。基础模型由于见过大量多样化数据,能够很好地捕捉这种分布差异,从而实现有效的异常检测。

最后是半监督学习的一致性原理:相似的输入应该产生相似的输出。LoFT通过弱增强和强增强的配对使用,强制模型在不同变换下保持一致的预测,这种一致性正则化有助于学习更鲁棒的表示。

九、实际应用的潜在价值

LoFT方法的意义远超学术研究范畴,它在多个实际应用领域都具有重要价值。在医疗图像分析中,常见疾病的影像资料丰富,而罕见疾病的样本稀少,这正是典型的长尾分布场景。LoFT能够帮助构建更公平的诊断系统,避免对罕见疾病的误诊或漏诊。

在生物多样性保护领域,常见物种的照片数量众多,而濒危物种的图像资料极其有限。使用LoFT训练的识别系统能够在保护常见物种识别准确性的同时,提高对珍稀物种的识别能力,为生态保护提供技术支持。

金融风险控制是另一个重要应用领域。正常交易构成了数据的主体,而欺诈交易相对稀少但危害巨大。LoFT能够帮助构建更精准的风控模型,在保证正常交易顺畅进行的同时,提高对异常交易的检测能力。

在内容审核和网络安全方面,正常内容占绝大多数,而有害内容相对较少。传统方法往往在识别新型网络威胁时表现不佳,而LoFT的开放世界处理能力使其能够更好地应对不断变化的网络安全挑战。

此外,LoFT的高数据效率特性使其特别适合那些标注成本高昂的应用场景。在需要专家知识才能进行标注的领域,如法律文书分析、专业医疗诊断等,LoFT能够充分利用有限的标注数据和丰富的未标注数据,实现高质量的模型训练。

十、局限性与未来发展方向

尽管LoFT表现出色,但任何方法都有其局限性。首先是对基础模型的依赖:LoFT的性能很大程度上取决于所使用基础模型的质量。如果基础模型本身存在bias或者校准问题,这些问题可能会传递到最终的应用中。

其次是计算资源的考虑:虽然参数高效微调相比全参数训练更节约资源,但基础模型本身通常参数量庞大,对硬件资源仍有一定要求。这可能限制其在资源受限环境下的应用。

超参数敏感性也是一个需要关注的问题。虽然研究显示0.6是多个阈值的最优选择,但在不同的数据集和应用场景下,这些参数可能需要重新调节。如何实现参数的自动选择是一个值得探索的方向。

对于未来发展,研究团队指出了几个有前景的方向。首先是探索更先进的基础模型,随着多模态大模型的快速发展,利用这些更强大的基础模型可能进一步提升性能。

其次是设计更智能的过滤策略。当前的两阶段过滤虽然有效,但仍然相对简单。未来可以探索基于强化学习或者自适应的过滤机制,让系统能够根据数据特点动态调整过滤策略。

另一个重要方向是扩展到更复杂的场景,如多标签长尾学习、时序长尾数据等。这些场景在实际应用中很常见,但目前的研究相对较少。

最后是理论分析的深入。虽然实验结果令人满意,但对于LoFT为什么如此有效,特别是在不同类型长尾分布下的行为,还需要更深入的理论理解。

十一、对研究社区的贡献与启示

这项研究对机器学习社区做出了多方面的重要贡献。首先是观念上的转变:从"从零开始训练"转向"基于基础模型微调"。这种转变不仅提高了性能,也改变了研究者思考长尾学习问题的方式。

其次是方法论上的创新:将校准理论与半监督学习相结合,利用基础模型的校准特性改进伪标签质量。这种思路为解决其他相关问题提供了新的视角。

在practical impact方面,LoFT的高数据效率特性降低了应用门槛,使得更多资源受限的场景能够受益于先进的机器学习技术。这对于推动AI技术的普及具有重要意义。

对于开放世界学习的贡献同样重要。现实世界的数据往往是噪声的、不完整的,LoFT-OW为处理这种复杂性提供了practical solution。这种从理想化实验设置向现实应用场景的bridging具有重要价值。

此外,研究中使用的评估methodology也值得借鉴。通过在多个数据集、多种实验设置下的综合评估,研究团队展示了如何全面验证新方法的有效性。这种rigorous的实验设计为相关研究设立了标杆。

说到底,这项来自中国人民大学的研究解决了AI领域一个长期存在的实际问题。在数据不平衡如此普遍的现实世界中,让AI系统能够公平对待每个类别,不因为某些类别样本少就"怠慢"它们,这确实是一个有价值的进步。更重要的是,研究团队还考虑到了真实应用中数据质量参差不齐的现实,开发出了能够在"杂音"中工作的robust系统。

这种既解决理论问题又注重实用性的研究approach,正是推动AI技术从实验室走向现实应用所需要的。当我们的AI系统能够更公平、更准确地处理现实世界的复杂数据时,它们就能够在医疗诊断、生物保护、金融安全等关键领域发挥更大作用,真正造福人类社会。对于有兴趣进一步了解技术细节的读者,可以访问arXiv:2509.09926v1获取完整的研究论文。

Q&A

Q1:LoFT方法是什么?它解决了AI的什么问题?

A:LoFT(Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning)是中国人民大学开发的一种新方法,专门解决AI在面对不平衡数据时的"偏科"问题。传统AI在处理常见事物时很准确,但遇到稀有事物就容易出错,LoFT通过使用预训练的基础模型来改善这种不公平现象。

Q2:为什么LoFT比传统方法效果更好?

A:主要有两个原因:首先,LoFT使用预训练的"优等生"模型而不是从零开始学习,这些模型已经具备丰富知识和良好的校准能力;其次,它能智能地区分高置信度和低置信度预测,对不同情况采用不同的学习策略,避免了传统方法容易过度自信的问题。

Q3:LoFT-OW是干什么用的?它如何处理现实世界的复杂数据?

A:LoFT-OW是LoFT的开放世界版本,专门处理真实数据中混杂无关信息的问题。它采用两阶段过滤策略:先用基础模型的零样本能力进行粗筛选,再用微调后的模型进行精细过滤,能够有效识别并排除与目标任务无关的"杂音"数据。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-