微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 大语言模型能否像人类一样产生意见分歧?苏黎世联邦理工学院团队揭示AI标注者的局限性

大语言模型能否像人类一样产生意见分歧?苏黎世联邦理工学院团队揭示AI标注者的局限性

2025-06-30 10:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-30 10:52 科技行者

这项由苏黎世联邦理工学院的Jingwei Ni、Yu Fan、Vilém Zouhar等研究人员与苏黎世大学、博科尼大学合作完成的研究发表于2025年6月,论文可通过GitHub仓库(https://github.com/EdisonNi-hku/Disagreement_Prediction)获取代码和数据。研究团队深入探讨了一个极其重要却常被忽视的问题:当我们用AI来替代人类进行文本标注时,它们能否像人类一样产生有价值的意见分歧?

想象一下这样的场景:五位不同背景的老师在评判同一篇作文时,可能会给出不同的分数。有的老师重视创意,有的看重语法,有的关注逻辑结构。这种分歧并非坏事,反而反映了评判标准的多元化和主观性。然而,当我们让AI系统来做同样的工作时,它们往往被训练成只追求"标准答案",就像一台只会按固定程序运行的机器。

研究背景显示,在自然语言处理领域,人类标注者之间的意见分歧非常普遍。这些分歧往往包含着宝贵信息,比如任务的主观性程度、样本的模糊性,以及不同文化背景下的理解差异。然而,传统做法通常是通过"少数服从多数"的投票方式来消除这些分歧,这就像把一首交响乐简化成单调的节拍器声音一样,丢失了丰富的层次和细节。

随着大语言模型在文本分类、偏好判断和观点模拟等任务中表现越来越出色,人们开始用它们来替代昂贵的人工标注。然而,现有的评估方法主要关注这些模型能否准确预测多数人的观点,却忽略了一个关键问题:它们能否捕捉到人类标注者之间那些有意义的分歧?这就像评估一位翻译的水平时,只看他能否翻译出大概意思,却不关心他是否能传达原文的细腻情感和文化内涵。

一、研究团队的巧妙设计:用"温度计"测量AI的分歧感知能力

研究团队设计了一套精妙的实验方案,就像制作一台专门测量"意见分歧温度"的精密仪器。他们的核心思路是:既然人类在某些问题上会产生分歧,那么一个优秀的AI系统也应该能够预测哪些问题容易引起分歧,以及分歧的程度有多大。

这个实验的设计思路可以用一个简单的类比来理解。假设你是一位经验丰富的咖啡师,当顾客点咖啡时,你不仅要知道大多数人会选择什么口味,还要能预测哪些咖啡可能会让顾客产生争议,比如有些人觉得太苦,有些人觉得刚好。研究团队想要验证的就是:AI系统是否具备这种"预测争议"的敏感度。

研究团队选择了五个具有代表性的数据集进行实验。首先是仇恨言论检测任务,使用了著名的Gab仇恨语料库。这类任务天然具有主观性,因为对于什么构成"仇恨言论",不同文化背景和价值观的人可能有完全不同的判断标准。其次是情感分类任务,使用GoEmotions数据集,研究团队将其分解为三个子任务:积极情感、消极情感和模糊情感的识别。最后是聊天机器人响应偏好分类,使用HelpSteer2数据集,评估AI助手回答的有用性。

每个数据集都被精心划分为两个子集:随机子集和高分歧子集。随机子集就像从一般人群中随机抽样,包含了各种程度的意见一致性和分歧;而高分歧子集则专门挑选那些至少有两位标注者与多数意见不同的样本,这些样本就像争议性话题一样,更容易暴露AI系统在处理分歧时的局限性。

二、两把评估"尺子":方差相关性与分布对齐度

研究团队设计了两个互补的评估指标,就像用两把不同的尺子来测量同一个物体的不同维度。这种设计的巧妙之处在于,单一指标往往无法全面反映AI系统的表现,就像仅凭身高无法判断一个人的整体体型一样。

第一个指标叫做"方差相关性",它测量的是AI预测的不确定性与人类标注不确定性之间的关联程度。这就像测试一个天气预报员是否能准确识别哪些天气情况更难预测。如果人类标注者对某个样本存在较大分歧,那么一个优秀的AI系统也应该对这个样本表现出较高的不确定性。这个指标的计算方式是比较AI预测方差与人类标注方差之间的皮尔逊相关系数。

第二个指标称为"分布对齐度",它直接比较AI预测的概率分布与人类标注的实际分布之间的差异。这个指标更加严格,不仅要求AI能识别不确定性,还要求它能准确预测分歧的具体模式。比如,如果60%的人类标注者认为某条评论是仇恨言论,那么AI系统最好也能预测出大约60%的概率,而不是简单地说"这很难判断"。

这两个指标的结合使用非常重要,因为它们各有所长又互相补充。方差相关性更关注AI是否具备"感知争议"的能力,而分布对齐度则检验AI是否能准确"量化争议"。就像评估一位医生的诊断能力时,我们既要看他能否识别疑难杂症,也要看他对病情严重程度的判断是否准确。

三、大模型"擂台赛":RLVR与RLHF的意外对决结果

研究团队组织了一场规模宏大的模型比较实验,涉及10个不同规模的大语言模型,参数量从80亿到6710亿不等,覆盖了当前主流的模型架构。这就像组织了一场跨越不同重量级的综合格斗比赛,让我们能够全面了解不同类型AI系统的真实实力。

实验中最引人注目的发现是关于两种不同训练方式的模型表现差异。RLHF模型(通过人类反馈强化学习训练的模型)就像那些通过大量与人类互动而学会理解人类偏好细微差别的AI助手。而RLVR模型(通过可验证奖励强化学习训练的模型)则更像经过专门训练来解决标准化考试题目的学霸,它们在有明确答案的任务上表现出色,但在处理主观性问题时却显露出明显的局限性。

实验结果令人意外地显示,RLVR模型在预测人类意见分歧方面的表现竟然不如RLHF模型。具体来说,当面对高分歧样本时,RLVR模型的表现显著下降,就像一位习惯了标准化考试的学生突然面对开放性论述题时的困惑。数据显示,在高分歧子集上,RLVR模型的胜率仅为18%,远低于预期。

更有趣的发现是关于推理过程的作用。对于RLHF模型来说,加入链式思维推理(CoT)显著提升了其预测分歧的能力,胜率达到70%。这就像给一个有经验的咨询师更多时间思考,他就能更好地理解不同观点之间的细微差别。然而,对于RLVR模型,即使强制它们进行更长时间的推理,性能改善也很有限,这表明问题的根源可能在于训练目标的根本差异,而非推理时间的长短。

四、分布表达方式的"语言游戏":直接表述胜过抽样统计

研究团队还深入探讨了AI系统表达不确定性的不同方式,这就像比较两种不同的沟通风格:直接表达观点还是通过行为暗示。他们对比了两种主要的分布预测方法:直接询问模型对各选项的概率判断(称为"言语化分布"),以及通过多次采样统计模型输出频率(称为"采样化分布")。

实验结果清晰地表明,言语化分布方法在预测人类意见分歧方面明显优于采样化方法,胜率高达95%。这个发现的深层含义很有趣:当我们要求AI直接说出它对某个问题的不确定程度时,它往往能给出更准确的答案;但如果我们通过观察它的多次选择来推断其不确定性,效果反而不如直接询问。

这种差异可以用一个生动的比喻来理解。假设你想知道一位朋友对某部电影的真实看法,直接问他"你觉得这部电影怎么样,给个1到10分的评价",往往比观察他在不同场合谈论这部电影时的表现更能得到准确的答案。AI系统似乎也遵循类似的规律:当被直接要求量化不确定性时,它们能够调用更深层的"内在知识"来给出合理的判断。

然而,有趣的是,在预测多数人观点(即传统的分类准确性)方面,采样化方法反而表现更好。这提醒我们,预测意见分歧与预测多数观点是两个截然不同的任务,需要不同的评估策略和方法。就像一位优秀的民意调查专家既要能预测选举结果,也要能识别哪些议题可能引起社会分化一样。

五、少样本学习的"双刃剑"效应:情境决定成败

研究团队还考察了少样本学习(few-shot learning)对模型表现的影响。少样本学习就像给AI系统提供几个示例来"热身",帮助它更好地理解任务要求。然而,实验结果显示,这种方法的效果高度依赖于具体的任务和数据集特征。

在某些数据集上,少样本示例确实能够显著提升模型预测分歧的能力。比如在Gab仇恨语料库的随机子集上,使用少样本学习的模型胜率达到80%。这种情况下,示例就像提供了一份"参考答案",帮助模型更好地校准其判断标准。

然而,在其他数据集上,少样本学习反而可能产生负面影响。特别是在HelpSteer2数据集上,使用少样本学习的模型表现明显下降,胜率仅为26.67%。这种现象可能源于示例选择的偏差或任务特性的差异。就像给不同的学生提供同样的复习材料,有的学生能从中受益,有的学生反而会被误导一样。

这个发现提醒我们,在实际应用中,需要根据具体任务的特点来决定是否使用少样本学习。盲目地应用这种技术可能不仅无法改善模型性能,反而可能引入不必要的偏差。

六、模型规模的"边际效应":大未必总是美

关于模型规模对性能影响的分析揭示了一个微妙而重要的现象。传统观念认为,更大的模型往往意味着更好的性能,就像更大的图书馆通常包含更多的知识一样。然而,在预测人类意见分歧这个特定任务上,模型规模的正面效应并不总是显著的。

实验数据显示,虽然增加模型规模在统计上确实能带来性能提升,但这种提升在高分歧样本上并不明显,在预测多数观点的传统任务上反而更加显著。这个发现的含义很有趣:模型规模的增加似乎更多地提升了模型识别"标准答案"的能力,而不是理解"观点多样性"的敏感度。

更令人关注的是,在某些特定情况下,研究团队甚至观察到了负面的规模效应。比如在GoEmotions情感分类的某些子任务上,较大的模型表现反而不如较小的模型。这种现象可能反映了大模型在训练过程中过度拟合"主流观点"的倾向,从而丧失了对边缘观点和细微分歧的敏感性。

这个发现对AI系统的实际部署具有重要的指导意义。它提醒我们,在选择模型时不应该盲目追求参数规模,而应该根据具体的应用场景和任务要求来权衡不同因素。特别是在需要理解和保留人类观点多样性的应用中,中等规模的模型可能是更好的选择。

七、传统方法的"意外回归":小而精的编码器模型显威力

研究团队还将最新的大语言模型与传统的基于编码器的小模型进行了对比,结果令人意外。他们使用ModernBERT和DeBERTa-V3等相对较小但经过精心设计的模型,在拥有大量人类标注数据的情况下进行微调,这些模型在多个数据集上的表现竟然超过了参数量是其数十倍的大语言模型。

这种现象可以用一个形象的比喻来理解:就像一位专门研究某个地区方言的语言学家,在理解当地人语言细微差别方面,可能比一位博览群书的文学教授更加敏锐。小模型虽然"知识面"不如大模型广博,但在特定任务上经过专门训练后,它们能够更精准地捕捉任务相关的细微模式。

这个发现特别有价值,因为它表明在某些应用场景中,传统的监督学习方法仍然具有不可替代的优势。当我们有足够的高质量标注数据时,针对性的模型微调可能比使用通用大模型更加有效。这就像培养专科医生往往比培养全科医生在特定疾病的诊断上更精准一样。

然而,这种优势也有其代价和局限性。小模型的训练需要大量的人工标注数据,而这正是许多实际应用中最稀缺的资源。相比之下,大语言模型的优势在于其"零样本"或"少样本"的泛化能力,能够在没有大量标注数据的情况下处理新任务。因此,在实际应用中,选择哪种方法需要在数据可得性、计算资源和任务特性之间进行综合权衡。

八、深层思考:AI标注者的哲学困境

这项研究揭示了AI系统在模拟人类标注行为时面临的一个根本性哲学困境。传统的AI训练目标强调准确性和一致性,追求在给定输入下产生"正确"的输出。然而,人类的认知过程本质上是多元化和情境化的,同一个问题在不同的人看来可能有完全合理但截然不同的答案。

这种矛盾在RLVR模型的表现上体现得尤为明显。这类模型被专门训练来处理有标准答案的问题,就像被培养成只会解数学题的学生。当面对需要主观判断的任务时,它们倾向于寻找一个"最优解",而不是承认答案的多样性。这种训练范式的根本问题在于,它假设每个问题都有一个客观正确的答案,而这与人类认知的多样性和情境性相冲突。

相比之下,RLHF模型的训练过程本身就包含了人类偏好的多样性。在训练过程中,这些模型接触到了来自不同人类评判者的反馈,因此在某种程度上"学会"了观点可能存在分歧这一现实。这就像一个在多元文化环境中成长的孩子,天然地具备了理解不同观点的能力。

这个发现对AI系统的未来发展具有深远的启示意义。它表明,如果我们希望AI系统能够真正理解和模拟人类的复杂性,就需要在训练目标和评估标准上进行根本性的反思。我们不能仅仅追求"正确率",还需要考虑"观点覆盖度"和"分歧敏感性"等更加细致的指标。

九、实际应用的"多重警示":何时该谨慎使用AI标注

这项研究的实用价值在于为AI标注系统的实际部署提供了具体的指导原则。研究结果表明,在不同类型的任务中,AI标注者的可靠性存在显著差异,需要根据任务特性来决定使用策略。

对于主观性较强的任务,比如仇恨言论检测或情感分析,研究结果建议谨慎使用RLVR类型的模型。这类任务天然存在较大的人际分歧,而RLVR模型往往无法准确捕捉这种分歧,可能导致重要观点的遗漏。在这种情况下,如果必须使用AI标注,建议选择RLHF模型并结合链式思维推理,同时保留一定比例的人工标注作为质量控制。

对于相对客观的任务,比如语法错误检测或事实核查,RLVR模型的表现可能更加可靠。这类任务的标准答案相对明确,正好发挥了RLVR模型的优势。然而,即使在这些任务中,也需要定期评估模型是否能够识别边界情况和模糊案例。

研究还发现,当人类标注者本身存在高度分歧时,所有类型的AI模型都表现不佳。这提醒我们,在某些情况下,分歧本身可能是有价值的信息,不应该被简单地"消除"。在这种情况下,更好的策略可能是保留多个标注结果,而不是强求一个统一的"正确答案"。

十、技术细节的"工程智慧":实验设计的精妙之处

研究团队在实验设计上展现出了相当的工程智慧,这些看似技术性的细节实际上对研究结果的可靠性起到了关键作用。他们采用了严格的数据筛选标准,只使用至少有4位标注者参与的样本,这样做的目的是确保观察到的分歧是真实的认知差异,而不是随机的标注错误。

在模型选择上,研究团队精心挑选了具有代表性的模型对,比如DeepSeek-R1系列(RLVR模型)与对应的Llama系列基础模型(经过RLHF训练)。这种配对设计确保了比较的公平性,因为两类模型具有相似的基础架构和参数规模,唯一的差异在于训练方法。

在评估指标的设计上,研究团队巧妙地结合了相关性分析和分布差异分析。这种双重验证机制确保了结果的稳健性:即使某个指标可能受到特定因素的影响,另一个指标也能提供交叉验证。这就像在科学实验中使用多种测量仪器来确保结果的准确性一样。

特别值得注意的是,研究团队还设计了专门的"高分歧子集"来测试模型在极端情况下的表现。这种设计类似于压力测试,能够更清晰地暴露不同模型之间的差异。在常规的随机采样中,大部分样本可能不存在显著分歧,因此模型间的差异可能被"稀释";而在高分歧子集中,模型的真实能力差异会被放大显现。

研究团队的计算资源投入也相当可观,整个实验涉及超过400小时的GPU计算时间,这确保了实验结果的统计显著性。他们使用了多种不同规模的模型,从80亿参数到6710亿参数,这种全谱覆盖使得研究结论具有更强的泛化性。

十一、未来展望:从"标准化"走向"个性化"的AI标注时代

这项研究为AI标注领域的未来发展指明了几个重要方向。首先是训练目标的重新设计。传统的AI训练追求"唯一正确答案",但未来的AI系统可能需要学会"欣赏多样性"。这意味着我们需要开发新的训练算法,让AI系统不仅能给出准确的预测,还能准确估计预测的不确定性和可能的观点分歧。

其次是评估标准的多元化。研究表明,传统的准确率指标在某些情况下可能是误导性的。一个在传统指标上表现优秀的模型,在处理分歧预测时可能表现糟糕。因此,我们需要建立更加全面的评估框架,将分歧敏感性、不确定性量化能力等指标纳入常规评估体系。

第三是应用策略的精细化。研究结果表明,不同类型的AI模型适用于不同类型的任务。未来的AI系统可能需要具备"自我认知"能力,能够识别当前任务是否属于自己的"舒适区",并在必要时寻求人类协助或推荐更合适的模型。

研究还启发我们思考AI与人类协作的新模式。与其将AI视为人类的完全替代者,我们可能需要发展更加精细的协作策略。比如,AI系统可以专门负责识别哪些样本可能引起分歧,然后将这些样本交给人类标注者处理,而将相对明确的样本保留给AI处理。

从更宏观的角度来看,这项研究反映了AI发展中的一个重要趋势:从追求"超人性能"转向理解"人类复杂性"。早期的AI研究往往以超越人类在特定任务上的表现为目标,但随着AI系统越来越多地参与需要主观判断的任务,理解和模拟人类认知的多样性变得同样重要。

说到底,这项研究揭示了一个深刻的道理:真正智能的AI系统不应该只是一台追求标准答案的机器,而应该是一个能够理解观点多样性、尊重认知差异的智能伙伴。当我们在朋友圈看到一条引起争议的消息时,一个真正智能的AI助手不应该简单地告诉我们"这是对的"或"这是错的",而应该帮我们理解"为什么不同的人会有不同的看法"。这种转变不仅是技术上的进步,更是AI发展理念上的升华。

这项研究为我们打开了一扇新的窗户,让我们看到了AI系统发展的另一种可能性。在这个可能性中,AI不再是冰冷的判断机器,而是能够理解人类复杂性的智慧伙伴。虽然我们还有很长的路要走,但这项研究为我们指明了前进的方向。对于那些想要深入了解这一领域的读者,可以通过研究团队提供的GitHub仓库获取完整的代码和数据,进一步探索这个充满可能性的研究领域。

Q&A

Q1:什么是人类标注分歧?为什么它很重要? A:人类标注分歧指的是不同的人对同一内容给出不同判断的现象,比如有人认为某条评论是仇恨言论,有人认为不是。这种分歧很重要,因为它反映了任务的主观性、样本的模糊性和不同文化背景的差异,包含宝贵信息,不应该被简单地通过投票消除。

Q2:RLVR模型和RLHF模型在预测分歧方面有什么不同? A:RLVR模型专门训练来解决有标准答案的问题,在预测人类意见分歧方面表现较差,特别是面对高争议样本时胜率仅18%。RLHF模型通过人类反馈训练,更能理解观点多样性,加入推理后在分歧预测上胜率达70%。

Q3:这项研究对实际使用AI标注有什么建议? A:研究建议在主观性强的任务(如仇恨言论检测)中谨慎使用RLVR模型,优先选择RLHF模型并结合推理功能。对于客观性较强的任务,RLVR模型表现更可靠。同时,当人类本身存在高度分歧时,保留多个标注结果可能比强求统一答案更有价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-