微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 NLP研究中谁在做标注工作?纽伦堡工业大学等机构首次大规模审查七年间的人工标注报告质量

NLP研究中谁在做标注工作?纽伦堡工业大学等机构首次大规模审查七年间的人工标注报告质量

2026-06-08 11:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 11:16 科技行者

这项由纽伦堡工业大学NLLG实验室与奥地利IT跨学科转型大学NLP实验室联合开展的研究,以arXiv预印本形式发布于2026年6月(编号arXiv:2606.02255),有兴趣深入了解的读者可通过该编号查询完整论文。

**研究背景:一个被忽视的基础问题**

每当我们谈论人工智能在翻译、情感分析或文本生成上有多厉害时,背后总有一群默默无闻的人在支撑整个体系——他们就是人工标注者。这些人负责给数据打上标签,告诉机器"这句话是正面情绪"、"这段文字含有仇恨言论"或者"这个翻译比那个更准确"。可以说,没有他们,整个现代自然语言处理(NLP,也就是让计算机理解人类语言的技术领域)几乎无从运转。

然而,有一个问题长期以来几乎没有人系统追问:这些标注者究竟是谁?他们有没有受过专业训练?报酬是否合理?他们的背景会不会影响标注结果的客观性?以及,在发表的学术论文中,研究者到底有没有如实报告这些信息?

这个问题其实非常关键。假设一篇论文要评估AI生成的诗歌质量,而标注者里没有一个熟悉诗歌的人,那评估结果还可信吗?或者,研究偏见和仇恨言论的论文,如果标注者都来自同一文化背景,结论会不会存在系统性偏差?这就像让一群从未吃过川菜的人来评选最正宗的川菜馆,结果自然值得怀疑。

正是带着这样的疑问,这支来自德国和奥地利的研究团队开始了他们的调查工作。他们想弄清楚:在过去将近十年的NLP顶级期刊和会议论文中,研究者们到底有没有说清楚"谁在做标注、怎么做的、做得好不好"这些基本问题。

**一、这项研究究竟要查什么——七个维度的审查框架**

为了系统回答上述问题,研究团队首先设计了一套分类框架,就像为"标注报告质量"制作了一张体检表,共涵盖七大维度、二十五个具体检查项目。

第一个维度是对标注任务的基本描述,包括这篇论文研究的是什么话题、标注任务是什么类型(比如是让人打分、选类别还是画出特定片段),以及标注的结果打算用来干什么——是建数据集、评估模型输出,还是与人类表现做对比。

第二个维度是一致性水平,也就是不同标注者之间的意见有多统一。这在学术上叫"标注者间一致性"(IAA),可以用多种数学指标来衡量,比如Fleiss的κ值或Krippendorff的α值。研究团队不仅检查论文有没有报告这个数值,还检查报告的是哪种指标、具体数值是多少。

第三个维度是工作量信息,包括总共有多少标注者、标注了多少条数据、每条数据由几个人标注,以及每个人平均处理了多少条数据。

第四个维度是招募与资质信息,涵盖标注者是通过众包平台(比如Amazon Mechanical Turk)找来的,还是作者本人,抑或是学生、专家等;众包场景下有没有做资质筛选;有没有对标注者进行培训;他们的语言水平如何;以及他们的专业程度是高、中、一般,还是压根没有提。

第五个维度是报酬信息,即标注者有没有获得报酬,报酬是否具体说明了金额或比率。

第六个维度是人口学背景信息,包括标注者的年龄、性别、国籍、居住国、教育水平和政治倾向是否有所披露。

第七个维度是质量控制,包括标注完成后有没有对数据进行过滤或筛查,以及不同标注者意见不一致时是如何解决的——是多数投票、专家裁定、第三方仲裁、讨论达成共识,还是保留所有分歧意见。

这套框架的设计逻辑很清晰:它覆盖了从"找到什么人来做"到"做完后怎么保证质量"的完整流程,任何一个环节的信息缺失,都可能让读者无法判断这项标注工作是否可靠、是否可以被复现。

**二、如何完成这项调查——人工标注黄金集与AI辅助大规模提取**

建立框架只是第一步,接下来的挑战是:如何在海量论文中高效、准确地提取这些信息?

研究团队采取了两步走的策略,这两步相互验证、互为补充,就像先请专家手工鉴定真品,再用这批真品去校准机器的识别能力。

第一步是建立一个人工标注的黄金标准数据集,命名为ANNOTATEDGOLD。研究团队从ACL选集(自然语言处理领域最重要的论文库)中检索2018年到2025年间发表于ACL、EMNLP、NAACL、TACL、EACL和AACL这六个顶级会议和期刊的论文,通过34个与人工标注相关的关键词(如"manual annotation"、"human evaluation"、"crowdsourcing"等)进行初步筛选,得到候选论文后再人工精选。最终,41篇论文通过了严格筛选,其中共识别出72个独立的标注任务,构成了黄金标准集。

这41篇论文的标注工作由12位研究人员完成,包括2位教授、2位博士后、6位博士生和2位硕士生,所有人都能熟练阅读英文学术论文。每篇论文至少由两位标注者独立完成,遇到意见分歧时,先由两位标注者讨论协商,仍无法解决的则引入第三位标注者裁决。这套两阶段仲裁流程最终产出了一批经过人工共识确认的标签,作为评估后续自动化工具准确性的基准。

这项人工标注工作耗费了大量人力时间,按照德国科研基金会2026年公布的学术人员标准费率估算,整个标注和仲裁过程的人力成本约为6300欧元——这也解释了为什么黄金标准集的规模相对有限。

第二步是利用大型语言模型(LLM,简单说就是像ChatGPT这样的AI系统)来完成大规模的自动信息提取,得到的数据集命名为ANNOTATEDLLM。研究团队评估了六种不同的AI模型,其中三个是闭源的商业模型(Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、GPT-4.1),三个是开放权重模型(Qwen3.6-27B、gemma-4-31B-it、gpt-oss-120b)。

每个AI模型都被要求用同一套提示词来处理论文,提示词中包含了完整的分类框架说明、各字段的精确允许取值、字段间的逻辑依赖关系,以及一个自我审查清单——这个清单专门提醒AI"别只看论文的第一个标注部分就停下来",因为很多论文包含多个标注实验,漏掉后续的是最常见的错误之一。模型的输出被约束为固定格式的JSON数据,每篇论文中每个独立的标注实验生成一条记录。

评估结果揭示了一个令人振奋的结论:最强的AI模型Gemini-3.1-Pro在与黄金标准对比时,整体准确率达到79.9%,而人类标注者之间的一致率是79.2%;使用Krippendorff的α值衡量时,AI达到0.606,人类为0.585。换句话说,这个AI模型的整体表现已经与人类标注者相当甚至略优,这意味着用它来做大规模自动化信息提取是可行的,误差在可接受范围内。

基于这一验证结果,研究团队选用Gemini-3.1-Pro对剩余的1603篇论文进行批量处理,共提取出2667个标注任务,形成了ANNOTATEDLLM数据集,这是整个研究大规模分析的基础。整个AI提取过程的费用约为8300欧元。

值得一提的是,由于ANNOTATEDLLM是通过关键词筛选出来的、偏向于含有人工标注内容的论文集合,而非随机抽样,研究团队也专门做了验证比较:将关键词筛选结果与从相同年份和会议中随机抽取的3000篇论文对比,发现关键词筛选将"含有可标注人工标注内容"的论文比例从36%提升到了82%,效率大幅提高;同时,两种方式在各维度统计分布上的差异总体上是温和的,平均绝对差异不超过5.2个百分点。因此,ANNOTATEDLLM被定位为一个高召回率、聚焦标注内容的研究语料库,而非对全体ACL论文的代表性抽样。

**三、报告质量的现状——什么信息被说清楚了,什么被遮遮掩掩**

有了2667个标注任务的数据,研究团队开始描绘NLP论文在标注报告上的整体画像。结果既有令人欣慰之处,也有不少让人皱眉的地方。

令人欣慰的部分首先体现在"操作性信息"的报告上。招募方式(也就是标注者是从哪里来的)被报告的比例高达90.4%,标注者的专业水平信息报告比例为86.5%,总共标注了多少条数据的信息报告比例为86.0%。也就是说,论文在"谁来做、做了多少"这类基本事实上,大多数时候还是交代清楚了的。

然而,当问题变成"这些标注工作做得可不可靠、可不可以被复现"时,情况就大相径庭了。标注者是否接受过培训,只有18.7%的论文有所说明——也就是说,超过八成的论文对这件事沉默不语。标注者的语言水平,只有24.0%的论文提及。是否提供了可供他人参考的标注指南,只有34.1%。至于标注者的报酬状况,有记录的比例为56%,但没有任何具体数字的笼统提及占了相当大比例。人口学信息方面,年龄信息被报告的比例只有5%,性别为6%,国籍仅为2%,政治倾向几乎为零(1%)。标注后的质量控制(比如有没有筛除低质量标注)被报告的比例为25%,不同标注者意见不一致时如何处理的信息(仲裁流程)的报告比例为24%。

可以用一个形象的比喻来理解这种差距:在招募员工时,公司会告诉你"我们招了多少人、他们叫什么头衔",但不会告诉你"他们有没有经过岗前培训、工资是多少、背景是否和工作匹配"。对于需要复现或评估这项工作的人来说,前者提供了表面信息,后者才是真正需要的核实依据。

研究团队进一步将这25个报告维度分为三类:所有标注任务都应报告的"通用指标"(共10个,包括招募方式、培训情况、专业水平、语言水平、教育水平、标注者数量、标注条数、报酬情况、质量控制、指南可及性),只在特定条件下适用的"条件指标"(共6个,如一致性指标和仲裁方式,在单人标注任务中不适用),以及特别针对主观判断或社会现象研究任务额外要求报告的"人口学指标"(共5个,包括年龄、性别、国籍等)。

在这个框架的基础上,研究团队为每个标注任务计算了一个"报告得分"(REPORTAGE SCORE),公式很直观:已报告的适用指标数量除以应报告的适用指标总数量。得分越高,说明这篇论文对标注过程的交代越完整。

**四、时间趋势与政策效果——七年间情况在变好,但速度在放缓**

研究团队将数据按年份排列后,观察到了一条整体向上的曲线:从2018年到2021年,报告得分稳步提升,说明NLP社区在这段时间里确实越来越注重对标注流程的说明。

2022年是一个特别值得关注的时间节点,因为ACL在这一年通过NAACL会议推出了"负责任NLP检查清单"(Responsible NLP Checklist)。这份清单要求作者在提交论文时,主动回答一系列关于数据、标注和伦理的问题,初衷是推动整个领域的透明度和规范性。

然而,研究团队做了一个专门的统计模型(中断时间序列回归),用来检验2022年之后报告质量是否出现了明显跃升。结论是:没有出现明显的立即改善。报告得分确实在2022年之后继续上升,但上升的斜率明显比2022年之前更平缓,甚至低于按照原有趋势外推的预测值。

这意味着,检查清单在某种程度上可能仅仅是将2022年之前就已经自发形成的规范趋势"官方化"了,而并非独立地推动了质量提升。研究团队给出了两种可能的解释:其一,2021年的NeurIPS会议率先推出了类似的检查清单,ACL的清单在某种程度上是借鉴这一先例,相关意识实际上在2022年正式实施前就已经开始扩散;其二,不同类型的论文在这一时期的变化方向可能相互抵消,使得总体平均数掩盖了细分结构的差异。

从三个主要会议的分拆分析来看,EMNLP在整个观察期内的报告得分都相对较高,而ACL和NAACL的起点较低,但在2022年之前呈现更陡峭的上升趋势,并在2022年后逐渐向EMNLP靠拢。这三个会议在2022年后的整体走势趋于收敛,差距缩小,表明检查清单可能在促进不同会议间标准统一方面起到了一定的作用,即便对整体水平的提升效果有限。

**五、不同用途、不同标准——模型评估类研究的报告质量普遍偏低**

一个尤为突出的发现来自对标注任务"用途"的分析。研究团队将所有标注任务按照其主要目的分成三类:用于构建数据集或资源(Resource Creation),用于评估模型输出质量(Model Output Evaluation),以及用于提供人类基准表现(Human Performance)。

对比来看,用于构建数据集的标注任务,其报告得分在整个七年中都显著高于模型评估类任务,而且这个差距从未消失。模型评估类论文更频繁地省略了标注者的招募信息、报酬情况、培训过程和质量控制细节。

这个发现其实挺反直觉的。人们可能觉得,为了评估自己模型的论文,研究者应该会格外认真地说明标注过程,因为这直接关系到结论是否可信。但现实恰恰相反——正因为这些评估通常是用来为自己的模型"背书"的,研究者或许会无意中降低对方法透明度的重视程度。

研究团队进一步用统计模型(逻辑回归)来验证这一差距的显著性。结果显示,控制了发表年份之后,数据集构建类研究报告质量控制相关措施的可能性,是模型评估类研究的数倍(统计上显著,p<0.001);而发表年份本身对报告行为的影响则相对微弱。这意味着,研究的用途是预测报告质量的更强因素,而不仅仅是时间带来的整体进步。

**六、主观语言研究与其他领域的比较——差异真实但规模有限**

研究团队还专门分析了涉及主观判断和社会语言现象的论文(如仇恨言论标注、立场判断、情感分析、偏见检测等),将其与其他NLP研究对比,因为这类研究在理论上对标注者背景的依赖性更强——标注者的政治立场、文化背景和语言母语情况,都可能影响他们对"这句话算不算骚扰"这类问题的判断。

结果发现,这类论文确实在若干细节上表现得稍好:招募信息的报告率略高,招募到的标注者中众包和混合来源的比例更高,作者自己标注的情况较少出现,在涉及众包的场景下质量筛查的比例也更高,本族语标注者信息的报告也更频繁(χ?检验显著,p<0.001)。

然而,在整体报告得分上,这类论文与其他类型论文并无系统性差异。也就是说,主观语言研究者虽然在"找谁来做"这个问题上更细心,但在培训、补偿、质量控制等更深层的方法学透明度上,并没有表现出全面的优势。在不一致意见的处理上,这类论文更倾向于使用多数投票或保留所有标注者分布的方式,而较少采用专家裁决或讨论协商,这意味着标注者之间的分歧在这些研究中往往被简单化处理,而非深入解决。

**七、研究建议——三条具体的改进方向**

基于上述发现,研究团队提出了三条具体的改进建议。

第一条是设立一个最低限度的报告标准,要求所有使用人工标注的论文,无论标注目的如何,都必须说明以下信息:标注者来源、总标注者数量、总标注条数、每条数据由几人标注、是否进行过培训、语言水平、专业程度、报酬情况、质量控制措施,以及标注指南是否可以获取。这些不是可有可无的附加信息,而是读者判断标注结论是否可信的最低必要条件。

第二条是倡导任务敏感型报告标准。对于涉及主观或社会现象的标注任务,人口学信息尤为重要;对于生成基准数据或评估标签的任务,一致性指标、仲裁流程和质量控制信息是核心。不同类型的任务应有不同的报告重点,而不是一刀切。

第三条是针对模型评估类研究的专项要求。这类研究在报告质量上普遍落后,但它们往往是论文主要结论的直接证据来源,因此反而应当提高透明度标准,而非降低。

归根结底,这项研究的核心主张很简单:人工标注的过程描述不应该只是学术论文的"附属品",而应当被视为研究方法本身的一部分。就像一项药物临床试验不能只报告最终疗效,还必须说明谁参与了试验、如何控制干预变量一样,NLP研究也需要把"谁来标注、怎么标注"这件事当成科研记录的核心内容来对待。

说到底,这项研究做的事情就是给NLP领域做了一次体检,发现它在某些外显症状上("找了多少人标注了多少数据")表现不错,但在内在健康指标上("标注者合不合适、流程可不可重复")还有相当大的提升空间。特别是在AI越来越多地被用于评估AI的今天,人工标注的质量和透明度更加重要——毕竟,如果我们连"评估这个AI模型的人是谁、他们靠不靠谱"都说不清楚,那这些评估结果又能值多少分呢?这个问题并不是针对任何个别研究者的,而是整个领域需要共同面对的结构性挑战。如果你对这份完整的调查报告感兴趣,可以通过arXiv编号2606.02255检索原文,数据集和代码也将在论文正式接受后公开发布。

---

Q&A

Q1:NLP论文中的人工标注报告有哪些信息经常缺失?

A:根据这项大规模审查,最常被遗漏的信息包括:标注者是否接受过培训(仅18.7%的论文有说明)、标注者的语言水平(仅24%)、是否公开了标注指南(仅34.1%),以及标注者的年龄、性别、国籍等人口学背景(报告比例普遍低于10%)。这些信息对于判断标注结果是否可靠、能否被复现至关重要。

Q2:ACL负责任NLP检查清单对标注报告质量有没有实质改善效果?

A:这项研究通过统计模型分析发现,ACL检查清单于2022年推出后,报告得分并没有出现明显的立即提升。报告质量确实在持续改善,但改善速度反而比清单推出之前更慢,说明检查清单更多是将已有趋势"官方化",而非独立推动质量跃升。不过清单可能有助于减小不同会议之间的报告差距。

Q3:为什么用于模型评估的标注比用于建数据集的标注报告质量更差?

A:这项研究发现,数据集构建类研究报告质量控制措施的可能性,在统计上显著高于模型评估类研究,差距接近数倍。研究者推测,评估类标注通常是为了证明自己模型的表现,缺乏外部数据集那种"供他人使用"的压力,因此在方法学透明度上的重视程度相对较低。但这类研究恰恰直接支撑着论文的核心结论,报告不足反而更值得关注。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-