微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Layer 6 AI与多伦多大学联手:当AI开始给AI阅卷,谁来监考这位"监考老师"?

Layer 6 AI与多伦多大学联手:当AI开始给AI阅卷,谁来监考这位"监考老师"?

2026-06-01 15:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-01 15:16 科技行者

这项由加拿大多伦多大学与Layer 6 AI联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.21748,感兴趣的读者可以通过这一编号找到完整原文。

先从一个让很多人感同身受的场景说起。你在网上用AI助手聊了很久,讨论了一个你关心的医疗问题。AI给出的每一条回答看起来都言之凿凿,但到了第三轮对话,它悄悄把"某种药物是主要治疗方案"改成了"这只是众多方案之一"。你没有注意到,因为你正沉浸在对话里,不会专门回头比对每一句话的措辞。这种前后矛盾的小滑点,就是AI在多轮对话中最容易滋生的问题之一,而人类评估者往往无暇捕捉。

正因如此,现代AI开发者越来越多地让另一个AI来充当"阅卷老师"——这种做法被称为"LLM-as-a-Judge",即让大型语言模型来评判其他大型语言模型的输出质量。但问题随之而来:这位"AI阅卷老师"自身的水平如何?它真的能看出对话中藏得很深的缺陷吗?还是它只是在猜答案,碰巧猜对了?

这项研究的出发点正是要建立一套严格的考场,专门考验这些AI阅卷老师的真实能力。研究团队开发了一套名为RankJudge的系统,可以自动生成专门用来测试AI评判能力的试题,并在机器学习、生物医学和金融三个专业领域中,对21个当前最先进的AI模型进行了全面测评,最终给出一份能力排行榜。

一、为什么现有的"考题"太简单了

在理解RankJudge的独特之处之前,有必要先了解现有测评方法的局限。过去的AI评判基准测试,大多针对的是单轮问答——就像一张只有一道填空题的试卷,AI只需要回答"北京是中国的首都吗?"这样的单一问题。但真实世界中人们使用AI助手的场景,更像是一段持续进行的对话,前面说的话会影响后面的语境,前面做出的承诺要在后续持续遵守。

单轮测试无法暴露的缺陷,在多轮对话中才会真正显现。如果一个AI在第二轮说了X,又在第五轮悄悄改口说了非X,仅看每一轮的单独回答,每轮都可能是"正确"的,但把整个对话放在一起,就出现了自相矛盾的问题。同样,如果用户在开头明确说"我只关心药物的副作用,不要讲用法",一个好的AI应该在整个对话中记住这个限制,而不是过了几轮就"忘记"了。这类跨轮次才能察觉的缺陷,就是多轮对话测试的核心挑战。

现有测试的第二个弱点,是评判标准太粗糙。过去的系统通常只问阅卷AI一个问题:"这两段回答里哪个更好?"这就像只看最终比赛结果,而不管球员的踢法对不对——一个球队赢了,可能是因为对方犯规,而不是因为自己发挥出色。一个AI评判系统选对了"更好的对话",但它真的看出了问题出在哪一轮、属于哪种类型的缺陷吗?还是它只是凭感觉猜对了方向?现有的评测体系无法区分这两种情况。

第三个问题,是现有的测试题库是固定的。题库一旦建好,随着AI能力的提升,那些题目就会越来越容易,失去区分不同能力水平的功能,就像一张五年前设计的高考卷,今天的学生普遍能得高分,并不代表他们真的更聪明了,只是题目对他们来说已经太简单了。

RankJudge的设计,正是要同时解决这三个问题。

二、考题是怎么出的:给对话注入一颗隐形"地雷"

RankJudge的核心机制,可以用一个简单的比喻来理解。假设你要测试一位编辑的眼力,看他能不能在一篇精心撰写的文章中发现一个藏得很深的错误,你不会直接给他一篇到处是错误的烂文,而是会给他两篇几乎一模一样的文章,其中一篇里悄悄埋了一个逻辑漏洞。真正厉害的编辑才能找出哪篇有问题、问题出在哪一段、属于什么类型的错误。

RankJudge的做法与此完全类似。系统会针对同一份参考文件——可以是一篇学术论文、一段医学资料或一份财报——生成两段多轮对话。这两段对话的用户问题不同,但讨论的素材相同,问题的深度和难度也刻意被设计为相近。其中一段对话是完全干净的,每一轮的回答都准确、清晰、完整;另一段对话则在某一轮被悄悄注入了一个特定类型的缺陷,而且这个缺陷在外观上不能太显眼,要让读者快速浏览时不会立刻察觉。

这个缺陷的具体类型,来自研究团队精心设计的一套分类体系,共涵盖七种AI助手在多轮对话中最典型的失误模式。自相矛盾是其中之一,指AI在后面的轮次里悄悄推翻了前面自己说过的话,不是明显的翻转,而是偷偷替换了一个修饰词,从"这是主要原因"变成"这只是原因之一"。回避问题是另一种,AI看起来说了很多,引用了数字,提到了术语,但就是没有正面回答用户真正想知道的事情,让用户读完还是不知道该怎么办。结构混乱则是指正确的内容全都在,但组织方式一团糟,把高层次结论和底层细节混在一起,让人要费很大力气才能找到重点。

此外还有编造答案——当问题涉及参考材料里没有提到的信息时,AI不承认不知道,而是自信地造出一个听起来有理的答案;指令遗忘——用户在开头设定了一个要求,比如"只聊结论,跳过方法论",AI前几轮遵守了,但之后悄悄违反了,而且表现得浑然不觉;不请自来的歧义处理——用户问了一个模糊问题,正确做法是先确认用户的意思,但AI直接挑了一个解释就答下去,没有给用户澄清的机会;以及多此一举的拒绝——参考材料里明明有答案,AI却说"对不起,这超出了我的知识范围"。

每种缺陷都有对应的"良性版本"描述,明确告诉生成系统:如果这一轮不注入缺陷,应该是什么样的正确表现。这样,两段对话的结构才能保持真正的可比性——都面临类似的情境压力,只是处理方式一个正确,一个有瑕疵。

三、题目质量怎么保证:三道闸门加一道人工复核

一道好的考题,不能太难也不能太简单,更不能本身就有错误。如果考题本身标错了答案,那测出来的就不是学生能力,而是学生猜对错误答案的运气。RankJudge通过两套独立的质量控制机制来确保每道题的可靠性。

第一套机制是三层自动验证流水线。生成对话之后,系统不会直接把它放进题库,而是让一个独立的验证模型对每对对话进行检查。第一关叫"连贯性检查",审查的是对话生成计划是否合理——这种用户行为风格和这种缺陷类型的组合,在所用的参考材料上能不能自然地发生?如果一个"聚焦型"用户专注提问非常具体的问题,而系统想注入"没有澄清歧义"这种缺陷,但这种用户风格根本不会产生歧义问题,那这道题的设计从逻辑上就站不住脚。第二关叫"执行一致性检查",确认实际生成的对话确实按照计划运行了——干净的那段对话里没有出现任何缺陷,有缺陷的那段对话里缺陷确实出现在了预定的那一轮,而且只出现了那一种,不多不少。第三关叫"事实核查",把每段对话中助手做出的每一个具体陈述拆解成独立的"原子声明",逐一对照参考材料验证是否有依据——唯一允许存在未被证实声明的地方,是那段有缺陷的对话里那一个特定的缺陷轮次。

在1200对初始生成的对话中,经过这三关筛选,最终留下了821对通过验证的候选题目,通过率约为68%,损耗最大的关卡是事实核查,淘汰了210对。其中有一个有趣的现象:结构混乱这种缺陷类型的通过率极低,从174对候选一路筛到只剩34对进入题库。这是因为这种缺陷的难度窗口非常窄——必须乱到让专业验证系统能够认定"确实乱了",又不能乱到让任何一个普通读者一眼就看出来,找到这个平衡点本身就是一件极其精细的事。

第二套质量控制机制,来自一个更具创意的统计设计。研究团队让21个AI阅卷老师都去评判同一套题目,然后用一种叫做Bradley-Terry模型的评分算法(这是一种在国际象棋排名中也有应用的经典配对竞争模型),同时给AI阅卷老师和每道题目打分。题目的分数反映的是"难度"——那些几乎所有AI都答错的题,会获得极高的难度分。

这个发现至关重要:那些难度分排在最高5%的题目,经过人工审查后发现,这些"超难题"里藏着大量标注有问题的案例——或者是两段对话都暗含某种缺陷,或者是缺陷类型模糊到连人类都难以判断该归入七种中的哪一类。既然几乎所有AI都答不对,很可能不是AI能力不够,而是题目本身出了问题。于是研究团队在发布最终评测集时,主动剔除了难度最高的5%题目。

为了验证这个判断,研究团队额外进行了一项人工标注实验。六位研究人员从703对通过自动验证的题目中随机抽取了120对,每人审查20对,将每对题目标记为"干净"、"模糊"或"噪声"。结果发现,在难度分较低的题目中,绝大多数都被标注为"干净";而在难度分极高的那些题目里,"模糊"和"噪声"的比例明显攀升。这个分布模式与统计模型的预测完全吻合,验证了"切掉高难度尾部"这个策略的合理性。

还有一项更直接的验证实验:研究团队拿一个规模相对小的AI模型(Qwen3.5-4B)做了微调实验,分别用难度最高的20%题目、难度中等的20%题目、以及难度最低的60%题目作为训练数据,看哪组数据训练出来的模型在干净测试集上表现更好。结果呈现出一个非常清晰的梯度:用最低难度那60%训练出来的模型,得分是用最高难度那20%训练出来模型的两倍多。训练数据越干净,模型学得越好,这进一步印证了高难度题目里确实存在大量标注噪声。

四、谁来扮演用户:对话的另一半也要精心设计

一道好的考题,不只需要精心设计"答题侧"(AI助手的回答),"提问侧"(用户的问法)同样至关重要。RankJudge在生成每对对话时,不仅指定了助手要体现哪种缺陷,同时还随机指定了用户会以哪种风格与助手互动,共设计了七种用户行为原型。

聚焦型用户会专注在一两个具体话题上深挖,不断追问前一轮回答的细节。整合型用户会不断要求助手把材料的不同部分联系起来,偏好跨章节的综合分析。跳跃型用户会在毫无预兆的情况下突然切换话题,考验助手能否快速适应语境转换。怀疑型用户会持续追问证据、质疑结论,逼着助手为自己的每一个说法提供更充分的依据。误信型用户会自信地提出一些错误的前提,比如引用了一个不存在的数字或颠倒了一个结论,考验助手是否有勇气纠正用户的错误。探索型用户会把材料当成起点,不断问"这意味着什么"、"如果是这样,那……会怎样",把话题延伸到材料边界之外。模糊型用户则经常使用不清晰的表达,比如用"那个东西"指代一个没有明确说出来的概念,考验助手面对歧义时是主动澄清还是自行猜测。

设计这七种用户原型的用意,是确保每道题不只在一个固定的对话场景下成立。如果系统只生成"聚焦型用户"的对话,那么题库里所有题目的对话节奏都会高度相似,AI阅卷老师可能通过识别对话的结构模式来答题,而不是真正去理解内容。通过混合七种用户风格,题库里的对话在形态上更加多样,AI必须真正读懂内容才能做出准确判断。

五、21位"阅卷老师"的成绩单:差距高达1200分

最终的测评结果,展示在一份用Elo分数(类似于国际象棋排名的评分体系,分数越高代表能力越强)表达的排行榜上。21个被测AI的Elo分数从最低的762分到最高的1959分,跨度接近1200分——这是一个巨大的差距,说明RankJudge这套测试确实能把不同能力水平的AI阅卷老师清晰区分开来。

排在首位的是谷歌的gemini-3.1-pro,得分1959分,比排在第二位的OpenAI gpt-5.5(1867分)高出约90分。位列第三到第六的分别是gemini-3-flash、kimi-k2.6、sonnet-4.6和gemma-4-31b,这几个模型的分数相当接近,都在1695到1724分区间。

一个出人意料的发现是:开源模型的表现并不比商业闭源模型差多少,甚至有几个开源模型直接超过了不少顶级商业模型。kimi-k2.6是开源模型,排名第四;gemma-4-31b也是开源模型,排名第六。相比之下,Anthropic的旗舰模型opus-4.7排在第11位,在自己同门的sonnet-4.6(排名第五)之后,这个反转让研究团队产生了特别的好奇,后来专门展开了深入分析。

从性价比角度来看,结论同样值得关注。gemma-4-31b的每次评判费用约为0.0023美元,而gemini-3.1-pro的费用大约是它的十倍,但gemma-4-31b的得分只比gemini-3.1-pro低264分。对于需要大规模评估的场景,这意味着可以以一成不到的成本获得相当接近的评判质量。而那些花了大量token(也就是计算资源)但得分中等的模型,则明确说明"话多不等于判断准",冗长的分析并不代表更好的评判能力。

六、弱模型的共同病:把一切错误都归结为"回避问题"

在分析21个模型的预测模式时,研究团队发现了一个极其规律的现象,可以称之为"能力越弱,分类越懒"。

研究团队统计了每个AI阅卷老师对七种缺陷类型的预测分布,然后和实际题目中七种缺陷的真实分布做了对比。如果一个AI的判断非常准确,它预测的分布应该和真实分布几乎完全吻合。但实际结果是:越靠近排行榜底部的模型,就越倾向于把大量错误归类为"回避问题"这一种,而对"没有澄清歧义"和"多此一举的拒绝"这两种类型的预测则严重不足。

最弱的几个模型对"回避问题"的过度预测比例高达40个百分点——也就是说,它们在七类缺陷中有将近一半都贴上了"回避问题"的标签,而真实比例根本没有那么高。这说明这些模型面对无法准确判断的情况时,会把"回避问题"当成一个万能的垃圾桶,把拿不准的东西统统往里扔。

相比之下,排在第一位的gemini-3.1-pro,它对七种类型的预测误差几乎都在正负2个百分点以内,完全没有对某一类别的系统性偏好。这个事实还有一个重要的推论:七种缺陷类型之间的边界是清晰的,它们之间并没有天然的重叠或混淆,因为如果分类体系本身设计不合理,即使是最强的模型也应该在某些类别上出现系统性偏差。强模型的干净表现,反过来证明了分类体系的设计是合理的,那些偏差是弱模型的能力问题,而不是题目的设计问题。

这个现象在机器学习、生物医学和金融三个领域里都以几乎相同的形式重现,说明这是一种与领域无关的能力差异,是AI阅卷本身的能力天花板,而不是某个特定领域的知识缺口。

七、opus-4.7为什么比sonnet-4.6弱:调提示词救不了能力上的差距

opus-4.7是Anthropic在评测进行时最新发布的旗舰模型,理论上应该是Claude家族能力最强的代表,但它在RankJudge上的得分(1510分)明显低于更小一号的sonnet-4.6(1706分)。这个反差引起了研究团队的注意,他们随后进行了一项专项分析。

团队首先对opus-4.7的错误案例进行了人工审查,归纳出它的几种典型失误模式,然后设计了四种改进版提示词,分别针对不同的弱点:第一种加入了关于容易混淆的类别的额外提示;第二种要求模型在做判断前必须明确比较多个候选类别;第三种引入了详细的判断规则;第四种强制要求模型按照两个阶段输出结构化的思维链。这四种提示词覆盖了通常用来提升AI判断质量的主要手段:给更多引导、让它多思考、给它规则、让它展示推理过程。

结果全部失败。四种改进版提示词下的opus-4.7,没有一种能够达到sonnet-4.6或者相同版本之前的opus-4.6的准确率水平。而作为对比,直接让opus-4.6(opus系列上一个版本)在默认提示词下运行,得分却远远高于四种改进版opus-4.7中的任何一个。

研究团队认为,这种差距与Anthropic在opus-4.7发布时做出的一项架构调整有关:在这个版本中,模型的"思考时间"从固定预算变成了自适应分配,也就是说模型可以自己决定要想多久。在不需要深度思考的简单任务上,这是一种效率提升,但在评判这种需要仔细推敲细节的任务上,模型可能会主动选择"少想一点",在本应需要深思熟虑的地方提前下结论。这个案例说明,当一个模型在某项能力上存在根本性的上限时,调整提示词是无法突破的,换一个更合适的模型往往是更有效的选择。

八、排行榜稳不稳:各种折腾后结论基本不变

一套评测系统,还需要回答一个实用性问题:它的结论在各种不同条件下是否足够稳健?RankJudge通过几组对比实验回答了这个问题。

首先是"只看部分题目能不能得出一样的结论"。研究团队分别用10%、20%、50%和80%的题目重新计算排名,然后与用全部题目得出的排名做相关性对比。结论是:即使只用10%的题目,Spearman相关系数(一种衡量排名一致性的统计指标)也达到0.95,到50%时已经非常接近1了。这意味着,如果资源有限,完全可以只测一小部分题目,排行榜的主要结论不会改变,评测成本可以大幅降低。

其次是"只看对错、不看为什么,结论会变吗"。研究团队把评判标准从"三要素全对"(选对哪段、指对哪轮、选对什么缺陷类型)放宽到"两要素对"(只需选对哪段和指对哪轮,不考虑缺陷类型),重新计算Elo分数。新排名和原排名的相关性高达0.968,顺序几乎完全不变,但分数之间的差距有所收窄。这说明,加入缺陷类型这个维度,主要起到了拉大优秀AI和普通AI之间差距的作用,让排行榜更有区分度,而不是改变了谁强谁弱的判断。

还有一个关于"出题系统的偏心"问题需要检验。RankJudge里所有对话都是用gpt-5.5生成和验证的,而gpt-5.5同时也是被测试的21个评判AI之一。这会不会导致gpt-5.5在评判那些自己生成的对话时有天然优势?研究团队专门用另一个模型opus-4.7重新生成了一批对话,然后让同样的21个AI来评判,并比较两份排行榜。结果确实存在预期中的自我偏好效应:gpt-5.5在自己生成的对话上排名第2,在opus-4.7生成的对话上排名下滑到第7;opus-4.7反过来在自己生成的对话上从第11上升到第3。但剔除这两个"出题者"之后,其余19个AI的排名顺序几乎完全保持不变,Spearman相关系数高达0.979。特别值得一提的是,gemini-3.1-pro在两种出题条件下都排名第一,这强烈表明它的领先地位反映的是真实的评判能力,而非对出题模型的偏好。

说到底,这项研究解决的是一个"谁来监督监督者"的元问题。当AI评判AI已经成为大规模应用中不可回避的现实,我们需要有一套严格的方式来检验这些评判者自己是否真的值得信赖。RankJudge提供的不只是一份排行榜,更是一套可以持续更新、自动运行、不依赖大量人工标注的测评基础设施。

归根结底,真正有价值的发现并不只是"gemini-3.1-pro排第一"这条结论,而是这套体系揭示出的规律:强AI阅卷者能准确区分七种不同的缺陷类型,弱AI阅卷者则把所有不确定的情况都推给一个"万能答案";花很多计算资源写很长的分析,不等于判断更准;提示词可以在一定程度上调整AI的行为,但无法弥补能力本身的天花板。

对于那些正在构建AI应用的开发者来说,这些发现有直接的实践意义。如果你依赖一个AI来评判你系统里其他AI的输出,你需要知道那个评判AI的真实水平,而不只是看它是哪家公司出品的或者它的参数量有多大。RankJudge提供了一把尺子,让这个判断有了更可靠的依据。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.21748找到完整论文。

Q&A

Q1:RankJudge的"三要素全对"评判标准具体指什么?

A:RankJudge要求AI评判者同时做到三件事:正确判断哪段对话更好、准确指出有问题的对话里缺陷出现在哪一轮、以及正确识别这个缺陷属于七种类型中的哪一种。只有三个条件全部满足,才算一道题答对。这种设计的目的是区分"碰巧猜对结论"和"真正理解了缺陷在哪里以及为什么是缺陷"这两种本质不同的情况。

Q2:RankJudge测试的七种AI对话缺陷类型都有哪些?

A:这七种类型分别是:自相矛盾(后面的回答悄悄推翻了前面说过的话)、回避问题(说了很多但没回答核心问题)、结构混乱(内容正确但组织混乱难以提取)、编造答案(资料里没有的信息被自信地编造出来)、指令遗忘(用户早先设定的要求被悄悄违反)、不澄清歧义(面对模糊问题直接猜测而非询问)、多此一举的拒绝(资料里明明有答案却说不知道)。

Q3:开源AI模型在RankJudge排行榜上的表现如何?

A:开源模型的表现出人意料地好。kimi-k2.6排名第四,gemma-4-31b排名第六,两者都超过了多个顶级商业闭源模型。更重要的是,gemma-4-31b的评判费用约为gemini-3.1-pro的十分之一,但得分只低264分,在成本敏感的大规模应用场景下具有明显优势。相比之下,Anthropic旗舰模型opus-4.7排名第11,反而落后于同门的sonnet-4.6。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-