
这项由卡内基梅隆大学、韩国科学技术院(KAIST)、NEC欧洲实验室等全球二十余所高校和研究机构联合开展的研究,以预印本形式于2026年5月20日发布在arXiv平台,编号为arXiv:2605.20668。研究团队横跨物理学、生物学、健康科学等多个领域,汇聚了45位一线领域科学家,历时数月完成了迄今为止规模最大的AI审稿质量评估研究。
科学界每年产出的论文数量正在以前所未有的速度膨胀。在著名的NeurIPS、ICLR等顶级AI学术会议上,投稿数量几乎每年都在翻倍,而愿意认真审稿的专家数量却没有同步增长。与此同时,《Nature》《Science》这样的顶级期刊,从论文投递到最终发表,平均要等上100到160天。这种"审稿人荒"已经成为整个学术界公认的危机。
于是,AI审稿员登场了。AAAI-26已经把AI审稿系统部署到所有22977篇主会论文的初审环节;《NEJM AI》期刊也推出了"快速通道"流程,引入AI辅助审稿。全球超过50%的研究人员已经在悄悄用AI工具帮自己写审稿意见,有时甚至违反了所在期刊的规定。
然而,AI审稿员到底好不好用?过去的研究评估方式相当粗糙:把AI打的分和人类打的分做比较,或者看AI的"接受/拒绝"建议与人类决定是否一致。这就好比评价一位餐厅评论家,只看他最后给几颗星,而完全不管他在评论里写了什么、说的对不对、重不重要。这种评估方式的根本缺陷在于,两份审稿可以给出一模一样的分数,但一份充满真知灼见,另一份不过是废话连篇。
这支研究团队决定换一种方式。他们把每一条审稿意见拆解成最小的独立批评单元——他们称之为"审稿条目"——然后请与论文研究方向高度匹配的领域专家,逐条评判每个审稿条目是否正确、是否重要、是否有足够的证据支撑。这套方法就像是请专业食评家不只给餐厅打分,而是对菜单上每道菜逐一品评:这道菜的食材新不新鲜?这道菜的烹饪手法对不对?摆盘是否达到应有水准?
**一、评判的尺子是如何制造的**
研究团队面临的第一个挑战是:评判一条审稿意见,用什么标准?
他们设计了一套三层递进的评价体系,就像一道有三关的筛选流程。第一关问的是"这条批评是否正确"——也就是说,审稿人指出的问题,在论文里是否真实存在,而不是审稿人看错了或者理解偏了?第二关是在第一关通过的前提下,追问"这个问题重要吗"——分成三档:非常重要(改了能让论文质量大幅提升)、略有意义(比如错别字或格式问题)、无关紧要(写在审稿里反而是噪音)。第三关则在前两关都通过的情况下,继续追问"这条批评有没有拿出足够的证据"——审稿人是否引用了论文原文、代码片段或者相关文献来支撑自己的论点?
这三关是环环相扣的:只有先判定正确,才评重要性;只有判定至少有一定意义,才评证据是否充分。这种设计避免了"一个笼统分数掩盖所有细节"的问题。
为了验证这套标准的可靠性,研究团队让27篇论文的审稿条目各被两位独立专家同时评判,产生908个"双重评判"数据点。结果显示,在"是否正确"和"证据是否充分"这两个维度上,两位专家的一致性接近完美;在"是否重要"这个维度上,一致性处于中等水平——毕竟,重不重要这件事本来就带有一定主观色彩,专家之间也会有合理分歧。
这项研究总共选取了82篇发表在《Nature》及其系列子刊(主要是《Nature Communications》)上的论文,覆盖物理、生物、健康三大科学领域的27个细分方向。每篇论文都附有官方公开的人类审稿意见(Nature系列期刊有透明审稿政策),同时在Research Square平台上有可获取的投稿前版本——这意味着AI审稿员和人类审稿员看到的是同一份稿件。
三位AI审稿员——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——各自被部署为能够访问论文全文、补充材料、图片和提交源代码的智能体,每篇论文最多产出5条审稿条目,并且被要求为每条批评提供详细的引用证据。
**二、AI到底有多准,又有多深刻**
现在进入正题:当研究团队把所有审稿条目都交给专家打分之后,AI和人类各自表现如何?
先说正确率。人类审稿员中评分最高的那位(研究团队称之为"顶级人类审稿员"),平均正确率高达92.3%。也就是说,他提出的批评中,超过九成都确实命中了论文存在的真实问题。相比之下,GPT-5.2的正确率是86.2%,Claude Opus 4.5是83.7%,Gemini 3.0 Pro是81.9%。三位AI都比顶级人类审稿员低了六到十个百分点,差距不算小,但也绝非不堪入目。
然而故事在这里出现了戏剧性转折。当研究者把目光从"正确率"转向"重要性"时,结果完全颠倒了。在那些被判定为正确的批评中,AI提出的问题往往比人类更重要。顶级人类审稿员的平均重要性评分是1.39分(满分2分),而GPT-5.2达到了1.61分,Claude Opus 4.5是1.53分,Gemini 3.0 Pro是1.56分——三位AI全部显著超越了最优秀的人类审稿员。换句话说,AI虽然偶尔会"指错地方",但它一旦指对了,指出的往往是更要紧的问题。
在证据充分性方面,GPT-5.2和Claude Opus 4.5都略高于顶级人类审稿员,分别达到97.1%和96.5%,而Gemini 3.0 Pro(89.5%)与顶级人类审稿员(92.2%)相比没有统计意义上的显著差异。
这三个维度单独看都有意义,但真正让人信服的是研究团队设计的一个综合指标——"完全优质"(fully positive):一条审稿条目必须同时满足正确、重要、证据充分,才算完全优质。这个指标模拟的是现实情况:一条审稿意见就算写得正确,但如果只是鸡毛蒜皮,或者没有任何证据支撑,作者读完也不知道该怎么改。
在"完全优质"比率上,顶级人类审稿员的平均值是48.2%,最差人类审稿员是36.2%。GPT-5.2达到了60.0%,以统计显著性超越了最优秀的人类审稿员(p值为0.009,这在统计学上意味着这个差距不是偶然)。Claude Opus 4.5是53.1%,Gemini 3.0 Pro是50.2%,两者与顶级人类审稿员没有统计意义上的显著差异,但都显著高于最差人类审稿员。
为了进一步验证这些数字,研究团队还请每位专家做了一个整体判断:读完一篇论文的所有审稿意见后,你认为哪位AI审稿员的整体质量达到或超过了最优秀的人类审稿员?结果是,专家们认为GPT-5.2在48.6%的论文里达到或超过了顶级人类审稿员;而从另一个角度看,所有三位AI在超过半数的论文里都超越了最差的人类审稿员。
**三、AI审稿员究竟在看什么,人类又在看什么**
知道AI和人类各自的分数高低还不够,更重要的问题是:他们是否在关注同样的问题?如果AI只是用不同的方式复述了人类已经说过的话,那么把AI加入评审团,本质上没有任何增益。
研究团队为此设计了一套精细的"相似度判断"框架。他们把每条审稿条目拆解为三个成分:目标(论文哪个部分被批评)、批评内容(对这部分提出了什么问题)、支撑证据(用什么来支持这个批评)。两条审稿条目只有在目标相同且批评内容也相同的情况下,才被认定为"相似"——只是碰巧都批评了同一个图,但一个说误差棒缺失,另一个说配色方案不友好,这不算相似。
为了处理总计65704对交叉比较,研究团队使用GPT-5.4作为自动判断工具,并在164对人工标注样本上验证其准确性,达到了92.7%的二元分类准确率。
结果相当出人意料。两位不同的人类审稿员,审同一篇论文,他们提出的批评只有3.4%是相似的。换句话说,人类审稿员彼此之间的观点几乎完全不重叠,每个人都带来了独特的视角。这验证了一个古老的学术共识:多人评审之所以有价值,正是因为每个人看问题的角度不同。
AI审稿员与人类审稿员之间的重叠率是5.1%——略高于人与人之间的3.4%,但差距不大,置信区间还有大量重叠。这意味着,把一位人类审稿员替换成一位AI审稿员,评审团整体的多样性损失非常有限。
然而,当三位AI审稿员被放在一起比较时,情况就大不相同了。不同AI模型之间的重叠率高达20.9%——比人与人之间高出整整六倍。三位AI各自审同一篇论文,很可能同时指出同一个问题,只是措辞不同。这意味着,如果一个评审团由三位AI组成,那么它提供的视角多样性会远远不如三位人类。
从覆盖率的角度看,一位AI审稿员能覆盖另一位人类审稿员27.1%的审稿条目,而另一位人类审稿员覆盖前者的比例是25.8%——两者几乎持平。但如果用三位AI同时审稿,他们的批评在"目标"层面能覆盖三位人类83%的关注点,但在"具体批评内容"层面只有46.3%。换句话说,AI和人类常常在盯着同一个地方,但对于那个地方存在什么问题,双方的判断有很大分歧。
更有意思的是,AI单独发现、没有任何人类指出的问题,占所有AI批评的26%。专家评估显示,这26%中有81.8%是正确的,有93.5%有充分证据支撑——这些问题并不是AI在胡说八道,而是真实的、有据可查的问题,只是人类审稿员没有注意到。不过,与人类也指出的那些问题相比,这些"独家发现"的重要性评分略低一些。
**四、AI最擅长什么,又最常在哪里翻车**
研究团队从45位专家的自由评论中,系统整理出了AI审稿员的16类典型失误和6类典型优势。这是本研究中最具实用价值的部分,因为它直接回答了一个问题:如果要改进AI审稿系统,应该从哪里下手。
最常见的失误,研究团队将其称为"不懂社区规范",共出现54次。这类问题的模式是:AI提出的批评,在通用科研标准下完全合理,但在该论文所属的特定细分领域里,被批评的做法其实是约定俗成的惯例。
举一个具体例子:GPT-5.2在评审一篇粒子物理论文时,批评说论文的分析过程没有记录足够的细节,无法让外部研究者独立复现实验结果。这个批评听起来完全正确——开放科学的基本要求嘛。但该领域的专家解释说,在CERN(欧洲核子研究中心)发表的论文里,相关的校准数据和拟合参数是由实验协作组内部维护和使用的,从来不会作为论文附件公开发布;只有在特别重要的情况下才会例外。AI不了解这个惯例,于是把一个"正常的学科边界"误读成了"可重复性缺陷"。
第二类常见失误是"论文明明写了,AI说没有",出现37次。这类错误的根源是AI的长上下文管理能力不足。AI审稿员在工作时需要同时处理论文正文、补充材料、图片说明、代码文件以及从网络检索到的参考文献,当这些内容累积超过一定限度,AI会对早期读过的内容进行压缩摘要,导致遗忘。一个典型例子是:Claude Opus 4.5在审一篇关于中国未来PM2.5浓度预测的论文时,批评说论文没有对CMIP6模型的系统性低估偏差进行校正。但专家直接指出,论文第489到496行明确描述了一套针对基准期观测数据的校准流程(方程5),AI完全漏读了。
第三类失误是"要求过于苛刻或超出范围",出现46次。AI常常提出一些技术上正确但在现实中根本无法执行的修改要求。比如,在评审一篇神经影像学研究时,Claude Opus 4.5批评说,论文使用来自健康人的分子图谱来解释患者的大脑异常,存在方法论问题。专家表示这在逻辑上没错,但在现实中,精神疾病患者的全脑基因表达图谱根本不存在,研究者不可能提供这样的数据——这个批评把不可能完成的任务当成了修改建议。
第四类失误是"三位AI重复说同样的话",出现28次。当GPT-5.2、Claude Opus 4.5和Gemini 3.0 Pro同时审一篇关于机器学习分子间势的论文时,三位AI不约而同地批评了同一个数据效率比较方案——只是GPT-5.2说这是"训练测试集相关性问题",Claude Opus 4.5说这是"缺少学习曲线对比",Gemini 3.0 Pro说这是"缺少直接控制实验"。三个批评的核心担忧完全一致,只是包装不同。
第五类失误是"说了一大堆但没有任何可操作建议",出现24次。有位专家对GPT-5.2的一篇评审评价说,"太冗长了,这是一篇磁共振成像方法论的论文,第一条评论不应该用六段篇幅谈生物效应。"
相比之下,AI的优势集中在几个人类审稿员往往力不从心的地方。最突出的是"检查提交的源代码",共出现28次。这件事人类审稿员几乎不做,原因很简单:太费时间。但AI会打开代码仓库,逐行检查,有时能发现论文正文里完全看不出来的问题。
一个堪称经典的案例:Gemini 3.0 Pro在审一篇无线健康监测贴片的论文时,发现论文声称的采样频率是800赫兹(这是分析0到400赫兹频率信号的必要条件),但提交的Arduino代码里有一行`delay(500);`——这意味着实际采样频率大约是每秒2次,与800赫兹相差了整整400倍。更有意思的是,代码注释里作者自己写道"It appears that delay is needed in order not to clog the port",也就是说,数据无法通过无线方式高频传输,那么论文里展示的高频频谱数据,很可能是用有线方式采集的,而论文却声称系统是无线的。专家表示,"人类审稿员不会去打开源代码看这些,如果这段代码是正确的,那这篇论文的核心数据就是错的。"
另一个代码检查的案例:GPT-5.2在审一篇蛋白质相互作用预测论文时,发现训练集评估中有一个变量明明叫`best_valid_f1`,暗示应该在验证集上选择最优模型,但实际代码里用的是测试集指标。这意味着模型选择过程直接接触了测试数据,导致报告的性能指标可能存在数据泄露,是严重的评估方法论问题。
AI的另一个显著优势是"统计和方法论严谨性",出现45次。AI会系统性地检查独立性假设是否满足、验证集划分是否规范、不确定性报告是否完整——这些是人类审稿员在时间压力下经常跳过的审查点。还有一类优势是"领域特定技术深度",共出现27次,说明AI并不只会泛泛而谈,在某些细分领域它能识别出只有专家才会注意到的技术承诺。比如,GPT-5.2在评审一篇关于多模光纤图像传输的论文时,指出摘要里"任意光学场传输"这个表述有技术上的过度承诺——"任意光学场"在该领域意味着包含相位信息的复值场,而论文实际只做到了振幅传输,难度要低得多。专家对此表示高度认可。
**五、自动评测基准台与AI审稿助手**
因为每次做这样的人工评估都需要45位专家花费469小时,研究团队想找到一种更省力的替代方法——用AI来模拟专家的判断。他们测试发现,Claude-Opus-4.7在三个维度上的准确率分别为87.9%、56.7%、85.6%,与人与人之间的一致性(85.8%、59.9%、88.0%)非常接近。这意味着,用AI作为"元审稿员"(对审稿意见进行评判的评判者),在统计意义上接近于再请一位人类专家。
基于这一发现,研究团队构建了一个名为PEERREVIEW BENCH的自动化评测基准,覆盖78篇论文。它的"召回率"衡量AI能找回多少人类专家认定的优质批评,"精准率"衡量AI自己的批评中有多大比例是高质量的,F1分数则是二者的综合。
目前,在这个基准上成绩最好的模型是Claude-Opus-4.5,F1分数为50.89。GPT-5.4的精准率最高,达到93.81%,但召回率只有26.55%;Gemini-3.0-Pro-Preview的召回率(37.65%)相对更高,但精准率只有53.35%。即便是最好的模型,F1也只有约50分——意味着与人类专家确定的标准相比,仍然有相当大的提升空间。
研究团队还基于这套系统开发并开源了"CMU PAPER REVIEWER"平台,允许研究者在投稿前获取预审反馈。在PEERREVIEW BENCH上,使用GPT-5.4且每篇最多生成15条审稿条目时,该平台的F1分数达到58.64,高于Stanford Agentic Reviewer的51.65和OpenAIReview的47.88。
有一个值得单独拿出来说的有趣现象:提高每篇论文的审稿条目上限(从5条增加到15条),并没有让AI胡乱堆砌数量——GPT-5.4在上限15条时平均只产出7.35条,因为它在内部会筛选,只有确信质量达标才会输出。更反直觉的是,精准率反而从93.81%略升至95.46%,召回率也从26.55%大幅提升到42.32%。
**六、如果你是期刊编辑,该怎么搭配审稿团队**
最后,研究团队利用这套数据做了一个对期刊和会议编辑颇具实用价值的模拟分析:不同人机比例的评审团,各有什么优劣?
他们模拟了四种配置:三位人类、两位人类加一位AI、一位人类加两位AI、三位AI。衡量标准包括总审稿条目数、独特条目数(不被其他审稿员重复的条目)、非优质条目数(编辑需要筛除的噪音)、优质且独特条目数(真正有价值的非冗余反馈),以及作者读到一条有价值反馈前需要阅读的"噪音"数量。
结论是清晰的。"两人类加一AI"在几乎所有指标上都与"三人类"持平,甚至更好:产出的有价值且不重复的条目数量相同(每篇论文3.9条),总条目数减少了17%,非优质条目数减少了21%。换句话说,加入一位AI并减少一位人类,在质量不变的前提下降低了噪音——这是一个明显的帕累托改进。
当人类审稿员进一步减少到只剩一位时,有价值且独特的条目数量开始下降(3.5条),但统计上的置信区间与"三人类"仍有一定重叠,差距尚在可接受范围内。
然而,"三位AI"组合则显示出明显的缺陷:每篇论文只产出3.1个独特条目,有价值且独特的条目平均只有1.8个,与三人类组合的3.9个差距显著。这个崩塌的根源正是之前发现的AI之间重叠率过高的问题——三位AI审同一篇论文,很可能在叫嚷同一个问题。
如果在每种配置基础上加入一个"元审稿员过滤器",让AI在输出前自动筛除质量不达标的条目,效果是效率提升但总量下降。过滤后的"一人类加两AI"组合产出的有价值且独特条目下降到2.1条,但读到这些条目前需要跳过的噪音降至最低——每遇到一条有价值的批评,只需要读不到两条无用批评。
研究团队对此提出了三个针对不同优先级的推荐方案。如果期刊编辑的首要目标是维持现有审稿质量并减轻审稿人负担,那么"两位人类加一位AI"是最自然的选择,有价值反馈数量不变,噪音减少,审稿成本降低。如果首要目标是减少作者和编辑的筛选时间,那么"一位人类加两位AI,再加元审稿员过滤"能将每条有价值反馈前的噪音降低48%。如果编辑只需要一份简短的高可信批评清单用于初筛,那么"三位AI加元审稿员过滤"的组合能让独特批评的命中率高达63.2%,是三位人类的近两倍——代价是绝对数量大幅下降。
说到底,这项研究给出的结论是既令人意外又颇为合理的。当前最先进的AI审稿员,在综合质量指标上已经与人类顶级审稿员不相上下,GPT-5.2甚至在统计意义上超越了它。AI有真正的优势:它会读代码,会检查统计假设,不会因为太忙就跳过方法论细节,偶尔还能指出那26%的人类没有注意到的真实问题。
但AI也有难以回避的短板:它会把领域内的惯例当成缺陷,会因为上下文太长而遗忘已经读过的内容,三位AI审同一篇论文时往往在异口同声地说同一件事。这些弱点都不是无法解决的,但在被解决之前,它们是AI无法单独替代人类的根本原因。
最恰当的定位,是把AI审稿员理解为一位特别勤快的同事:它愿意花时间检查代码,愿意核查每一个统计方法,但它对某些领域的潜规则一无所知,有时还会记性不好,三个AI放在一起容易互相抄作业。所以,最合理的安排是:让它加入团队,但别让它独挑大梁。
对这项研究感兴趣的读者,可以通过arXiv编号2605.20668查询完整论文,所有数据集和代码均已公开。
Q&A
Q1:AI审稿员的"完全优质"比率是什么意思?
A:这是研究团队设计的综合指标,指一条审稿意见同时满足"内容正确""问题重要""证据充分"三个条件。GPT-5.2在这个指标上达到60%,而人类最优秀审稿员是48.2%,这说明AI虽然正确率略低,但命中的批评往往更重要、更有支撑。
Q2:AI审稿员为什么经常重复说同样的问题?
A:三位不同AI模型审同一篇论文时,彼此之间的批评重叠率高达20.9%,是人与人之间重叠率(3.4%)的六倍。这是因为AI模型都倾向于识别最显著的方法论问题,训练方向相似,导致它们"撞车",而人类专家因背景不同,关注点各异。
Q3:PEERREVIEW BENCH和普通审稿评分有什么区别?
A:普通评分直接比较AI和人类的分数或接受/拒绝决定,而PEERREVIEW BENCH把每条审稿意见拆解为"正确性""重要性""证据充分性"三个维度逐条评判,能识别出那些总分相似但内容差异悬殊的审稿意见,是目前粒度最细的AI审稿评测框架之一。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。