
这项由越南河内VinUniversity、美国伊利诺伊大学厄巴纳-香槟分校、美国圣母大学及澳大利亚莫纳什大学联合开展的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.26730。感兴趣的读者可通过该编号在arXiv平台检索完整原文。
每年秋天,全球顶级机器学习会议都会迎来一场"洪水"——数以万计的论文涌入审稿系统,等待专家们一篇篇仔细评判。2024年NeurIPS收到了15671篇投稿,2025年这个数字暴涨到21575篇;ICML在2023到2024年间单年投稿量增长了44.9%,2025年又继续攀升25.4%。与此同时,审稿人的数量和精力却没有等比例增长,于是越来越多的会议开始允许甚至鼓励使用大语言模型(也就是ChatGPT这类AI)来辅助撰写审稿意见。有研究估计,近年顶级会议中已有17%到21%的审稿工作涉及AI的参与。
这就引出了一个让所有研究者都很在意的问题:AI写的审稿意见,到底靠谱吗?它能真正发现论文里的科学漏洞,还是只会写一堆听起来有道理却没什么实质内容的废话?
来自VinUniversity领导的这支国际团队,决定用一套严谨的考核体系来回答这个问题。他们开发了一个名叫PRISM的评估框架——全称是"基于结构化多维评估的同行评审智能系统"(Peer Review Intelligence via Structured Multi-dimensional assessment)。这套框架像一份精心设计的考卷,从四个不同的能力维度考核AI和人类审稿人的表现,并把五个主流AI审稿系统和真实人类审稿人放在同一张考卷上,得出了一份详细的"成绩单"。
---
一、为什么需要一把新尺子?
要理解PRISM的价值,先得知道以前的评估方法有什么问题。
在很长一段时间里,评价AI写的审稿意见好不好,主要靠一种叫做"词汇重叠"的方法。简单说,就是把AI写的审稿意见和真人写的审稿意见放在一起,数一数有多少相同的词语出现。这类方法有专门的名字,比如ROUGE和BLEU。
但这里有个根本性的缺陷。一篇审稿意见里说"这篇论文的方法很新颖,实验设计合理",跟另一篇说"这篇论文的方法根本不新颖,实验设计一塌糊涂",用词上可能高度重叠,却表达了截然相反的判断。光看词汇重叠,根本分不清AI在说什么。
后来有人改用另一种方法:让一个更聪明的AI来当"考官",直接给被评估的审稿意见打分。这比数词汇聪明了许多,但也带来了新问题——AI考官本身有偏好,比如它可能偏爱文字流畅、篇幅较长的意见,而不管那些意见是否真的发现了论文的核心问题。语言漂亮不等于科学判断正确。
此前也有一个叫ReviewEval的框架,确实尝试从多个维度评估审稿质量,但它只用了16篇论文和三个审稿系统,而且仍然依赖AI整体打分的方式,可复现性和可靠性都有局限。
PRISM的思路截然不同。它不要求AI考官直接给一篇审稿意见打整体分数,而是把整个评估过程拆解成一系列具体的"侦查任务":AI负责识别和分类具体的证据单元,最终分数则通过数学公式计算得出,不依赖任何模糊的整体印象。这样一来,评估过程就变得可以追踪、可以验证,也更难被语言风格所迷惑。
---
二、PRISM的四份考卷,考的都是什么?
PRISM从四个维度考核审稿人,每个维度都针对一个真实存在的审稿失效场景。
第一份考卷考查的是"分析深度",也就是审稿人的判断到底有没有扎实的证据支撑。
研究团队把每篇审稿意见里的句子分成两种类型:一种是"主张",就是审稿人给出的判断,比如"这个实验设计有问题";另一种是"依据",就是支撑这个判断的具体理由,比如"因为论文只在三个数据集上测试,而且都没有跟最新的基线方法比较"。一篇好的审稿意见,应该有大量的"依据"来支撑每一个"主张"。
光有依据还不够,研究团队还进一步把依据分成三个层次。最低级的依据是模糊空洞的,比如"该方法有局限性",几乎什么信息都没提供;中间层次的依据会直接引用论文里的具体内容,比如"表2中的结果显示准确率只有63%";最高层次的依据会联系到外部的科学文献,比如"相比之下,Smith等人2023年提出的方法在同样任务上达到了78%"。
用这两个指标——"依据占总句子的比例"和"依据的平均质量"——可以算出一个综合的分析深度分数。这个计算方式特别严格:一篇审稿意见要同时做到"依据足够多"和"依据质量足够高"才能得高分,两者缺一不可。
第二份考卷考查的是"新颖性评估",也就是审稿人说这篇论文"新"或者"不新"时,有没有真实的文献证据支撑。
这个维度的评估流程分三步。第一步,自动从审稿意见中提取所有关于新颖性的具体说法。第二步,根据论文的核心任务和贡献,在学术文献数据库Semantic Scholar里搜索相关的已有研究。第三步,让AI逐一比对每条新颖性声明和检索到的相关文献,判断这条声明是被文献支持了、部分支持、无法判断、被文献反驳了,还是根本找不到相关文献。最终分数反映的是一个审稿人的新颖性判断有多少比例是有文献依据的。
第三份考卷考查的是"问题识别与排序",也就是审稿人发现了多少真实存在的问题,发现的问题是否被正确地按严重程度排了序。
由于一篇论文的真实问题总数是未知的,研究团队设计了一个"众裁机制":把AI审稿人和人类审稿人发现的所有问题汇总在一起,再让AI对这个汇总清单逐一核查,剔除掉不成立的批评,保留真实存在的问题。这个经过核查的汇总集合就成了"参考答案"。问题分为两类,一类是"严重问题",指的是方法设计有根本性缺陷、实验不足以支撑论文结论等核心科学问题;另一类是"次要问题",指的是排版错误、引用遗漏等表面问题。
除了计算每个审稿人发现了多少严重问题和次要问题,PRISM还会评估问题在审稿意见里出现的顺序是否合理——严重问题应该排在前面,次要问题排在后面。这个排序分数的计算灵感来自搜索引擎评估中常用的NDCG指标,如果审稿人把"字体不统一"放在最前面、把"实验方法存在根本性错误"藏在最后,分数就会很低。
第四份考卷考查的是"多维建设性",也就是审稿意见提出的建议是否真的能帮作者改进论文。
研究团队把一篇审稿意见拆解成一个个独立的"最小评论单元",然后对每个单元从五个子维度评分。第一个子维度是可操作性——这条意见是给了作者可以执行的具体指引,还是只是一个模糊的抱怨?第二个是具体性——这条意见指向了论文的某个具体部分,还是泛泛而谈?第三个是论证质量——这条意见有逻辑依据还是只是断言?第四个是解决方案——这条意见不仅指出了问题,还提出了如何解决的建议吗?第五个是语气专业性——这条意见措辞是否专业、友好,还是带有攻击性?五个子维度的分数综合计算出最终的建设性分数。
---
三、考试现场:五大AI系统与人类审稿人同台竞技
PRISM评估的五个AI审稿系统,分别代表了目前学术界最主流的自动审稿思路。
TreeReview的核心思路是把审稿过程拆解成一棵"问题树":先提出几个大问题,再把每个大问题分解成更细的小问题,逐层回答之后再汇总成完整的审稿意见。DeepReview的设计理念是模仿资深专家"慢思考"的方式,通过多个分析步骤刻意放慢节奏,还会主动检索相关文献来辅助判断。Reviewer2采用的是两阶段流程,先预测这篇论文应该从哪些方面来审查,再针对这些方面逐一生成评论。SEA-E通过对大量真实审稿数据进行标准化和微调,训练出了专门负责评估和分析的模块。CycleReviewer则采用了一种"循环训练"机制,让一个研究者智能体和一个审稿者智能体互相反馈、迭代优化。
这五个系统加上真实人类审稿人,被放在同一批论文上接受考核。这批论文总共1000篇,从ICLR 2024、ICLR 2025、ICLR 2026、ICML 2025和NeurIPS 2025按比例抽取,涵盖了被拒绝、以海报形式发表、以Spotlight形式发表和以Oral形式发表的不同类别,话题从大语言模型到强化学习、扩散模型、图神经网络等几十个子领域。
所有AI系统生成的审稿意见,和真实人类审稿意见,都通过PRISM的四套评估流程逐一打分,最终汇总成一张详细的成绩单。
---
四、成绩出炉:各有千秋,各有盲区
先看分析深度这张考卷。人类审稿人以0.494的综合分数排名第一,但CycleReviewer(0.484)和DeepReview(0.483)以极小的差距紧随其后,从统计角度看与人类无明显差异。这两个系统之所以能追上人类,主要靠的是更高的"依据比例"——CycleReviewer和DeepReview在审稿意见里提供具体依据的句子占比分别达到61%和60%,而人类是57%。
TreeReview在这一维度表现最差,分数只有0.359。研究团队发现了一个有趣的原因:TreeReview把大约24%的"依据"篇幅用在了"清晰度与呈现"这类表面问题上,比如排版、文字表达等,比人类审稿人的9%高出了将近三倍。换句话说,TreeReview陷入了一个"表面陷阱",花了太多时间在字体和排版上,而忽略了更重要的方法设计和实验设计问题。研究团队指出,这种偏向并不是AI审稿人的通病,而是TreeReview的推理框架缺乏明确的领域约束导致的——换个设计更好的系统,完全可以避免。
在新颖性评估这张考卷上,AI系统整体的表现出人意料地好。所有五个AI系统的分数都集中在0.75到0.83之间,人类审稿人的分数是0.787。其中SEA-E以0.833略高于人类,是唯一在统计上显著超越人类的系统。
但研究团队强调,这个分数需要谨慎理解。这里衡量的不是"AI判断得对不对",而是"AI说的话有没有文献依据"。SEA-E得分高,可能仅仅是因为它倾向于提出容易被文献验证的正面说法。从新颖性判断的倾向分布来看,SEA-E有80%的新颖性声明是正面的(认为论文有新意),而人类只有59%是正面的。DeepReview则是最挑剔的,只有39%的声明认为论文有新意,33%认为没有新意。
研究团队还发现了一个所有审稿人(包括AI和人类)共同的规律:当审稿人认为某篇论文"不新颖"时,他们给出的文献依据要比认为论文"很新颖"时强得多。这完全符合直觉——如果你要指出某个想法早就有人做过了,你就必须拿出具体的前人工作来证明;但如果你说某个想法很新,通常就不需要同样细致的文献支撑。
在问题识别这张考卷上,Reviewer2成了名副其实的"全图扫描仪"。它发现严重问题的比例(0.591)和发现次要问题的比例(0.459)都大幅领先于其他系统,甚至显著超过了人类审稿人(严重问题0.343,次要问题0.281)。Reviewer2平均每篇论文能识别出11.52个有效问题,是人类的两倍多。而且它的幻觉率(凭空捏造不存在的问题)只有约3.3%,算是相当低的。
CycleReviewer则暴露了精度问题,它的幻觉率高达18.5%,也就是说它发现的问题里将近五分之一是不存在的。
所有系统在"问题排序"上的表现都非常接近,人类和所有五个AI系统的排序分数都在0.96到0.98之间,没有明显差异。这说明把严重问题放在审稿意见前面、次要问题放在后面,是一种普遍存在的默认行为,并不是任何一个系统的独特优势。
在建设性这张考卷上,DeepReview以0.634的分数排名第一,显著高于人类的0.566。细看五个子维度,DeepReview在"可操作性"和"解决方案"两个子维度上的得分分别是1.414和0.784,远高于人类的1.105和0.470。也就是说,DeepReview不仅指出了问题,还很频繁地告诉作者具体怎么解决。
相比之下,人类审稿人有个显著的弱点:他们非常善于精准地指出问题在哪里(具体性子维度得分1.725,高于大多数AI),但极少提出解决办法(解决方案子维度仅0.470,在所有系统中垫底之一)。可以说,大多数人类审稿人扮演的是"法官"角色——宣判有罪,但不告诉你如何翻案;而DeepReview扮演的更像是"律师"——既指出问题,也给出改进方案。
Reviewer2的得分看起来不错(0.575),但这主要源于它极高的"论证质量"得分(0.939),而这更多是因为它写得特别详细、特别啰嗦,而不是因为它真的提出了什么有价值的解决方案——它的解决方案子维度得分只有0.266,相当低。
---
五、AI审稿人真的会看"脸色"吗?
研究团队还做了一个额外的实验:比较AI和人类对"高质量论文"(最终被接受的)和"低质量论文"(最终被拒绝的)的评估是否有所不同。
结果非常有趣。人类审稿人对两类论文的评估存在统计上显著的差异:被接受的论文得到更高的新颖性评分和更好的批评排序,被拒绝的论文被指出了更多的严重问题和次要问题,而且严重问题的数量差异是次要问题的2.7倍。这说明人类审稿人对论文的整体质量是有感知的,他们会根据论文的总体水平调整批评的力度和重点。
AI审稿人的表现则截然相反。五个AI系统中,除了DeepReview在问题排序这一项上有统计显著的差异,其余所有分数在"接受"和"拒绝"的论文之间几乎没有差别。无论是一篇被大会评为Oral最高荣誉的论文,还是一篇被直接拒稿的论文,AI给出的分析深度、建设性分数都基本一致。
这种"评分不动如山"的特性是把双刃剑。好处是AI不会因为论文来自知名课题组或者话题时髦就"手下留情",不存在人类审稿中常见的"光环效应"。坏处是AI似乎真的没有能力根据论文的整体科学价值来调整自己的批评精准度,不像有经验的人类审稿人那样会把更多精力投入到发现顶级论文的真正弱点上。
---
六、案例分析:成绩单背后的真实故事
为了让这些数字更有血有肉,研究团队做了大量详细的案例分析,这些案例揭示了AI和人类审稿人各自独特的失效模式。
以ICML 2025的一篇关于域泛化优化器的Oral论文为例,研究团队发现Reviewer2和三位人类审稿人发现的有效问题几乎完全不重叠——双方各自独立找到了约9个对方完全没有发现的问题,而共同发现的问题只有2个。
AI发现的独特问题大多来自对数学推导的系统性检查。比如,Reviewer2发现论文的PAC-Bayes理论分析中,先验分布是用训练数据来近似的,而经典的PAC-Bayes理论要求先验必须在看到训练数据之前确定,论文没有正式援引允许数据依赖先验的现代扩展理论,导致理论推导存在缺口。另一个AI发现的问题是,某个推论中隐含地假设了不同参数的梯度相互独立,但在实际的深度网络中这个假设通常并不成立。
人类发现的独特问题则来自对"声明与证据是否匹配"的判断,这需要对领域惯例有深刻的了解。比如,一位人类审稿人指出,论文声称自己的方法能让模型学到"域不变特征",但实验里从来没有用量化指标(比如MMD距离、特征中心偏差)来验证这个声明,而这在域泛化领域是标准的评测要求。另一位人类审稿人发现论文把某个"猜想"当作"定理"来引用,指出这种知识诚信问题——AI则直接接受了这个猜想的支撑证据,没有质疑其形式地位。
此外,Reviewer2还捏造了几个并不存在的问题,比如声称"论文没有解释计算成本",但实际上论文专门报告了不同迭代次数下的训练时间对比数据。这种幻觉行为遵循一个固定模式:AI在孤立地评估每条批评时,没有回头核查论文原文是否已经提供了相关信息。
---
七、这些发现对真实审稿工作意味着什么?
研究团队根据这份成绩单,给出了具体的部署建议。
如果你需要一个尽可能全面地扫描论文漏洞的工具,Reviewer2是首选——它发现严重问题的召回率最高,可以作为"初筛"工具,帮助人类审稿人不遗漏重要的技术问题。如果你需要帮助作者把审稿意见变成真正有用的改进指引,DeepReview是最佳选择——它在可操作性和解决方案提供上表现最好,可以在给作者的反馈环节中发挥独特价值。如果你需要对论文的新颖性声明进行有文献依据的核查,SEA-E的表现最稳定。
但研究团队特别强调,没有一个系统在所有四个维度上都能同时超越或匹配人类。每个系统都有自己擅长的领域,也都有明显的盲区。把任何一个AI系统单独作为完整的审稿人使用,都会在某些维度上留下显著的质量缺口。
说到底,这份研究最重要的结论可以用一句话概括:AI审稿人是技术专才,不是通才。它们在特定任务上可以做得非常出色,甚至超过人类,但在需要综合判断、领域直觉和科学价值评估的场合,它们还远不能独立替代人类专家。
归根结底,这项研究给了我们一个清醒的认识:当你的论文被AI写的审稿意见拒稿,可能是因为它真的扫描到了你的方法论漏洞;但如果它说你的工作"不够新颖",那这句话背后的证据充分与否,就需要仔细辨别了。未来科学审稿的最佳形态,或许是让AI做它最擅长的系统性扫描工作,同时让人类保留那种基于深厚领域积累的综合判断权。
有兴趣深入了解这套评估体系的读者,可以通过arXiv编号2605.26730查阅完整论文,或访问论文配套的演示网站prism-benchmark.github.io获取更多数据和案例。
---
Q&A
Q1:PRISM框架和以前的AI审稿评估方法有什么根本区别?
A:以前的方法要么靠数审稿意见和参考答案之间有多少相同词汇,要么让另一个AI直接给审稿意见打整体分数。PRISM的不同在于,它把评估拆解成四个独立的结构化流程,每个流程都让AI完成具体的识别和分类任务,最终分数通过数学公式计算,不依赖任何整体印象。这样做的好处是可以追踪、可以验证,语言写得漂亮但内容空洞的审稿意见无法蒙混过关。
Q2:Reviewer2为什么能发现比人类更多的严重问题?
A:Reviewer2采用两阶段生成流程,先系统性地预测一篇论文应该从哪些维度审查,再逐一生成批评意见。这种"广撒网"的扫描方式让它能覆盖到人类审稿人因时间压力而跳过的技术细节,比如数学推导中的隐含假设和理论证明的逻辑缺口。但代价是它有时会凭空捏造不存在的问题,幻觉率约3.3%。
Q3:为什么所有审稿人在"批评排序"上的分数都差不多高?
A:研究发现,把严重的方法论问题放在审稿意见前面、把排版错误等次要问题放在后面,是一种所有系统(包括人类)都普遍遵循的默认行为,归根结底是学术写作的基本规范在起作用。因此这一维度无法区分不同审稿系统的优劣,在当前的性能水平下更像是一个"及格线"而非差异化指标。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。