微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI"阅卷老师"遇上会刷题的学生：汉堡大学揭示论文自动评审的致命漏洞

同行评审大型语言模型系统安全性

当AI"阅卷老师"遇上会刷题的学生：汉堡大学揭示论文自动评审的致命漏洞

作者：科技行者

2026-06-08 11:03

分享至：

汉堡大学用984篇真实论文验证AI评审质量，发现AI打分误差是人类的四倍，且极不稳定；同时证实通过迭代表面修改可显著提升AI评分，揭示自动评审系统存在可被利用的漏洞。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 11:03 • 科技行者

这项由德国汉堡大学语言技术研究组与汉堡计算与数据科学中心、奥特安贝格-魏登应用技术大学联合开展的研究，于2026年5月27日以预印本形式发布于arXiv平台，编号为arXiv:2605.28897v1，研究方向归属于人工智能领域（cs.AI）。有兴趣深入了解的读者可以通过该编号查询完整论文。

学术圈里有一个古老的梦想：如果能让机器替代人类来批改论文，是不是就能解决评审资源紧张的问题？随着大型语言模型的崛起，这个梦想看起来越来越近。然而，汉堡大学的研究团队却在这个看似美好的愿景前面打了一个大大的问号——不仅如此，他们还发现了一个更令人担忧的问题：如果AI在打分，那些知道AI在打分的学生，会不会想办法专门"哄好"这个AI评审？

一、学术圈的两场悄然革命

要理解这项研究的背景，可以把学术发表想象成一场漫长的马拉松比赛。在这场比赛里，运动员（论文作者）需要把自己的成果递交给裁判（同行评审员），由裁判决定谁能登上领奖台（被期刊或会议录用）。长期以来，这两个角色——运动员和裁判——都是人类。

但近年来，这两个角色都开始悄悄引入了"AI教练"。一方面，越来越多的研究人员在写论文时借助大型语言模型（即我们常说的"AI写作助手"）润色文字、优化表达，甚至生成初稿。另一方面，面对每年呈指数级增长的论文投稿数量，会议和期刊的组织者也在探索用AI来辅助完成评审工作，一些顶级学术会议已经开始正式试点AI评审。

来自斯坦福大学等机构的研究发现，在他们分析的绝大多数会议和期刊中，有7%到15%的评审意见已经显示出AI使用的痕迹，超出了单纯的语法修正范畴。这意味着，现实中已经有相当比例的"裁判"在借助AI工具来完成打分工作。

当运动员和裁判都开始依赖AI时，一个微妙但严肃的问题就浮出水面了：如果运动员知道裁判是AI，会不会专门针对AI的评分逻辑来"训练"自己的比赛策略，而不是真正提升比赛实力？这正是经济学家早就提出过的"古德哈特定律"所警告的现象——当一个指标变成了目标，它就不再是好的指标了。换句话说，当论文的AI评分变成了作者优化的对象，这个分数还能代表论文的真实质量吗？

汉堡大学的团队决定用真实数据来回答这个问题。他们选择了2025年度ACL滚动评审（ACL Rolling Review，简称ARR）的投稿论文作为研究对象。ACL是自然语言处理领域最顶级的学术会议，其评审平台OpenReview上的数据既真实又具有代表性。研究团队最终整理出984篇论文，其中约三分之一是被拒稿的论文，其余是最终被ACL 2025录用的论文。

二、这个"AI裁判"到底靠谱吗

研究团队的第一个核心问题是：让AI来打学术论文的分，和真正的人类专家打的分，到底有多接近？

在ACL的评审体系里，每篇论文都会收到来自多位人类评审员的独立打分，涵盖合理性（Soundness）、精彩程度（Excitement）、可复现性（Reproducibility）和总体评分（Overall）四个维度，满分5分，可以打半分。研究团队重点关注"总体评分"这一最具代表性的指标。

为了模拟现实中不同的使用场景，研究团队选取了五款不同的AI模型，包括开源的Qwen-3.6-35B、Gemma-3-27B、Llama-3.3-70B，以及商业闭源的GPT-5.4-mini和GPT-5.4。此外，他们还设计了五种不同复杂程度的"提示语"（可以理解为给AI裁判的评审指引），从最简单的一行话"请给这篇论文打分"，到包含完整ARR评审规范的详细版本，复杂程度各不相同。

测量AI评审质量的方式有两种：一种叫"平均绝对误差"，衡量AI打的分和人类打的分平均差多少；另一种叫"皮尔逊相关系数"，衡量AI打分的排名是否和人类打分的排名方向一致。

测试结果揭示了一个颇为尴尬的现实。在分数误差上，表现最好的AI模型（GPT-5.4和GPT-5.4-mini）平均误差约为0.7分，而人类评审员之间的平均误差只有0.17分——AI的误差是人类的四倍多。更戏剧性的是，一个完全不经过任何分析、只是机械地把所有论文都打2.5分（量表中点）的"摆烂基准线"，误差竟然只有0.64分，略好于最好的AI模型。这就好比说，一个什么都不看、对所有学生都给60分的老师，打分反而比认真阅读论文的AI助手还准一点点——至少在误差上是这样。

在排名相关性上，AI表现稍好一些。最优配置下，GPT-5.4能达到0.276的相关系数。不过，这里有一个重要背景：人类评审员之间彼此的相关系数也只有0.312，说明人类评审本身就存在相当大的分歧，这一点和其他机构此前的研究结论一致。从NeurIPS 2021年的实验来看，被一个评审委员会接受的论文中，大约一半会被另一个独立评审委员会拒绝——足见人类评审有多不稳定。

研究团队还发现，被录用论文和被拒绝论文在AI评审准确度上表现迥异。对于被拒论文，AI和人类的评分相关性更高（0.408），而对于被录用论文，相关性更低（0.210）。这背后的逻辑其实很直观：就像考试一样，判断一篇作文完全不及格相对容易，但要在众多优秀作文中精准区分出第一名和第二名，则难得多。AI更擅长识别明显的"差论文"，但在区分"好论文"和"更好论文"时则力不从心。

除了打分准确性，研究团队还专门评估了AI评审在内容上与人类评审的吻合程度——具体来说，就是AI评审提到的论文优点和缺点，有多少比例也被人类评审提到了。结果显示，优点的覆盖率总体高于缺点，Gemma-3在优点识别上表现最好，覆盖率约为59%（录用论文）；GPT-5.4-mini在缺点识别上覆盖率最高，约为41%到44%。换句话说，AI评审找出的优缺点大约有一半到六成与人类评审重叠，剩下的部分则是AI独立"发现"的，或者是它漏掉的人类关注点。

三、同一篇论文，AI的分数怎么差那么多

第二个核心问题紧随而来：如果AI打的分数本身就不稳定，那它还有多少参考价值？

研究团队通过两组实验来测量AI评审的稳定性。第一组实验比较了同一篇论文、同一个模型、但使用不同提示语时的打分差异。结果触目惊心：以GPT-5.4-mini为例，在其表现最佳的提示语配置下，针对录用论文的平均误差仅为0.58分，但当对所有五种提示语取平均时，误差飙升至0.89分——几乎翻倍。这说明提示语的微小变化，可以对AI的评审结果产生巨大影响。

更关键的是，研究团队没有发现任何规律性：对这个模型效果好的提示语，换到另一个模型上未必好用；在录用论文上表现优秀的提示语，在拒稿论文上可能一塌糊涂。模型就像一个情绪不稳定的评审员，在不同的问题引导下，忽而宽松，忽而严苛，完全没有一致的标准。那个最简单的一行提示语"simple"，在某些配置下表现出乎意料地好，暗示着精心设计复杂提示语并不一定带来更好的结果。

第二组实验测量的是同一篇论文、同一个模型、同一个提示语，在温度参数为1的条件下（即允许随机性）多次运行的稳定性。结果显示，对于36.9%的论文，三次运行中至少有一次给出了与其他两次不同的分数，而有20%的论文，不同次运行的分数差距超过0.5分。考虑到整个量表只有1到5分，0.5分的差距已经相当显著了——这相当于一个学生同一张试卷交三次，有两成概率得到相差半个等级的不同分数。

Qwen-3.6-35B在这方面的不稳定性尤为突出：在某些提示语下，有高达84.7%的论文在三次运行中出现了分数不一致的情况。这并不意味着Qwen的总体表现差，事实上它在综合排名中表现相当不错，但这种高度的随机性确实令人担忧。

由此可见，AI评审的稳定性远不够理想。不同的问法，不同的运行次数，都可能导致截然不同的打分结果，这使得其作为严肃学术决策依据的可靠性大打折扣。

四、用AI来"骗过"AI评审，行得通吗

前两个问题的答案都不太乐观，但第三个问题才是这项研究最具爆炸性的部分：既然AI在审论文，那么作者能不能通过专门针对AI评审的迭代修改，把一篇原本会被AI打低分的论文，逐渐"喂"成一篇AI会打高分的论文？

研究团队把这个过程称为"迭代投稿改进"（Iterative Submission Improvement，ISI）。整个流程就像一个无限循环的备考过程：先让AI给当前版本的论文打分并写出评语，然后再让另一个AI根据这些评语修改论文，生成新版本，再重新打分，再修改，如此循环，最多进行十轮。

这个过程设计了三种不同的"修改力度"档次。第一档叫"约束性修改"，AI只被允许做表面文章——改改措辞、调整句子结构、澄清表达，绝对不能改动核心内容，不能添加新实验，不能造假数据。第二档叫"默认修改"，参考了此前其他研究团队使用的编辑策略，介于表面润色和实质改动之间，既没有明确禁止深度修改，也没有主动鼓励。第三档叫"对抗性修改"，完全放开约束，AI被允许做任何它认为有助于被接受的事情，包括凭空捏造实验结果、虚构参考文献、编造数据、伪造案例研究。

研究团队为这三种修改方式专门设计了一套"编辑行为分类体系"，把所有可能的编辑操作分成了十几种类型。温和的操作包括：复制编辑（修改语法和语气）、简化（降低表述复杂度）、澄清（解释现有内容而不添加新信息）、重构（重新组织结构但不改变含义）等。激进的操作则包括：方法论增补（声称进行了新的实验但实际上没有）、事实优化（修改数字使结果看起来更好）、幻觉证据（凭空发明论据）、文献伪造（编造支持性参考文献）等——这些操作在"约束性"和"默认"档次中是被明确禁止的，只在"对抗性"档次中被允许。

实验结果揭示了一些出人意料的规律。在"约束性修改"档次下，经过十轮迭代之后，大约35%的论文在AI评审中获得了更高的分数，42%保持不变，22%反而下降了。统计检验证实这一改善在统计意义上是显著的，效应量属于"中小等级"。更细致地看，被拒论文的改善幅度更大（42.38%的论文得分上升），而录用论文的改善相对温和（32.77%上升）——这也符合直觉，毕竟本来就很高分的论文再往上提升的空间更有限。

"默认修改"的数字虽然在方向上与"约束性修改"类似，但并未通过统计显著性检验，效应量也非常小。研究团队认为，这可能是因为"默认"指令的模糊性导致AI的修改方向分散、不够集中，时而实质性改动，时而只是润色，最终效果参差不齐。

最令人惊讶的是"对抗性修改"档次的结果。按理说，被允许伪造数据、凭空捏造实验结果的AI，应该能轻松"骗过"AI评审，将低分论文刷成高分。然而实际效果却弱于"约束性修改"：虽然整体上也存在统计显著的分数提升（且对被拒论文效果更明显），但效应量比"约束性"档次更小。

为什么会这样？研究团队给出了两个解释。其一，当AI被允许"随意添加内容"时，它往往倾向于添加新的实验描述（属于"方法论增补"类型），这可能在论文内部造成前后矛盾，反而被下一轮AI评审识别为"漏洞"而扣分。其二，AI模型自身的"安全护栏"在起作用——即便被明确要求这样做，模型在实际操作中也往往不愿意真的去伪造具体数字或凭空编造证据，更多还是选择相对合规的"方法论增补"（比如"我们还进行了额外的消融实验"），而非最激进的"我们的准确率达到了99%"这种赤裸裸的数据造假。

与此形成对比的是，"约束性"和"默认"档次下，AI最常选择的编辑类型是"澄清"，而"约束性"档次中还频繁出现了"重构"操作——即重新整理文章结构，在不改变核心内容的情况下让论文读起来更清晰、更有逻辑。正是这种"表面文章"的积累，反而最有效地提升了AI评分。

五、这对我们意味着什么

把上面所有发现拼在一起，整幅图景就清晰了。AI评审既不够准确（误差远大于人类），也不够稳定（换个问法或多跑几次分数就会变），而且在特定条件下，确实可以被针对性的表面修改所"哄骗"，显著提升打分结果，即便这些修改并不代表论文实质质量的提升。

这一发现的意义远不止是一个技术层面的性能报告。研究团队在论文中明确援引了古德哈特定律：当一个指标变成了目标，它就不再是好的指标。一旦学术界开始大规模使用AI评审，而作者们也开始针对AI评审的偏好来打磨论文，那么AI评审分数作为"论文质量的代理指标"这一基础假设就会崩塌。那些通过AI喜欢的表达方式、结构和修辞获得高分的论文，不一定真的是最好的研究成果。

当然，研究团队也坦诚地指出了这项研究的局限性。最根本的一个问题是：他们无法知道，那些经过迭代修改、获得了更高AI评分的论文，是否也会在真人评审眼中变得更好。有些修改，比如澄清模糊的表述、重新整理混乱的结构，可能确实是有价值的改进；而有些修改，比如在不增加新内容的前提下把同一个意思换一种更"高大上"的方式说，则纯粹是哄骗AI。区分这两种情况，需要让人类专家来评审修改前后的版本，而这在实际操作中几乎不可能实现。

此外，这项研究只测试了用同一款AI来做评审的"自我博弈"场景，而现实中作者不知道会议用的是哪款AI、哪种提示语，这种信息不对称会降低"定点刷分"的可行性。同样，这项研究也没有测试在一款AI上优化的论文，是否能在另一款AI甚至人类评审上同样获得更高的分数。

研究团队并不是在主张完全放弃AI评审。他们认为，AI辅助在减轻评审负担方面确实有潜力，但必须非常谨慎地设计实施方案，确保不会造成新的漏洞。未来的评审系统设计者需要思考如何防止被"游戏化"，如何保留评审的多元视角，以及如何超越单纯的数字评分来做出更全面的判断。

说到底，这项研究最核心的发现是一个关于"测量工具"本身的深刻警示。人类评审虽然不稳定、不便宜、不高效，但它背后有一个核心优势：人类评审员很难被专门"训练"出来——你无法预测每一位评审员的偏好，无法写一篇专门针对某人审美的论文。而AI评审，一旦其运作逻辑变得可预测，就会面临被系统性利用的风险。更令人头疼的是，就算AI评审的算法每天都在变，只要作者有机会在提交前用同款AI来预测分数，这个循环就会持续下去。

归根结底，这项研究在提醒我们：学术评审的核心价值不是打出一个数字，而是让有洞察力的人类专家去判断一项研究是否真正推进了知识的边界。在把这个判断外包给算法之前，我们需要非常清楚地知道，我们可能正在失去什么。感兴趣深入了解这项研究的读者，可以通过arXiv平台以编号arXiv:2605.28897查阅完整论文。

Q&A

Q1：AI自动评审论文的准确性和人类评审员相比差距有多大？

A：汉堡大学的研究发现，表现最好的AI模型在评分误差上大约是人类评审员的四倍。具体来说，AI模型的平均绝对误差约为0.7分，而人类评审员之间只有0.17分。有趣的是，一个对所有论文一律打2.5分的"摆烂基准线"，其误差（0.64分）甚至略优于最好的AI模型，说明AI评审在分数精度上目前还不具备替代人类的条件。

Q2：迭代修改论文专门针对AI评审打分的行为，属于学术不端吗？

A：研究团队发现，即使是只做表面修改（如澄清表述、重构结构）的"约束性修改"，也能让约35%的论文在AI评审中显著提升分数，而这些修改并不一定代表论文实质质量的提高。研究团队指出，这取决于我们对"改进"的定义——如果人类评审也认为修改后的版本更好，那就是真实改善；如果只是骗过了AI但人类看不出差别，那就是在"游戏"评审系统。目前由于缺乏人类对修改版本的评估，还无法给出明确结论。

Q3：为什么专门允许AI"造假"的对抗性修改，反而没有简单的表面润色效果好？

A：研究团队给出了两个原因。第一，凭空添加新实验描述等方法往往会在论文内部制造前后矛盾，被下一轮AI评审识别为漏洞而扣分。第二，AI模型自身的安全机制限制了它真正去伪造数据或捏造证据——即便被明确要求，模型也倾向于选择相对合规的编辑方式，而不是彻底造假，因此实际效果反而不如专注于清晰化和结构整理的约束性修改。

同行评审大型语言模型系统安全性

分享至