
这项由罗切斯特理工学院(Rochester Institute of Technology)主导的研究以预印本形式发布于2026年5月,论文编号为arXiv:2605.08586,有兴趣深入了解的读者可通过该编号查询完整论文。
科学的根基是什么?说到底,是"你说的我能验证"。一个实验结果,如果只能靠作者自己说"确实跑出来了",那它和一个精心编造的数字,在旁人眼里并没有任何区别。这个听起来令人不安的问题,正是这篇论文要正面回答的。
研究团队用一个词来命名这个问题:**实验不可否认性**(experiment nonrepudiation)。这个词来自网络安全领域,原本用来描述一条消息的发送方无法事后否认"我没发过这条消息"。借用到科学研究里,它的意思变成:一篇论文的作者,应该无法事后否认或篡改"我的代码跑出来的数字就是这些"。
为了证明这个问题是真实存在的,也是可以被解决的,研究团队做了两件事:一是系统分析了目前所有试图解决这个问题的方案为何都差了关键一步,二是动手构建了一个名为K-Veritas的原型工具,用真实的密码学手段给实验结果"盖章签名"。
---
一、这张数据表,你能看出真假吗
先来做一个小测验,这正是论文第三节所做的事情。
论文里并排放了两张表格,都声称是对某个情感分类模型进行微调后的实验结果,格式一模一样:左边列出基线模型(BERT、RoBERTa、DeBERTa),右边给出准确率和F1分数,最后一行是"我们的方法",数字比基线稍高。
一张表来自真实的训练运行,另一张由语言模型凭空生成——只是给了一个"请帮我生成这个设置下合理的实验结果"的提示。
你能分辨哪张是真的吗?
答案是:两张都不是真的。研究团队生成这两张表,目的就是证明一件事:纯粹靠盯着数字看,你根本没有办法判断一张结果表是真实实验产出的,还是用文字处理软件敲出来的。数字是合理的,基线与已发表文献吻合,方法比基线好一点——这些特征在真实结果和伪造结果里都可以出现。
不止数字,实验设置描述同样可以无中生有。优化器选什么、学习率怎么调、批大小是多少、在什么硬件上跑——这段文字可以在从未运行过一个训练步骤的情况下写得有鼻子有眼。一个有充足时间和动机的审稿人确实可以亲自重跑实验来验证,但这不是审稿流程设计出来要做的事,也没有任何会议给审稿人分配这种资源。
现行的审稿流程,本质上是在评估结果的**可信性**,而不是**真实性**。这是一个根本性的缺口。
---
二、现在有哪些方案,为什么都不够
在正式提出解决方案之前,研究团队花了整整一节仔细审查了目前学术界已有的所有努力,以及这些努力各自在哪里卡住了。理解这一节,有助于明白为什么"再出一个更详细的表格"或"再鼓励一下代码共享"并不能真正解决问题。
NeurIPS在2021年引入了可重复性检查表,要求作者确认自己是否披露了训练细节、误差范围、计算资源等内容。这是一个积极的信号——它提醒诚实的研究者不要漏掉重要信息。然而检查表是自我报告的:一个伪造了结果的作者,在每一项上打"是"的手速和诚实作者完全一样。针对这一问题,一项覆盖400篇来自AAAI和IJCAI论文的调查发现,没有一篇论文记录了可重复性所需的全部变量,平均只有20%到30%的必要信息被记录在案。REFORMS项目则进一步将检查表扩展到32项,由来自计算机科学、社会科学和生物医学共19位研究者共识制定,覆盖数据泄露、评估设计和不确定性报告,然而它依然面对同一个结构性局限:它问的是作者声称做了什么,不是作者实际上做了什么。2024年NeurIPS还试验了一个基于大语言模型的检查表助手,帮助作者比对论文文本和检查表项目,这对捕捉无意中的遗漏有价值,但当遗漏是故意的时候,助手能做的同样有限——它能检查论文是否**声称**报告了误差范围,却无法检查那些误差范围是否来自真实运行的方差。
ACM的制品评估(Artifact Evaluation)走得更远:志愿者真正下载作者提交的代码,检查它是否有文档、能否运行、能否产出结果。通过评估的论文会获得徽章。这个机制的价值在于激励了代码共享,并能发现损坏的流程。但它有三个内生的局限。首先,它是可选的,拒绝参与没有惩罚。其次,在大多数会议,它发生在接受之后,不影响录用决定。最关键的是,它检验的是代码**能否**产生结果,而不是它**是否产生了论文里报告的那些具体数字**——作者完全可以提交一份能运行、输出合理数字的代码,同时在论文里报告来自另一次、更漂亮的运行的数字。一项覆盖USENIX Security、ACM CCS、IEEE S&P和NDSS四个顶级安全会议近十年、近750篇论文的大规模研究发现,只有40%的论文包含制品,而可用制品中只有44%能成功运行,意味着大约只有18%的被研究论文产出了可用的代码。更重要的是,这些会议引入制品评估委员会之后,制品的可用性和可运行性并没有出现统计上显著的改善。
Weights & Biases、MLflow、Neptune这类实验日志平台在内部实验管理上很有用,能记录超参数、指标和系统信息。然而它们是作者控制的——作者决定记录什么、分享哪次运行、在分享之前是否修改日志。没有独立验证,这些平台的日志只能证明作者**选择展示**了什么,而不是**真实发生**了什么。
预注册(Pre-registration)是另一种思路:论文在收集数据之前先接受基于实验方案的评审,改变了同行评审的激励结构——审稿人评估的是设计的合理性,而不是结果有多漂亮。这是一个很好的互补机制,但它不是替代品。预注册锁定的是**计划**,而不是**执行**。一个预注册的研究最终还是要报告数字,那些数字依然在同样的无验证体系里被提交。
软件供应链安全领域有一些很强的基础设施。in-toto通过密码学手段确保软件构建流程的完整性,为每个构建步骤记录签名证明;Sigstore为开源软件发布提供免费可用的签名服务。这些系统解决的是一个相关但不同的问题:它们把一个发布的制品绑定到一个特定的构建过程。然而,它们都不把一个数值结果(比如在测试集上的准确率)绑定到产生它的计算过程。这个空白,正是这篇论文关心的。
研究团队还提出了一个有趣的类比:ICML 2025明确禁止审稿人用生成式AI写审阅意见,或把论文内容输入这类工具,理由是社区无法验证一篇审阅意见是否反映了真实的人类判断。一篇由语言模型生成的审阅意见,单靠目测与人写的已经无法区分。社区认识到这是一个信任问题,并用政策来应对。然而,同样的逻辑应用于实验结果时,一个语言模型被要求生成"合理的基准测试数字"所产出的结果表,与真实训练运行的结果表同样无法靠目测区分。社区对伪造审阅意见的回应是立即的、可执行的惩罚,而对伪造结果的回应,是一张检查表。
---
三、到底什么是"实验不可否认性",它要求什么
研究团队在论文第四节给出了这个问题的正式定义,但核心思想用一句话就可以讲清楚:**对于一个报告的实验结果,必须存在一份防篡改记录,把报告的数字与产生它的具体计算绑定在一起,而且论文作者事后无法修改或否认这份记录。**
"不可否认性"这个词借自安全学,在那里它的经典含义是:消息的发送方无法事后否认"我没有发过这条消息"。对应到科学实验:作者无法事后否认或篡改"我的程序跑出来的就是这个数字"。
这个概念和相邻的几个概念是不同的,理解这些区别很重要。可重复性(reproducibility)问的是别人能不能重新运行你的实验。可复现性(replicability)问的是重新运行是否会产生相同的结果。溯源性(provenance)问的是数据和代码从哪里来。而不可否认性问的是:报告的结果是否与作者无法事后篡改的真实执行相绑定。
为了让任何实现方案都能被评估,研究团队给出了这个问题的抽象规格说明。输入端是一次计算,包含可执行代码(源文件、依赖、框架版本)、配置(超参数、随机种子、数据选择)、硬件环境(CPU、加速器、内存),以及数据集——数据集绝不离开作者自己的机器。计算产生若干指标:准确率、F1、损失等。输出端是一份签名证明,把代码的密码学摘要、配置摘要、硬件环境指纹、报告的指标值、运行时遥测数据(CPU时间、内存、加速器利用率)、标准输出的摘要,全部捆绑在一起,可以用一个独立方持有的公钥来验证。
任何合规协议必须满足六个安全性质。**被动性**:观察者不能修改计算,结果必须来自作者自己的运行。**数据盲性**:观察者绝不访问数据集本身,可以记录数据集的大小和流水线结构,但不能看到数据内容——这确保了作者不需要共享敏感或专有数据。**执行绑定性**:报告的指标必须与产生它们的具体执行相关联,运行时遥测必须与真实计算可对应——一个声称在大型数据集上用GPU训练的结果,应该显示与这个声明一致的硬件活动,一个没有可测量计算量就出现的指标是一个危险信号。**防篡改性**:证明必须签名,任何字段的任何修改都可被检测到,改一个指标值、一个超参数、一个时间戳、甚至标准输出里的一个字符,签名就会失效。**作者-密钥分离**:签名密钥不能由作者持有,否则作者可以为任何内容创建有效证明,密钥必须存放在一个对论文是否被录用没有利益关系的独立证明服务中。**独立可验证性**:任何人——会议、审稿人、未来的读者——都必须能够不信任作者地验证证明,验证是签名记录和公钥的公开函数。
研究团队还特别强调,实验不可否认性不是机器学习专属的问题。系统基准测试、优化结果、基于计算机模拟的科学实验、智能体评估——任何产生计算性经验性声明的领域都适用。这个框架被设计成尽可能大范围覆盖的。
---
四、攻击者会怎么绕过这个系统
好的安全设计必须从攻击者的视角出发。研究团队在第五节诚实地列举了各种攻击场景,以及这个协议对每种攻击能做什么、不能做什么。
最基本的攻击是**文本层面的伪造**:作者在运行之后直接编辑论文里的数字,或者根本没有运行就凭空捏造数字。对抗手段是在提交时把论文的声明与签名记录比对,数字不符就会被检测到。
**日志篡改**:作者在运行之后修改训练日志。签名记录包含标准输出的摘要,在会话封存时冻结,此后的任何编辑都会使签名失效。
**选择性报告**:作者跑了很多次,只报告最漂亮的那次。签名会话一次绑定一次运行,攻击者提交那次被选中运行的证明,其他运行被隐藏。这个问题预注册和在证明记录里记录运行次数能部分缓解,但不可否认性本身并不能完全消除它。
**虚假训练循环**:作者写一个脚本,输出看起来合理的指标和遥测数据,但实际上没有做任何真正的计算。硬件问责层会标记这类浅层伪造:一个声称在大数据集上用GPU训练的论文,应该显示匹配的GPU活动和内存使用。一个攻击者如果要运行一个计算密集型脚本来产生自己选定的数字,那他已经做了真实研究的大部分工作。
**操作系统层面的篡改**:一个被攻陷的操作系统向用户空间的观察者提供虚假的遥测数据。一个被修改的内核可以返回伪造的计数器,或者拦截库调用让观察者读到攻击者想要的内容。一个纯用户空间的观察者无法防止这种攻击。
**固件层面的攻击**:一个谎报硬件信息的虚拟化环境,或者错误报告计数器的恶意固件,威胁更强。用户空间观察者同样无法防止。
**证明服务被攻陷**:如果签名密钥被盗,攻击者就可以为任何内容生成有效证明。这是一个治理和运营问题,而非密码学问题,通过联邦化、密钥轮换和独立审计来应对。
研究团队对这些局限保持坦诚:纯软件协议可以处理文本层面的伪造、日志编辑、简单的选择性报告和浅层假训练,但无法对付拥有内核或硬件访问权限的特权攻击者。不过,这个框架改变了一件根本性的事情:伪造的成本。没有不可否认性时,伪造只需要一个文本编辑器。有了不可否认性,伪造需要运行真实计算,或者攻陷一个内核。这两者的难度差距是巨大的。
---
五、K-Veritas:一个用来证明这件事可以做到的原型
知道问题存在并不等于知道怎么解决。研究团队在第六节描述了他们实际构建的工具K-Veritas,用Go语言编写,目的是证明第四节列出的那些性质在现有技术条件下是可以实现的。研究团队反复强调:K-Veritas是一个测试平台,不是最终答案,任何满足那些性质的其他实现都同样有效。
使用方式非常简单,作者不需要修改自己的代码。整个工作流只有三个命令。第一步,`kveritas init`,初始化一个会话。第二步,`kveritas run -- python train.py`,在K-Veritas的包裹下运行现有的训练脚本。第三步,`kveritas seal --output report.pdf`,封存会话并生成签名报告。
在运行期间,kveritas二进制文件在操作系统层面包裹住这个进程。它以非阻塞方式捕获标准输出和标准错误(作者仍然能看到自己的输出),从脚本打印的内容中解析指标,在每次运行前后对源文件进行哈希。一个后台采样器每t秒记录一次CPU时间、内存使用、GPU利用率、GPU内存和磁盘I/O。会话关闭时,kveritas对整个会话(文件哈希、标准输出字节流、解析的指标、硬件样本、环境摘要)计算一个规范的SHA-256摘要,只把这64个字符的摘要发送给远程证明服务。结果是服务永远看不到原始指标、训练轨迹或训练数据,它返回对这个摘要的RSA-PSS签名。作者从来不持有私钥。最终系统产出一份签名的PDF报告和一个包含执行时源文件的签名压缩包。
研究团队用两个真实的模型测试了这套系统:一个小型的Keras LSTM(合成数据)和一个在SST-2情感分析数据集上微调的RoBERTa-base模型。记录下来的信息包括GPU型号(NVIDIA GeForce RTX 5060 Ti)、CPU型号(Intel Xeon W-2145 @ 3.70GHz,16核)、训练时长(分别是6秒和41分钟)、最终训练损失、最终验证准确率、源代码哈希、标准输出哈希、会话运行次数、以及4096位RSA-PSS-SHA256数字签名。
标准输出哈希把指标值绑定到脚本实际打印的内容。源代码哈希把代码绑定到执行时的那个版本。两者都是被签名数据的一部分。研究团队还定义了一个硬件-指标一致性(HMC)分数,作为报告指标与观察到的硬件活动之间合理性检查的启发式度量:LSTM运行得到0.80的HMC分数,并触发了一个`ZERO_COST_METRIC`标志(因为运行时间少于1秒),而RoBERTa运行得到0.96的HMC分数,没有任何标志。研究团队将HMC定位为众多启发式方法之一,未来的实现会进一步改进。
---
六、要怎么让这件事真正发生
一个好的技术方案如果没有采用路径,就只是一篇论文。研究团队在第七节给出了从概念到行业标准的三阶段路线图。
在治理层面,他们认为实验不可否认性应该由一个独立的非营利组织作为开放标准来维护,没有任何机构附属关系,也没有对任何研究实验室、公司或大学的限制性财务关系。这个模式类似于OpenReview——OpenReview作为社区资源提供同行评审基础设施,不属于任何单一机构。治理模式在设计上就应该是独立的:没有任何单一实体应该控制整个社区依赖的验证标准。
第一阶段是自愿阶段:会议将不可否认性证明作为可选的提交组件提供,包含经验证报告的论文获得可见徽章,审稿人可以通过网页验证工具查看报告,无需安装软件。第二阶段是预期阶段:会议让证明成为预期但非强制的内容,类似于代码提交在NeurIPS的演变方式,缺失情况被记录在评审表中,验证被集成到提交门户,在上传时自动进行。第三阶段是强制阶段:会议要求所有经验性论文提供证明,没有证明的论文被直接拒稿或标记为需要额外审查,证明状态成为标准审稿人信息的一部分。研究团队估计从初始采用到第三阶段需要3到8年,他们邀请会议试点第一阶段,并邀请开发者贡献框架支持和替代验证后端。
---
七、反对声音说什么,研究团队怎么回答
论文第八节用了相当篇幅来正面回应六个常见的反对意见,这种做法本身就说明研究团队意识到自己的提案面临真实的阻力。
有人说这会给本来就很慢的流程增加额外负担。研究团队部分同意:任何新要求都会增加摩擦。但他们指出,集成一个合规的观察者,实际上就是在现有命令前加一个前缀,报告是自动生成的,额外工作量和添加一个日志库差不多。而不验证结果的代价——浪费的跟进研究、被撤回的论文、被侵蚀的信任——远大于包裹一个训练循环的代价。
有人说有动机的作弊者总会找到绕过的方法。这是实话,研究团队也不回避。第五节已经列出了软件方案无法防御的攻击。关键在于,这不是追求完美,而是改变作弊的经济学:没有不可否认性,作弊只需要文本编辑器;有了不可否认性,作弊需要运行真实计算或攻陷内核,成本差距是真实的。
有人说预注册已经解决了这个问题。研究团队的回答是这两者是互补关系,不是替代关系。预注册在实验运行之前锁定方案,改变同行评审的激励结构。不可否认性把报告的数字与真实运行相绑定,改变报告结果的证据地位。两者解决的是不同的问题,会议可以同时要求两者。
有人说工业界实验室因为各种顾虑可能难以遵守。研究团队的回答是分层元数据方案:最低层只需要最终指标、时间戳、框架版本和随机种子,不需要GPU型号、内部基础设施细节或任何可能暴露专有架构选择的内容。想要更强验证的实验室可以选择更高层级,无法披露硬件细节的实验室在最低层级合规。部分合规总好过完全不合规。
有人说这是在用少数人的不端行为惩罚诚实的研究者。研究团队的回答正好相反:不可否认性**保护**诚实的研究者。在所有结果都经过验证的环境里,诚实的工作自然带有可信度。现在,一个诚实研究者的结果和一个不诚实研究者的结果具有完全相同的证据地位:未经验证。不可否认性改变了这一点,经验证的结果更值得信赖,对诚实产出它们的研究者有利。
最后一个反对意见比较严肃:中心化的证明服务器可能对科学合法性拥有过大的权力,成为单点故障和控制点。研究团队用两个设计选择来应对这个顾虑:治理上,组织必须明确独立,协议规范公开,有多个合规实现;地位上,验证结果只是告知判断,不取代判断——没有证明的论文仍然可以被接受,有证明的论文仍然可以被拒绝。长期答案是跨多个独立证明提供方的联邦化,研究团队呼吁社区参与设计。
---
说到底,这篇论文在做一件简单但被长期忽视的事:把一个人人都知道存在但没有人正式命名的问题,清楚地说出来,给它一个定义,给它一套要求,然后做出一个能工作的原型来证明它不是空谈。
归根结底,科学信任建立在证据之上。一份防篡改、可独立验证的证明,比一张论文里的表格是更强的证据。现在的情况是,一个诚实研究者五年心血得到的结果,和一个大语言模型五秒钟生成的"合理数字",在审稿人眼里的证据地位是完全相同的——都是未经验证的声明。
K-Veritas的密钥不在作者手里,这一点是整个设计的核心。你可以伪造一张表,你没有办法伪造一份你无法访问私钥的签名。这不是万无一失的,但它把作弊从"动动键盘"变成了"攻陷操作系统内核",这两件事的难度不在一个数量级。
值得思考的是:如果我们接受"伪造审稿意见是值得用政策来对抗的威胁",那么"伪造实验结果"应该得到至少同等级别的对待。审稿意见不过是帮助决定一篇论文录不录用,而实验结果本身就是那篇论文存在的理由。对这两件事的处理方式却完全不对称,这个不对称值得每一个关心科学健康的人认真思考。
有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.08586查询完整论文。
---
Q&A
Q1:实验不可否认性和可重复性有什么区别?
A:可重复性问的是别人能不能重新运行你的实验并得到相同结果。实验不可否认性问的是一个更基础的问题:论文里报告的数字是否真的来自作者声称的那次计算运行,而且这个绑定关系是作者事后无法篡改或否认的。两者解决的是不同层面的问题,互相补充。
Q2:K-Veritas会不会看到我的训练数据?
A:不会。K-Veritas的设计原则之一就是数据盲性——观察者绝对不访问数据集本身。它只记录数据集的大小和流水线结构等元信息,发送给远程证明服务的只是64个字符的摘要,原始数据、训练轨迹和指标值永远不离开作者自己的机器。
Q3:如果证明服务被黑客攻击了,之前所有的证明是不是都不可信了?
A:这是研究团队承认的一个真实风险。签名密钥一旦被盗,攻击者就能为任意内容生成有效证明。应对方案是通过定期密钥轮换(过期的密钥签出的证明需要重新审视)、多个独立证明服务提供商的联邦化(不依赖单一服务),以及持续的独立审计来降低这个风险。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。