微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上交大团队让AI研究员在你睡觉时自动写论文:这套"永不懈怠的科研助手"系统究竟有多能干?

上交大团队让AI研究员在你睡觉时自动写论文:这套"永不懈怠的科研助手"系统究竟有多能干?

2026-05-12 09:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-12 09:18 科技行者

这项由上海交通大学与上海创新研究院联合开展的研究,以技术报告形式于2026年4月公开发布,论文编号为arXiv:2605.03042,感兴趣的读者可通过该编号直接检索完整原文。

科研这件事,说起来浪漫,做起来却极为繁琐。一个研究员的日常,大概是这样的:早上花两小时查文献,发现有人已经做过类似的工作;下午花三小时跑实验,结果因为一个代码bug全部报废;晚上坐下来写论文,却发现自己在上午摘的那些文献引用已经记不清楚了。这种"边走边忘、边建边塌"的感觉,几乎是每个研究人员的日常噩梦。

上海交通大学的研究团队对这个问题下了一个颇为大胆的判断:**单个AI智能体长期独立完成研究任务,是不可靠的。** 不是说它一定会出错,而是说它迟早会出错,而且出错的方式往往不是明显崩溃,而是悄悄给你一份"看起来很对"却没有扎实证据支撑的研究报告。基于这个判断,他们设计了一套名为ARIS(Autonomous Research via Adversarial Multi-Agent Collaboration,即"通过对抗性多智能体协作实现自主研究")的开源系统,让多个来自不同"门派"的AI互相监督、互相审查,像一支分工明确的科研团队一样,从产生研究想法一直推进到提交会议论文的最后一步。

ARIS的核心理念,可以用一个厨房里的故事来理解。假设你开了一家餐厅,全靠一个厨师既负责烹饪又负责试菜,那他对自己做的菜往往会产生"感情滤镜"——即使咸了一点,他也可能觉得"还好"。但如果另外请一个来自不同菜系背景的试菜员来盲品,那些真正有问题的菜就很难蒙混过关了。ARIS的设计,正是把这种"不同门派厨师互相审菜"的逻辑,移植到了AI科研的全流程中。

---

一、为什么一个AI做不好科研?

要理解ARIS的价值,得先明白它要解决的问题有多棘手。

当前有不少AI科研系统,比如AI Scientist(来自多所高校的联合研究项目)和Agent Laboratory,已经能够自动完成从提出想法到写出论文的完整流程。它们的出现确实令人印象深刻,但研究团队在仔细分析这些系统之后,发现了三个反复出现的软肋。

第一个软肋,是"自己审自己"的问题。很多系统让同一个AI模型既扮演"写作者"又扮演"审稿人",这就像让学生既出卷又改卷——生成内容和审查内容的AI共享同样的思维习惯和知识盲区,它们不会互相纠正对方,只会互相强化共同的错误。机器学习领域里有个专门的术语叫"同源归纳偏置",说的就是这种现象:两个来自同一背景的系统,往往会犯同样类型的错误。

第二个软肋,是流程耦合过于紧密。这些系统往往是一个从头到尾"打通"的流水线,哪个环节出了问题,很难单独修复,也很难从某个中途节点重新启动,更不能方便地替换其中一个步骤。

第三个软肋,是缺乏对科研诚信的系统性保障。说白了,就是没有人认真检查AI最终写进论文的那些数据,到底有没有真实的实验结果作为支撑。

ARIS的研究团队把这个最后的问题定义为一种特别危险的失败模式,叫做"合理的无根据成功"——结果可能是真实的,但被夸大了;声明看起来有理有据,却超出了实验实际支撑的范围;后来的读者接触到这篇论文,会不知不觉地把这些没有充分依据的结论当成已证事实继续引用下去。这种错误不会立刻暴露,却像蔓延的裂缝一样,悄悄侵蚀科学共识的根基。

---

二、ARIS的整体架构:三层楼的科研大厦

理解ARIS最直观的方式,是把它想象成一栋三层楼的建筑,每一层各司其职,共同支撑起整个科研流程。

底层叫做"执行层",这里存放着超过65个用Markdown格式定义的"技能模块"。每一个技能模块都是一个独立的文本文件,里面用自然语言写明了这个技能的用途、输入、输出、操作步骤、质量检查标准以及遇到故障时的处理方式。这些技能覆盖了文献综述、提出想法、编写实验代码、运行实验、统计分析、写论文、审稿回复等研究的全部环节。此外,这一层还包含一个"研究维基"——相当于一个有记忆的笔记本,把每次研究中发现的文献、想法、实验记录和论断状态都永久保存下来,下次开始新任务时,系统不需要从零出发,而是可以接着上次的进度继续推进。

中间层叫做"编排层",负责把各个技能模块按照任务需要串联成完整的工作流程。ARIS设计了五条主要的端到端工作流程,分别是:想法发现、实验桥接、自动审稿循环、论文写作和审稿回复。每条流程都可以根据用户需要调整深度和广度,系统提供了四个预设档位——"轻量"、"平衡"、"最大"和"极限",分别对应从快速探索到深度研究的不同需求。

顶层叫做"保障层",这是整个系统中最有特色的部分。它负责对研究过程中产生的所有声明进行独立审查,确保写进论文的每一个数字和结论都有真实的实验数据作为支撑,同时对论文的写作质量、图表逻辑、引用准确性等进行全方位检查。

这三层楼分别对应研究团队识别出的三个核心瓶颈:执行层解决"状态持久化"的问题,让系统记得自己做过什么;编排层解决"模块化执行"的问题,让每个步骤都可以独立替换和恢复;保障层解决"独立审查"的问题,让审查不再只是走过场。

---

三、"不同门派互相审查":ARIS的核心机制

ARIS最核心的设计理念,是让来自不同AI家族的模型互相把关。具体来说,系统默认让一个"执行模型"(比如Anthropic的Claude系列)负责推进任务,同时让一个来自完全不同公司的"审查模型"(比如OpenAI的GPT-5.4系列)对每个关键产出进行批评和打分。

这个设计的逻辑,研究团队用了一个很有意思的比喻:把自己审自己比作"随机赌博"(摇骰子),把让外部模型来审比作"对抗赌博"(和真正想赢你的对手下棋)。在随机赌博里,噪声是可预测的,你很容易估计出自己的胜算;但在对抗赌博里,对手会主动寻找你没有预料到的弱点,难度本质上更高。这正是ARIS希望制造的状态——让AI在面对一个会主动挑毛病的外部审查者时,被迫做得更扎实。

在实际运作中,这套"对抗协作"机制是这样展开的:执行模型首先生成一个产出(可以是代码、论文段落或实验设计),然后把这个产出交给审查模型评分。审查模型在一个事先定义好的评分标准下,给出具体分数,并返回一份结构化的"需要修改的问题清单"。执行模型根据这份清单进行修改,之后再次提交审查。这个循环一直持续,直到分数超过预设门槛(默认6分,满分10分),或者达到最大循环轮数(默认4轮)为止。

为了防止审查模型被执行模型的"包装"所迷惑,系统要求执行模型只能提供文件路径,让审查模型自己去读取原始材料,而不能先替审查模型做摘要或解读。一旦允许执行模型先做摘要,审查模型看到的就只是执行模型的视角,共同错误就很难被发现了。

审查模型的"权限"也分三个档位。最基础的叫"仅文档",审查模型只能看到论文文本本身;中间档叫"含辅助材料",审查模型额外可以查看实验结果文件和中间产物;最高档叫"仓库级",审查模型可以直接检查代码库、评估脚本和模型输出。此外,审查上下文策略也分两种:每轮都用全新会话(避免审查模型被之前的对话内容带偏),以及跨轮保留记忆(用于验证之前提出的问题有没有被真正解决)。

---

四、实验出了问题怎么办?系统的自我修复机制

任何长期运行的自动化系统都难免遇到各种故障。ARIS对这个问题的处理相当细致。

当一个实验运行失败时,系统会把故障归类到一个预定义的错误类别中,然后针对该类别应用对应的修复策略,最多重试三次。规则要求执行模型在把一个问题标记为"无法解决"之前,必须至少尝试两种不同的修复方案。如果两种方案都失败了,系统会引入第三个独立模型,通过一个专门的"救援步骤"提供独立诊断——相当于在两个医生都判断不了病情时,找了第三个专科医生来会诊。

---

五、最容易被忽视的危险:数据造假是怎么发生的?

这是整篇报告里最令人警觉的部分之一。研究团队在社区报告和内部调试中,发现了AI执行代理产生误导性实验输出的真实案例,包括以下几种情形。

第一种叫"模型衍生参考标签"——评估时用来做对比基准的目标值,不是从数据集里取的,而是模型自己生成的,这样评估分数当然好看,但根本没有意义。第二种叫"自归一化分数"——指标的分母来自模型自己的预测,而不是一个独立的标准,这会让数字看起来很高,实际上什么都没说明。第三种叫"幽灵结果"——论文里写的某个数字,在实际输出文件里根本找不到对应记录。第四种叫"僵尸代码膨胀"——评估代码里定义了一些额外指标,实际上从未运行,但在论文里被描述成了实验的组成部分。第五种叫"范围过度声明"——结论泛化到了远超实验实际覆盖范围的场景,比如只测了一个数据集,但论文结论写的是"在各种情况下均表现优越"。

针对这五类问题,ARIS设计了一个三阶段的证据溯源审查流程。

第一阶段叫"实验完整性审计",由跨模型审查员检查评估代码和输出文件,逐条核查上述五类失误。审计结果会产生一份结构化报告和一份机器可读的JSON摘要,并把每条声明标记为"通过"、"警告"或"失败"。

第二阶段叫"结果-声明映射",把每一个候选实验结论都对应到具体的证据上,并给出三种判定:完全支持、部分支持或不成立。如果第一阶段有某条声明被标记为"失败",那么在问题没有解决之前,它在这一阶段永远无法获得"完全支持"的评定。

第三阶段叫"论文声明审计",用一个全新会话的独立审查模型(没有任何历史对话上下文)直接阅读LaTeX源代码和原始实验结果文件,逐一核对论文中每一个定量声明。这个"零上下文新鲜审查"的设计,是为了防止审查模型因为之前轮次的对话记忆而对某些声明产生先入为主的认可。每个声明最终会获得一个状态标签,比如"精确匹配"、"四舍五入误差可接受"、"数字不匹配"、"配置不一致"或"缺乏证据"。

---

六、论文质量保障的四道关卡

除了证据链的审查,ARIS还为论文本身的写作质量设置了四道独立的保障机制。

第一道是"五轮科学编辑流程",灵感来源于斯坦福大学的科学写作课程。每篇论文在初稿完成后,会自动依次经历五轮编辑:第一轮清除冗余词汇和不必要的套话;第二轮把被动语态改为主动语态;第三轮优化句子结构,改善段落内部的逻辑衔接;第四轮检查术语一致性,确保同一个概念在全文里始终用同一个词表达;第五轮做数字一致性核查,确保正文里提到的数字和对应表格、图片中的数据相符。

第二道是"数学证明验证",专门针对理论性强的论文。系统使用一个包含20个问题类别的分类框架,把每个证明的问题分为"证明状态"(比如:无效、无根据、不清晰)和"影响范围"(全局性、局部性、表面性)两个维度。验证过程包括逐条检查定理适用条件,以及对关键引理和主要结论进行反例测试。

第三道是"视觉PDF审查",把LaTeX源码和编译后的PDF文件同时发给审查模型。审查模型从源码判断内容逻辑,从PDF判断视觉效果,比如图片是否清晰可读、图注和图片是否对应、页面布局有没有孤立标题或错位浮动元素、表格格式是否整齐、各图之间的颜色风格是否统一。

第四道是"引用审计",对论文中每一处引用从三个角度独立核查:第一,引用的文章是否真实存在(能通过arXiv编号、DOI或期刊名找到);第二,引用的元数据是否正确(作者姓名、年份、期刊名、论文标题是否与权威数据库如DBLP、arXiv、ACL Anthology等一致);第三,这篇被引用的文章,是否确实支持论文作者想表达的那个论点。第三条是最关键的:一篇真实存在的论文,被用来支撑一个它实际上并不支持的观点,是一种非常隐蔽的学术信誉问题,仅仅检查引用文章是否存在,根本无法发现它。最终审计结果以"保留/修正/替换/移除"的建议形式呈现,供人类研究者在提交前确认。

---

七、有记忆的研究:研究维基为什么重要?

ARIS里有一个容易被忽视但极为关键的组件——研究维基(Research Wiki)。

大多数AI系统是没有跨任务记忆的。你今天让它分析一批文献,明天再启动新会话,它就什么都不记得了,可能会重新推荐你去看上次已经看过的论文,甚至重新提出你上次已经尝试过但失败了的研究想法。这种"金鱼记忆"的弱点,在单次任务里影响不大,但在一个需要跨越多天、多次会话的长期科研项目里,会导致大量重复劳动。

ARIS的研究维基通过四种实体类型——论文、想法、实验、声明——来存储结构化知识。这些实体之间通过八种关系连接起来,包括"扩展"、"矛盾"、"填补空白"、"受启发于"、"被测试"、"支持"、"否定"和"取代",形成一个轻量级的知识图谱。

最重要的设计决策,是把那些失败的想法也保留在维基里,而不是丢弃。这样,当系统在下次会话中试图生成新想法时,它会先读取维基,看到哪些方向已经尝试过但没有结果,从而主动跳过这些"死路",转向还没有探索的方向。失败的想法成了"黑名单",已经验证的结论成了下次探索的起点,研究过程由此从"每次从零开始"变成了"螺旋式上升"。

---

八、五条工作流程,覆盖科研全程

ARIS把整个科研过程拆解为五条端到端的工作流程,每条流程都有明确的"输入"和"输出",像接力赛一样,上一条流程的输出文件正好是下一条流程的输入材料。

第一条流程是"想法发现"。系统从用户给定的研究方向出发,通过多轮文献检索(调用Semantic Scholar、arXiv等学术数据库),生成8到12个候选研究想法,然后进行新颖性筛查,排除与已有工作高度重叠的方向,通过筛选的2到3个想法再经过迭代优化,最终产出一份包含排序结果和实验计划的研究报告(IDEA_REPORT.md)。

第二条流程是"实验桥接"。系统读取实验计划,自动编写实验代码,经过代码审查和单GPU快速验证后,把完整实验部署到用户配置的计算后端(支持本地服务器、SSH远程连接、Vast.ai和Modal等云平台),收集结果后输出一份实验日志(EXPERIMENT_LOG.md)。

第三条流程是"自动审稿循环"。以论文草稿和实验结果作为输入,启动前述的跨模型审查-修改-再审查循环,直到论文质量达到门槛或轮次用尽,输出改进后的论文。

第四条流程是"论文写作"。从一份叙述性报告(NARRATIVE_REPORT.md)出发,经过结构规划、图表生成、逐节LaTeX写作、五轮编辑、可选的证明检查、论文声明审计、LaTeX编译,以及两轮视觉PDF改进循环,最终输出一份完整编译好的PDF论文。

第五条流程是"审稿回复"。把会议论文和收到的审稿意见作为输入,经过七个阶段的处理:解析审稿意见、拆解问题、制定回复策略、起草回复、三道安全关卡检查、GPT-5.4压力测试(检查所有问题是否都得到了回答、是否引入了新的夸大声明、是否对实验做出了无法兑现的承诺),最终输出一份精确控制字符数的可直接粘贴回复文本。

---

九、系统的工具箱和自我改进机制

ARIS在工具层面提供了六种模型桥接器,让执行模型和审查模型可以互相调用:专用桥接器覆盖了Codex、GPT-5.4 Pro审查、Gemini、Claude和MiniMax,另有一个通用的OpenAI兼容聊天桥接器,可以接入GLM、Kimi、DeepSeek等国内模型。文献数据库方面接入了DBLP、CrossRef、Semantic Scholar,文献管理支持Zotero和Obsidian同步,实验追踪集成了W&B,团队通知支持Feishu。

系统还包含一个叫做FigureSpec的图表渲染器,可以把结构化的JSON描述转换成矢量图(SVG格式)。这个渲染器能处理矩形、圆形、椭圆和菱形节点,支持自循环箭头、曲线边和多行标签,并支持中文字符宽度估算。固定渲染器版本和字体配置后,同一份JSON描述每次生成的图都完全一样——这保证了论文图表的可复现性。事实上,ARIS技术报告中所有的架构图和流程图,都是用这个渲染器自动生成的。

此外,ARIS还有一个原型性的"元优化"外循环机制。简单说,系统会在正常使用过程中悄悄记录运行日志,包括哪些参数被用户反复手动修改(说明默认值不够好)、哪些工具反复出错、在哪个阶段审稿分数总是卡住不涨。收集到足够数据后,系统会自动生成针对性的技能模块修改建议,但这些建议本身也要经过GPT-5.4的审查,只有打分不低于7分的建议才会推送给用户,最终由人类决定是否采纳——系统永远不会自动修改自己。

---

十、真实部署情况:一个深夜实验的真实记录

研究团队坦诚地说明,所有报告的结果都是观测性的,不能把这些结果单独归因于ARIS本身。

截至2026年4月,系统已经支持了6个执行平台(3个经过完整测试,3个通过社区适配),支持超过6种审查模型,4种GPU后端,9种会议模板格式,支持通过ModelScope免费API接入不需要付费密钥的用户。社区贡献了超过30个新技能,覆盖机器人、硬件设计、通信工程、数学证明、基金申请和演讲稿生成等多个领域。

团队记录了一次完整的"通宵运行"实验:在大约8小时的时间里,系统完成了4轮审稿-修改循环,把内部审稿分数从5.0分提升到了7.5分,启动了超过20次GPU实验,并主动删除了若干缺乏证据支撑的声明。团队明确指出,这只是单一轨迹上的一次记录,不能由此推断跨模型审查一定优于同模型审查,也不能断定两个模型就是最优审查委员会规模。要真正测量这些效果,还需要按照团队在附录中设计的基准测试协议进行受控实验,这是留给未来工作的任务。

---

十一、系统目前的局限性:研究团队自己怎么说?

ARIS的研究团队在论文里对系统的局限性进行了相当坦诚的讨论,这些内容同样值得关注。

首先,系统无法保证输出正确。AI模型会产生幻觉,跨模型审查能降低某些失误的概率,但无法消除所有错误。三阶段审计流程是一张"安全网",而不是正式的验证系统。

其次,审查循环可能放大审查模型自己的偏见。如果审查模型固执地偏爱某种方法论,循环很可能让论文越来越迎合这个特定审查员的口味,而不是真正提升科学质量。过度迭代在回报递减的阶段,实际上会让论文质量下滑。

第三,仓库级别的代码审查会把源码发送到外部AI服务商的服务器,对于包含敏感代码或机密数据的项目存在隐私风险。研究团队明确建议:不要在敏感仓库上开启仓库级审查,除非有经过认证的本地审查路径可用。本地化审查路由是计划中的未来功能,目前尚未实现。

第四,也是最关键的一点:ARIS自动化了执行和审查的流程,但研究方向的确定、证据的最终验证、以及是否提交的决定,仍然需要人类研究者来做。论文里明确说:ARIS并不取代研究者的判断,它是一个高度自动化的执行工具,需要人类来把握方向。团队还专门在正文中加了一段备注,指出人类参与到循环中,可以显著提升最终论文的质量,并且有助于研究者自身积累科研品味——这是一种只靠阅读AI输出无法获得的能力。

---

归根结底,ARIS想解决的问题比它呈现的技术细节更有深意。当AI系统越来越能胜任长期复杂任务的时候,怎么知道它真的做好了,而不只是生成了一份令人信服的假象?研究团队提出的答案是:让不同"基因"的AI互相盯着对方,同时用严格的证据链把声明和数据的关系固定住,让每一步产出都可以被独立审查。

这套思路并不局限于科研领域。研究团队在结论中提出了一个更大的猜想:把"跨模型审查"和"声明溯源"这两个机制,插入到任何一个AI模型输出和下游训练数据或奖励信号之间,可能是让AI系统自我改进时不失控的一种候选方式。当然,他们也坦承,这只是一个值得测试的假设,不是本研究已经证明的结论。

对于当下急于把AI引入科研流程的研究团队和科研机构来说,ARIS的核心价值或许不只在于它节省了多少时间,更在于它把"如何审查AI产出"这个问题,认真当成了一个工程问题来解决,而不是留给用户自己去担心。感兴趣的读者可以通过arXiv编号2605.03042检索原始技术报告,项目的开源代码也可以在GitHub上通过搜索"Auto-claude-code-research-in-sleep"找到。

---

Q&A

Q1:ARIS系统是如何防止AI在论文中写入假数据或无根据的结论的?

A:ARIS通过一套三阶段的证据溯源审计流程来防范这类问题。第一阶段检查实验代码和输出文件,排查五种常见的数据造假模式,包括用模型自己的输出当对比基准、论文里写的数字在实验文件里根本找不到等。第二阶段把每条结论都对应到具体证据,给出"支持"、"部分支持"或"不成立"的判定。第三阶段用一个全新会话的独立AI,直接对照原始实验结果文件,逐条核查论文里每一个数字。这三个阶段一起构成了一道层层递进的过滤机制,尽管它是"安全网"而非绝对保障。

Q2:ARIS支持哪些AI模型,普通用户不买API也能用吗?

A:ARIS目前支持Claude系列、GPT系列、Gemini、MiniMax,以及国内的GLM、Kimi、DeepSeek等模型,通过六种模型桥接器接入。对于没有付费API密钥的用户,ARIS已接入ModelScope平台,可以通过免费API使用部分功能,不强制要求购买商业API。整个技能模块库以纯文本文件形式发布,不依赖特定平台运行时,在Claude Code、Codex CLI和Cursor等多个环境中均可直接使用。

Q3:ARIS的自动审稿循环最终得到的7.5分,是不是真正意义上的论文质量提升?

A:这需要谨慎解读。研究团队自己也明确指出,这个分数来自AI审查员,不等同于人类专家的同行评审分数。团队只记录了一次通宵运行的单一轨迹,不能由此推断跨模型审查一定优于其他方式,也无法排除分数提升只是让论文更符合特定审查模型偏好的可能性。要客观评估真实效果,需要按照团队在报告附录中设计的对照实验方案进行受控测试,这部分工作留给了未来研究。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-