微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海人工智能实验室造出了一个"AI科研助手"，能自动训练AI模型，效果媲美人类专家

大语言模型多智能体系统自动化模型训练

上海人工智能实验室造出了一个"AI科研助手"，能自动训练AI模型，效果媲美人类专家

作者：科技行者

2026-04-24 09:34

分享至：

这项由上海人工智能实验室与复旦大学联合发表的研究（arXiv:2604.14116v1，2026年4月）提出了TREX系统，一套能自动完成大语言模型精调全流程的多智能体框架。系统通过"研究员"和"执行员"两个代理协作，结合蒙特卡洛树搜索策略管理实验迭代，并配套专用数据处理库AIDP。研究团队同时构建了包含10个真实场景任务的FT-Bench评测集。实验表明，TREX在所有任务上均提升了模型表现，部分任务超越人类专家手工设计的精调方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-24 09:34 • 科技行者

这项由上海人工智能实验室与复旦大学联合开展的研究，以预印本形式发布于2026年4月15日，论文编号为arXiv:2604.14116v1，有兴趣深入了解的读者可以通过该编号在arXiv平台上查询完整论文。

**研究概要：当AI开始自己训练AI**

假设你是一家公司的老板，需要培训一批员工，让他们专门处理医学报告、化学分子设计或法律咨询之类的专项任务。传统的做法是，你得请来领域专家，花费数周甚至数月时间反复试验：先找好教材（训练数据），设计课程（训练方案），教完一轮再看成绩，成绩不理想就调整方案，如此循环往复。这个过程不仅耗时耗力，还高度依赖专家的经验和直觉。

上海人工智能实验室的研究团队想到了一个大胆的问题：能不能让AI自己来做这件事？也就是说，让一个AI系统自动完成"给另一个AI设计培训方案、执行培训、评估效果、再改进方案"这整套流程，完全不需要人类专家介入？

这正是他们推出的TREX系统所要解决的核心问题。TREX是一套多智能体系统，专门用于自动化大语言模型（也就是类似ChatGPT这类AI模型）的精调训练过程。所谓"精调"，可以理解为在一个通用AI的基础上，通过专项训练让它在某个特定任务上表现得更出色，就像一个全科医生通过专项进修变成外科专家。

研究团队还专门为评估这类系统构建了一个名为FT-Bench的基准测试，包含10个来自真实应用场景的任务。实验结果表明，TREX在所有10个任务上都能持续提升模型表现，在部分任务上甚至超越了人类专家手工设计的训练方案。

**一、为什么自动训练AI如此困难？**

在理解TREX的巧妙之处之前，有必要先搞清楚自动训练AI到底难在哪里。

现有的AI研究辅助系统已经能处理不少任务，比如自动搜索文献、生成代码、优化算法参数等。这些任务有一个共同特点：它们的"答案"都可以用一段相对简短的文字或代码来表达，而AI系统本身就擅长生成和理解文字。这就好比让一个擅长写作的人来解答问答题，输入和输出都在他的舒适区内。

但训练AI模型是另一回事。一个完整的AI训练方案需要同时考虑三个维度：用什么数据来训练（数据分布）、用什么算法来训练（训练方法），以及用什么参数来训练（超参数，比如学习速度、训练轮数等）。这三个维度相互影响，组合空间极其庞大，没有固定的"标准答案"。更麻烦的是，训练数据往往规模巨大，根本无法直接"放进"AI的记忆里供它参考——这就像让一个编辑改稿，但把整个图书馆的书都丢给他，他根本看不完。

另一个难题是速度。很多自动化研究系统依赖"大量尝试"的策略：一次性生成几十甚至上百个方案，分别运行，选最好的。但训练一个AI模型动辄需要几小时甚至几天，这种"广撒网"的策略在计算资源和时间上完全行不通。

正因为这些挑战，在TREX出现之前，还没有任何自动化系统能够端到端地完成LLM（大语言模型）的训练优化工作。

**二、TREX的核心设计：两个互相配合的"搭档"**

TREX的设计思路可以用一个比喻来理解：把整个AI训练过程类比为一支探险队在未知地图上寻找宝藏。

这支探险队有两个核心成员。第一个是"研究员"（Researcher），负责制定探险计划——分析当前位置、查阅地图资料、决定下一步往哪个方向走。第二个是"执行员"（Executor），负责实际踏上那条路——拿着工具下地挖掘，记录沿途发现，把结果带回来汇报。

在TREX系统中，研究员代理负责实验设计和结果分析。每次迭代时，它会先从宏观角度确定改进方向，比如"要不要增加训练数据量"或者"要不要换一种训练算法"，这是粗粒度的策略判断。随后，它将这个大方向细化成具体的实验方案，通常包含3到5组略有差异的配置（比如不同的数据混合比例或超参数），这样既能同时测试多个变量，又能充分利用GPU集群的并行计算资源。研究员还配备了学术搜索工具，可以自动检索arXiv论文库和Hugging Face开源数据集，为方案设计提供知识支撑。

执行员代理则基于OpenHands平台构建，专门负责把研究员的文字方案转化为实际可运行的代码。它被部署在GPU服务器集群上，能够调用集群任务调度接口，提交、监控和管理训练任务。为了保证安全，执行员运行在沙箱环境中，其文件读写操作被严格隔离，不会影响集群上其他用户的数据。

两个代理之间通过多轮对话协作：研究员发出指令，执行员执行并反馈结果，研究员分析结果后给出新的指示，如此循环，直到完成一轮完整的实验。

**三、探险队的地图：用树状结构管理实验历史**

只有两个搭档还不够，探险队还需要一张记录所有探索路径的地图，才能避免重复走弯路，并在最有希望的方向上持续深挖。TREX使用一种叫做蒙特卡洛树搜索（Monte Carlo Tree Search，简称MCTS）的策略来管理整个实验过程。

MCTS听起来很高端，但本质上可以用一个更直观的场景来理解。假设你在玩一个迷宫游戏，每到一个岔路口都需要决定往左还是往右。如果你随机乱走，可能要花很长时间才能找到出口；如果你只走目前看起来最好的路，又可能过早陷入局部最优、错过真正的捷径。MCTS的聪明之处在于它能在"继续深挖已知的好路"和"尝试新的未知路径"之间找到平衡。

在TREX中，每一轮实验对应树上的一个节点。第一轮实验是树根，负责建立基线——通过网格搜索确定合理的数据量、批次大小、学习率、训练轮数和LoRA（一种高效精调方法）的秩等基础超参数。之后的每一轮实验，系统都会用一个叫做UCT（Upper Confidence Bound for Trees，置信上界树）的公式来给所有已有节点打分，选出最值得继续探索的节点，在它的基础上设计新实验。UCT公式同时考虑两个因素：这个节点历史上表现有多好（利用已知信息），以及这个节点被访问的次数是否足够多（鼓励探索未知区域）。通过这种方式，树会优先在历史上表现良好的路径上继续深挖，同时不会完全放弃其他可能性。

为了防止历史记录越积越多导致AI"记忆过载"，TREX设计了一套精简的上下文记忆管理策略。每个节点在设计新实验时，可以访问三类历史信息：从根节点到当前节点的完整路径（了解"我是怎么走到这里的"）、当前节点的同级节点（了解"在同一个起点上，其他尝试的结果如何"），以及整棵树中最关键的节点（那些带来重大提升或遭遇严重失败的实验）。这三类信息经过压缩处理后形成精简的记忆上下文，既保留了关键的历史洞察，又不会让AI被海量细节淹没。

**四、数据管理的利器：AIDP工具库**

在AI模型训练中，数据处理是最繁琐也最容易出错的环节之一。为此，研究团队专门开发了一套名为AIDP（AI Data Processor）的数据处理工具库，并将其集成到TREX系统中。

AIDP的设计原则是在"够用"和"灵活"之间找到平衡。一方面，它的每个工具操作都足够基础和明确，AI代理能准确理解并调用；另一方面，这些基础操作可以像乐高积木一样自由组合，搭建出复杂的数据处理流水线。

具体来说，AIDP提供了四大类工具。加载器负责从本地存储或Hugging Face等远程仓库导入数据集。评分器能计算文本的困惑度（衡量语言模型对文本的"困惑程度"，困惑度越低说明文本越符合语言规律），也能调用LLM作为评判者来给数据打分。生成器可以用AI合成新的训练数据，包括生成指令-回答对，或者构建偏好数据对（用于强化学习训练）。筛选器则提供多种数据过滤方式，包括基于文本哈希的去重、基于自定义条件的过滤、基于评分的Top-K筛选，以及随机采样。

实验结果表明，有了AIDP支持的TREX在数据处理方面更稳定，实验中断和数据处理失败的情况明显减少。

**五、让每次失败都成为线索：精细化诊断机制**

仅仅知道"这次实验得了多少分"是不够的。在AI训练的探险中，每一次"挖掘"都耗费大量资源，必须从中提取尽可能多的有用信息，才能让下一步探索更有方向性。

TREX为此设计了一套细粒度的实验诊断机制。每次实验完成后，系统不只是记录一个总分，而是深入分析失败案例：在验证集上，模型哪些题答对了，哪些题答错了，为什么答错？系统还会横向比较当前实验和历史实验的失败案例，寻找"这次为什么比上次好"或"这次为什么比上次差"的规律性解释。这些分析结果被整理成评估报告，存入记忆上下文，供研究员在设计下一轮实验时参考。

打个比方，这就像是一个备考的学生不只看最终分数，而是认真分析每道错题——是因为概念没掌握，还是粗心大意，还是题型不熟悉。这种精细化的错误归因能让复习更有针对性，比单纯刷题效率高得多。

**六、FT-Bench：给AI自动训练系统打分的标准测试**

在评估TREX性能之前，研究团队发现一个问题：现有的AI研究系统评估基准，大多关注代码生成、机器学习工程优化（如Kaggle竞赛风格的任务）等方向，没有专门针对LLM精调任务的系统性评测集。于是他们构建了FT-Bench，专门填补这一空白。

FT-Bench包含10个来自真实研究和工业应用场景的精调任务，覆盖的领域相当广泛。医学方向有ACI-Bench，要求模型根据医生与患者的对话生成结构化病历，使用Rouge-1分数衡量文本质量。化学方向有TOMG-Bench，测试模型根据文字描述进行分子编辑、优化和生成的能力，以及oMeBench，评估有机化学反应机制推断能力。生物医学方向有HoC，要求模型对癌症相关科学文献进行癌症标志物分类。计算机科学方向有CS-Bench，涵盖计算机科学26个子领域的知识与推理题。金融方向有OpenFinData，包含数值计算、知识检索和图表理解等综合金融问答任务。此外还有SST-2（电影评论情感分类）、EconlogicQA（经济事件逻辑排序推理）、GTA（多模态现实场景中的工具使用）和LawBench（中文法律知识综合评测，涵盖20个法律子任务）。

这10个任务的设计遵循两个原则：任务必须来自真实场景，具有实际应用价值；计算和数据开销必须可控，不能让每次实验耗时太久，否则多轮迭代就无法实现。在所有实验中，研究团队统一使用Qwen3-1.7B作为待精调的基础模型，每次实验最多使用5万条训练样本。

为了公平比较不同任务上的表现，研究团队设计了一个"归一化相对性能提升"指标。这个指标的计算逻辑是：把基础模型的初始表现定为起点0，把更大的参考模型（Qwen3-235B-Thinking）的表现定为参照线，然后计算TREX精调后的模型相对于这条参照线提升了多少百分比。这样就能在不同难度和不同度量标准的任务之间进行横向比较。

**七、实验结果：成绩单说明了什么？**

研究团队在FT-Bench的全部10个任务上测试了TREX，同时比较了两种"研究员"后端：开源模型Qwen3-Next-80B-Thinking和商业模型Gemini 3 Pro。执行员固定使用Claude 4.5 Sonnet。每个任务最多运行20轮实验，取最优结果。

总体而言，TREX在10个任务上全部实现了性能提升，没有一个任务出现退步，这本身就很有说服力。

具体来看，ACI-Bench（病历生成）的提升尤为显著：基础模型的Rouge-1分数是0.205，使用Gemini 3 Pro版本的TREX将其提升到了0.502，相当于达到参考模型与基础模型差距的849%——也就是说，TREX不仅弥补了差距，还超越了参考线。这背后的原因在于该任务提供了现成的训练数据，让系统能更快建立基线并高效迭代。

TOMG-Bench（分子生成）的结果也令人印象深刻：基础模型得分0.182，Gemini版TREX将其提升到0.681，绝对提升幅度达到0.499。对比之下，TOMG-Bench论文原作者手工设计的专项精调方案，在Llama3.1-8B上的提升幅度是0.189，在Llama3.2-1B上是0.139——TREX在更小的模型上实现了远超人类专家的提升幅度。

oMeBench（有机化学机制推断）从0.198提升到0.484，达到参考线差距的336%。HoC（癌症文献分类）从0.462提升到0.897，达到差距的238%。这两个任务都有现成训练数据，因此迭代效率较高。

相对困难的是CS-Bench（计算机科学）和GTA（工具使用）。前者需要从头构建训练集，Gemini版仅达到0.581，相当于参考线差距的15%；后者同样需要从零开始设计训练数据，提升幅度为50%。研究团队指出，从零构建训练集的任务需要更深入的研究和更多迭代轮次，这是当前系统的瓶颈之一。

OpenFinData（金融问答）的对比尤其值得关注。TREX将基础模型从0.494提升到0.699，绝对提升0.205。而人类专家的解决方案FEVO在Qwen2.5-32B-Instruct基础上仅通过强化学习只提升了0.025；即便使用完整的"持续预训练+监督精调+强化学习"三阶段复杂流程，也仅提升了0.207——而且那是在参数量是TREX所用模型约20倍的模型上实现的。

使用Gemini 3 Pro作为研究员后端的TREX在绝大多数任务上优于Qwen3-Next-80B版本，这说明驱动研究员代理的基础模型能力直接影响整套系统的效果。

**八、哪些策略奏效了？从实验记录里读出规律**

研究团队统计了TREX在所有任务中尝试过的策略类型。在整个FT-Bench评估过程中，建立基线阶段每个任务都会进行一次，共10次。之后，Gemini版TREX进行了91次数据管道优化尝试（成功76次，带来改进16次）、50次合成数据构建尝试（成功45次，带来改进9次）和59次训练方案调整尝试（成功52次，带来改进13次）。对比之下，Qwen版的成功率和改进率略低，但总体策略方向相似。

这组数据揭示了一个规律：数据管道优化是最常见的改进手段，而且成功率高（76/91），但每次带来改进的概率并不特别高（16/76），说明数据优化是一个需要大量精细调整的方向，大方向对但具体做法需要反复试验。合成数据构建和训练方案调整带来改进的"命中率"相对更高，说明这两类策略一旦成功执行，更容易产生实质性效果。

**九、三组对照实验：哪些设计真正起了作用？**

为了验证TREX各个设计要素的必要性，研究团队在oMeBench和GTA两个任务上进行了系统的消融实验。

关于树搜索策略，研究团队对比了三种方式：MCTS、贪心最优优先搜索（GBFS，每次只选当前得分最高的节点继续）和顺序扩展搜索（SES，每次从上一次选的节点继续）。实验图表显示，MCTS的得分曲线波动最小，整体呈现稳定上升趋势；GBFS有时能快速冲到高分，但也容易在某个局部卡住不动；SES则由于缺乏"回头看"的能力，在某些节点上走了太久的弯路。MCTS最终在两个任务上都取得了最高分（oMeBench 0.484，GTA 0.652）。

关于AIDP工具库的作用，对比有无AIDP支持的实验结果，在没有AIDP的情况下，得分曲线频繁出现中断和剧烈波动，原因主要是数据处理代码出错导致训练无法正常进行。有了AIDP支持后，曲线更加平滑，最终得分也更高。

关于失败案例分析，对比能否查看失败案例的两种设置，能够分析失败案例的版本在两个任务上都实现了更高的最终得分和更平稳的提升曲线。这验证了细粒度诊断对于指导实验方向确实有实质价值，而不只是"看起来合理"。

**十、一次真实的探险记录：分子生成任务的20轮进化**

为了让读者直观感受TREX如何工作，研究团队在论文中详细记录了分子生成任务（TOMG-Bench）的关键实验步骤。

第一轮，建立基线：通过网格搜索，系统测试了10K/25K/50K三种数据量、不同批次大小、1e-4到5e-4范围内的学习率、1到3个训练轮次、以及8到32的LoRA秩，共11组配置，找到了可行的参数范围，初始得分从0出发建立起了基础能力。

第二轮，调整训练方法：在LoRA微调和全参数微调之间进行比较实验，发现全参数微调效果更好，得分从0.182跳升到0.620。

第四轮，均匀QED分布提升泛化能力：系统发现训练数据中分子的QED值（一种衡量分子"药性"的指标，取值0到1）分布不均衡，导致模型对低QED和高QED分子的生成能力参差不齐。于是从ZINC250K数据集中按低中高三个QED区间各抽取约3333个样本，构成均匀分布的1万样本训练集，得分进一步提升到0.662。

中间几轮，混合比例实验：系统尝试将分子生成数据和SMILES（化学结构描述语言）语法纠错数据按不同比例混合训练，希望同时提升模型的生成能力和语法规范性。

第十二轮，引入真实化学描述：系统发现此前使用的训练指令过于模板化（比如"生成一个QED值在0.3到0.7之间的分子"），过于机械，可能限制了模型对多样化描述的理解能力。于是引入ChEBI-20-MM数据集，该数据集包含化学专家撰写的真实分子描述（比如"epoxy(hydroxy)icosatrienoate"），通过测试100%、70%/30%、40%/60%、20%/80%四种ChEBI-TOMG混合比例，最终找到最佳平衡点，将分数推进到0.681的最高点。

这个记录展示了TREX不是简单地"随机尝试"，而是有逻辑地从基础参数到数据分布、从单一来源到多源混合、从模板指令到自然语言描述，逐步深化对任务的理解。

**结语：这件事意味着什么？**

说到底，TREX做的这件事，在AI领域有点像"用机器人来造机器人"——它让AI系统承担了原本需要资深研究员投入大量时间和专业判断的工作。从任务描述出发，自动检索文献、构建训练数据、设计训练方案、执行训练、评估结果、再循环改进，整套流程一气呵成。

这对普通用户意味着什么？至少在可预见的未来，如果某家医院想要一个专门处理中文病历的AI助手，或者某个化工公司想要一个辅助分子设计的AI工具，借助类似TREX的系统，实现这些目标所需要的专业门槛和时间成本将大幅降低，不再需要一支庞大的AI研究团队从头摸索。

当然，TREX目前也有局限。在需要从零构建训练数据的任务上（比如工具使用和计算机科学问答），系统需要更多轮次才能找到有效策略，效率提升空间有限。系统的整体表现也依赖于驱动研究员代理的基础模型能力，更强的基础模型带来更好的结果，这意味着当前系统并非完全"免费"——仍然需要调用性能较强的商业AI服务。

一个值得思考的问题是：随着这类自动化AI训练系统越来越成熟，AI研究员的工作会发生怎样的变化？是否会出现一个临界点，让普通软件工程师也能轻松定制出媲美专家的垂直领域AI模型？这些问题的答案，或许就藏在未来几年的技术演进中。

有兴趣深入了解技术细节的读者，可以在arXiv平台搜索论文编号arXiv:2604.14116v1，查阅完整的原始论文及附录中更多实验案例。

---

**Q&A**

Q1：TREX系统是如何避免每次实验都从头开始的？

A：TREX将所有实验记录组织成一棵树形结构，每次新实验都建立在已有结果之上。系统通过蒙特卡洛树搜索策略选择最值得继续深挖的历史节点，并为每个新实验提供三类历史记忆：该节点的完整祖先链、同级节点的尝试记录，以及全树中最关键的成功或失败案例。这样既避免了重复走老路，又能在最有希望的方向上持续积累。

Q2：FT-Bench和现有AI评测基准有什么不同？

A：现有基准如MLE-Bench和RE-Bench主要评估机器学习工程能力或Kaggle风格的竞赛任务，FT-Bench是目前第一个专门针对大语言模型端到端精调任务的评测集。它包含10个来自真实应用场景的任务，涵盖医学、化学、法律、金融等多个垂直领域，要求系统在开放环境中自主完成从数据构建到训练评估的完整精调流程，而不是在受限环境中完成某个子任务。

Q3：TREX在哪类任务上效果最好，哪类任务最难？

A：当任务本身提供了初始训练数据时，TREX能更快建立强基线并高效迭代，效果最为突出，比如ACI-Bench病历生成任务实现了849%的归一化提升，TOMG-Bench分子生成也达到了108%。相比之下，需要从零构建训练集的任务（如CS-Bench计算机科学问答和GTA工具使用）对系统要求更高，需要更多轮次探索，当前版本的提升幅度相对有限，分别为15%和50%。

大语言模型多智能体系统自动化模型训练

分享至