微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国科学技术大学打造的AI"技能图书馆"：让智能体真正学会从经验中成长

人工智能终身学习技能库优化

中国科学技术大学打造的AI"技能图书馆"：让智能体真正学会从经验中成长

作者：科技行者

2026-04-29 11:16

分享至：

这项由中国科学技术大学主导的研究构建了名为SKILLFLOW的AI智能体评测体系，包含166个任务和20个任务系列，专门测试智能体能否在完成任务序列的过程中自主积累、修正和复用技能。研究对11种主流AI模型进行了系统测试，发现不同模型在"边干边学"能力上存在显著差异：最强模型任务成功率提升超过8个百分点，而部分模型反而出现退步。研究揭示了技能库膨胀、错误技能传播等典型失败模式，并指出修正错误技能的能力比生成技能的能力更关键。论文编号arXiv:2604.17308。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 11:16 • 科技行者

这项由中国科学技术大学主导、联合多伦多大学和悉尼大学参与的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.17308，有兴趣深入了解的读者可通过该编号查询完整论文。

假设你雇了一位新助理，每次交给他一项任务，他完成之后就把经验全部抛之脑后，下次面对类似的工作还是从零开始摸索——这样的助理，恐怕很快就会让人抓狂。现实中我们评价一位助理是否优秀，很大程度上看他能不能把今天的经验变成明天的本领。这道理听起来再朴素不过，但对于当下的AI智能体来说，却是一道真实存在的难题。

这正是这项研究的出发点。研究团队观察到，越来越多的AI系统已经可以像人类一样使用工具、完成多步骤的复杂任务，例如读取电子表格、分析文件、生成报告。这类AI被称为"自主智能体"，可以把它理解为一位能在电脑前独立工作的AI员工。为了让这类员工更高效，研究者们开始给它们配备"技能包"——一套预先整理好的操作指南，告诉智能体遇到某类问题该怎么做。

然而问题来了：现有的评测系统只考察智能体能不能用别人给好的技能包解决问题，却从未认真追问——这个智能体能不能自己总结出技能？遇到失败能不能修正技能？随着任务一个接一个完成，它的技能库能不能真正越来越强？

为了回答这些问题，研究团队构建了一个名为SKILLFLOW的测评体系，并用它对11种主流AI模型进行了系统测试。他们发现，不同模型在"边做边学"这件事上的差异大得出人意料。最好的模型（Claude Opus 4.6）通过这种自我进化，任务成功率从62.65%跳升到71.08%，提升了8.43个百分点。但也有模型，明明在频繁调用技能，任务表现却几乎没有改善，甚至出现了退步。这说明，"调用技能"和"真正从技能中受益"是两码事。

一、一套专门测试"边干边学"能力的闯关游戏

要理解这项研究做了什么，可以把SKILLFLOW想象成一套特别设计的闯关游戏。游戏一共有20个关卡系列，每个系列包含8到9个关卡，总共166个关卡。关键的设计在于：同一个系列里的所有关卡，虽然表面上看内容各不相同，但骨子里的操作逻辑是一模一样的。

打个比方，系列一是"财务报表滚动更新"，关卡一让你处理一家餐厅的月度收支表，关卡二换成了一家医院的账目，关卡三又变成了一家航空公司。每次任务的具体数字和业务场景都不同，但每次都需要你做同样几件事：读取多张来源数据、找出目标条目、过滤掉重复和无效行、对齐各项调整内容、滚动计算余额、与对照总量比对、最后输出汇总表格。

这个"骨子里一样的操作逻辑"就是研究团队定义的核心概念——DAEF，即"领域无关执行流程"。可以把它想象成一套"万能菜谱框架"：食材和口味每次都不同（具体任务内容变化），但备菜、炒制、出锅、装盘的步骤顺序始终如一（操作逻辑不变）。

为什么要这样设计？因为只有当一系列任务共享同一套操作逻辑，才能真正测试智能体有没有从前几次任务中提炼出可复用的经验——如果每个任务的逻辑都截然不同，那即便智能体学到了什么，也根本没有机会用上。

研究团队覆盖了五大领域：金融与经济学、运营与供应链、医疗健康、治理与战略，以及数据与文档处理。每个领域都有几个典型的工作流系列，例如供应链补货计划、OCR数据提取、Excel加权风险评估、韩文文档自动化填写等，都是真实职场中会遇到的工作场景。

为了构建这些任务，研究团队先从两个已有的AI评测数据集里精选了64个种子任务（其中18个来自SkillsBench，46个来自GDPval），然后从这些种子任务里提炼出DAEF框架，再通过一套双智能体的自动扩展流程，为每个DAEF框架生成更多变体任务。这个扩展过程像一对编辑与审稿人：一个智能体（建筑师）负责设计新任务，另一个智能体（评审人）负责在真实运行环境里验证这些任务是否合理、是否有足够的难度梯度。当审稿人认可之后，任务才被纳入最终的测评集，最后再经过人工复查确保质量。

二、智能体如何在游戏中积累自己的"技能图书馆"

SKILLFLOW的测评方式同样别出心裁。智能体在开始第一个关卡时，手边什么参考资料都没有，只能凭借自己的原始能力硬闯。闯完之后，系统会给它一份"错题反馈"：这次任务哪里做错了，哪些结果不达标。

拿到这份反馈之后，智能体需要做一件额外的事——把这次的经历提炼成一条可以日后复用的经验，以文件的形式存入自己的技能库。下次面对关卡二时，它就可以打开这个库，看看之前总结的经验，再结合新任务的具体要求来制定方案。完成关卡二之后，同样拿到反馈，同样更新技能库——这个"做题→拿反馈→更新技能库→做下一题"的循环，就是研究团队所说的"智能体终身学习协议"。

技能的存储格式被刻意设计得极为简洁：每次更新叫做一个"技能补丁"，包含三个部分。第一部分是一段文字说明，总结这次学到了什么新经验或修正了什么旧错误。第二部分是需要新增或修改的文件内容。第三部分是需要删除的过时文件。这种设计就像版本管理系统一样，每一次修改都有记录可查，方便研究人员日后逐条审查智能体的学习轨迹。

技能文件本身的格式也有规范。每项技能都存放在以该技能命名的文件夹里，文件夹内必须有一个核心说明文件（SKILL.md），开头必须包含两个字段：技能名称和使用场景描述。说明文件里写的是可以直接照着执行的操作指南，偏爱的写法是给出清晰的工作流程、决策规则和容易踩坑的反面案例。如果需要附上辅助脚本，放在scripts子文件夹；如果有详细的参考文档或API说明，放在references子文件夹；如果有可以直接复用的模板文件，放在assets子文件夹。

值得注意的是，技能库的更新完全由智能体自己完成，不需要人工干预，也不借助任何额外的检索机制。技能的调用同样是自然发生的：当智能体在执行任务时，如果它读取或调用了技能库里的文件，系统就会记录这次调用，作为"技能复用率"统计的依据。

三、实验结果里藏着的冷知识：高使用率≠高收益

测试结果一出来，研究团队发现了几件颇为出乎意料的事。

最亮眼的案例是Claude Opus 4.6。在没有技能库的情况下，它能完成166个任务里的104个，成功率62.65%。开启终身学习模式后，完成数量升至118个，成功率达到71.08%，净增8.43个百分点。不仅如此，平均每次任务的费用还从0.665美元降到了0.615美元，生成的输出文字量也从平均每任务3000字降到了2390字——花的钱更少，做的事更多，这是最理想的结果。

排在后面的表现也各有特点。MiniMax M2.5的成功率从28.31%升到34.94%，提升了6.63个百分点。Claude Sonnet 4.5从49.40%升到55.42%，提升6.02个百分点。GPT 5.4从33.13%升到36.75%，提升3.62个百分点。

然而看到Kimi K2.5时，故事就变得有意思了。这个模型在终身学习模式下，有高达66.87%的任务都调用了技能库——也就是说，它非常积极地在使用自己积累的经验。但是任务成功率只从55.42%升到56.02%，只涨了区区0.60个百分点。高度使用，微弱收益，技能调用率和实际收益之间出现了明显的落差。

更极端的案例是几个出现退步的模型。GPT 5.3 Codex的成功率从52.41%跌到46.39%，下降了6.02个百分点。Qwen-Coder-Next从45.18%跌到44.58%。Qwen3-Coder-480B从24.70%跌到24.10%。MiniMax M2.7从37.35%跌到36.75%。这些模型不仅没有因为技能积累变得更强，反而变弱了。

研究团队还做了一个对照实验，专门针对Claude Opus 4.6：让它不积累技能库，而是把之前所有任务的完整对话历史都附在当前任务前面作为参考。这种"把过去的全部经历原封不动塞进记忆"的做法，效果如何？成功率只有51.04%，比没有任何辅助的原始状态（62.65%）还要低11.61个百分点。换句话说，把经历转化为结构化技能，远比把经历堆积成冗长的记录更有价值。这就好比厨师成长靠的是提炼出食谱，而不是把每次下厨的全程录像反复回看。

从领域分布来看，不同类型的任务对技能进化的反应也不一致。数据与文档处理类任务从技能积累中获益最多，而金融与经济学类任务反而出现了更多的负向变化。这说明技能进化的效果并非普适，某些任务类型天然更适合这套学习机制。

四、为什么有些模型越学越强，有些越学越乱

研究团队深入分析了背后的原因，总结出六条具体发现。

最核心的一条是：决定模型能否从技能进化中获益的关键，不在于它能不能写出技能，而在于它能不能修正错误的技能。几乎所有模型都能在完成任务后写出一条技能条目，这不难。难的是，当某条技能记录的是错误的操作逻辑时，模型能不能发现这个错误，并把技能改正确？这才是真正的分水岭。

与此紧密相关的第二条发现是：一旦错误的技能被写入库里，它的危害会随着任务序列向后蔓延。后续的任务会继承这个错误的逻辑，就像一个食谱写错了关键步骤，所有照着这份食谱做出来的菜都会出问题。这种错误传播效应使得早期的错误技能格外危险。

第三条发现是关于技能库规模的反直觉规律：更小的技能库，往往对应更好的任务表现。在表现最好的设置里，技能库最终平均只存有一到两项技能。反而是那些表现欠佳的模型，技能库里堆积了四五项甚至更多技能，但成功率却没有相应提升。为什么会这样？因为强的模型会把多次任务中反复出现的操作逻辑提炼成一条高度概括的核心技能，并在每次学到新东西后对这条核心技能进行修订和完善。弱的模型则倾向于每次任务都单独总结一条新技能，导致技能库变得越来越庞杂，里面充斥着大量内容重叠却各说各话的条目。

以Qwen系列和部分MiniMax设置为例，它们的技能数量几乎随着任务编号单调递增，几乎每完成一个任务就新增一条技能。但技能数量的快速膨胀并没有带来成功率的相应提升，反而让后续任务的智能体在面对庞大技能库时陷入某种"认知过载"，不知道该参考哪一条，最终适得其反。

另一方面，Codex系列展示了截然不同的风格：它倾向于把相邻任务的变体融合进同一条不断演化的核心技能，而不是另立新条目。这使得它的技能库始终保持精简。但有意思的是，这种精简的风格并没有转化成和Opus系列相当的任务完成率，说明技能库精简只是必要条件，不是充分条件。

五、一道真实任务的解题全程：智能体怎么学会处理Excel公式的坑

论文附录里详细展示了一个真实的任务案例，生动地说明了技能进化在实际中是如何发生的，非常值得拆解来看。

任务是这样的：在一个Excel工作簿里，Task表单有一批黄色的空白单元格需要填写公式。Step 1要求填写INDEX+MATCH组合查询公式，数据来源在Data表单的另一个区域。Step 2要求计算六家医院的净患者流指标，并统计各列的最小值、最大值、中位数、均值、第25和第75百分位数。Step 3要求用SUMPRODUCT函数计算加权均值。

智能体开始时遵循了合理的流程：先读取任务说明，然后调用技能库里已有的Excel公式任务技能——技能里提醒它要先读取验证脚本，搞清楚验证程序是怎么检查结果的。智能体照做了，发现验证脚本会用一个叫`data_only=True`的模式打开Excel文件，在这个模式下，如果单元格只有公式字符串而没有缓存的计算结果，读取到的值会是空的。

这是一个经典的陷阱：Python的openpyxl库可以往Excel单元格里写入公式字符串，但它本身不会计算公式，所以写进去的公式没有配套的缓存值。如果验证程序用的是上述方式读取，就会全部得到空值，任务失败。

智能体知道了这个问题，开始想办法解决。它先尝试调用LibreOffice在后台重新计算工作簿，但发现这个容器环境里没有安装LibreOffice。又尝试用一个叫`formulas`的Python库来模拟计算，但这个库计算出来的结果同样无法被openpyxl以`data_only=True`方式读取。

走投无路之下，它转向了第三条路：直接修改Excel文件内部的XML结构。Excel文件本质上是一个ZIP压缩包，里面有若干XML文件。单元格的公式存储在`<f>`标签里，缓存值存储在`<v>`标签里。如果手动往每个有公式的单元格里写入一个`<v>`标签，验证程序就能读到值了。

智能体开始实施这个方案，但中途出了问题：它分多次修改XML，每次重新打包ZIP文件时，前一次写入的公式字符串被覆盖掉了，最终导致一部分单元格的公式消失，只剩下了缓存值。它意识到了这个问题，诊断出根本原因是"多次XML修改导致公式字段被破坏"，于是果断放弃已经修改过的工作文件，重新从原始工作簿开始，把所有单元格的Python计算值先全部算好，然后在一次XML操作里把所有缓存值一起写入，完成后运行验证脚本，167个公式单元格全部既有公式又有缓存值，任务通过。

完成任务之后，智能体生成的技能补丁里，把这整套经历提炼成了一条清晰的操作指南。核心要点是：如果验证方式用`data_only=True`，那必须用XML级别的方式写入缓存值；所有XML修改必须在一次操作里完成，绝不能分多次；LibreOffice和formulas库都不可靠，不要依赖它们。技能里还给出了可以直接复用的Python脚本，以及一张常见症状与对应修复方案的对照表。这条技能后来帮助智能体在该系列的后续任务中大幅减少了试错次数。

六、这项研究和以往的AI评测有什么本质区别

研究团队在论文附录里列了一张详细的对比表，把SKILLFLOW和几个知名AI评测系统放在一起比较。Terminal-Bench和SWE-bench是两个知名的AI任务评测平台，它们完全不考察技能相关的维度。SkillsBench是最接近本研究出发点的前人工作，它确实测试了技能对任务的帮助效果，也支持智能体自己生成技能，但它不考察技能的迭代修正、技能的跨任务积累复用、技能是否真正对应有效使用，也没有基于交互轨迹来提炼技能。SKILLFLOW则在上述全部维度上都给出了肯定的回答。

这种系统性的差异，使得SKILLFLOW能够揭示出一些以往评测从未触碰的问题，包括：为什么有些模型频繁调用技能却没有收益、为什么技能库的膨胀反而会伤害表现、为什么修正错误技能的能力比生成技能的能力更重要。这些发现对于AI研究者理解当前模型的瓶颈有着直接的参考价值。

归根结底，这项研究告诉我们，AI智能体目前离真正意义上的"边干边学"还有相当大的距离。并不是给它配上一个可以更新的技能库就万事大吉，关键在于它有没有能力把失败的经历转化为有价值的修正，而不仅仅是把经历堆积成越来越厚的档案。

对于想要深入了解这个方向的读者，相关代码已经开源发布在GitHub平台，可以通过论文编号arXiv:2604.17308找到完整论文和仓库地址。这是一个相当年轻的研究方向，目前还有大量问题悬而未决：如何设计更好的技能修正激励机制、如何在不同类型任务之间实现技能迁移、如何防止错误技能的持续传播……每一个问题背后，都是AI迈向真正自主学习所必须跨越的门槛。

Q&A

Q1：SKILLFLOW基准测试包含多少任务，覆盖哪些领域？

A：SKILLFLOW包含166个可运行任务，分为20个任务系列。覆盖五大领域：金融与经济学、运营与供应链、医疗健康与生命科学、治理与战略，以及数据与文档处理。每个系列包含8到9个任务，这些任务共享同一套底层操作逻辑，但具体的业务场景、文件内容和数据格式各不相同，专门用于测试智能体能否从一系列相似任务中提炼出可复用的经验。

Q2：Claude Opus 4.6在SKILLFLOW测试中提升了多少？

A：Claude Opus 4.6是11个被测模型中表现最好的。在没有技能库的基础设置下，它的任务成功率是62.65%，完成了166个任务中的104个。开启终身学习模式、允许它积累和更新技能库之后，成功率升至71.08%，完成数量升到118个，净提升8.43个百分点。与此同时，平均每任务的费用从0.665美元降至0.615美元，生成文字量也有所减少，整体效率提升明显。

Q3：为什么有些模型技能使用率很高，任务成功率却没有提升？

A：这是SKILLFLOW测试中最核心的发现之一。以Kimi K2.5为例，它在终身学习模式下有66.87%的任务都调用了技能库，但成功率只提升了0.60个百分点，几乎没有实质收益。原因在于，调用技能和从技能中真正受益是两回事。如果一个模型倾向于把每次任务都总结成一条新技能，导致技能库快速膨胀、内容重叠，又无法有效修正其中错误的技能，那么高使用率只会带来认知负担，而非能力提升。

人工智能终身学习技能库优化

分享至