微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

字节跳动研究团队打造的"技能进化"AI助手，能让智能体自己学会新技能并越用越聪明

人工智能技能学习与管理自进化智能体

字节跳动研究团队打造的"技能进化"AI助手，能让智能体自己学会新技能并越用越聪明

作者：科技行者

2026-06-01 16:16

分享至：

字节跳动与罗切斯特理工大学提出MUSE-Autoskill框架，让AI助手能自主创造、测试、记忆和改进技能，在SkillsBench基准上实现68.4%正确率，自动生成技能可跨系统复用。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 16:16 • 科技行者

这项由字节跳动研究院与美国罗切斯特理工大学联合完成的研究，以预印本形式于2026年5月26日发布在arXiv平台，编号为arXiv:2605.27366。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一个AI助手刚开始工作时，脑子里什么都不会，只靠自己摸索完成任务。等它好不容易学会了某件事，下次遇到类似问题时却仍然一无所知，又得从零开始。这种感觉，就像一个员工每天早上醒来都失去了昨天的全部记忆，不管前一天学了多少经验，第二天照样从头再来。

现实中的大语言模型（也就是我们常说的AI助手）面临的正是这个困境。它们虽然聪明，但在处理复杂、真实世界任务时，单靠自身的"先天知识"往往力不从心。研究人员早就意识到，AI助手需要一套可以随时调用的"技能工具箱"——把各类任务的解决方法打包成可重复使用的技能单元，这样遇到同类问题就不必重新发明轮子。

问题在于，过去的系统对技能的处理方式，更像是一次性使用的纸巾：用完就扔，不会积累，也不会改进。字节跳动的研究团队对此有不同看法。他们认为，技能应该像一位资深老工匠手中的工具——有来历、有经验、经过验证、还会随着时间打磨得越来越好用。基于这个理念，他们开发出了一套名为MUSE-Autoskill的框架，其中MUSE是"记忆驱动技能进化"（Memory-Utilizing Skill Evolution）的缩写。这套框架让AI助手能够自主创造技能、储存技能经验、管理技能库、评估技能质量，并在发现问题时自动改进技能，形成一个完整的技能生命周期闭环。

一、为什么AI需要"技能"，而不只是"脑子好使"

要理解这项研究的价值，先得搞清楚一件事：聪明的AI为什么还需要技能？

打个比方，一位厨艺精湛的厨师在脑子里储存了大量烹饪知识。但如果你让他每次做同一道菜时，都得从零开始回忆食材比例、火候控制和摆盘方式，效率会极低，而且每次做出来的菜品质量也会参差不齐。相反，如果他把经过验证的食谱写下来，下次直接翻出来照做，不仅省时省力，质量还更稳定。

这里的"食谱"，就是AI世界里的"技能"。技能是一种打包好的解决方案，记录了完成某类任务的具体步骤、所需工具和注意事项。AI助手在接到任务时，可以先翻翻自己的技能库，找到匹配的食谱直接上手，而不必每次都从头想起。

然而，过去的技能系统存在四个明显的短板。其一，技能的创造和使用之间存在脱节——技能往往是在AI实际工作之外被提前准备好的，不能根据当前任务的具体情况灵活定制。其二，没有任何机制记录每个技能被用过多少次、出过什么问题、有哪些坑要绕开，也就是没有"技能级别的记忆"。其三，技能创建后就静静躺在那里，没有人去测试它是否真的好用，也没有自动修复机制。其四，随着任务越来越复杂，AI的"思考记录"越来越长，超出了它一次能处理的信息量上限，导致信息丢失或混乱。

MUSE-Autoskill的目标，正是针对这四个问题提出系统性解决方案。

二、技能的完整生命周期：从诞生到成长

MUSE-Autoskill把技能的管理比作照料一株植物——不只是撒种，还要浇水、施肥、修剪，甚至在它生病时及时处理，让它长得越来越健壮。

技能诞生的过程发生在AI助手实际完成任务的过程中。当AI遇到现有技能库里没有合适工具的情况时，它会调用一个名为"skill_create"（技能创造）的内置功能，主动设计并生成一个新技能包。这个技能包的格式有严格规范：核心是一个名为SKILL.md的说明文件，里面写清楚技能的名称、用途描述、适用场景、核心原则和操作步骤；如果需要运行代码，还会附带一个scripts（脚本）文件夹存放可执行程序；如果技能依赖某些参考资料，会有一个resources（资源）文件夹；最关键的是，还有一个tests（测试）文件夹，里面存放专门用来验证这个技能是否好用的测试用例。

技能创建好以后，系统不会立刻把它收入技能库。它得先经过"考试"——测试文件夹里的用例会在一个隔离的沙盒环境中自动运行，验证技能是否能产出预期的正确结果。只有全部测试通过，技能才会被正式注册到技能库中；如果测试失败，AI会检查出错原因，调用"update_skill"功能对技能包打补丁，修好之后再重新测试。这个"创建→测试→注册"的闭环，确保了进入技能库的每一个技能都经过质量把关，而不是良莠不齐地堆在一起。

技能的运行方式同样经过精心设计。当AI助手在处理任务时，系统会在每次对话开始时把技能库里所有技能的名称和简短描述注入到AI的工作背景中，就像一份简化版的"菜单"。AI浏览菜单后，如果觉得某个技能适合当前任务，就会进一步读取该技能的完整说明文件，然后按照说明操作：有时候是读取资源文件，有时候是在沙盒里运行脚本代码，有时候两者都要。整个执行过程是迭代的，每一步的结果都会反馈回AI的思考流程，让它可以灵活调整后续步骤、处理意外情况。

这种设计的妙处在于，技能执行用的是AI本来就有的工具（读文件、执行命令、运行沙盒），不需要额外搭建一套独立的执行引擎，既节省资源，也让技能执行能充分借助AI本身的推理能力。

三、技能记忆：让每次经验都有地方留存

MUSE框架里最有创意的一个设计，是"技能级别的记忆"。

普通的AI记忆机制通常分两层：短期记忆记录当前这次对话的过程，长期记忆储存跨会话的通用经验和教训。MUSE在这两层之上，额外为每个技能单独开辟了一个记忆空间，用一个名为.memory.md的文件来记录这个技能在历次使用中积累的经验——比如它在哪类情况下容易出错、有哪些输入格式的坑、用在超大文件上会超时等等。

这就好像每个工具上都贴着一张便条纸，上面写着历次使用时遇到的问题和心得。下次拿起这个工具时，便条纸随着工具一起出现在面前，让使用者不必重走弯路。

短期记忆负责记录当前任务的中间过程，包括推理步骤、执行结果和临时信息。当这些内容积累得太多、快要超出AI一次能处理的信息量上限时，系统会自动对中间过程进行压缩摘要，确保最重要的信息留下来，同时腾出空间给新的内容。长期记忆则记录跨任务、跨会话的通用经验，比如"这个项目用的是固定版本的依赖库"或者"批量处理比逐行处理快得多"这类普适性的知识，不会被压缩或删除，持续作为AI决策的参考背景。

四、上下文管理：不让长任务把AI的脑子撑爆

处理复杂任务时，AI的思考记录会随着任务进展越来越长，最终可能超出模型一次能处理的上限，导致早期关键信息被迫丢弃，进而让AI在任务后期"失忆"、做出错误判断。

MUSE-Autoskill用一套精巧的"自适应压缩机制"来应对这个问题。整个思考过程被组织成一条由节点构成的链，每个节点代表一个完整的"计划-行动-观察"三元组。系统在每次AI思考之前，都会检查当前链条的总长度是否超出预算。

一旦超出，系统先尝试第一级压缩：找出链条中间部分（最开始的五个节点和最近的五个节点始终保留，不参与压缩）里体积过大的单个节点，把该节点的内容替换成摘要版本。如果第一级压缩还不够，就启动第二级压缩：把链条中间的一段连续节点合并成一个综合摘要节点，替换掉这段内容。

关键在于，压缩只作用于"活跃链"——也就是当前实际发给AI看的那份记录。所有原始节点都通过不可篡改的历史指针完整保存，任何时候都可以回溯或继续。此外，每次任务结束时，系统会把AI的完整状态（包括对话历史、技能使用记录、执行元数据）保存为快照，让跨会话的任务可以从中断处直接恢复，而不必从头开始。

五、技能管理：让技能库保持精干高效

随着技能越来越多，如何让技能库不变成一个杂乱无章的仓库，是个实际问题。

MUSE的技能管理机制包含三种操作。当AI创建了一个新技能，但发现它和库里某个已有技能高度重叠时，系统会把两者合并成一个更通用的技能，避免重复。当某个技能在使用中产生了错误结果，或者单元测试没有通过时，AI会根据错误反馈对技能进行修订或重新生成。对于那些长期没有被使用、或者反复失败无法修好的技能，系统会把它们从库中清除，让技能库始终保持简洁、可靠。

检索技能的方式也经过优化，采用两阶段设计：每次任务开始时只把简短的"技能目录"注入背景，AI据此判断是否需要某个技能；只有在确定要用的时候，才去读取完整的技能说明。这种设计让技能库中即使有一百个技能，也只额外占用约五千到一万个词的背景空间，而不是把所有技能的完整内容全部塞入，大大提升了效率。

六、实验验证：在真实任务上证明自己

研究团队在SkillsBench这个基准测试平台上对MUSE-Autoskill进行了全面评估。SkillsBench包含多种真实世界任务，每个任务都在独立的Docker容器（一种隔离的虚拟环境）中运行，由自动化验证程序检查最终输出是否正确，给出零到一之间的评分。研究团队从中挑选了51个任务，涵盖科学与工程计算、数据分析、文档处理和运维与规划四大领域，确保所有参与比较的AI系统都能在这51个任务上正常运行完成，不出现环境故障。

参与比较的三个AI系统都使用同一个底层模型GPT-5.5作为推理引擎，区别在于各自的系统设计——工具使用方式、上下文管理、规划策略和技能使用机制各有不同。这样的设置确保了性能差异来自系统设计本身，而非模型能力的差距。每个任务独立运行五次，取平均分作为该任务的得分，再对51个任务取宏平均作为最终成绩。

在没有任何技能辅助的情况下，三个系统的平均正确率分别是：Codex 52.11%、Hermes 47.89%、MUSE-Autoskill 53.19%。当给每个系统注入由人类专家手工编写的技能包时，三者的成绩都出现了显著提升，分别变为67.28%、61.21%和68.40%，提升幅度在13到15个百分点之间。MUSE-Autoskill在有技能辅助的条件下取得了三者中最高的成绩，在四个子领域中的三个（数据分析、文档处理、运维与规划）都排名第一，只在科学与工程领域以微弱差距落后于Codex，原因是三个特定任务中验证程序对某些方法论选择的判定方式存在细节分歧。

更值得关注的是技能质量对各领域的不同影响。科学与工程领域的提升幅度最大，约17到24个百分点，而且加入技能后各任务之间的分数差异也在缩小，说明技能在这个领域提供了关键的"补缺"作用。文档处理领域本身基础分就高，技能带来的提升相对有限，约2到11个百分点。运维与规划领域基础分最低，技能虽然带来了14到17个百分点的提升，但仍有相当一部分任务难度过高，需要非常专业的领域知识，单靠一页技能说明还不足以解决。

七、自动生成技能：让AI自己给自己写食谱

研究团队还做了一项颇具挑战性的实验：让MUSE-Autoskill从自己成功完成任务的过程中，自动提炼出可复用的技能包。

实验分两个阶段进行。第一阶段，让AI在没有任何技能的情况下独立完成每个任务，每个任务跑五次。对于至少有一次成功的任务，从中挑出表现最好的那次执行过程，调用skill_create功能把这段经历蒸馏成一个技能包。第二阶段，把生成的技能包注回到同一个任务中，再跑五次，看成绩是否提升。对于51个任务中第一阶段完全没有成功过的16个，第二阶段直接计0分计入总平均。

结果相当亮眼。51个任务中有35个（占68.6%）成功生成了技能包。在这35个任务上，注入自动生成技能后的平均正确率达到了87.94%，超过了注入人工编写技能时的成绩（人工技能的成绩是针对全部51个任务计算的，整体为68.40%，但仅限这35个任务的数字也低于87.94%）。这说明从真实成功经历中提炼出来的技能，往往能比人工编写的通用技能更贴近任务的具体需求。

整体来看，把16个无法生成技能的任务以0分计入后，51任务总平均提升到了60.35%，相比无技能基线的53.19%提升了约7个百分点。这个数字低于人工技能的68.40%，但研究团队指出，瓶颈不在于技能质量本身，而在于第一阶段的覆盖率——那16个失败任务集中在需要高度专业知识的科学计算和生产运维领域，AI在没有任何技能辅助的情况下完全无法解决，自然也就无法从中提炼技能。

那16个生成失败的任务具体是哪些领域的？从分布来看，运维与规划领域有6个，科学与工程领域有4个，数据分析有4个，文档处理有2个。失败原因大致分两类：一类是需要非常专业的生产工具知识，比如特定网络设备的故障诊断或者特殊日志格式的解析，这些知识不在通用语言模型的知识范围内；另一类是需要复杂的数值计算或者解析特殊二进制文件格式，光靠文字推理很难完成。研究团队认为，未来可以尝试从失败的执行过程中也提炼"诊断技能"，记录哪些方向走不通，而不必等到完全成功才开始提炼。

八、技能跨系统转移：一套技能，别家AI也能用

一个技能是否真的成为了"普适知识"，还是只是为某个特定AI系统量身定制的内部行为？这是衡量技能质量的一个关键问题。

研究团队为此做了一个跨系统转移实验：把MUSE-Autoskill自动生成的35个技能包，原封不动地注入到另一个完全不同的AI系统Hermes中，看Hermes使用这些外来技能时的表现如何。

结果非常有说服力。原本Hermes在没有技能时的成绩是47.89%，使用人工编写技能后提升到61.21%。而使用MUSE-Autoskill生成的技能后，Hermes的成绩达到了58.40%，相比无技能基线提升了10.51个百分点，填补了约79%的与人工技能之间的差距。

更有趣的是，当Hermes和MUSE-Autoskill使用同一套自动生成技能时，两者的成绩仅相差约2个百分点（58.40% vs. 60.35%）。这表明，自动生成的技能不是针对某个特定系统的"私人食谱"，而是真正可以跨系统共享的通用知识资产。

九、技能让AI更快更省：成本与效率的双赢

一个合理的疑问是：给AI加上技能，是不是意味着每次调用都要读入更多内容，从而花费更多时间和计算资源？

研究数据给出了一个反直觉的答案：使用自动生成技能比不用技能更快、更省。

具体数字来看，MUSE-Autoskill在使用自动生成技能时，每个任务的中位词汇消耗是49.3万个词（不用技能时是57.8万个，用人工技能时是61.5万个），平均完成时间是411秒（不用技能时是684秒，用人工技能时是656秒），平均需要15轮对话（不用技能时是20轮，用人工技能时是19轮）。

Hermes在使用MUSE生成技能后同样出现了明显的效率提升，每任务词汇消耗从18.1万降至9.7万，完成时间从370秒降至257秒。

这种反直觉的结果其实有内在逻辑：技能包虽然增加了需要读入的内容，但它提供了一套清晰的操作程序，让AI不必在每次任务中从零开始摸索，减少了大量"试错→观察→再试"的迭代轮次。技能包更像是一个精准的导航指引，让AI走更少的弯路，而不是一本需要从头翻阅的百科全书。

生成一个技能包的一次性成本约为38.3万个词和164秒时间，大约相当于三分之二次无技能任务的消耗。但由于使用技能后每次任务节省约12.2万个词和245秒，生成成本在大约第三次复用时就已回本，之后每次复用都是纯收益。

从词汇消耗的细节分析来看，所有系统约有一半的输入词汇来自提示缓存——也就是每次对话中固定不变的系统提示和工具定义部分，这部分内容会被服务提供商以优惠价格缓存处理，实际的额外费用远低于原始词汇数字所显示的水平。

十、技能解剖：自动生成的技能和人工技能有何不同

研究团队对35个自动生成技能和249个人工编写的SkillsBench技能进行了比较分析，发现两者在结构和风格上存在一些有趣的差异。

在体量上，自动生成技能的说明文件中位行数是326行（约15.8KB），而人工技能的中位行数是146行（约6.6KB），前者约是后者的2.2倍。但研究团队仔细检查后发现，这种差距不是啰嗦，而是细致：自动生成的技能倾向于把输入输出的格式、可能出现的失败模式以及详细的操作步骤都写清楚，而人工作者往往把这些细节当作理所当然而省略。

在结构组成上，两种技能都以"只有说明文件、没有附属目录"的形式为主（人工技能69%，自动生成91%）。人工技能中有23%包含可执行脚本，但没有一个包含测试用例。自动生成技能有9%包含测试用例——这个比例虽然不高，但正是这些技能通过了注册前的测试才进入技能库，形成了一个系统性的质量保障机制。

研究团队还对35个自动生成技能做了质量审计，重点检查是否存在"作弊"行为——例如把验证程序的预期答案硬编码进去、或者根据任务编号走不同分支。结果显示没有任何技能存在此类问题。但有一部分技能包含了与来源执行过程高度绑定的特定假设，比如固定的文件名、特定的目录路径，或者从某次特定执行中推断出的数值范围。这些不构成作弊，但可能会降低技能在其他场景下的泛化能力，研究团队将其视为未来改进的重要方向。

十一、从实验室到真实部署

除了学术层面的验证，这套技能生命周期框架已经在字节跳动内部的多个产品中得到应用。

SkillMarket产品把技能创建功能开放给终端用户，允许他们把一次成功的任务执行过程蒸馏成可复用、自带测试的技能包，无需手动编写。ArkClaw产品集成了技能检索功能，让AI在创建新技能前先检索已有技能库中是否已有合适选项，并计划进一步支持把整个AI系统作为一个可调用的子代理，使单个技能能够封装复杂的多AI协作行为。SkillHub服务把完整的技能生命周期管理作为托管服务提供，让团队有一个统一的地方来存储、评估和维护技能，以及跟踪每个技能积累的使用经验。

这些部署案例表明，技能生命周期的抽象思路不是只适用于学术测试环境的理论，而是能在真实产品中发挥作用的工程实践。一个技能的改进会自动传播到依赖它的所有AI系统和产品，形成积累效应，而不是每个团队各自维护互不相通的能力孤岛。

十二、局限与展望

研究团队对这项工作的局限性持开放态度。

首先，评估范围只覆盖了SkillsBench全部94个任务中的51个，被排除的任务往往具有更复杂的运行环境，很可能也更难，因此实验结果可能高估了系统在更广泛场景下的真实表现。其次，每个技能都只从一次成功的执行过程中蒸馏而来，这次执行不一定代表最通用的解题路径，可能对后续类似任务的泛化能力造成一定限制。再者，跨系统转移只验证了从MUSE-Autoskill到Hermes的单向转移，更多系统之间的泛化性还有待证实。另外，每个任务只跑了五次，对于那些评分只有0或1两种结果的任务，置信区间会比较宽，单任务结论的可靠性有限。

自动生成技能时，从自己成功完成任务的过程中提炼技能、然后在同一个任务上再次测试的实验设计，虽然没有把任务的标准答案喂给技能，但技能内容与特定任务的紧密关联可能仍然存在一定程度的过拟合，使得"在同一任务上的提升"比真实泛化能力更乐观。研究团队计划在后续工作中扩展到全部94个任务、测试更多底层模型，以及在SkillsBench以外的独立基准上验证结论。

说到底，MUSE-Autoskill做的事情，就是让AI助手从一个"每次都从零开始的新手"变成一个"能积累经验、总结方法、自我改进的老手"。它的核心洞察是：技能不应该是一次性用完就丢的纸巾，而应该是越用越顺手的工具，附带着用户手册、维修记录和改进日志。

这种思路对普通用户的影响是实实在在的：未来的AI助手在处理你反复提出的同类任务时，不只是每次独立完成，而是会记住上次遇到的问题、改进自己的方法、下次做得更好更快，真正像一个越来越了解你需求的得力助手。

当然，当前的系统还有明显的局限——面对那些需要深度专业知识的任务，AI在没有先验经验的情况下依然束手无策，技能库的积累也依赖于能成功解决问题的"第一次"。但这套框架本身的逻辑是清晰的：技能是可以积累的、可以测试的、可以跨系统共享的知识资产，AI系统的能力可以随着时间真正增长，而不只是在每次对话结束后清零重置。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.27366查阅完整论文。

Q&A

Q1：MUSE-Autoskill生成的技能可以给其他AI系统用吗？

A：可以。研究团队专门做了跨系统转移实验，把MUSE-Autoskill生成的技能包直接注入另一个名为Hermes的AI系统，发现Hermes的任务正确率从47.89%提升到58.40%，填补了约79%的与人工编写技能之间的差距。两个系统使用同一套自动生成技能时成绩相差不到2个百分点，证明这些技能是真正可移植的通用知识资产。

Q2：MUSE-Autoskill生成一个技能要花多少成本？

A：生成一个技能包的一次性成本约为38.3万个词的API调用和164秒的时间，大致相当于三分之二次无技能任务的消耗。但每次复用该技能时，MUSE-Autoskill自身可节省约12.2万个词和245秒时间，大约第三次复用起就已回收生成成本，之后每次都是净收益。

Q3：MUSE-Autoskill技能库里的技能质量怎么保证？

A：每个新创建的技能都要通过内置测试用例的验证才能正式进入技能库。测试在隔离的沙盒环境中自动运行，失败则触发自动修复流程；通过后才注册。使用过程中如果出现错误也会触发修订或删除。此外，重复的技能会被合并，长期无用的技能会被清除，保持技能库精简可靠。

人工智能技能学习与管理自进化智能体

分享至