微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

Leeroo团队发布KAPSO：让AI不只会写代码，还能自己测试改进成为编程"老师傅"

人工智能程序合成自主编程

Leeroo团队发布KAPSO：让AI不只会写代码，还能自己测试改进成为编程"老师傅"

作者：科技行者

2026-02-03 10:16

分享至：

Leeroo团队发布的KAPSO框架革新了AI编程方式，让AI不只会写代码，还能像资深程序员一样自主测试、调试和持续改进。该系统集成了git分支实验引擎、MediaWiki知识库和认知记忆系统，在MLE-Bench和ALE-Bench测试中显著超越现有开源方案，特别在复杂任务中优势明显，为自主软件开发提供了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-02-03 10:16 • 科技行者

软件开发向来是一个反复试错的过程，就像学会骑自行车一样，光有理论知识还不够，必须不断尝试、跌倒、重新站起来，才能真正掌握。如今，来自Leeroo团队的研究人员发布了一个名为KAPSO的创新框架，这项研究发表于2026年1月的arXiv预印本平台，论文编号为arXiv:2601.21526v1。这个系统就像是给AI装上了一个"编程老师傅"的大脑，不仅能写代码，更重要的是能够像经验丰富的程序员一样，自己测试代码、发现问题、总结经验，并且持续改进。

传统的AI编程助手就像是一个刚毕业的实习生，虽然理论知识丰富，写代码的速度也很快，但往往缺乏实战经验。它们写完代码就算完事，不会主动去运行测试，更不会根据运行结果来反思和改进。这就好比一个厨师只会按菜谱做菜，但从不尝味道，也不会根据客人的反馈调整配方。KAPSO的出现改变了这一切，它就像是把一个经验丰富的老师傅的思维模式植入了AI系统中。

当你给KAPSO一个编程任务时，比如"帮我做一个能预测股价的机器学习模型"，它不会像传统AI那样一口气写完代码就交差。相反，它会启动一个完整的"工匠式"工作流程。首先，它会翻阅自己的"知识库"，这就像一个老师傅查看过往的项目经验和行业最佳实践。然后，它会写出一个初版代码，接着立即进行测试运行。如果发现问题，它会像经验丰富的程序员一样分析错误原因，查找解决方案，然后修改代码再次测试。这个过程会持续进行，直到达到满意的效果。

更令人惊讶的是，KAPSO还具备"记忆"能力。每次遇到问题和解决方案，它都会记录下来，形成自己的经验库。下次遇到类似问题时，它就能迅速调用之前的经验，避免重复犯错。这就像一个老师傅把每次维修设备时遇到的问题和解决方法都记在小本子上，积累成为宝贵的实战经验。

研究团队在两个重要的编程竞赛平台上测试了KAPSO的能力。在模拟Kaggle机器学习竞赛的MLE-Bench测试中，KAPSO的表现远超其他开源AI编程框架。特别是在高难度任务中，KAPSO的成功率达到40%，而最好的开源竞争对手只有22%的成功率。在另一个专门测试算法优化能力的ALE-Bench测试中，KAPSO同样表现优异，不仅获得了最高分数，还保持了相对较低的成本。

一、KAPSO的核心创新：从简单工具到智能工匠

传统的AI编程助手就像是一把锋利的刀，虽然切菜很快，但不会判断菜是否切得合适，更不会根据菜的种类调整切法。KAPSO则完全不同，它更像是一个完整的厨房团队，不仅有切菜的，还有尝味的、调味的，以及最终负责品质把控的主厨。

KAPSO的第一个创新在于建立了一个完整的"实验工坊"系统。就像科学家做实验一样，每次尝试都会被完整记录下来。当KAPSO尝试解决一个编程问题时，它会为每次尝试创建一个独立的"实验分支"，这就像在实验室里为每个实验准备一个单独的试管。这样做的好处是，如果某次尝试失败了，它不会影响到其他正在进行的尝试，同时成功的尝试可以被完整保存下来，供后续参考和改进。

第二个创新是建立了一个庞大的"知识图书馆"。这个图书馆不是简单地存储代码片段，而是像一个经验丰富的图书管理员一样，能够理解不同知识之间的关联。比如，当遇到数据处理问题时，它不仅知道有哪些现成的工具可用，还知道这些工具适用于什么场景，可能会遇到什么坑，以及如何避免这些坑。这个知识库涵盖了超过2000个广泛使用的数据科学和机器学习项目的精华内容。

第三个创新是"认知记忆"系统。这个系统就像是一个善于总结经验教训的老师傅，每次解决问题后都会思考："这次为什么成功了？""那次为什么失败了？""下次遇到类似问题该怎么办？"这些经验会被整理成可重复使用的"智慧锦囊"，让KAPSO越用越聪明。

KAPSO采用了模块化的设计理念，就像搭积木一样。不同的评估器可以像不同的积木块一样插入系统，这意味着同一个KAPSO框架可以应用于不同类型的编程任务。无论是机器学习项目、算法优化，还是网站开发，只要更换相应的评估器模块，KAPSO就能适应新的任务类型。

在KAPSO的工作流程中，有四个核心操作就像四个不同的工作台。"evolve"操作台负责主要的迭代改进工作，它会不断地提出改进建议、实现这些建议、测试效果，然后根据测试结果指导下一轮改进。"deploy"操作台负责将最终的解决方案包装成可以在不同环境中运行的产品。"learn"操作台负责从各种来源学习新知识，不断充实知识库。"research"操作台则像一个专门的调研员，负责发现和收集相关的外部资料。

二、技术架构：像管弦乐团一样的精密协作

KAPSO的技术架构就像一个训练有素的管弦乐团，每个组件都有自己的专门职责，但又能够完美配合，奏出和谐的乐章。这个"乐团"分为两个主要部分：知识平面和执行平面，它们就像乐团的理论指导和实际演奏一样相互配合。

知识平面就像乐团的曲谱库和演奏技法大全。它汇集了来自各种渠道的"演奏经验"：包括代码仓库、技术文档、科学论文、网络资料、基准测试案例，以及内部的项目手册。这些知识被精心组织在一个名为MediaWiki的平台上，就像一个专业的音乐图书馆，既方便人类专家查阅和编辑，又能被机器系统快速检索和使用。为了让机器能够高效查找信息，这些知识还被建立了多重索引，包括图形索引和向量索引，就像给每首曲子都标注了调性、难度、适用场合等标签。

执行平面则像乐团的实际演出舞台。它的核心是一个明确的"评估器边界"，就像音乐会上的指挥一样，负责定义任务要求、执行标准和质量衡量方法。这个评估器可以是完全自动化的（比如运行测试、计算指标、自动评分），也可以包含随机性，甚至可以融入AI判断或人工偏好评定，而不仅仅是单一的数值目标。这种灵活的设计让同一套系统能够适应不同领域的需求，只需要更换相应的"指挥"即可。

在这个架构中，KAPSO的"首席指挥"是一个名为OrchestratorAgent的协调器，它统筹四个专门的"乐器组"。SearchStrategy乐器组负责提出改进方案候选和选择最有潜力的候选进行尝试，就像弦乐组提供旋律主线。ContextManager乐器组负责整理和呈现各种背景信息，包括任务描述、约束条件、检索到的知识、过往经验总结等，就像铜管组提供和声支撑。KnowledgeSearch乐器组负责从知识库中找到相关的工作流程、实现方案、优化技巧和环境约束，并附带来源追溯信息，就像木管组添加细腻的装饰音。CodingAgent乐器组负责实际的代码修改工作，实现或调试候选解决方案，就像打击乐组提供节奏基础。

OrchestratorAgent协调器推动着一个交替进行的循环过程。首先，它会根据当前状态、知识检索结果、过往经验和实验历史构建完整的上下文信息。然后，它会执行一个或多个独立的实验来获取可衡量的结果。这就像指挥家先让各个乐器组准备好，然后开始一段演奏，根据效果调整下一段的演奏策略。

部署功能就像音乐会结束后的录音制作。它将选定的解决方案适配到目标运行环境中，并提供统一的调用接口。无论最终是在本地运行、通过HTTP端点提供服务，还是部署到云端平台，调用者都能通过相同的run()接口使用，就像不管是现场演出还是录音回放，听众都能享受到同样的音乐体验。这种设计大大简化了从实验到实际部署的过程，让研究成果能够顺利转化为实用的产品。

三、实验引擎：每次尝试都是一个完整的故事

KAPSO的实验引擎就像一个细致入微的史官，它不仅记录每次尝试的结果，更重要的是完整保存每次尝试的整个过程，确保任何成功的经验都能被准确重现，任何失败的教训都能被深刻汲取。

每当KAPSO开始一次新的尝试时，它就会创建一个全新的"实验分支"，这就像在实验室里为每个实验准备一个独立的工作台。这个工作台被称为ExperimentSession，它从某个已知状态开始，创建一个唯一的分支标识，然后使用配置好的编程代理进行代码修改，接着通过激活的问题处理器执行评估。整个过程就像拍摄一部完整的纪录片，每个步骤都被详细记录下来。

实验完成后，系统会将所有相关信息提交到这个分支中，这就像把实验报告、原始数据、分析过程和结论全部归档保存。任何人都可以通过检出这个分支来重现完全相同的实验环境和结果。这种做法确保了每个实验都是可重现的、可检查的，为后续的复用和调试提供了坚实基础。

为了支持后续的重用，每个ExperimentSession在关闭时都会尝试将分支推送到原始仓库。在典型部署中，这个"原始仓库"并不是网络上的远程仓库，而是本地ExperimentWorkspace仓库的文件路径引用。推送操作主要是将新创建的分支发布回本地的ExperimentWorkspace仓库，这样可以确保新建的分支立即可用作后续树形探索中子实验的父节点。这就像把每次成功的实验方法记录在实验室的"成功案例库"中，供团队其他成员参考使用。

每次实验都会保存一个轻量级但足够完整的可重现包。这个包包含了相对于父分支的代码变更记录、实验时使用的评估器配置、完整的运行日志和结构化诊断信息，以及评估器产生的相关文件。这就像保存了一份完整的"实验档案"，既包含了做了什么改动，也包含了为什么这样改动，以及改动后发生了什么。

在执行环境方面，实验默认通过GenericProblemHandler在本地子进程中运行，系统本身不会引入容器化。只有当评估器明确要求时才会使用容器化执行。比如，ALE评估需要通过外部评估工具在Docker中运行解决方案，而MLE评估则在基准测试环境中本地运行Python入口点。这种分工保持了实验引擎对评估器的无关性，同时仍然支持有严格运行时要求的评估器。

实验引擎还支持并发执行多个ExperimentSession，这被搜索策略用于并行评估多个候选方案。虽然当前实现主要在本地运行，但这种设计支持可插拔的执行后端。同样的会话和制品模型可以与远程执行器配对，在合适的机器上运行资源密集型工作负载，比如需要GPU的重型训练任务，同时保持后续搜索和重用所依赖的基于分支的来源追溯。

四、知识系统：建造一座智慧的图书馆

KAPSO的知识系统就像建造一座现代化的智慧图书馆，它不仅要收集和存储各种形式的知识，更重要的是要让这些知识能够被智能地组织、检索和运用。这个系统将原本分散的、异构的知识源转换成两种核心资产：一个用于初始化和重用的代码仓库语料库，以及一个用于检索的类型化知识库。

知识获取过程由KnowledgePipeline统筹，它就像一个经验丰富的图书管理员，负责产生类型化的wiki页面和维护包含版本化引用的RepoStore。对于代码仓库，RepoIngestor遵循一个以仓库为中心的处理流程，旨在产生两种输出：可运行的种子代码库（仓库快照本身，通过URL和提交元数据引用），以及从该仓库提取的结构化知识，供跨任务重用。

具体来说，这个处理器会识别入口点、依赖关系和环境要求，以及高信号的实现模式。它提取可重用的原则、实现方案、启发式方法和环境约束，并附加将每个提取项链接回仓库路径和提交的来源追溯信息。此外，处理流程还执行确定性的文件挖掘，发现那些在README中没有强调但很有用的文件，比如脚本、配置、评估工具、部署清单等，对它们进行分类，并在包含可重用指导时生成相应的类型化页面。

知识以类型化页面的形式表示，这些页面之间有明确的类型化链接。KAPSO使用四种主要页面类型：原则（Principle）、实现（Implementation）、环境（Environment）和启发式（Heuristic）。页面之间的链接变成类型化边，比如IMPLEMENTED_BY（由...实现）、USES_HEURISTIC（使用启发式）、REQUIRES_ENV（需要环境）。提取的页面带有仓库来源追溯和可选的仓库关联，比如SOURCE_REPO元数据和RELATED_REPO链接，以启用仓库条件检索。这种结构设计旨在返回有界的、类型化的知识包，可以被演进循环消费，而无需工作流程合成。

为了支持机器检索，wiki和仓库语料库被索引到可插拔的后端中。参考实现配备了类型化图索引（默认Neo4j）和向量索引（默认Weaviate），同时允许在相同接口后使用替代的图存储和向量数据库。

检索过程分为两个阶段实现。首先，RepoRetrieve服务通过使用混合信号在仓库语料库上搜索来选择可选的种子仓库，这些混合信号包括README和文件树的嵌入，以及元数据过滤器，并返回带有置信度分数的候选种子。其次，KnowledgeRetrieve服务从类型化索引中检索相关的原则、实现、启发式和环境约束，可选地以选定的种子仓库为条件。在失败或重复合约违规后，检索服务应用错误恢复增强（ERA），以附加失败条件启发式和替代实现。

在所有模式下，系统将来源追溯记录到返回的知识包中，包括使用的查询、源页面和可选的种子仓库标识符，以支持可审计性和可重现性。这就像每本从图书馆借出的书都附带一张详细的索引卡，记录了它来自哪个书架、为什么被选中、以及它与其他书籍的关联关系。

研究团队发布了一个完整的知识包，包括MediaWiki转储、Neo4j和Weaviate快照，以及基于Docker的部署脚本，这些脚本可以在可重现的配置中启动MediaWiki实例和所有索引。发布的包还包括用于种子设定和提取的仓库语料库清单，包括URL、提交标识符和选择标准，使得仓库集合的时间点重建成为可能。

五、认知记忆：AI的经验积累之道

KAPSO的认知记忆系统就像是给AI装上了一个善于总结和学习的"老师傅大脑"，它不仅能从自己的每次尝试中汲取经验教训，还能在面临新挑战时快速调用相关的历史智慧，避免重复犯错，加速问题解决的过程。

这个认知系统的核心是一个"经验记忆库"，专门存储从实验过程中提炼出的可重用经验。这些经验记录被设计成跨任务可用的通用智慧，每个记录都包含了问题触发条件的简洁描述、总结出的通用教训、推荐的行动方案，以及追溯到原始实验分支及其相关文件的来源信息。这种来源追溯使得记忆系统具有可审计性，当某个提取的经验影响新的变更时，可以支持检查和验证。

每次实验完成后，KAPSO都会进行经验提取工作。当实验显示执行错误或合约违规时，系统会根据观察到的轨迹和验证器反馈，将失败情况概括为可重用的修复模式。当实验成功或质量有所改进时，系统会从测量结果和定性反馈中提取最佳实践见解，包括使用基于LLM的评估器时的判断理由。提取的经验被存储在向量数据库中，默认使用Weaviate，并有JSON回退选项，这样可以根据目标和失败信号进行语义检索。

在后续迭代中，KAPSO会根据当前目标和最新实验信号检索相关的记忆片段。检索到的经验会与当前知识包一起呈现在统一的上下文中，传递给搜索策略和编程代理。这确保了提案和调试步骤不仅基于领域知识，也基于系统自身在类似问题上的先前经验。

认知系统还实现了一个迭代级别的决策策略。它使用当前目标、当前知识包、最新实验记录和检索到的记忆见解来决定是重试、转向还是完成。在转向时，实现会重新运行仓库检索和知识检索，同时排除当前选择的种子仓库，鼓励探索替代起始代码库或回退到无种子脚手架。

这个控制器定义了三个核心功能。RetrieveCascade功能实现级联检索，使用WSR（Web Search Retrieval）加PFR（Prior Failure Retrieval）回退，在失败或合约违规时增加ERA（Error Recovery Augmentation）增强。UpdateEpisodic功能从错误和定性反馈中存储概括的经验教训。最后，π策略在迭代级别的行动中做出选择，包括重试、转向或完成。

在实际运行中，如果实验出现错误或合约违规，系统会将提取的问题添加到经验库，并应用ERA来获取恢复启发式和替代方案，同时保留来源追溯。如果实验反馈非空，系统会从反馈中提取见解并添加到经验库。然后系统检索相关的记忆片段，并做出继续行动的决策。在转向的情况下，系统会重新进行级联检索，在实现中排除当前工作流程。

这种设计的关键特性是编程代理和决策制定者都基于相同的渲染上下文，ERA明确通过query_used和source_pages记录来源追溯。这确保了整个认知过程的透明性和可追踪性，让用户能够理解AI是如何基于过往经验做出决策的。

六、部署接口：从实验到产品的无缝转换

KAPSO的部署功能就像一个专业的产品包装工厂，它将实验室里成功的原型转换成可以在真实世界中稳定运行的产品，同时保持统一简洁的使用接口，让用户无需关心底层的复杂细节。

当用户调用Kapso.deploy()函数时，系统会返回一个实现了Software接口的Python对象。这个对象就像一个通用遥控器，无论底层运行的是什么复杂系统，用户都只需要按同样的按钮就能操作。这个"遥控器"提供了一个稳定的run(inputs)方法和一套生命周期管理方法，包括start（启动）、stop（停止）、logs（日志查看）和is_healthy（健康检查）。

实现这种统一接口的关键技术是"仓库适配"。给定一个选定的解决方案仓库，系统会在特定路径创建一个适配副本，路径格式为<solution.code_path>_adapted_<strategy>。适配器会注入特定策略的运行时包装器，比如容器脚手架、服务脚手架或平台配置，并生成一个运行接口描述符，指定如何调用制品。Software句柄使用这个描述符将run()调用路由到适当的本地或远程机制。

目前的实现在同一个Software接口下支持多种策略。在LOCAL模式下，运行器导入并调用适配仓库内的函数，默认是main.predict。在DOCKER模式下，系统构建或重用Docker镜像，运行本地容器并暴露HTTP端点，默认为http://localhost:8000/predict。在MODAL模式下，它生成modal_app.py并调用远程Modal函数。在BENTOML模式下，它生成BentoML服务文件，可以选择性地部署到BentoCloud，返回HTTP端点。在LANGGRAPH模式下，它生成LangGraph部署文件，运行器连接到LangGraph Platform URL来调用部署的代理。

在所有这些策略中，调用者只与Software.run()交互，而生命周期方法以策略适当的方式暴露健康状态和日志。这就像不管你开的是手动挡汽车还是自动挡汽车，方向盘、油门和刹车的基本操作都是一样的，只是内部的实现机制不同。

部署层是可扩展的。新策略可以通过实现适配器来添加，适配器需要做三件事：产生所需的运行时包装器文件，生成运行接口描述符，以及注册Software句柄应该如何为该策略执行run()和生命周期方法。这种模块化设计让KAPSO能够适应不断发展的部署需求和新兴的云平台。

这种统一的部署接口大大简化了从研究原型到生产部署的过程。研究人员可以专注于算法和逻辑的开发，而不需要为每种部署环境重新编写适配代码。同时，运维人员可以根据实际需求选择最适合的部署策略，而不需要修改应用代码本身。

七、实战验证：在真实挑战中证明实力

为了验证KAPSO的实际能力，研究团队选择了两个极具挑战性的编程竞赛平台进行测试，这就像让一个新培养的工匠去参加行业最权威的技能竞赛，来证明自己的真实水平。

第一个测试场是MLE-Bench，这是一个模拟Kaggle风格机器学习竞赛的平台。在这里，KAPSO需要像一个数据科学家一样，拿到竞赛数据后，自己设计和训练机器学习模型，并按照竞赛要求的格式输出最终结果文件。测试过程严格按照真实竞赛流程进行：首先运行调试模式验证基本功能，然后运行完整模式进行正式训练和预测，最后根据竞赛的训练测试数据分割标准进行评分。

测试结果令人印象深刻。KAPSO在各个难度级别的任务中都表现出色，特别是在中等和高难度任务中优势明显。在低难度任务中，KAPSO与最好的开源竞争对手R&D-Agent并列，都达到了68.18%的成功率。但随着任务难度增加，KAPSO的优势逐渐显现。在中等难度任务中，KAPSO达到了44.74%的成功率，而R&D-Agent只有21.05%。在高难度任务中，这种差距更加明显：KAPSO达到40%的成功率，而R&D-Agent只有22.22%。

这种差异反映了一个重要现象：虽然开源脚手架在标准问题上具有竞争力，但KAPSO的能力更有效地转移到复杂的机器学习挑战中，这些挑战涉及高度专业化和长期工程。这就像业余选手和专业选手在简单项目上表现可能相近，但在需要深度专业知识和丰富经验的复杂项目上，专业选手的优势就会明显体现出来。

第二个测试场是ALE-Bench，这是一个专门测试算法优化能力的平台，基于AtCoder启发式竞赛。在这里，KAPSO需要用C++编写算法解决方案，在严格的运行时限制下最大化或最小化竞赛定义的评分。这种测试更加考验系统对算法效率和优化技巧的掌握。

在ALE-Bench测试中，KAPSO同样表现出色。它获得了1909.4的最高最终得分，排名百分位达到6.1%，超过了原始ALE-Agent的1879.3分和6.8%排名。更值得注意的是，KAPSO在保持较低总成本的同时实现了这一成绩，总花费为914.8美元，而ALE-Agent花费了1003.3美元。这表明KAPSO不仅效果更好，效率也更高。

在具体竞赛中，KAPSO在大多数AHC竞赛中都超越了ALE-Agent，有时甚至是大幅领先。例如，在ahc016竞赛中，KAPSO得分2022，而ALE-Agent只有1457；在ahc026竞赛中，KAPSO得分2040，ALE-Agent得分1965。这些结果证明了KAPSO不仅能够获得更高的绝对性能，还能够更可靠地泛化到不同的竞赛中。

值得注意的是，当前结果的一个局限是ALE-Bench中相对较少的竞赛数量可能会引入噪声，因为LLM和智能体的性能可能因任务而异。例如，在ahc039竞赛中，ALE-Agent获得了显著高分，但这种性能并未在其他类似短期竞赛中一致体现。包含更大竞赛集合、多种子运行的未来研究可以提供更稳健可靠的智能体间比较。

这两个测试平台的结果共同证明了KAPSO在处理复杂、长期编程挑战方面的优势。它不仅能够生成高质量的代码，更重要的是能够通过持续的实验、学习和改进来优化解决方案，这正是传统AI编程助手所缺乏的核心能力。

八、实现机制：将理论变为现实的工程智慧

KAPSO的实现过程就像建造一座复杂而精密的机械钟表，每个齿轮和零件都必须精确配合，才能让整个系统稳定运行。研究团队在将理论框架转化为实际可用系统的过程中，体现了深厚的工程智慧。

在正式的数学表述方面，KAPSO将程序优化问题定义得非常清晰。系统将每次运行定义为一个由自然语言目标、预算规格和评估器契约组成的三元组。评估器契约就像一个严格的质量检验标准，定义了如何执行代码制品、如何测量结果、如何比较不同方案，以及何时停止整个过程。

代码制品在KAPSO中被表示为一个可执行的仓库状态，加上足够的入口点和配置信息，使其能够在评估器下运行。每次评估器执行都会返回一个测量记录，包含状态指示、定量测量、定性反馈和辅助制品。这种结构化的记录方式确保了每次尝试的结果都能被完整捕获和后续分析。

当执行过程涉及随机性时，KAPSO采用了sophisticated的聚合策略。它定义了期望效用作为概念优化目标，但通过运行多个rollout并使用聚合操作符来估计这个期望值。这种方法避免了在非线性效用函数或多标量记录情况下的歧义性。

KAPSO维护着明确的实验历史记录。每个实验对应于一个隔离的分支执行，记录着驱动规格、产生的制品和测量结果。这种历史记录不仅用于跟踪进展，还为后续的知识检索和经验学习提供了基础数据。

在知识基础方面，KAPSO通过种子仓库和类型化知识图谱提供双重支撑。种子仓库选择通过混合检索信号进行，包括内容嵌入和元数据过滤，当置信度超过阈值时系统会使用检索到的仓库初始化，否则使用空白脚手架。类型化知识图谱则组织了原则、实现、环境和启发式四种页面类型，通过类型化边连接，支持基础知识检索和错误恢复增强。

在核心解决循环中，KAPSO反复构建上下文并执行实验，直到停止条件触发。这个过程在代码库中对应于OrchestratorAgent.solve()方法。而在更细粒度的实现调试循环中，系统创建隔离分支、实现解决方案、运行测试，并在有限次数内进行调试修复，主要针对执行失败和合约违规，而非目标优化。

对于具体的搜索策略，研究团队还形式化了一个基于LLM指导的树搜索实例。在这种策略中，每个节点存储解决方案规格和可选的实验结果。在每次外部迭代中，策略会修剪某些叶节点、扩展选择的节点生成新的子规格，并选择top-k叶节点作为实验执行。这可以看作是在解决方案规格上的学习提议分布，结合黑盒评估和选择。

认知记忆系统实现了级联检索、记忆更新和决策制定的完整流程。系统在每次实验后更新记忆存储、检索相关先验经验，并决定是继续当前工作流程还是转向替代知识。这种认知循环确保了系统能够从每次尝试中学习，逐步积累解决复杂问题的能力。

整个实现过程体现了模块化设计的精神：框架语义保持固定，而具体的执行、存储、索引和适配器实现保持模块化。这种设计让KAPSO既能保持核心逻辑的一致性，又能灵活适应不同的技术栈和部署环境。

说到底，KAPSO代表了一种全新的AI编程范式。它不再满足于简单的代码生成，而是致力于构建一个能够持续学习、不断改进的智能编程系统。通过将实验、记忆和知识管理有机结合，KAPSO展现出了接近人类专家程序员的工作方式：不仅知道如何写代码，更知道如何测试代码、优化代码，以及从每次尝试中汲取宝贵经验。

这种系统性的改进能力意味着，随着使用时间的增长，KAPSO会变得越来越智能，越来越懂得如何处理复杂的编程挑战。对于软件开发行业来说，这不仅仅是一个工具的升级，更可能是一次工作方式的革新。未来的程序员可能更像是KAPSO的指导者和合作伙伴，而不是单纯的代码编写者。他们会将更多精力投入到问题分析、架构设计和创新思考上，而让KAPSO处理具体的实现、测试和优化工作。

Q&A

Q1：KAPSO与传统AI编程助手有什么不同？

A：传统AI编程助手像实习生，写完代码就算完事，不会主动测试和改进。KAPSO像经验丰富的老师傅，不仅会写代码，还会自己测试运行、发现问题、总结经验，并且持续改进解决方案，直到达到满意效果。

Q2：KAPSO是怎么学习和积累经验的？

A：KAPSO有一个"认知记忆"系统，每次解决问题后都会记录经验教训，形成可重用的智慧锦囊。下次遇到类似问题时能快速调用历史经验，避免重复犯错。同时它还有庞大的知识库，包含超过2000个数据科学和机器学习项目的精华内容。

Q3：普通开发者能使用KAPSO吗？

A：目前KAPSO主要是研究框架，还未直接面向普通开发者开放。不过研究团队发布了完整的技术文档和部署包，有技术能力的团队可以基于开源代码搭建自己的系统。未来可能会有基于KAPSO的商业产品出现。

人工智能程序合成自主编程

分享至