微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

纽约大学与Salesforce联手，让AI智能体学会了"执行规章"而非只是"接受建议"

人工智能大语言模型智能体可执行技能程序

纽约大学与Salesforce联手，让AI智能体学会了"执行规章"而非只是"接受建议"

作者：科技行者

2026-05-27 12:02

分享至：

HASP框架将AI智能体的技能经验从文字建议升级为可执行的程序函数，通过运行时自动触发干预而非被动建议，在网页搜索推理任务上相比强化学习基线提升30.4%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 12:02 • 科技行者

这项由纽约大学与Salesforce AI Research联合完成的研究，以预印本形式于2026年5月18日发布在arXiv平台，论文编号为arXiv:2605.17734。研究的核心问题听起来简单，却困扰了AI工程师相当长一段时间：当我们给AI写下"做事要仔细，不要草率下结论"这样的提醒时，它到底会不会真的照做？

绝大多数情况下，AI只是"看了看"这条建议，然后继续按照自己的老习惯行事。研究团队把这种现象称为"顾问困境"——你的顾问给了你一堆书面建议，但他既没有坐在你身边监督你，也没有在你要犯错的那一刻及时拦住你。这个问题在AI领域尤为突出，因为现有的大语言模型智能体（AI Agent，可以理解为能够连续做出决策和行动的AI系统）在执行多步骤任务时，会反复出现同样的错误模式：在没有充分查证的情况下过早给出最终答案，陷入重复搜索的死循环，或者把两个相似的概念混淆在一起。

研究团队提出的解决方案叫做HASP，全称是"Harnessing LLM Agents with Skill Programs"，直译过来就是"用技能程序驾驭大语言模型智能体"。HASP的核心思想是把那些泛泛的文字建议，升级为可以真正干预AI行为的"可执行程序函数"（Program Functions，简称PF）。这些程序函数的工作方式更像是一位随时在场的助理，而不是一份事后才翻阅的手册。

一、问题出在哪里：AI的"道理都懂，就是做不到"

考虑这样一个场景：你的公司有一名员工，他在入职培训时接受了所有规章制度的书面说明，告诉他"在签署合同前必须核实对方身份"、"遇到信息冲突时要多方求证"。然而实际工作中，他经常在任务紧迫时跳过核实直接签字，或者在面对模棱两可的信息时凭感觉做判断，却不去多方确认。

这正是当前AI智能体面临的核心问题。研究人员发现，把技能或经验编写成文字提示注入AI的对话历史（这是目前最主流的做法），存在三个根本性的局限。第一，这些文字技能是"语言层面的存在"，它们被包裹在自然语言里，AI可以读懂它们，但没有强制机制要求AI在具体情境下执行它们。第二，文字建议缺乏精确的触发时机——"什么情况下"应该激活这条规则，全凭AI自己判断，而AI恰恰在它最容易犯错的时刻最难自我纠正。第三，即使AI在推理过程中承认了某条规则（比如它说"我应该先核实信息才能给出答案"），最终采取的行动却可能仍然是直接给出答案。说和做之间存在一道难以跨越的裂缝。

研究团队用一个具体的案例让这个问题变得清晰可见。面对一道多跳推理题（即答案需要串联多个事实才能得出的题目），AI被注入了两条技能提示："不要在核实证据之前给出最终答案"以及"在确定答案之前广泛搜索"。AI的推理链确实提到了"我应该先核实证据"，但最终动作却直接是"Final Answer（最终答案）"——技能建议被忽略了，宛如一道被挂在墙上却从未实际查阅的规章制度。

二、HASP的核心创新：从"建议书"到"程序监察员"

HASP的核心比喻可以用工厂质检流程来理解。在没有HASP的情况下，AI工厂里的工人（即AI智能体）按照自己的习惯生产产品，墙上贴着质量手册，但工人不一定每次都对照手册检查。HASP的做法是在生产线上安装自动检测装置：每当工人即将完成一个工序，检测装置会自动触发，检查当前状态是否符合规范；如果发现问题，直接介入，修正下一步的操作，而不是事后再写一份"建议改进报告"。

在技术层面，HASP将每一条技能经验转化为一个可执行的程序函数（PF）。每个PF包含两个关键部件：第一个是"should_activate"（应该激活吗），这是一个判断函数，它会检查AI当前所处的状态和即将采取的行动，决定这条技能规则是否应该在此刻触发；第二个是"intervene"（如何干预），这是实际执行干预的部件，它可以做两件事：直接修改AI即将采取的动作，比如把一个过于冗长的搜索查询词压缩成更精准的短语；或者向AI的推理过程注入额外的提示上下文，比如在它即将误判实体时提醒它"当前搜索结果中存在多个相似名称的实体，请仔细区分"。

HASP的运作模式是作为一个外部的"智能体套壳"（Agent Harness）包裹在原有AI的外层。在AI执行每一步决策时，这个套壳会从技能库中检索相关的PF，评估它们的激活条件，然后在必要时执行干预，将修正后的行动或注入的上下文送回给AI的决策循环。原有的AI本身不需要做任何改变，HASP是一个外挂的控制层。

这种设计带来了一个额外的好处：每次PF干预都会产生一条结构化记录，记录AI原本打算做什么、PF如何修正了它、修正后发生了什么。这些记录不仅是干预本身，也为后续的训练提供了精确的监督信号。

三、技能库的建立与运作机制

技能库（Skill Library）是HASP的"规章制度仓库"，但与普通仓库不同，里面存放的每一件物品都是可执行的程序，而不是文字描述。

技能库的初始化过程类似于一个老员工总结自己职业生涯中所有踩过的坑。研究团队从训练数据中收集了AI智能体的失败案例，通过分析这些失败找出反复出现的错误模式，比如"过早给出未经核实的最终答案"、"搜索时把两个相似名称的实体混淆"、"提出的搜索查询过于繁复导致检索结果为空"等。这些错误模式被总结为可复用的候选PF，每个候选PF必须同时指定激活条件和干预行为，才能被考虑纳入技能库。

纳入技能库之前，每个候选PF要经过严格的验证。这个验证分为两个层面：首先是可执行性验证，系统会检查PF的语法是否正确、接口是否符合规范、在模拟环境下能否正常运行、返回值类型是否合法；然后是教师评审，一个更强大的AI模型（研究中使用GPT-4o）会从概念合理性、触发条件精确性、干预设计合理性、可执行性和迁移价值五个维度对候选PF打分，只有综合得分达到标准的候选PF才能进入技能库。这个双重过滤机制确保了技能库里的每一条规则都是真正有用的、可靠的规则，而不是泛泛的噪声。

在运行时，HASP支持两种PF触发模式。在纯程序函数模式下，PF完全依靠自己的激活判断函数决定是否触发，不需要外部帮助。在引入辅助教师的模式下，当多个PF同时满足激活条件时，教师模型会帮助挑选最合适的那一个，提升干预的精准度。

四、从干预记录到模型学习：HASP如何让AI内化经验

HASP的价值不仅在于即时干预，它还提供了一套将干预经验内化为AI能力的机制，类似于一位员工通过反复被纠正，最终把规则内化为自己的工作直觉。

每条PF干预记录包含四类结构化信号。第一类叫做"时机信号"，评价这次干预是否在恰当的时机触发——比如AI准备在没有阅读任何文件的情况下直接给出最终答案，这是一个"危险时刻"，此时触发干预是合理的；如果在一个安全的步骤上触发了不必要的干预，则会产生负面评分。第二类叫做"模式信号"，区分这次干预是通过修改行动实现的（比如把FINAL改成READ），还是通过注入上下文实现的（比如在推理中加入提醒）。研究发现，这两种干预模式不可互换，混淆它们会显著降低学习效果。第三类叫做"正确性信号"，评估干预产生的行动在语法和语义上是否合理。第四类叫做"结果信号"，追踪干预是否真正改善了最终答案的质量。这四个信号被加权合成为每步的综合得分，再汇总为每条轨迹（即从问题到答案的完整决策链）的整体得分。

在这套信号的支持下，HASP提供了三种后训练方式，可以独立使用，也可以配合使用。第一种是监督微调（SFT），直接把PF修正后的行动作为标准答案，通过加权的监督学习让AI练习在类似情境下做出同样的修正。第二种是拒绝采样（RS），先大量采样AI的轨迹，用任务成功率和PF干预质量两个维度共同筛选优质轨迹，然后只在这些经过筛选的轨迹上训练。与仅看最终答案是否正确的传统拒绝采样不同，HASP的筛选还要求中间步骤的决策质量符合PF的期望。第三种是在线策略蒸馏（OPD），让AI在当前状态下运行，在容易出错的步骤上激活PF进行干预，然后把修正后的行为蒸馏回AI自身。这种方式的训练数据来自AI自己当前访问的状态分布，因此训练效果更贴近AI实际运行时的情形。

研究团队的主打训练方案是将闭环PF进化与拒绝采样结合（HASP-Evolve + RS），在实验中取得了最稳定的综合效果。

五、技能库的自我进化：让规章制度跟上新问题

一个固定不变的规章制度终究会过时。HASP设计了一套技能库自我进化机制，允许它在AI持续出现新型失败的情况下，自动生成、验证并纳入新的PF，让技能库保持活力。

进化过程按轮次进行，每轮包含八个阶段。以一个完整轮次为例：系统先让当前版本的AI在种子问题集上完成带有PF干预的完整推演，然后收集所有依然回答错误的案例。接着通过两种并行方式分析这些失败案例：一种是启发式检测，用十二条预定义规则从轨迹中直接抽取失败模式，比如"在没有阅读任何文件的情况下给出最终答案"、"在空搜索结果之后重复相同查询"等；另一种是让教师模型阅读每条失败轨迹，将其归纳为可复用的失败类别描述。两种方式的结果被汇总、去重、聚类，相似度超过50%的失败描述被归为同一类，频次低于3的类别被过滤掉。

对于每个大型且新颖的失败类别，系统会让AI自身提出候选PF，包括配套的技能说明文档（SKILL.md，用于描述技能的适用场景、触发条件和干预设计）和对应的程序代码（ProgramFunction子类，实现具体的激活判断和干预逻辑）。候选PF随后经过之前描述的双重验证，通过的才被纳入技能库，形成新一轮的Mr+1版本，并在后续的训练和推理中发挥作用。

进化过程中有一个关键发现：库的膨胀本身并不带来收益，反而可能带来危害。研究通过消融实验（即对比有无某个组件的实验）直接展示了这一点：在没有任何过滤的情况下，允许所有生成的候选PF自由进入技能库，结果平均准确率从60.3%暴跌到36.3%，甚至低于没有任何PF干预的基准水平。原因是大量低质量、过于具体或相互冲突的PF会污染检索池，让正确的PF也难以被准确召回，同时产生干扰性干预。严格过滤是进化机制能够持续改进而不是持续恶化的根本保障。

六、实验结果：数字背后的实际意义

研究在三个领域进行了系统性评估，对应三类截然不同的任务特征。

在网页搜索推理任务上，AI需要跨越多个知识节点找到正确答案，这是PF干预效果最显著的场景。基准的多步推理智能体（RA-Agent）平均准确率为31.2%。引入纯程序函数干预后，准确率提升到51.0%——这意味着同样的AI底座，套上PF之后解决问题的能力提升了近两倍。加入辅助教师进行PF选择后，进一步提升到56.2%。通过后训练将PF经验内化，拒绝采样方式达到59.3%，在线策略蒸馏方式达到62.5%。最终，结合闭环PF进化和拒绝采样的完整方案（HASP-Evolve + RS）达到60.3%，相较于目前代表性的强化学习训练方法Search-R1的29.9%，提升了30.4个百分点。

更具说服力的是与"仅文字提示技能"的对比：把相同的技能经验以文字形式注入AI提示词（Prompt-Only Skills），准确率只有20.5%，而纯程序函数干预已经达到51.0%，差距高达30.5个百分点。这直接说明了同样的知识，以可执行程序的形式表达，比以文字建议的形式表达，对AI行为的实际影响力相差数倍。

在数学推理任务上，使用AIME24、AMC23和GameOf24三个不同难度的数学竞赛数据集，HASP-Evolve + RS达到平均45.4%的准确率，相较于几个主流的开源强化学习训练方法（General-Reasoner、SimpleRL-reason、Open-Reasoner-Zero等，平均在33-37%区间），取得了明显优势。不过研究也坦诚地指出，在最难的AIME24数据集上，HASP的提升相对有限，因为那类题目的失败根源是策略性思路的缺失，而不是执行细节上的错误——PF擅长纠正"怎么做"层面的问题，而不擅长补充"该做什么"的策略性洞察。

在代码生成任务上，任务特性有所不同：AI只需要一次性生成完整的代码，而不是在搜索-阅读-推理之间反复跳转。因此在代码任务中，PF主要以静态分析的方式工作——检查AI生成的代码是否存在常见错误模式（如缺少边界条件处理、数组越界风险、未处理负数输入等），然后以上下文注入的方式提醒AI修正，而不是直接改写代码。教师辅助干预版本达到68.7%的平均pass@1（即一次生成通过所有测试的比例），后训练版本进一步提升到69.9%，在HumanEval、MBPP和BigCodeBench三个主流代码评测集上均有稳定提升。

七、解剖PF的干预机制：它们究竟在做什么

深入研究PF的干预统计，可以发现一些有趣的规律，这些规律既解释了HASP为何有效，也揭示了AI失败的结构性原因。

在网页搜索任务的所有PF触发事件中，65.1%是直接修改行动的干预（MODIFY_ACTION），34.9%是注入上下文的干预（INJECT_CONTEXT）。这个比例说明HASP的大部分价值来自于"直接改写错误决策"，而不仅仅是"提醒AI注意什么"。

干预行为在技能库中的分布高度集中，而不是均匀分散。触发频率最高的技能是"decompose_complex_question"（分解复杂问题），在网页搜索任务中总共触发了322次；其次是"insufficient_exploration"（探索不足），触发了138次；再次是"answer_completeness"（答案完整性），触发了100次。这种集中分布反映了一个现实：AI的失败并不是随机分散的，而是高度集中在几种固定的错误模式上。更重要的是，这种分布随任务难度变化——MuSiQue（需要四五跳推理的高难度数据集）贡献了385次触发，2Wiki贡献了161次，HotpotQA只有95次。越难的任务，PF干预越频繁，说明PF在真正需要它的地方发挥了作用。

在行动层面，大多数MODIFY_ACTION干预实际上是把"FINAL（最终答案）"改成"SEARCH（搜索）"——阻止AI过早收工。在上下文注入层面，大多数INJECT_CONTEXT干预提供的是问题分解提示或实体区分提醒。这两类干预覆盖了网页搜索任务中最常见的两大失败根源：过早停止搜索和混淆相似实体。

技能内化分析揭示了更深层的机制：经过后训练之后，那些纠正AI自身行为习惯的PF（比如防止在未阅读文件时直接作答的"retrieval_failure"）在训练后几乎完全停止触发，说明AI已经把这些行为规范内化为自己的工作习惯；而那些与特定问题类型绑定的PF（比如"decompose_complex_question"，需要根据具体问题的结构来判断是否激活）则依然保持活跃，因为AI不可能提前预知每道题的多跳结构。这一发现说明后训练主要改变了AI的通用行为风格（比如减少不经查证就直接给答案的次数），而不是让AI记住了所有具体的干预规则。

八、消融实验：每个部件的贡献有多大

研究团队进行了系统的消融实验，逐一拆解每个组件对最终效果的贡献，以验证设计选择的合理性。

关于推理过程监督信号的消融：在完整的四信号配置（时机、模式、正确性、结果信号全部启用）下，HASP-Evolve + RS达到60.3%。依次去掉各个信号后，去掉"时机信号"导致下降7.8个百分点，去掉"模式信号"导致下降15.5个百分点（这是最大的单项损失），去掉"正确性信号"导致下降12.1个百分点，去掉"结果信号"导致下降12.8个百分点。模式信号损失最大的事实说明，区分"修改行动"和"注入上下文"这两类干预方式对于训练信号的意义至关重要——两者在学习过程中不可混为一谈。

关于技能库进化过滤的消融：完整的双重过滤（可执行性验证加教师评审）达到60.3%。关闭进化完全不更新技能库，得到59.3%，说明进化本身带来了约1个百分点的额外提升。开启进化但完全不做过滤，结果暴跌到36.3%，甚至低于无PF干预的基准（31.2%），这是研究中最有警示意义的数据点。仅做可执行性验证不做教师评审，得到48.8%；仅做教师评审不做可执行性验证，得到47.2%。两道关卡各有其不可替代的作用：可执行性验证拦截了那些会在运行时崩溃的程序，教师评审则过滤了那些在概念上过于狭窄、或干预设计不合理的规则。

训练动态分析展示了三种后训练方式各自的特征。监督微调（SFT）的训练损失下降最快，纠正对齐准确率提升最迅速，但最终性能提升幅度相对保守（+0.6个百分点）；拒绝采样（RS）保持了较高的纠正对齐准确率和相对较低的策略熵（意味着模型决策更加稳定、集中），取得了较好的综合效果（+3.1个百分点）；在线策略蒸馏（OPD）的收敛曲线更不规则，但在固定技能库的条件下达到了最高的单项成绩（+6.3个百分点）。然而在闭环进化场景下，OPD的稳定性明显下降，因为技能库的更新和策略分布的变化同时发生，两种不稳定性相互叠加，而拒绝采样则对这种双重不稳定性更具鲁棒性，因此成为了主推的生产方案。

说到底，HASP的故事是一个关于"如何让规则真正发挥作用"的故事。研究团队发现，把经验写成文字告诉AI，和把经验写成程序让AI执行，效果可以相差数十个百分点。这个发现对整个AI智能体领域有着深远的启示：当我们希望AI遵守某种行为规范时，可执行的守卫机制远比文字说教更可靠。

HASP还揭示了一个关于AI学习的深层规律：经过训练，AI能够把那些纠正自身行为习惯的规则内化为本能，但那些需要根据具体情境灵活判断的规则，依然需要外部程序的实时辅助。这意味着未来的AI系统可能需要一个"硬编码的行为约束层"和一个"可学习的策略层"并存，而HASP正是朝着这个方向迈出的一步。

当然，这项研究也有它坦率承认的局限。PF更擅长纠正执行层面的错误，而不擅长发现全新的解题策略，因此在需要突破性思路的极高难度问题上（比如AIME24竞赛题），HASP的帮助相对有限，此类场景可能更需要强化学习式的广泛探索。此外，目前的评测集中在有明确验证信号的任务（搜索、数学、代码），如何将这个框架扩展到更开放的对话或创作任务，还有待后续研究。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.17734获取完整论文，里面包含了所有PF的具体代码实现、技能库的完整列表，以及每个实验配置的详细参数设置。

Q&A

Q1：HASP中的程序函数（PF）和普通的文字提示技能有什么本质区别？

A：普通文字提示技能只是把建议写进AI的对话历史，AI可能读了也可能忽略，没有强制触发机制。程序函数（PF）则是一段真正运行的代码，它会在每个决策步骤自动检查当前情况是否符合触发条件，一旦条件成立就直接修改AI的下一步行动或者注入纠正信息，整个过程不依赖AI自己的"自觉性"。研究数据显示，同样的技能经验，以PF形式表达比文字提示平均高出约30个百分点的准确率。

Q2：HASP的技能库进化为什么必须要过滤，不过滤会怎样？

A：不过滤的后果非常严重。研究团队做了对照实验，在不加任何过滤的情况下让所有自动生成的PF进入技能库，结果准确率从60.3%暴跌到36.3%，甚至低于完全没有PF的基准水平。原因是大量低质量的PF（比如触发条件太宽泛、干预逻辑有缺陷、与其他PF相互冲突的）会污染整个检索池，让好的PF也难以被正确调用，同时制造出错误的干预。过滤机制分两道关：可执行性验证拦截会崩溃的代码，教师评审过滤概念上弱或干预不合理的候选。

Q3：HASP在哪类任务上效果最好，哪类任务上效果有限？

A：HASP在多步骤搜索推理任务上效果最显著，因为这类任务有大量可识别的执行层失误，比如过早作答、混淆实体、重复搜索，PF能精准捕捉并纠正。在数学推理的常规题目上也有明显提升。但在极高难度的数学竞赛题（如AIME24）上，效果相对有限，因为那类题的失败根源是缺少解题策略，而不是执行细节出错，PF擅长的是后者。代码生成任务介于两者之间，主要通过静态分析发现边界条件缺失等可检测的问题来提供帮助。

人工智能大语言模型智能体可执行技能程序

分享至