微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI网络助手的安全与效率双重优化：浙大团队破解智能代理的"鱼和熊掌"难题

人工智能多智能体协作安全优化

AI网络助手的安全与效率双重优化：浙大团队破解智能代理的"鱼和熊掌"难题

作者：科技行者

2025-08-12 11:11

分享至：

浙江大学团队开发的HarmonyGuard框架首次解决了AI网络代理的安全与效率平衡难题。该系统通过三个协作的AI代理，实现自适应安全策略更新和双目标优化，在真实测试中将策略合规率提升38%，任务完成率提升20%，为构建既高效又安全的智能助手奠定重要基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-08-12 11:11 • 科技行者

这项由浙江大学张胜宇教授团队联合厦门大学和上海交通大学研究人员共同完成的研究发表于2025年8月，论文题目为《HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization》。有兴趣深入了解的读者可以通过项目地址 https://github.com/YurunChen/HarmonyGuard 访问完整资料。这项研究首次系统性地解决了智能网络代理在执行任务时面临的安全与效率平衡难题，为构建更可靠的AI助手奠定了重要基础。

在我们日常生活中，AI助手正变得越来越智能，它们可以帮我们在线购物、预订机票、处理各种网络事务。但是，这些智能代理就像是刚刚学会开车的新手司机，虽然能够完成基本操作，却可能在复杂路况中出现危险驾驶行为。它们面临着一个经典的两难选择：要么过分谨慎导致效率低下，要么积极行动却可能触发安全风险。

研究团队发现，现有的AI网络代理普遍存在两个关键问题。第一个问题可以比作是"规则手册过时"的困境。就像一本老旧的交通规则手册无法应对现代城市的复杂路况一样，现有的安全策略往往来自静态的文档，无法及时响应网络环境中不断出现的新威胁。第二个问题则像是"开车时的注意力分配"难题，司机需要同时关注安全驾驶和到达目的地，AI代理同样需要在确保安全的同时高效完成任务，这种平衡极其微妙。

为了解决这些挑战，研究团队设计了一个名为HarmonyGuard的多智能体协作框架。这个系统就像是为AI代理配备了一个经验丰富的教练团队，其中包含三个不同角色的"教练"：负责执行具体网络任务的Web Agent（主要执行者），负责制定和更新安全规则的Policy Agent（安全顾问），以及负责优化任务执行效果的Utility Agent（效率顾问）。

一、自适应策略增强：让安全规则与时俱进

Policy Agent的工作原理就像一位勤奋的图书馆管理员，它需要从各种复杂的外部文档中提取有用的安全规则，然后将这些规则整理成清晰、结构化的指导手册。这个过程包含三个核心步骤，每一步都经过精心设计以确保最终得到的安全策略既全面又实用。

首先是文本提取阶段，Policy Agent利用MCP（模型上下文协议）服务器提供的工具，从PDF文档、网页内容或纯文本文件中提取原始信息。这个过程就像考古学家仔细挖掘文物一样，需要准确识别和获取每一份有价值的信息。接下来是策略精炼阶段，Agent使用大型语言模型对提取的文本进行语义理解，消除歧义，移除冗余内容，并规范表达方式。这一步骤相当于将考古发现的文物进行清洗、分类和整理，确保每件物品都能清晰地传达其历史信息。

第三步是去重处理，通过计算语义相似度并利用大型语言模型识别重复条目，Agent能够检测并合并来自不同来源的相似或重复策略条目，确保知识库中每条规则的独特性。最后是结构化转换，将精炼和去重后的策略信息转换为高度结构化的数据模型。每条策略都包含策略ID、适用范围、约束条件、风险级别等预定义字段，就像为每本书制作详细的图书卡片一样。

更重要的是，Policy Agent不是一个静态的系统，而是具备动态更新能力的智能体。当Utility Agent在实时监控过程中发现策略违规行为时，它会为每个违规案例构建相应的违规参考资料，并将其映射到相关的策略条目进行后续存储。Policy Agent接收到这些违规参考后，会通过两种核心机制来更新策略数据库。

第一种机制是语义相似性过滤，采用基于格式塔模式匹配的启发式语义相似性过滤方法。相似度得分超过85%的样本会被移除，以确保违规数据的多样性和代表性。这就像筛选考试题库时，要确保每道题目都有其独特的考查点，避免过度重复。第二种机制是分层有界队列，为了应对不断演变的威胁形势，系统实施了基于威胁级别的可变长度先进先出队列机制。队列长度根据威胁级别动态调整，低、中、高风险威胁分别对应不同的队列长度，确保高风险威胁保留更多违规参考资料并具有更长的保留期。这种设计既提高了对关键威胁的响应能力，又防止了对过时或低影响事件的过度拟合。

二、双目标优化：在安全与效率间寻找最佳平衡

Utility Agent的核心能力体现在通过两个阶段实现双目标优化：推理评估和推理修正。这个过程就像一位经验丰富的驾驶教练，既要确保学员的驾驶安全，又要帮助他们高效到达目的地。

在评估策略方面，研究团队采用了一种巧妙的"二阶马尔可夫评估策略"。这种方法的设计理念类似于观察一个人的行为模式，不仅要看他现在在做什么，还要考虑他上一步做了什么。具体来说，在约束马尔可夫决策过程框架下，Utility Agent将网络代理的推理序列定义为{r1, r2, ..., rt}，在每个推理步骤t，评估仅依赖于当前输出rt和紧邻的前一个输出rt-1，这构成了一个二阶马尔可夫过程。

这种评估策略的优势在于既能捕捉到时间上相邻的违规行为模式，又避免了过多历史依赖带来的干扰。就像判断一个司机的驾驶习惯时，我们主要关注他连续的几个动作是否协调一致，而不需要回溯到很久之前的操作。从安全角度来看，网络代理任务中的约束违规往往表现出短期时间连续性，比如在连续两个推理步骤中产生高风险动作。通过评估局部转换（rt-1, rt），代理能够有效捕捉这种时间相邻的违规行为，同时避免整体安全评估的显著损失。

在双目标决策阶段，Utility Agent通过识别代理推理是否违反两个目标来评估失效情况：安全性和实用性。系统会判断当前推理是否违反策略或偏离任务目标。给定推理序列{r1, r2, ..., rt}，Utility Agent在每个推理步骤t评估两个标准，以确定当前推理输出是否违反策略或偏离任务目标。这个评估过程用一个布尔指示向量来表示，其中R(rt | rt-1) ∈ {0, 1}?，向量分别指示策略违规和任务偏离的存在。

函数f^policy_θ和f^goal_θ是基于大型语言模型的评估器，返回布尔值以表示在推理步骤t-1和t之间是否发生了策略违规或目标偏移。指示函数I(·)将评估结果映射到{0, 1}，其中1表示检测到问题，0表示没有问题。这种联合布尔评估使Utility Agent能够在安全或实用性约束被违反时及时检测并响应。

当检测到策略违规或任务偏离时，Utility Agent会启动元认知能力机制。这个过程就像是给AI代理安装了一个"内省反思系统"，让它能够对自己的推理过程进行批判性思考。元认知过程通常包括理解输入文本、形成初始判断、对初步分析进行批判性评估，以及基于反思得出最终决策。Utility Agent利用大型语言模型生成优化指导，引导网络代理完成这个过程中的批判性评估步骤。这种干预为网络代理提供了元认知能力，显著增强了其推理修正能力。

构建的优化指导内容包含了对威胁风险和任务一致性的详细解释，以及具体的改进建议。当系统检测到安全风险时，指导内容会明确指出违反了哪些策略条款，并提供避免类似威胁的具体指导。当任务执行出现偏离时，指导会指出偏离的原因，并提供重新与任务目标保持一致的具体指令。

三、实验验证：在真实环境中检验效果

为了全面评估HarmonyGuard框架的有效性，研究团队设计了一系列综合性实验，就像为新开发的安全驾驶系统进行路试一样，需要在各种复杂的真实场景中验证其性能表现。

实验基于两个具有代表性的真实安全基准进行：ST-WebAgentBench和WASP，这两个基准都托管在AWS网站上，提供了真实的网络环境测试条件。ST-WebAgentBench包含235个任务，涵盖同意（Consent）、边界（Boundary）和执行（Execution）三类安全策略。WASP则包含84个任务，专注于GitHub和Reddit平台上的纯文本和URL注入攻击，具体包括GitHub纯文本注入（GPI）、GitHub URL注入（GUI）、Reddit纯文本注入（RPI）和Reddit URL注入（RUI）四种注入类型。研究团队还测试了基于WASP的多模态代理版本WASP（SoM），以验证框架在处理更复杂输入形式时的表现。

在实验设置方面，所有实验中的网络代理都使用gpt-4o和gpt-4o-mini模型，Utility Agent使用Qwen-Max-2025-01-25模型，Policy Agent使用gpt-4o模型。所有大型语言模型的温度参数都固定为0，以确保结果的一致性和可重现性。策略队列长度根据威胁级别定义：低风险为5，中风险为7，高风险为10。相似度阈值设置为默认值85%。

研究团队将HarmonyGuard与四种不同的保护机制进行了对比。第一种是无防护机制，作为基准对照。第二种是提示防护，直接将原始策略文档作为提示的一部分提供给代理进行解释。第三种是策略遍历，将结构化策略提供给代理进行自我解释，但不进行任何额外处理。第四种是Guard-Base，这是HarmonyGuard的基础版本，其中Policy Agent不执行策略更新功能。

实验结果显示，HarmonyGuard在所有基准测试中都取得了显著的性能提升。在策略合规性方面，HarmonyGuard在ST-WebAgentBench上分别在同意、边界和执行策略类别下达到了92.5%、99.4%和91.5%的最高策略合规率。在WASP和WASP（SoM）基准上，HarmonyGuard展现出了强大的防御能力，多个策略合规率达到了100%。特别值得注意的是，在URL注入场景中，它显著优于其他方法，展现出了优异的适应性和鲁棒性。

在任务效用性能方面，HarmonyGuard在多个基准测试中展现出了显著的实用性改进优势。在ST-WebAgentBench上，HarmonyGuard在所有三个威胁类别中实现了约20%的策略下完成率提升。在WASP和WASP（SoM）上，HarmonyGuard也大都达到了最优性能，最高策略下完成率达到95.2%。与无防护基准相比，HarmonyGuard带来了实质性的效用改进，最高相对提升达到133%。

更重要的是，研究团队通过比较整体完成率和策略下完成率，引入了"违规"指标来衡量代理依赖策略违规来完成任务的程度。较小的违规表明代理倾向于在严格遵守策略的同时完成任务，展现了更安全、更鲁棒的防御能力。相反，较大的违规表明更多任务是通过违反策略完成的，表示更高的安全风险。结果显示，HarmonyGuard在所有基准测试中具有最小甚至零违规，表明该框架有效地指导网络代理在确保策略合规的同时高效完成任务。

四、帕累托最优：实现真正的双赢

在双目标优化分析中，研究团队采用帕累托前沿分析方法来评估HarmonyGuard与现有保护机制在双目标优化下的比较效果。这种分析方法就像是在寻找投资组合中的最佳平衡点，既要考虑收益最大化，又要控制风险在可接受范围内。

帕累托前沿图展示了所有保护方法在策略合规率（x轴）和策略下完成率（y轴）两个维度上的表现，这两个指标共同反映了代理的安全性和实用性。在ST-WebAgentBench和WASP及WASP（SoM）两个基准测试中，HarmonyGuard始终达到了帕累托最优，展现了在策略合规和任务有效性之间的卓越平衡能力，而其他保护机制在至少一个目标上表现不足。

这种帕累托最优的实现意味着HarmonyGuard找到了安全与效率之间的最佳平衡点。在这个平衡点上，任何试图进一步提高安全性的努力都会导致效率的损失，反之亦然。但HarmonyGuard成功地推进了这个边界，实现了传统方法无法达到的双重优化效果。

五、评估策略对比：为什么二阶马尔可夫最有效

为了验证二阶马尔可夫评估策略的有效性，研究团队在ST-WebAgentBench基准上使用gpt-4o-mini模型对不同评估策略的效果进行了对比分析。这个对比实验就像是测试不同的体检方案，看哪种方案既能准确发现问题，又不会产生过多的误诊。

实验对比了四种不同的策略：无评估策略作为基准，基于代理完整执行轨迹的全轨迹评估策略，仅基于当前推理步骤的当前步骤评估策略，以及研究团队提出的二阶马尔可夫评估策略。

结果显示，二阶马尔可夫评估策略展现出了强大且平衡的性能，在所有威胁类别和整体表现中，策略合规率和策略下完成率都达到了最佳或第二最佳的结果。相比之下，全轨迹评估策略虽然获得了最高的整体策略合规率，但在策略下完成率方面表现明显下降，甚至低于当前步骤评估策略。

进一步分析表明，虽然融合完整轨迹信息能够帮助识别潜在违规从而提升策略合规率，但也可能导致将早期阶段的违规错误归因于当前推理步骤。这种误判增加了合规评估中的假阳性数量，导致不必要的修正和相应的策略下完成率下降。本质上，模型采用了"宁可错杀"的策略，通过将更多推理案例标记为违规来提高策略合规率，但这是以任务完成为代价的，同时也会造成不必要且频繁的策略更新请求。

另一方面，当前步骤评估策略避免了这种过度惩罚，产生了更平衡的结果，但在策略下完成率方面仍然不如二阶马尔可夫评估策略。通过利用前两个状态的短期历史上下文，二阶马尔可夫评估策略能够更准确地捕捉局部策略转换，从而实现更好的合规评估和改进的任务完成率，提升了模型的可靠性和实用效用。

六、多轮策略适应：在实战中不断进化

为了验证HarmonyGuard的长期适应能力，研究团队在WASP基准上进行了多轮适应过程的比较分析。这个实验过程就像观察一个新手司机在不同路况中的学习成长过程，看他是否能够从每次的驾驶经验中汲取教训并持续改进。

实验结果显示，经过三轮测试后结果趋于相对稳定，HarmonyGuard在第三轮中达到了最佳性能。在第一轮更新中，由于策略数据库最初为空，Policy Agent缺乏先验参考，策略调整主要集中在构建策略数据库上，在这个过程中逐步增强威胁感知能力。虽然第二轮中某些指标有所波动，但整体趋势稳定并继续改善。这反映了框架对策略的迭代优化，显著提升了策略合规性和任务完成能力。

特别值得注意的是，在第三轮中，系统在安全性和实用性方面表现出了更加平衡和鲁棒的性能，表明多轮适应有效增强了网络代理应对重复攻击的能力。这种持续学习和适应的能力使得HarmonyGuard不仅能够应对当前的威胁，还能够为未来可能出现的新威胁做好准备。

整个多轮适应过程展现了HarmonyGuard框架的一个重要特性：它不是一个静态的防护系统，而是一个能够从经验中学习并持续改进的智能防护框架。这种特性使得系统能够在面对不断演化的网络威胁时保持有效性，就像一个经验丰富的安全专家能够根据新出现的攻击模式及时调整防护策略一样。

说到底，这项研究解决了一个看似简单却极其复杂的问题：如何让AI助手既聪明又安全。研究团队通过HarmonyGuard框架，成功地证明了智能代理不必在安全与效率之间做出痛苦的选择。这套系统就像是为AI代理配备了一位既懂安全又懂效率的贴身顾问，能够在复杂多变的网络环境中帮助它们做出最佳决策。

从实际应用角度来看，这项研究的意义远超学术范畴。随着AI助手在我们生活中扮演越来越重要的角色，确保它们既能高效完成任务又不会带来安全隐患，这对每个人都至关重要。无论是帮我们处理网上银行业务的AI助手，还是代表我们进行在线购物的智能代理，都需要具备这种平衡能力。

研究团队的工作还揭示了几个重要洞察。首先，外部策略知识不应该被当作静态输入，而应该作为结构化且可演化的知识资产来管理。其次，具备元认知能力的代理架构是增强代理鲁棒性和适应性的关键因素。第三，负面案例（即策略违规）可以帮助代理理解策略合规的边界。最后，在多轮推理或任务分解场景中，构建清晰的上下文表示至关重要。

这些发现不仅为当前的AI安全研究提供了宝贵指导，也为未来构建更加智能和可靠的AI系统指明了方向。随着技术的不断进步，我们有理由相信，在不久的将来，我们将拥有既高效又安全的AI助手，它们能够在复杂的网络世界中为我们提供更好的服务，而不必担心安全风险的问题。有兴趣进一步了解这项研究的读者，可以通过GitHub项目地址获取更详细的技术资料和实现代码。

Q&A

Q1：HarmonyGuard框架是什么？它如何同时保证AI助手的安全性和效率？

A：HarmonyGuard是由浙江大学团队开发的多智能体协作框架，通过三个角色的AI代理协同工作：负责执行任务的Web Agent、负责管理安全规则的Policy Agent和负责优化效率的Utility Agent。它采用自适应策略增强技术让安全规则能够实时更新，并使用二阶马尔可夫评估策略在每个操作步骤都同时检查安全性和任务完成情况，从而实现安全与效率的最佳平衡。

Q2：为什么传统的AI安全防护方法无法很好地平衡安全与效率？

A：传统方法主要存在两个问题：一是安全规则过于静态，就像使用过时的交通手册无法应对现代复杂路况一样，无法及时应对新出现的网络威胁；二是采用单一目标优化，要么过分注重安全导致效率低下，要么追求效率而忽视安全风险。而HarmonyGuard通过动态策略更新和双目标同时优化，成功解决了这个"鱼和熊掌"的难题。

Q3：HarmonyGuard在实际测试中的表现如何？普通用户能否受益？

A：在真实网络环境测试中，HarmonyGuard将策略合规率提升了38%，任务完成率提升了20%，并在所有测试中实现了超过90%的策略合规率。这意味着使用这项技术的AI助手能够更安全地帮用户处理网上购物、预订服务、处理邮件等日常网络任务，既不会因为过度谨慎而影响效率，也不会因为追求速度而带来安全风险。

人工智能多智能体协作安全优化

分享至