微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

卡内基梅隆大学研究团队让AI智能体越用越聪明：PANDO系统如何在不增加算力的情况下超越同类方案

AI智能体在线学习技能库优化

卡内基梅隆大学研究团队让AI智能体越用越聪明：PANDO系统如何在不增加算力的情况下超越同类方案

作者：科技行者

2026-06-04 11:16

分享至：

卡内基梅隆大学提出PANDO框架，通过在线技能蒸馏让网页AI智能体随任务积累越来越高效，在VWA测试中以更少代币实现更高成功率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 11:16 • 科技行者

这项由卡内基梅隆大学团队完成的研究发表于2026年的预印本平台arXiv，论文编号为arXiv:2605.24785，有兴趣深入了解的读者可以通过该编号查阅完整论文原文。

在探讨这项研究之前，先来描绘一个日常场景。一位新员工入职第一天，什么都不熟悉，每走一步都要重新摸索；但到了第二个月，他已经知道哪个抽屉放什么文件，哪个流程有捷径可走。他的工作速度不仅没变慢，反而越来越快，因为积累的经验转化成了习惯和技巧。现在的AI智能体恰恰相反——无论它做了多少任务，每次都像新员工第一天上班一样，从头开始思考。PANDO这项研究要解决的，正是这个问题。

一、为什么AI每次都要"重新发明轮子"

当前的AI系统在执行网页操作任务时，面临一个奇怪的困境：它们越"聪明"，往往越贵。提高准确率的主流做法是花更多的计算资源——让AI多跑几次同一任务取最好的结果，或者提前专门花大量时间让AI"预习"每个网站的操作方式，再或者同时雇用好几个AI专家分工协作。每一种方法都意味着更多的"代币"消耗，而代币正是AI服务的计价单位，可以理解为AI每次思考和输出内容所消耗的资源。

研究团队把这种现象称为"代币经济"——代币是AI购买准确率的货币，但同时也决定了响应速度、缓存效率、能耗以及隐藏的预备成本。随着AI推理在整个机器学习生命周期中占据主导地位，数据中心能源消耗成为一阶资源约束，这个问题不再只是账单问题，而是切实的工程和环境问题。

卡内基梅隆大学的研究团队对一个名为VisualWebArena（VWA）的标准测试平台上超过一千条运行轨迹进行了详细审计，找到了三类反复出现的浪费现象。第一类是"重复动作循环"，AI在网页上点了同一个按钮没反应，就再点一次，再点一次，如此循环，直到超时失败，这类问题在有图像标注的失败案例中占到了34%到42%。第二类是"离线工具发现成本"，某些现有系统在正式做任务之前，要专门花大量时间和算力让AI"预习"每个网站，这部分成本在发表的论文里往往被刻意略去不算。第三类是"提示词缓存利用率低"，某些输入方式让AI每次都要重新处理大量相同的背景信息，完全没有利用已有的计算缓存，文字加说明的方式缓存利用率甚至低于11%。

这三类问题的共同点是：它们不是因为AI"太笨"造成的，而是系统设计上的机制缺陷，是可以用持久的结构化设计来修复的。

二、根系相连的白杨林：PANDO的设计哲学

研究团队把这套新系统命名为PANDO，这个名字来自一片真实存在的树林。在美国犹他州的费什莱克国家森林里，有一片看似由四万七千棵独立白杨树组成的树林，但实际上所有树木共享同一套地下根系，在基因上是同一个生命体。这片林子叫做Pando，拉丁语意思是"我扩展、我展开"，按质量计算是地球上最大的已知生物，据估计已有数千至数万年历史。每一棵树干都是季节性的：叶子会变黄凋落，但根系持续存活，新长出的树苗一出土就继承了数千年祖先积累的养分和连接。

PANDO系统的设计恰好沿用这个隐喻。每次任务执行就是一根树干：可见、具体、终将结束。但系统的"根系"——一个叫做技能库的结构化记忆——在任务和任务之间持续存在并不断成长。一棵树死去，根系记住了它学到的东西；下一棵树生长时，不需要从零开始。

具体来说，PANDO的核心架构是一个"计划→行动→反思→学习"的循环。强大但昂贵的模型只用于计划和反思这两个需要深度推理的环节；更便宜的模型负责高频率的具体操作。当任务可以用已有技能解决时，就直接调用技能，完全跳过昂贵的推理过程。

技能库由两类技能构成。一类叫"规则"，是基于最近操作轨迹触发的防护栏，比如"如果同一个按钮连续点击两次都没有页面变化，停下来，换一种方式"。另一类叫"例程"，是参数化的程序级技能，比如apply_price_filter(最低价格,最高价格)或者sort_by_attribute(属性,升序/降序)，可以用一次调用完成原本需要多个操作步骤的子任务。每个技能都有关键词索引、置信度统计和可执行的操作语义，检索方式是字面关键词匹配而非向量相似度搜索，这个设计刻意为之：字面匹配让技能库可以被人类直接查看和审计，同时保持提示词前缀稳定，对缓存友好。

三、技能如何在实战中生长和死亡

PANDO的学习机制值得详细了解，因为它解决了一个很多人没想到的问题：不光要学会新技能，还要及时忘掉不管用的旧技能。

每次任务完成之后，学习模块会检查这次的运行轨迹，寻找可以复用的子目标模板。如果找到了符合条件的子轨迹——有可复用的子目标模板、有经过验证的选择器模式、没有与现有黑名单冲突——就会把这段经验提炼成一个新的例程候选，加入技能库。每个技能维护一套通过/失败计数，置信度按照统计方式动态更新，当失败率超过50%且调用次数达到最低门槛时，这个技能会被放入"淘汰黑名单"，未来不再被检索，其关键词签名也会阻止结构类似的新候选再次被纳入，防止"重新发现同样失败的技能"这种循环。

还有一个叫做"极性对合并"的设计，处理方向相反但结构相同的技能。比如"找最便宜的"和"找最贵的"这两个例程，操作结构完全一样，只是排序方向不同。PANDO会把这两个技能合并成一个带方向参数的技能f±(x, 升序/降序)，既减少了冗余，又让提示词前缀更稳定，缓存利用率随之提升。

反思模块（Reflector）负责在执行过程中检查进展，每三步触发一次，或者在出错时立即触发。它对比前后的网址、页面结构、无障碍树和截图摘要，判断子目标是否真的推进了。正面检查为技能置信度提供佐证，负面检查触发规则介入或重新规划。

层级路由则将昂贵的推理能力保留给真正需要的地方——新任务规划和反思环节；常规操作交给更便宜的模型。视觉压缩将截图的长边缩放到896像素以下，并剪裁感兴趣区域，减少了约40%的视觉token消耗。缓存感知的提示词布局把稳定的系统指令、工具定义和技能摘要放在提示词最前面，把频繁变化的页面内容和操作历史放在后面，让API的缓存机制能尽可能多地复用已计算的内容。

四、比较的基准：现有方案是怎么"花钱买分"的

为了说清楚PANDO在哪里省了钱，研究团队建立了一套成本分解框架，把整个评测过程的总代币消耗分成四项：正式评测之前的"预备成本"、每个任务执行的基本成本、每个任务的验证成本以及每个任务的技能学习成本。

现有的几个领先方案各有各的花钱方式。树搜索类方案（如Tree Search和ExACT）通过让AI对同一任务尝试多条分支路径来提高成功率，成本随分支数量线性增长。WALT系统选择在评测开始之前，针对每个测试网站分别跑一套"演示→生成→验证"的离线工具发现流程，每个工具分配100步的探索预算，总预备成本超过4200万输入代币，折算美元约为43.7美元，但这部分成本在WALT发表的论文中没有被计入每任务成本，只是定性提到了"离线工具发现有探索和验证成本"。SGV系统保留单次执行但增加了两阶段验证器：第一阶段只看任务描述和初始截图，生成对任务类型的先验预期；第二阶段结合完整执行轨迹和这些先验给出成功/部分/失败的判定。这个双阶段设计让成功率从45%提升到54%，代价是每任务成本大约翻倍。

PANDO选择的路径是：没有预备成本，单次执行，轻量验证，技能学习成本完全包含在每任务成本之内。是否能在这个约束下取得竞争力的成功率，是研究团队要实证回答的问题。

五、测试结果：数字背后的故事

VisualWebArena包含910个涵盖分类广告、购物和Reddit三类网站的任务，是当前多模态网页智能体领域的主流测试平台。研究团队用固定随机种子42将所有任务混合排序，让三类任务在流程中交错出现，以促进跨领域的技能迁移。

在完整910任务测试中，PANDO达到了58.3%的成功率，超过SGV的54.0%和研究团队自行复现的WALT的45.2%，同时每任务仅消耗11.5万代币，而SGV消耗27.5万、WALT消耗29.4万。换算成美元，PANDO每任务成本约0.085美元，SGV约0.371美元，WALT约0.592美元（不含预备成本）；WALT加上摊薄到910任务的预备成本后，每任务成本约为0.641美元。按"每成功一次任务花多少钱"计算，PANDO约0.146美元，WALT约1.310美元，差距高达9倍。

除了成功率和代币数，研究团队还报告了三个"内在效率指标"。动作重复率（ARR）衡量有多少任务是因为重复操作卡死而终止的，PANDO为9.1%，SGV为14.2%，WALT为18.3%，基础SoM方案高达40%。步骤开销比（SOR）是失败任务平均步数除以成功任务平均步数，PANDO为1.8倍，意味着即便失败也失败得比较快，不会在注定失败的路上浪费太多步骤；WALT为2.6倍，SGV为2.3倍。提示词缓存利用率，PANDO达到72.4%，SGV为45.1%，WALT为38.6%，文字加说明方式仅有10%左右。

技能库在整个910任务流程中从12个初始例程成长到47个诱导例程，其中32个在流程结束时仍处于活跃状态，15个因失败率过高被淘汰，11对被合并为极性对。有技能命中的任务成功率为70.6%，没有技能命中的任务成功率为50.4%，命中技能的子目标平均比回退到原始操作的方式少用3.7个浏览器操作步骤和4.1万代币。规则共触发184次，主要针对重复点击、页面过期和下拉选择器失效，阻止了71次本来会触发重复动作终止的情况。

将任务流按块统计更能看出学习的效果。前100任务阶段，平均步数10.6，每任务14.3万代币，缓存利用率62%，技能命中率18.2%，成功率50.5%。101到300任务阶段，步数9.6，代币12.4万，缓存70.5%，命中率33.6%，成功率56.8%。301到600任务阶段，步数9.1，代币11.2万，缓存73.5%，命中率47.1%，成功率59.2%。最后的601到910任务阶段，步数8.9，代币10.3万，缓存76.0%，命中率58.4%，成功率61.0%。越到后期，任务越便宜，成功率越高，这正是PANDO设计的目标：随着经验积累，智能体变得更高效而非更贵。

六、拆解每个零件的贡献

在一个包含100个购物、100个分类广告、100个Reddit任务的300任务诊断子集上，研究团队进行了逐步加入各组件的对照实验，以量化每个设计决策的具体贡献。

从SoM加Qwen多模态基线（成功率38.6%）出发，加入规则组件之后成功率提升5.6个百分点到44.2%，重复动作率从39.1%降到23.8%，这证明规则对防止卡死循环效果显著。加入初始例程后又提升3.9个百分点到48.1%，平均步数从13.6降到11.9，可复用的子目标宏提供了稳定的效率杠杆。加入反思模块提升2.9个百分点到51.0%，重复动作率进一步降到14%，进度核验帮助系统及时发现偏离轨道的情况。加入在线蒸馏提升2.9个百分点到53.9%，诱导例程在任务流中逐步生效。加入极性对合并提升2.5个百分点到56.4%，共享的极值技能把分类广告任务中的"最便宜/最贵"类型一网打尽。加入淘汰黑名单提升0.9个百分点到57.3%，主要作用是阻止脆弱例程继续产生隐性代币负担。

然后是三个偏效率优化的组件。加入层级路由，成功率仅提升0.5个百分点，但代币从14.7万降到13.2万，便宜的计划调用替代了部分昂贵调用。加入视觉压缩，成功率提升0.7个百分点，代币从13.2万降到12.1万，截图的像素减少转化为视觉代币减少。加入缓存感知提示词布局，成功率提升0.5个百分点，代币从12.1万降到11.7万，缓存利用率从69.3%提升到72.0%。

这组数据讲述了一个清晰的故事：规则和例程提供了大部分的成功率提升，而路由、压缩、缓存优化则把更大的技能库转化为更低的边际代币消耗。两组组件作用方向不同但互相配合，最终实现了成功率更高、成本更低的双重目标。

七、骨架控制实验与边界探讨

批评者可能会问：PANDO用了Claude Opus 4.6作为规划器，GPT-5.2作为操作模型，而SGV用的是Gemini-2.5-Flash，是不是单纯因为模型更强才赢的？研究团队用两个交叉实验来回应这个质疑。

第一个实验把SGV的Gemini-2.5-Flash换成Opus 4.6运行前100个任务，结果SGV-on-Opus成功率从51.2%提升到56.7%，而同样前100任务窗口内PANDO为50.5%。这说明在冷启动阶段——技能库还几乎是空的——Opus骨架确实帮助SGV略微领先于PANDO。这个结果不令人意外：SGV不需要技能库，从第一个任务开始就满功率运作；PANDO在前150个任务左右处于学习爬坡期。

第二个实验把PANDO的Opus规划器换成Gemini-2.5-Flash，在300任务子集上运行，结果PANDO-on-Gemini成功率为50.3%，比Gemini骨架的原版SGV（53.4%）低3.1个百分点，但比Gemini单独作基线时的45%高出约5个百分点。这表明技能库带来的提升是跨骨架可迁移的，不是Opus专有的；而4.4个百分点的差距与Opus对Gemini在多模态网页任务上的能力差距相符，并非路由机制本身的问题。

在残余失败分析中，研究团队随机抽取了50个PANDO的失败案例进行人工检查，发现定位错误（点击位置不准）占37.5%，任务描述模糊占18.7%，极性变体超出当前排序选择技能族的覆盖范围占15.3%，技能库覆盖空白占13.7%，未被规则捕获的重复循环占9%，其他原因占5.8%。这个分布说明下一步的收益不应该来自更长的推理链，而应该来自更强的视觉定位能力和更广泛的程序等价归纳能力。

鲁棒性检验方面，用随机种子1729重新打乱任务顺序运行，成功率57.9%，差异0.4个百分点，在正常波动范围内。16个工作进程并行共享同一技能库的版本，成功率58.1%，总挂钟时间从48.2小时降到3.1小时，并行化没有破坏学习效果。按子站点看，分类广告63.3%，购物56.1%，Reddit 55.9%，在分类广告上优势最大，因为极性对归纳的技能集中在排序和筛选类任务，而这类任务在分类广告中最为密集。

说到底，PANDO这项研究的核心信息其实很简单：过去花掉的计算不应该每次都重新花。当AI系统在执行一批类似任务时，它没有理由每次都从零开始思考同样的操作步骤——除非它没有地方把学到的东西存起来。PANDO给了它一个"根系"，一个可以跨任务持续成长、自我修剪、越来越高效的结构化记忆。

这对普通人意味着什么？短期内，使用AI助手帮你完成网页操作任务——比如在电商平台筛选最便宜的商品、在信息平台搜索特定内容——的成本和速度可能随着类似技术的普及而改善。长期来看，这项研究提出了一个更根本的设计原则：AI的进步不一定非要靠烧更多算力来买，也可以靠让每一次计算的价值延续到下一次。从能源消耗和部署成本的角度看，这个方向的意义并不亚于模型本身性能的提升。

当然，研究团队也坦诚地列出了局限：所有实验结论都基于VWA这一个测试平台，桌面操作系统类任务还需要新的规则和定位层；在线学习假设任务流是可信的，恶意排序可能增加冷启动成本；极性对归纳是基于语法的，更广泛的程序等价发现是未来工作。感兴趣的读者可以通过arXiv:2605.24785找到完整论文，里面包含详细的算法描述、完整的消融实验数据和附录中的技能库格式示例。

Q&A

Q1：PANDO系统的技能库是如何决定淘汰一个已学会的技能的？

A：PANDO为每个技能维护通过和失败的计数，当一个技能的失败率超过50%且被调用次数达到至少3次的最低门槛时，该技能会被写入淘汰黑名单，不再被检索。黑名单还会记录该技能的关键词签名，阻止结构类似的新候选技能再次被纳入，防止系统反复学习同一种失败模式。

Q2：PANDO在任务开始时没有任何技能积累，早期表现会不会很差？

A：确实存在冷启动阶段。在前100个任务中，PANDO的成功率为50.5%，低于SGV在相同窗口内的51.2%，这与设计预期一致，因为SGV不依赖技能库可以立刻满功率运作。但随着技能库逐步积累，PANDO的优势在后续任务中持续扩大，到最后310个任务时成功率达到61%，而每任务代币消耗降至10.3万。

Q3：PANDO的技能库关键词匹配方式和向量搜索相比有什么实际优缺点？

A：关键词字面匹配的优点是确定性强、可被人类直接审查，而且因为每次匹配结果稳定，提示词前缀保持不变，对API的缓存机制非常友好，这是缓存利用率达到72%的重要原因之一。缺点是召回覆盖范围较窄，如果任务描述用词和技能关键词不重叠，就不会触发匹配，可能错过本可以使用的技能。向量搜索召回更广但会让提示词内容每次变化，破坏缓存稳定性。

AI智能体在线学习技能库优化

分享至