
这项由卡内基梅隆大学团队完成的研究发表于2026年的预印本平台arXiv,论文编号为arXiv:2605.24785,有兴趣深入了解的读者可以通过该编号查阅完整论文原文。
在探讨这项研究之前,先来描绘一个日常场景。一位新员工入职第一天,什么都不熟悉,每走一步都要重新摸索;但到了第二个月,他已经知道哪个抽屉放什么文件,哪个流程有捷径可走。他的工作速度不仅没变慢,反而越来越快,因为积累的经验转化成了习惯和技巧。现在的AI智能体恰恰相反——无论它做了多少任务,每次都像新员工第一天上班一样,从头开始思考。PANDO这项研究要解决的,正是这个问题。
一、为什么AI每次都要"重新发明轮子"
当前的AI系统在执行网页操作任务时,面临一个奇怪的困境:它们越"聪明",往往越贵。提高准确率的主流做法是花更多的计算资源——让AI多跑几次同一任务取最好的结果,或者提前专门花大量时间让AI"预习"每个网站的操作方式,再或者同时雇用好几个AI专家分工协作。每一种方法都意味着更多的"代币"消耗,而代币正是AI服务的计价单位,可以理解为AI每次思考和输出内容所消耗的资源。
研究团队把这种现象称为"代币经济"——代币是AI购买准确率的货币,但同时也决定了响应速度、缓存效率、能耗以及隐藏的预备成本。随着AI推理在整个机器学习生命周期中占据主导地位,数据中心能源消耗成为一阶资源约束,这个问题不再只是账单问题,而是切实的工程和环境问题。
卡内基梅隆大学的研究团队对一个名为VisualWebArena(VWA)的标准测试平台上超过一千条运行轨迹进行了详细审计,找到了三类反复出现的浪费现象。第一类是"重复动作循环",AI在网页上点了同一个按钮没反应,就再点一次,再点一次,如此循环,直到超时失败,这类问题在有图像标注的失败案例中占到了34%到42%。第二类是"离线工具发现成本",某些现有系统在正式做任务之前,要专门花大量时间和算力让AI"预习"每个网站,这部分成本在发表的论文里往往被刻意略去不算。第三类是"提示词缓存利用率低",某些输入方式让AI每次都要重新处理大量相同的背景信息,完全没有利用已有的计算缓存,文字加说明的方式缓存利用率甚至低于11%。
这三类问题的共同点是:它们不是因为AI"太笨"造成的,而是系统设计上的机制缺陷,是可以用持久的结构化设计来修复的。
二、根系相连的白杨林:PANDO的设计哲学
研究团队把这套新系统命名为PANDO,这个名字来自一片真实存在的树林。在美国犹他州的费什莱克国家森林里,有一片看似由四万七千棵独立白杨树组成的树林,但实际上所有树木共享同一套地下根系,在基因上是同一个生命体。这片林子叫做Pando,拉丁语意思是"我扩展、我展开",按质量计算是地球上最大的已知生物,据估计已有数千至数万年历史。每一棵树干都是季节性的:叶子会变黄凋落,但根系持续存活,新长出的树苗一出土就继承了数千年祖先积累的养分和连接。
PANDO系统的设计恰好沿用这个隐喻。每次任务执行就是一根树干:可见、具体、终将结束。但系统的"根系"——一个叫做技能库的结构化记忆——在任务和任务之间持续存在并不断成长。一棵树死去,根系记住了它学到的东西;下一棵树生长时,不需要从零开始。
具体来说,PANDO的核心架构是一个"计划→行动→反思→学习"的循环。强大但昂贵的模型只用于计划和反思这两个需要深度推理的环节;更便宜的模型负责高频率的具体操作。当任务可以用已有技能解决时,就直接调用技能,完全跳过昂贵的推理过程。
技能库由两类技能构成。一类叫"规则",是基于最近操作轨迹触发的防护栏,比如"如果同一个按钮连续点击两次都没有页面变化,停下来,换一种方式"。另一类叫"例程",是参数化的程序级技能,比如apply_price_filter(最低价格,最高价格)或者sort_by_attribute(属性,升序/降序),可以用一次调用完成原本需要多个操作步骤的子任务。每个技能都有关键词索引、置信度统计和可执行的操作语义,检索方式是字面关键词匹配而非向量相似度搜索,这个设计刻意为之:字面匹配让技能库可以被人类直接查看和审计,同时保持提示词前缀稳定,对缓存友好。
三、技能如何在实战中生长和死亡
PANDO的学习机制值得详细了解,因为它解决了一个很多人没想到的问题:不光要学会新技能,还要及时忘掉不管用的旧技能。
每次任务完成之后,学习模块会检查这次的运行轨迹,寻找可以复用的子目标模板。如果找到了符合条件的子轨迹——有可复用的子目标模板、有经过验证的选择器模式、没有与现有黑名单冲突——就会把这段经验提炼成一个新的例程候选,加入技能库。每个技能维护一套通过/失败计数,置信度按照统计方式动态更新,当失败率超过50%且调用次数达到最低门槛时,这个技能会被放入"淘汰黑名单",未来不再被检索,其关键词签名也会阻止结构类似的新候选再次被纳入,防止"重新发现同样失败的技能"这种循环。
还有一个叫做"极性对合并"的设计,处理方向相反但结构相同的技能。比如"找最便宜的"和"找最贵的"这两个例程,操作结构完全一样,只是排序方向不同。PANDO会把这两个技能合并成一个带方向参数的技能f±(x, 升序/降序),既减少了冗余,又让提示词前缀更稳定,缓存利用率随之提升。
反思模块(Reflector)负责在执行过程中检查进展,每三步触发一次,或者在出错时立即触发。它对比前后的网址、页面结构、无障碍树和截图摘要,判断子目标是否真的推进了。正面检查为技能置信度提供佐证,负面检查触发规则介入或重新规划。
层级路由则将昂贵的推理能力保留给真正需要的地方——新任务规划和反思环节;常规操作交给更便宜的模型。视觉压缩将截图的长边缩放到896像素以下,并剪裁感兴趣区域,减少了约40%的视觉token消耗。缓存感知的提示词布局把稳定的系统指令、工具定义和技能摘要放在提示词最前面,把频繁变化的页面内容和操作历史放在后面,让API的缓存机制能尽可能多地复用已计算的内容。
四、比较的基准:现有方案是怎么"花钱买分"的
为了说清楚PANDO在哪里省了钱,研究团队建立了一套成本分解框架,把整个评测过程的总代币消耗分成四项:正式评测之前的"预备成本"、每个任务执行的基本成本、每个任务的验证成本以及每个任务的技能学习成本。
现有的几个领先方案各有各的花钱方式。树搜索类方案(如Tree Search和ExACT)通过让AI对同一任务尝试多条分支路径来提高成功率,成本随分支数量线性增长。WALT系统选择在评测开始之前,针对每个测试网站分别跑一套"演示→生成→验证"的离线工具发现流程,每个工具分配100步的探索预算,总预备成本超过4200万输入代币,折算美元约为43.7美元,但这部分成本在WALT发表的论文中没有被计入每任务成本,只是定性提到了"离线工具发现有探索和验证成本"。SGV系统保留单次执行但增加了两阶段验证器:第一阶段只看任务描述和初始截图,生成对任务类型的先验预期;第二阶段结合完整执行轨迹和这些先验给出成功/部分/失败的判定。这个双阶段设计让成功率从45%提升到54%,代价是每任务成本大约翻倍。
PANDO选择的路径是:没有预备成本,单次执行,轻量验证,技能学习成本完全包含在每任务成本之内。是否能在这个约束下取得竞争力的成功率,是研究团队要实证回答的问题。
五、测试结果:数字背后的故事
VisualWebArena包含910个涵盖分类广告、购物和Reddit三类网站的任务,是当前多模态网页智能体领域的主流测试平台。研究团队用固定随机种子42将所有任务混合排序,让三类任务在流程中交错出现,以促进跨领域的技能迁移。
在完整910任务测试中,PANDO达到了58.3%的成功率,超过SGV的54.0%和研究团队自行复现的WALT的45.2%,同时每任务仅消耗11.5万代币,而SGV消耗27.5万、WALT消耗29.4万。换算成美元,PANDO每任务成本约0.085美元,SGV约0.371美元,WALT约0.592美元(不含预备成本);WALT加上摊薄到910任务的预备成本后,每任务成本约为0.641美元。按"每成功一次任务花多少钱"计算,PANDO约0.146美元,WALT约1.310美元,差距高达9倍。
除了成功率和代币数,研究团队还报告了三个"内在效率指标"。动作重复率(ARR)衡量有多少任务是因为重复操作卡死而终止的,PANDO为9.1%,SGV为14.2%,WALT为18.3%,基础SoM方案高达40%。步骤开销比(SOR)是失败任务平均步数除以成功任务平均步数,PANDO为1.8倍,意味着即便失败也失败得比较快,不会在注定失败的路上浪费太多步骤;WALT为2.6倍,SGV为2.3倍。提示词缓存利用率,PANDO达到72.4%,SGV为45.1%,WALT为38.6%,文字加说明方式仅有10%左右。
技能库在整个910任务流程中从12个初始例程成长到47个诱导例程,其中32个在流程结束时仍处于活跃状态,15个因失败率过高被淘汰,11对被合并为极性对。有技能命中的任务成功率为70.6%,没有技能命中的任务成功率为50.4%,命中技能的子目标平均比回退到原始操作的方式少用3.7个浏览器操作步骤和4.1万代币。规则共触发184次,主要针对重复点击、页面过期和下拉选择器失效,阻止了71次本来会触发重复动作终止的情况。
将任务流按块统计更能看出学习的效果。前100任务阶段,平均步数10.6,每任务14.3万代币,缓存利用率62%,技能命中率18.2%,成功率50.5%。101到300任务阶段,步数9.6,代币12.4万,缓存70.5%,命中率33.6%,成功率56.8%。301到600任务阶段,步数9.1,代币11.2万,缓存73.5%,命中率47.1%,成功率59.2%。最后的601到910任务阶段,步数8.9,代币10.3万,缓存76.0%,命中率58.4%,成功率61.0%。越到后期,任务越便宜,成功率越高,这正是PANDO设计的目标:随着经验积累,智能体变得更高效而非更贵。
六、拆解每个零件的贡献
在一个包含100个购物、100个分类广告、100个Reddit任务的300任务诊断子集上,研究团队进行了逐步加入各组件的对照实验,以量化每个设计决策的具体贡献。
从SoM加Qwen多模态基线(成功率38.6%)出发,加入规则组件之后成功率提升5.6个百分点到44.2%,重复动作率从39.1%降到23.8%,这证明规则对防止卡死循环效果显著。加入初始例程后又提升3.9个百分点到48.1%,平均步数从13.6降到11.9,可复用的子目标宏提供了稳定的效率杠杆。加入反思模块提升2.9个百分点到51.0%,重复动作率进一步降到14%,进度核验帮助系统及时发现偏离轨道的情况。加入在线蒸馏提升2.9个百分点到53.9%,诱导例程在任务流中逐步生效。加入极性对合并提升2.5个百分点到56.4%,共享的极值技能把分类广告任务中的"最便宜/最贵"类型一网打尽。加入淘汰黑名单提升0.9个百分点到57.3%,主要作用是阻止脆弱例程继续产生隐性代币负担。
然后是三个偏效率优化的组件。加入层级路由,成功率仅提升0.5个百分点,但代币从14.7万降到13.2万,便宜的计划调用替代了部分昂贵调用。加入视觉压缩,成功率提升0.7个百分点,代币从13.2万降到12.1万,截图的像素减少转化为视觉代币减少。加入缓存感知提示词布局,成功率提升0.5个百分点,代币从12.1万降到11.7万,缓存利用率从69.3%提升到72.0%。
这组数据讲述了一个清晰的故事:规则和例程提供了大部分的成功率提升,而路由、压缩、缓存优化则把更大的技能库转化为更低的边际代币消耗。两组组件作用方向不同但互相配合,最终实现了成功率更高、成本更低的双重目标。
七、骨架控制实验与边界探讨
批评者可能会问:PANDO用了Claude Opus 4.6作为规划器,GPT-5.2作为操作模型,而SGV用的是Gemini-2.5-Flash,是不是单纯因为模型更强才赢的?研究团队用两个交叉实验来回应这个质疑。
第一个实验把SGV的Gemini-2.5-Flash换成Opus 4.6运行前100个任务,结果SGV-on-Opus成功率从51.2%提升到56.7%,而同样前100任务窗口内PANDO为50.5%。这说明在冷启动阶段——技能库还几乎是空的——Opus骨架确实帮助SGV略微领先于PANDO。这个结果不令人意外:SGV不需要技能库,从第一个任务开始就满功率运作;PANDO在前150个任务左右处于学习爬坡期。
第二个实验把PANDO的Opus规划器换成Gemini-2.5-Flash,在300任务子集上运行,结果PANDO-on-Gemini成功率为50.3%,比Gemini骨架的原版SGV(53.4%)低3.1个百分点,但比Gemini单独作基线时的45%高出约5个百分点。这表明技能库带来的提升是跨骨架可迁移的,不是Opus专有的;而4.4个百分点的差距与Opus对Gemini在多模态网页任务上的能力差距相符,并非路由机制本身的问题。
在残余失败分析中,研究团队随机抽取了50个PANDO的失败案例进行人工检查,发现定位错误(点击位置不准)占37.5%,任务描述模糊占18.7%,极性变体超出当前排序选择技能族的覆盖范围占15.3%,技能库覆盖空白占13.7%,未被规则捕获的重复循环占9%,其他原因占5.8%。这个分布说明下一步的收益不应该来自更长的推理链,而应该来自更强的视觉定位能力和更广泛的程序等价归纳能力。
鲁棒性检验方面,用随机种子1729重新打乱任务顺序运行,成功率57.9%,差异0.4个百分点,在正常波动范围内。16个工作进程并行共享同一技能库的版本,成功率58.1%,总挂钟时间从48.2小时降到3.1小时,并行化没有破坏学习效果。按子站点看,分类广告63.3%,购物56.1%,Reddit 55.9%,在分类广告上优势最大,因为极性对归纳的技能集中在排序和筛选类任务,而这类任务在分类广告中最为密集。
说到底,PANDO这项研究的核心信息其实很简单:过去花掉的计算不应该每次都重新花。当AI系统在执行一批类似任务时,它没有理由每次都从零开始思考同样的操作步骤——除非它没有地方把学到的东西存起来。PANDO给了它一个"根系",一个可以跨任务持续成长、自我修剪、越来越高效的结构化记忆。
这对普通人意味着什么?短期内,使用AI助手帮你完成网页操作任务——比如在电商平台筛选最便宜的商品、在信息平台搜索特定内容——的成本和速度可能随着类似技术的普及而改善。长期来看,这项研究提出了一个更根本的设计原则:AI的进步不一定非要靠烧更多算力来买,也可以靠让每一次计算的价值延续到下一次。从能源消耗和部署成本的角度看,这个方向的意义并不亚于模型本身性能的提升。
当然,研究团队也坦诚地列出了局限:所有实验结论都基于VWA这一个测试平台,桌面操作系统类任务还需要新的规则和定位层;在线学习假设任务流是可信的,恶意排序可能增加冷启动成本;极性对归纳是基于语法的,更广泛的程序等价发现是未来工作。感兴趣的读者可以通过arXiv:2605.24785找到完整论文,里面包含详细的算法描述、完整的消融实验数据和附录中的技能库格式示例。
Q&A
Q1:PANDO系统的技能库是如何决定淘汰一个已学会的技能的?
A:PANDO为每个技能维护通过和失败的计数,当一个技能的失败率超过50%且被调用次数达到至少3次的最低门槛时,该技能会被写入淘汰黑名单,不再被检索。黑名单还会记录该技能的关键词签名,阻止结构类似的新候选技能再次被纳入,防止系统反复学习同一种失败模式。
Q2:PANDO在任务开始时没有任何技能积累,早期表现会不会很差?
A:确实存在冷启动阶段。在前100个任务中,PANDO的成功率为50.5%,低于SGV在相同窗口内的51.2%,这与设计预期一致,因为SGV不依赖技能库可以立刻满功率运作。但随着技能库逐步积累,PANDO的优势在后续任务中持续扩大,到最后310个任务时成功率达到61%,而每任务代币消耗降至10.3万。
Q3:PANDO的技能库关键词匹配方式和向量搜索相比有什么实际优缺点?
A:关键词字面匹配的优点是确定性强、可被人类直接审查,而且因为每次匹配结果稳定,提示词前缀保持不变,对API的缓存机制非常友好,这是缓存利用率达到72%的重要原因之一。缺点是召回覆盖范围较窄,如果任务描述用词和技能关键词不重叠,就不会触发匹配,可能错过本可以使用的技能。向量搜索召回更广但会让提示词内容每次变化,破坏缓存稳定性。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。