
这项由ServiceNow与加拿大Mila人工智能研究院联合开展的研究,于2026年5月以预印本形式公开发布,论文编号为arXiv:2605.12178。研究团队横跨两家机构,成员众多,覆盖了AI系统设计、企业自动化和强化学习等多个方向。感兴趣的读者可以通过上述编号在arXiv平台检索完整论文。
一、为什么企业AI会"认死理"
每家公司都有自己独特的内部规矩。财务部门的报销流程、IT部门处理故障单的步骤、人事部门审批请假的流程——这些规矩不只存在于员工手册里,它们被写成一条条自动化规则,深深嵌入企业信息系统的代码和配置之中。当员工提交一张P1级别的紧急故障单时,系统可能会自动触发一连串反应:分配工程师、启动计时器、发送通知、创建升级记录……这一系列连锁反应,在这篇论文里被称为"级联"(cascade)。
现在的问题是:如果你想训练一个AI助手来预测"当我点击这个按钮后,系统会发生什么变化",你会怎么做?最直觉的方法是给它看大量历史记录,让它从中归纳出规律——本质上,这和背课文没什么两样。AI看过足够多的例子后,慢慢"学会"了这家公司的规矩,能够预测下一步会发生什么。
这种方法在研究领域有个正式的名字,叫做"世界模型"(World Model)。所谓世界模型,可以理解为AI在脑子里建立的一张"地图",记录了"什么操作会导致什么结果"。这个概念在游戏AI、机器人控制等领域早已有深厚的研究积累,Dreamer、TD-MPC2等知名方法都是这条路线上的代表作。
然而,企业系统有个让所有这些方法都头疼的特点:规矩会变,而且是随时随地、悄无声息地变。
这就像你花了好几个月研究透了A公司的办公室潜规则,结果第二天换了一个新老板,原来的规矩一半被推翻,一半被修改。你学到的那些"经验",一夜之间就变得不可靠了。
这正是这支研究团队想解决的核心问题:**在企业系统里,当"规矩"可以随时被翻出来直接阅读的时候,AI还需要把规矩背下来吗?**
二、企业系统与众不同的两个关键特征
要理解这个问题的重要性,先得搞清楚企业系统究竟有多特别。
研究团队把企业系统的状态转变正式写成了一个数学公式,简单来说就是:下一个状态,取决于当前状态、你的操作,以及这家公司特有的配置。这里的"配置"是个宽泛的概念,包括业务规则、工作流定义、审批政策、服务级别协议(SLA)、访问控制列表等等。
在大多数传统的"世界模型"研究里,这套配置是固定不变的,而且AI无法直接看到它,只能通过反复观察来猜测背后的规律。但企业系统有两个根本性的不同。
第一,这套配置根本不是固定的。系统管理员可以随时修改业务规则,给旧规则打补丁,或者新增一套全新的流程。今天的系统和三个月前的系统,可能在行为上有天壤之别,但底层的平台代码一行都没有改动。这意味着,一个靠历史数据训练出来的AI,会随着时间流逝而逐渐"过期"。
第二,这套配置是公开可读的。业务规则不是藏在某个黑箱里,它们被存储为一条条有明确条件和动作描述的记录,系统管理员可以查看,AI在原则上也可以查看。这就带来了一个非常有趣的可能性:与其把规矩背下来,不如在需要的时候直接去读它。
基于这两个特征,研究团队提出了一个新的方向:**企业发现智能体**(Enterprise Discovery Agent)。这种AI不试图把规矩背进自己的参数里,而是在每次需要做预测之前,先去"查一查"当前系统里实际生效的规则是什么,然后再给出答案。
三、给AI出的考题:CascadeBench
为了严格测试这个想法,研究团队专门设计了一套叫做CascadeBench的测评基准。这套基准的核心任务很简单:给定当前系统状态和一个操作,预测系统在执行这个操作后会产生哪些字段级别的变化。
为了保证测试的纯粹性,CascadeBench在设计上做了几个关键决策。首先,它完全基于合成的数据库结构,这些表格和字段都是专门为测试生成的,在任何真实的ServiceNow部署中都不存在,因此AI不可能靠"背题"来作弊——它不可能在预训练数据里见过这些结构。其次,每道题都附带完整的上下文,包括表格结构、业务规则和初始数据,但研究者可以选择性地把业务规则藏起来,以此测试不同条件下模型的表现。第三,评分只针对有实际业务意义的字段变化,系统内部的元数据、时间戳、流水号等无关信息一律排除在外。
CascadeBench把转变的难度分成了三个层次,研究团队称之为三个"层级"。第一层叫做"模式决定型",指那些完全由数据库结构本身决定的变化——比如创建一条用户记录时,系统会自动把"是否激活"设为真,把"是否锁定"设为假,这些规律只要看看表格定义就能知道,不需要任何额外的业务规则。第二层叫做"规则组合型",指那些需要跨越多条业务规则、在多张表之间引发连锁反应的变化——比如把一个故障单的优先级改成P1,会触发自动分配、启动SLA计时器、发送通知、创建升级记录等一系列事件,这些行为写在业务规则里,读了就知道,但要把它们全部串联起来需要推理能力。第三层叫做"执行推断型",指那些取决于系统内部执行顺序和并发处理机制的变化——比如两条规则同时要修改同一个字段,最终哪个值会生效,取决于引擎内部的调度逻辑,这部分信息不暴露在任何配置文件里,即使把所有规则都读完也无法确定答案。前两层从理论上说是"可恢复的"——只要能拿到完整配置,就能推断出正确答案;而第三层是一个结构性的上限,代表了纯粹靠读配置能做到的最佳效果边界。
整个数据集的规模相当可观。研究团队构建了一个叫做"Enterprise Gym"的环境,从1596种业务规则模式中生成了64个不同的"世界",覆盖金融服务、政府、医疗、制造、零售、科技六个行业,以及小型、中型、企业级三种规模,最终积累了27,243条经过验证的状态转变样本,而这些样本背后有约80.2万个初始状态。每一条样本都来自真实的ServiceNow实例——研究团队把规则部署到真实平台上执行,通过平台自带的审计日志捕获实际发生的变化,完全没有模拟成分。
四、三种AI选手上场比赛
研究团队设计了三种不同策略的AI来接受测试,它们代表了三种根本不同的"获取规矩"方式。
第一种是"提示基线",也就是把一个冻结的、没有额外训练的语言模型直接拿来用,给它看当前状态和操作,让它预测会发生什么。这种方法完全依赖模型在预训练阶段积累的通用知识,不做任何额外的微调,也不给它查阅实时规则的机会。这相当于让一个刚毕业、从没见过这家公司的新员工,凭借通识来猜测公司内部的流程会怎么走。
第二种是"学习型企业世界模型",即在Enterprise Gym收集的历史转变数据上,对开源语言模型进行微调(具体采用了LoRA,一种参数高效的训练方式)。训练完成后,模型的参数就固化了,里面"内化"了那些历史部署中的动态规律。这相当于让一个员工在A公司工作了好几个月,把规矩都背下来了,然后派他去B公司上班。
第三种就是"企业发现智能体",这是研究团队的核心提案。它不做任何针对转变数据的微调,参数完全冻结。但它拥有一个特殊能力:在需要做预测之前,可以通过工具调用查询当前系统的实时配置,包括业务规则的内容、相关表格的当前记录状态、字段的合法取值列表,以及SLA定义等。它会先"侦查"当前这个系统的实际规则是什么,再结合推理给出预测。这相当于派一个员工去新公司,但这个员工会在开工前先把公司的规章手册、内部流程文档都认真读一遍,然后再做事。
在具体实现上,发现智能体采用了一种叫做ReAct的架构,也就是"推理+行动"的循环:模型先思考需要查什么,然后调用查询工具,看到结果后继续思考,再查下一个,直到信息足够再给出最终预测。每次预测最多允许15次工具调用,以支持多跳的信息追踪。
参与测试的模型阵容相当豪华:在提示基线和发现智能体这边,测试了Claude Opus 4.6、Claude Sonnet 4.6、GPT-5、Gemini 3 Pro等前沿闭源模型,以及Qwen-3.5-27B、Qwen-3.6-27B、Gemma-4-31B等开源模型;在学习型世界模型这边,对三个开源模型分别做了LoRA微调,得到了对应的微调版本。评分采用两种互补的IoU(交并比)指标:一种只看模型有没有猜对"哪张表的哪个字段会变",另一种则要求连"变成什么值"也猜对。
五、测试结果揭示的三个台阶
研究团队把实验结果整理成三个递进的发现,把它们形象地称为"三级台阶",每一级回答了同一个问题的不同维度。
第一级发现是:当业务规则被藏起来时,单纯靠提示的方法会大幅失去方向。在CascadeBench上,不管是前沿闭源模型还是开源模型,在没有业务规则的情况下,IoU(T+F)得分普遍落在9到16之间的低区间。相比之下,一旦把业务规则放进提示词,同样的模型立刻跃升到38至61的区间。这个对比非常清晰地说明:CascadeBench测的不是模型有没有"背过"某些知识,而是它能不能读懂规则、推断出结果。微调可以在"没有规则"的条件下带来一些提升(大约2到3个百分点的改善),在旧有的WoW基准上提升幅度更大(约10个百分点),但微调不能替代直接看规则的效果。换句话说,靠死记硬背能有些帮助,但终究有限。
第二级发现是:微调在自己熟悉的领域表现出色,但换了新环境就露馅了。这个发现来自一组对比实验,研究团队比较了微调模型在"训练分布内"和"分布外"的表现差异。在训练数据所覆盖的部署场景中,微调后的模型表现极其亮眼——Gemma-4-31B的IoU飙升到91.6,Qwen-3.6-27B也达到82.0,远超未微调的基线。然而,当这些模型被放到CascadeBench(完全不同的合成结构,从未在训练中见过)上测试时,这个巨大的优势几乎消失了:两个模型都回落到大约40至41的水平,和未微调模型的差距骤然缩小。这就是典型的"过拟合到训练分布"——模型确实学到了东西,但它学到的是那批特定数据的规律,而不是更通用的"如何读规则、推断结果"的能力。背课文背得再熟,换一本课本就不管用了。
第三级发现是:实时发现能在陌生环境里找回精度。在两个不同的基准(CascadeBench和WoW)上,发现智能体的表现都优于同等条件下的提示基线。在WoW基准里,研究团队测试了预测深度从1步到5步的连续滚动预测——每一步的预测结果会被当作下一步预测的输入,错误会随着步数积累。结果显示,发现智能体在每个步骤、每个模型上都稳定高于提示基线。以Claude Opus 4.6为例,在第1步时,提示基线的IoU是0.395,发现智能体则达到了0.448;即便到了第5步,基线已经跌至0.105,发现智能体仍保持在0.199。发现能力带来的优势,在整个预测链中持续存在。
研究团队还做了一个特别有说服力的"同等模型比较"实验:对同一个模型,分别测试"把规则放进提示词"、"通过发现智能体在推理时检索"、"什么都不提供直接猜"三种条件下的表现。结论相当清楚:对于前沿闭源模型来说,发现智能体能从"什么都没有"的低谷(约10 IoU)恢复到接近"规则已经给好了"的峰值(约30至32 IoU),把大部分差距弥补回来。对于开源微调模型,情况稍微复杂——发现智能体在Qwen系列上依然超过了单纯的微调内化,但Gemma-4-31B在某些条件下微调版本与发现智能体大致持平。这说明工具调用能力本身也是一个瓶颈:如果模型不擅长使用工具,发现策略的效果就会打折扣。
六、按难度分层看,发现在哪里最有价值
按照三个层级把结果拆开来看,可以得到更精细的图景。
在第一层"模式决定型"的预测上,连最基础的提示基线都能取得不错的成绩,IoU(T+F)在0.56至0.58之间。这一层的变化完全由数据库结构决定,即使不读任何业务规则,模型凭借对一般性数据库惯例的理解也能猜得不错。发现智能体在这一层的提升是适度的,因为提升空间本身就不大。
到了第二层"规则组合型",提示基线几乎完全崩溃,得分接近于零,而发现智能体的得分能达到0.62至0.65,几乎与"规则已经放好了"的理想上限相当。这一层是发现策略价值体现最鲜明的地方:规则就在那里,读了就能推断,不读就完全没有头绪。
第三层"执行推断型"则是所有方法的共同天花板。不管是提示基线、发现智能体还是规则已给定的理想条件,得分都比前两层低,大约落在0.47至0.60之间。背后的原因很直白:这一层的结果取决于平台内部的执行顺序,这种信息根本不暴露在任何配置文件里,读遍所有规则也看不出来。研究团队把这一层定性为当前框架的"结构性上限",是一个无法单靠读配置来突破的边界。
七、AI预测失手的三种典型模式
为了进一步理解为什么即便规则都摆在面前,模型还是无法达到满分,研究团队手动分析了两条典型的失败轨迹。
第一条来自应付款模块,场景是把一张供应商发票的匹配状态更新为"完全匹配"。这个操作触发了一个6条规则的连锁反应,涉及发票表、采购订单表、行项目表、审批请求表和付款拨付表。模型对前两条规则(执行顺序100和200)的预测相当准确,但对后续规则完全无能为力。最终模型给出22条预测,其中15条正确,精确率68%,但召回率只有34%,因为真实的变化有44条,大量深层变化都被漏掉了。
第二条来自合同义务模块,场景是把一条义务记录的状态更新为"逾期"同时把优先级改为"紧急"。类似地,模型对前两条规则的预测表现优秀,但对第三到第五条规则的预测精确率为零,最终26条预测中只有14条正确,召回率仅29%。
通过分析这些失败案例,研究团队总结出三种反复出现的错误模式。第一种叫"插入盲视":当一条业务规则调用的是"创建新记录"(而非修改现有记录)时,这个新记录会产生7到12条字段变化,但模型要么完全忽略整个插入操作,要么只预测1到3个最显眼的字段,其余字段全部缺失。研究数据显示,创建类操作的预测召回率(24至27%)大约只有修改类操作(36至47%)的一半。第二种叫"级联衰减":模型能以75至85%的召回率准确追踪前1到2条规则的效果,但对执行顺序在400以上的深层规则,召回率骤降至4至11%,整张表的变化都从预测中消失了。第三种叫"单记录假设":当一条业务规则通过循环遍历多条记录时(比如"对所有满足条件的行项目执行以下操作"),模型只预测了对一条记录的影响,完全忽视了循环会重复作用在多条记录上这件事。
关键的一点是:这三种失败模式和"有没有读到规则"无关。即便在规则已经完整提供的理想条件下,这些失败依然存在。换句话说,这不是信息缺失的问题,而是模型在推理多步规则链条时的能力瓶颈。研究团队明确指出,要突破这个瓶颈,需要专门训练模型来"组合执行规则链",而不仅仅是"检索规则内容"。
八、这项研究告诉了我们什么,又留下了什么悬念
归根结底,这项研究用扎实的实验数据回答了一个听起来有点哲学意味的问题:当规矩可以被直接查阅时,AI还需要把规矩背进记忆里吗?
答案是:单靠背,不够用。在分布内效果很好,但一旦规矩变了,背下来的东西就成了负担而非帮助。实时去查,在规矩是明确写下来的情况下效果相当稳健,而且跨越不同的部署环境也不需要重新训练。两者结合——把通过训练获得的推理能力,加上实时检索获得的最新规则——应该是最有潜力的方向。
不过研究团队也很坦诚地指出了这项工作的边界。发现智能体的有效运作前提是:相关规则在当前系统里是可读的。如果权限管控把规则藏起来了,发现智能体就退化为普通的提示基线。发现策略对模型的工具调用能力有一定依赖,在27B到31B规模的开源模型上,工具调用的稳定性还不够理想,导致在某些条件下微调版本仍能胜出。目前的实验只覆盖了ServiceNow这一个平台,其他企业平台的规则形态、级联机制和可读性保证各有不同,结论能否直接迁移还需要进一步验证。第三层"执行推断型"动态的覆盖范围也受到审计日志本身能力的限制,更复杂的异步并发和调度行为还有待未来研究探索。
更重要的是,研究团队明确说明:这篇论文的立场不是"发现智能体取代学习型世界模型"。真正的方向是两者的融合——用训练获得的先验知识打底,用实时检索来追踪当前的配置状态,并且专门训练模型学会在合适的时机查什么、怎么把查到的内容推理成正确的预测。
这项工作撬开了一个此前很少被认真对待的问题:在"规则写下来了、随时可读"这种特殊的环境里,AI获取知识的最优策略应该是什么?对于任何正在考虑把AI引入企业流程的团队来说,这个问题的答案直接决定了AI系统的鲁棒性和可维护性。
---
Q&A
Q1:企业发现智能体和普通AI助手有什么本质区别?
A:普通AI助手依赖训练时学到的知识来回答问题,规矩变了它不知道。企业发现智能体则不同,它在每次需要做预测之前,会主动去查询当前系统里实际生效的业务规则,然后再推断结果。这类似于一个员工不是靠记忆,而是靠现查公司规章手册来做决定,因此更能适应规则随时变化的企业环境。
Q2:CascadeBench测试基准和之前已有的类似测试有什么不同?
A:CascadeBench最大的特点是完全基于合成数据库结构,确保AI无法靠"背过"真实系统知识来作弊。它还允许精确控制AI能看到多少上下文,可以把业务规则藏起来或者全部提供,从而单独测试推理能力。相比之下,此前的WoW基准使用真实ServiceNow实例但不提供规则,无法区分模型到底是真的推理出来的还是靠记忆猜到的。
Q3:为什么即便把所有规则都给AI看了,它的预测精确度还是不能达到100%?
A:研究团队发现,AI在三种情况下会失手,即使规则就在提示词里:第一是对"创建新记录"的操作预测能力很弱,经常漏掉新记录触发的多个字段变化;第二是只能准确追踪前两条规则的连锁效果,更深层的规则效果会大幅漏判;第三是遇到"对多条记录循环操作"时,AI只预测了对一条记录的效果。这些都是推理能力的瓶颈,不是信息不够的问题。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。