微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当企业AI遇到"换了老板，规矩全变"——ServiceNow与Mila研究院揭示为何AI不能只靠"死记硬背"来预测企业系统行为

企业AI大语言模型智能体实时动态发现

当企业AI遇到"换了老板，规矩全变"——ServiceNow与Mila研究院揭示为何AI不能只靠"死记硬背"来预测企业系统行为

作者：科技行者

2026-05-18 13:35

分享至：

ServiceNow与Mila研究院发现，企业AI不能只靠历史数据"背规矩"，实时查阅当前系统的业务规则才能在配置频繁变化的企业环境中保持稳健预测能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 13:35 • 科技行者

这项由ServiceNow与加拿大Mila人工智能研究院联合开展的研究，于2026年5月以预印本形式公开发布，论文编号为arXiv:2605.12178。研究团队横跨两家机构，成员众多，覆盖了AI系统设计、企业自动化和强化学习等多个方向。感兴趣的读者可以通过上述编号在arXiv平台检索完整论文。

一、为什么企业AI会"认死理"

每家公司都有自己独特的内部规矩。财务部门的报销流程、IT部门处理故障单的步骤、人事部门审批请假的流程——这些规矩不只存在于员工手册里，它们被写成一条条自动化规则，深深嵌入企业信息系统的代码和配置之中。当员工提交一张P1级别的紧急故障单时，系统可能会自动触发一连串反应：分配工程师、启动计时器、发送通知、创建升级记录……这一系列连锁反应，在这篇论文里被称为"级联"（cascade）。

现在的问题是：如果你想训练一个AI助手来预测"当我点击这个按钮后，系统会发生什么变化"，你会怎么做？最直觉的方法是给它看大量历史记录，让它从中归纳出规律——本质上，这和背课文没什么两样。AI看过足够多的例子后，慢慢"学会"了这家公司的规矩，能够预测下一步会发生什么。

这种方法在研究领域有个正式的名字，叫做"世界模型"（World Model）。所谓世界模型，可以理解为AI在脑子里建立的一张"地图"，记录了"什么操作会导致什么结果"。这个概念在游戏AI、机器人控制等领域早已有深厚的研究积累，Dreamer、TD-MPC2等知名方法都是这条路线上的代表作。

然而，企业系统有个让所有这些方法都头疼的特点：规矩会变，而且是随时随地、悄无声息地变。

这就像你花了好几个月研究透了A公司的办公室潜规则，结果第二天换了一个新老板，原来的规矩一半被推翻，一半被修改。你学到的那些"经验"，一夜之间就变得不可靠了。

这正是这支研究团队想解决的核心问题：**在企业系统里，当"规矩"可以随时被翻出来直接阅读的时候，AI还需要把规矩背下来吗？**

二、企业系统与众不同的两个关键特征

要理解这个问题的重要性，先得搞清楚企业系统究竟有多特别。

研究团队把企业系统的状态转变正式写成了一个数学公式，简单来说就是：下一个状态，取决于当前状态、你的操作，以及这家公司特有的配置。这里的"配置"是个宽泛的概念，包括业务规则、工作流定义、审批政策、服务级别协议（SLA）、访问控制列表等等。

在大多数传统的"世界模型"研究里，这套配置是固定不变的，而且AI无法直接看到它，只能通过反复观察来猜测背后的规律。但企业系统有两个根本性的不同。

第一，这套配置根本不是固定的。系统管理员可以随时修改业务规则，给旧规则打补丁，或者新增一套全新的流程。今天的系统和三个月前的系统，可能在行为上有天壤之别，但底层的平台代码一行都没有改动。这意味着，一个靠历史数据训练出来的AI，会随着时间流逝而逐渐"过期"。

第二，这套配置是公开可读的。业务规则不是藏在某个黑箱里，它们被存储为一条条有明确条件和动作描述的记录，系统管理员可以查看，AI在原则上也可以查看。这就带来了一个非常有趣的可能性：与其把规矩背下来，不如在需要的时候直接去读它。

基于这两个特征，研究团队提出了一个新的方向：**企业发现智能体**（Enterprise Discovery Agent）。这种AI不试图把规矩背进自己的参数里，而是在每次需要做预测之前，先去"查一查"当前系统里实际生效的规则是什么，然后再给出答案。

三、给AI出的考题：CascadeBench

为了严格测试这个想法，研究团队专门设计了一套叫做CascadeBench的测评基准。这套基准的核心任务很简单：给定当前系统状态和一个操作，预测系统在执行这个操作后会产生哪些字段级别的变化。

为了保证测试的纯粹性，CascadeBench在设计上做了几个关键决策。首先，它完全基于合成的数据库结构，这些表格和字段都是专门为测试生成的，在任何真实的ServiceNow部署中都不存在，因此AI不可能靠"背题"来作弊——它不可能在预训练数据里见过这些结构。其次，每道题都附带完整的上下文，包括表格结构、业务规则和初始数据，但研究者可以选择性地把业务规则藏起来，以此测试不同条件下模型的表现。第三，评分只针对有实际业务意义的字段变化，系统内部的元数据、时间戳、流水号等无关信息一律排除在外。

CascadeBench把转变的难度分成了三个层次，研究团队称之为三个"层级"。第一层叫做"模式决定型"，指那些完全由数据库结构本身决定的变化——比如创建一条用户记录时，系统会自动把"是否激活"设为真，把"是否锁定"设为假，这些规律只要看看表格定义就能知道，不需要任何额外的业务规则。第二层叫做"规则组合型"，指那些需要跨越多条业务规则、在多张表之间引发连锁反应的变化——比如把一个故障单的优先级改成P1，会触发自动分配、启动SLA计时器、发送通知、创建升级记录等一系列事件，这些行为写在业务规则里，读了就知道，但要把它们全部串联起来需要推理能力。第三层叫做"执行推断型"，指那些取决于系统内部执行顺序和并发处理机制的变化——比如两条规则同时要修改同一个字段，最终哪个值会生效，取决于引擎内部的调度逻辑，这部分信息不暴露在任何配置文件里，即使把所有规则都读完也无法确定答案。前两层从理论上说是"可恢复的"——只要能拿到完整配置，就能推断出正确答案；而第三层是一个结构性的上限，代表了纯粹靠读配置能做到的最佳效果边界。

整个数据集的规模相当可观。研究团队构建了一个叫做"Enterprise Gym"的环境，从1596种业务规则模式中生成了64个不同的"世界"，覆盖金融服务、政府、医疗、制造、零售、科技六个行业，以及小型、中型、企业级三种规模，最终积累了27,243条经过验证的状态转变样本，而这些样本背后有约80.2万个初始状态。每一条样本都来自真实的ServiceNow实例——研究团队把规则部署到真实平台上执行，通过平台自带的审计日志捕获实际发生的变化，完全没有模拟成分。

四、三种AI选手上场比赛

研究团队设计了三种不同策略的AI来接受测试，它们代表了三种根本不同的"获取规矩"方式。

第一种是"提示基线"，也就是把一个冻结的、没有额外训练的语言模型直接拿来用，给它看当前状态和操作，让它预测会发生什么。这种方法完全依赖模型在预训练阶段积累的通用知识，不做任何额外的微调，也不给它查阅实时规则的机会。这相当于让一个刚毕业、从没见过这家公司的新员工，凭借通识来猜测公司内部的流程会怎么走。

第二种是"学习型企业世界模型"，即在Enterprise Gym收集的历史转变数据上，对开源语言模型进行微调（具体采用了LoRA，一种参数高效的训练方式）。训练完成后，模型的参数就固化了，里面"内化"了那些历史部署中的动态规律。这相当于让一个员工在A公司工作了好几个月，把规矩都背下来了，然后派他去B公司上班。

第三种就是"企业发现智能体"，这是研究团队的核心提案。它不做任何针对转变数据的微调，参数完全冻结。但它拥有一个特殊能力：在需要做预测之前，可以通过工具调用查询当前系统的实时配置，包括业务规则的内容、相关表格的当前记录状态、字段的合法取值列表，以及SLA定义等。它会先"侦查"当前这个系统的实际规则是什么，再结合推理给出预测。这相当于派一个员工去新公司，但这个员工会在开工前先把公司的规章手册、内部流程文档都认真读一遍，然后再做事。

在具体实现上，发现智能体采用了一种叫做ReAct的架构，也就是"推理+行动"的循环：模型先思考需要查什么，然后调用查询工具，看到结果后继续思考，再查下一个，直到信息足够再给出最终预测。每次预测最多允许15次工具调用，以支持多跳的信息追踪。

参与测试的模型阵容相当豪华：在提示基线和发现智能体这边，测试了Claude Opus 4.6、Claude Sonnet 4.6、GPT-5、Gemini 3 Pro等前沿闭源模型，以及Qwen-3.5-27B、Qwen-3.6-27B、Gemma-4-31B等开源模型；在学习型世界模型这边，对三个开源模型分别做了LoRA微调，得到了对应的微调版本。评分采用两种互补的IoU（交并比）指标：一种只看模型有没有猜对"哪张表的哪个字段会变"，另一种则要求连"变成什么值"也猜对。

五、测试结果揭示的三个台阶

研究团队把实验结果整理成三个递进的发现，把它们形象地称为"三级台阶"，每一级回答了同一个问题的不同维度。

第一级发现是：当业务规则被藏起来时，单纯靠提示的方法会大幅失去方向。在CascadeBench上，不管是前沿闭源模型还是开源模型，在没有业务规则的情况下，IoU(T+F)得分普遍落在9到16之间的低区间。相比之下，一旦把业务规则放进提示词，同样的模型立刻跃升到38至61的区间。这个对比非常清晰地说明：CascadeBench测的不是模型有没有"背过"某些知识，而是它能不能读懂规则、推断出结果。微调可以在"没有规则"的条件下带来一些提升（大约2到3个百分点的改善），在旧有的WoW基准上提升幅度更大（约10个百分点），但微调不能替代直接看规则的效果。换句话说，靠死记硬背能有些帮助，但终究有限。

第二级发现是：微调在自己熟悉的领域表现出色，但换了新环境就露馅了。这个发现来自一组对比实验，研究团队比较了微调模型在"训练分布内"和"分布外"的表现差异。在训练数据所覆盖的部署场景中，微调后的模型表现极其亮眼——Gemma-4-31B的IoU飙升到91.6，Qwen-3.6-27B也达到82.0，远超未微调的基线。然而，当这些模型被放到CascadeBench（完全不同的合成结构，从未在训练中见过）上测试时，这个巨大的优势几乎消失了：两个模型都回落到大约40至41的水平，和未微调模型的差距骤然缩小。这就是典型的"过拟合到训练分布"——模型确实学到了东西，但它学到的是那批特定数据的规律，而不是更通用的"如何读规则、推断结果"的能力。背课文背得再熟，换一本课本就不管用了。

第三级发现是：实时发现能在陌生环境里找回精度。在两个不同的基准（CascadeBench和WoW）上，发现智能体的表现都优于同等条件下的提示基线。在WoW基准里，研究团队测试了预测深度从1步到5步的连续滚动预测——每一步的预测结果会被当作下一步预测的输入，错误会随着步数积累。结果显示，发现智能体在每个步骤、每个模型上都稳定高于提示基线。以Claude Opus 4.6为例，在第1步时，提示基线的IoU是0.395，发现智能体则达到了0.448；即便到了第5步，基线已经跌至0.105，发现智能体仍保持在0.199。发现能力带来的优势，在整个预测链中持续存在。

研究团队还做了一个特别有说服力的"同等模型比较"实验：对同一个模型，分别测试"把规则放进提示词"、"通过发现智能体在推理时检索"、"什么都不提供直接猜"三种条件下的表现。结论相当清楚：对于前沿闭源模型来说，发现智能体能从"什么都没有"的低谷（约10 IoU）恢复到接近"规则已经给好了"的峰值（约30至32 IoU），把大部分差距弥补回来。对于开源微调模型，情况稍微复杂——发现智能体在Qwen系列上依然超过了单纯的微调内化，但Gemma-4-31B在某些条件下微调版本与发现智能体大致持平。这说明工具调用能力本身也是一个瓶颈：如果模型不擅长使用工具，发现策略的效果就会打折扣。

六、按难度分层看，发现在哪里最有价值

按照三个层级把结果拆开来看，可以得到更精细的图景。

在第一层"模式决定型"的预测上，连最基础的提示基线都能取得不错的成绩，IoU(T+F)在0.56至0.58之间。这一层的变化完全由数据库结构决定，即使不读任何业务规则，模型凭借对一般性数据库惯例的理解也能猜得不错。发现智能体在这一层的提升是适度的，因为提升空间本身就不大。

到了第二层"规则组合型"，提示基线几乎完全崩溃，得分接近于零，而发现智能体的得分能达到0.62至0.65，几乎与"规则已经放好了"的理想上限相当。这一层是发现策略价值体现最鲜明的地方：规则就在那里，读了就能推断，不读就完全没有头绪。

第三层"执行推断型"则是所有方法的共同天花板。不管是提示基线、发现智能体还是规则已给定的理想条件，得分都比前两层低，大约落在0.47至0.60之间。背后的原因很直白：这一层的结果取决于平台内部的执行顺序，这种信息根本不暴露在任何配置文件里，读遍所有规则也看不出来。研究团队把这一层定性为当前框架的"结构性上限"，是一个无法单靠读配置来突破的边界。

七、AI预测失手的三种典型模式

为了进一步理解为什么即便规则都摆在面前，模型还是无法达到满分，研究团队手动分析了两条典型的失败轨迹。

第一条来自应付款模块，场景是把一张供应商发票的匹配状态更新为"完全匹配"。这个操作触发了一个6条规则的连锁反应，涉及发票表、采购订单表、行项目表、审批请求表和付款拨付表。模型对前两条规则（执行顺序100和200）的预测相当准确，但对后续规则完全无能为力。最终模型给出22条预测，其中15条正确，精确率68%，但召回率只有34%，因为真实的变化有44条，大量深层变化都被漏掉了。

第二条来自合同义务模块，场景是把一条义务记录的状态更新为"逾期"同时把优先级改为"紧急"。类似地，模型对前两条规则的预测表现优秀，但对第三到第五条规则的预测精确率为零，最终26条预测中只有14条正确，召回率仅29%。

通过分析这些失败案例，研究团队总结出三种反复出现的错误模式。第一种叫"插入盲视"：当一条业务规则调用的是"创建新记录"（而非修改现有记录）时，这个新记录会产生7到12条字段变化，但模型要么完全忽略整个插入操作，要么只预测1到3个最显眼的字段，其余字段全部缺失。研究数据显示，创建类操作的预测召回率（24至27%）大约只有修改类操作（36至47%）的一半。第二种叫"级联衰减"：模型能以75至85%的召回率准确追踪前1到2条规则的效果，但对执行顺序在400以上的深层规则，召回率骤降至4至11%，整张表的变化都从预测中消失了。第三种叫"单记录假设"：当一条业务规则通过循环遍历多条记录时（比如"对所有满足条件的行项目执行以下操作"），模型只预测了对一条记录的影响，完全忽视了循环会重复作用在多条记录上这件事。

关键的一点是：这三种失败模式和"有没有读到规则"无关。即便在规则已经完整提供的理想条件下，这些失败依然存在。换句话说，这不是信息缺失的问题，而是模型在推理多步规则链条时的能力瓶颈。研究团队明确指出，要突破这个瓶颈，需要专门训练模型来"组合执行规则链"，而不仅仅是"检索规则内容"。

八、这项研究告诉了我们什么，又留下了什么悬念

归根结底，这项研究用扎实的实验数据回答了一个听起来有点哲学意味的问题：当规矩可以被直接查阅时，AI还需要把规矩背进记忆里吗？

答案是：单靠背，不够用。在分布内效果很好，但一旦规矩变了，背下来的东西就成了负担而非帮助。实时去查，在规矩是明确写下来的情况下效果相当稳健，而且跨越不同的部署环境也不需要重新训练。两者结合——把通过训练获得的推理能力，加上实时检索获得的最新规则——应该是最有潜力的方向。

不过研究团队也很坦诚地指出了这项工作的边界。发现智能体的有效运作前提是：相关规则在当前系统里是可读的。如果权限管控把规则藏起来了，发现智能体就退化为普通的提示基线。发现策略对模型的工具调用能力有一定依赖，在27B到31B规模的开源模型上，工具调用的稳定性还不够理想，导致在某些条件下微调版本仍能胜出。目前的实验只覆盖了ServiceNow这一个平台，其他企业平台的规则形态、级联机制和可读性保证各有不同，结论能否直接迁移还需要进一步验证。第三层"执行推断型"动态的覆盖范围也受到审计日志本身能力的限制，更复杂的异步并发和调度行为还有待未来研究探索。

更重要的是，研究团队明确说明：这篇论文的立场不是"发现智能体取代学习型世界模型"。真正的方向是两者的融合——用训练获得的先验知识打底，用实时检索来追踪当前的配置状态，并且专门训练模型学会在合适的时机查什么、怎么把查到的内容推理成正确的预测。

这项工作撬开了一个此前很少被认真对待的问题：在"规则写下来了、随时可读"这种特殊的环境里，AI获取知识的最优策略应该是什么？对于任何正在考虑把AI引入企业流程的团队来说，这个问题的答案直接决定了AI系统的鲁棒性和可维护性。

---

Q&A

Q1：企业发现智能体和普通AI助手有什么本质区别？

A：普通AI助手依赖训练时学到的知识来回答问题，规矩变了它不知道。企业发现智能体则不同，它在每次需要做预测之前，会主动去查询当前系统里实际生效的业务规则，然后再推断结果。这类似于一个员工不是靠记忆，而是靠现查公司规章手册来做决定，因此更能适应规则随时变化的企业环境。

Q2：CascadeBench测试基准和之前已有的类似测试有什么不同？

A：CascadeBench最大的特点是完全基于合成数据库结构，确保AI无法靠"背过"真实系统知识来作弊。它还允许精确控制AI能看到多少上下文，可以把业务规则藏起来或者全部提供，从而单独测试推理能力。相比之下，此前的WoW基准使用真实ServiceNow实例但不提供规则，无法区分模型到底是真的推理出来的还是靠记忆猜到的。

Q3：为什么即便把所有规则都给AI看了，它的预测精确度还是不能达到100%？

A：研究团队发现，AI在三种情况下会失手，即使规则就在提示词里：第一是对"创建新记录"的操作预测能力很弱，经常漏掉新记录触发的多个字段变化；第二是只能准确追踪前两条规则的连锁效果，更深层的规则效果会大幅漏判；第三是遇到"对多条记录循环操作"时，AI只预测了对一条记录的效果。这些都是推理能力的瓶颈，不是信息不够的问题。

企业AI大语言模型智能体实时动态发现

分享至