
这项由上海交通大学与腾讯联合开展的研究,以预印本论文形式发布于2026年5月,论文编号为arXiv:2605.25971v1,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
**一个你可能每天都在经历的小小不满**
你有没有遇到过这样的情景:早上开完一个简短的会议安排,下午又要花上大把时间跟AI助手一遍遍解释背景、提问、等它搜索资料、再整理成型?明明上午那次对话里,所有的线索都已经摆在那里了——项目进度、风险清单、会议时间——但AI就是那么安静地"睡着了",等你下午再次发问时才从头开始动工。
这种"反应迟钝"的感觉,来自于今天几乎所有AI助手共同的设计逻辑:它们是纯粹的"被动响应者"。用户问一句,它答一句,问题结束,立刻休眠。两次对话之间的那段空档时间,就这么白白浪费掉了。
上海交通大学与腾讯的研究团队认为,这恰恰是一个被严重忽视的机会。他们把这段"空档期"称为"空闲时间窗口",并提出了一个新的设计思路:与其让AI在你不说话的时候什么都不做,不如让它利用这段时间悄悄预判你接下来最可能需要什么,提前把相关信息准备好,等你开口的那一刻,答案已经就绪。
围绕这个核心思路,研究团队构建了一套名为**ProAct**的主动式AI助手框架,并配套设计了一个专门用来评估这类"主动预判能力"的测评基准——**ProActEval**。测评结果显示,与传统被动式助手相比,ProAct能让用户完成同等任务所需的对话轮次减少14.8%,用户主动提问的次数减少11.7%,而AI"自说自话、无中生有"的错误率也下降了28.1%。
**一、助手只会"等你开口",到底输在哪里**
要理解这项研究的意义,可以借用一个生活中的场景来思考。假设你雇了一位秘书,每天和他共事。早上你告诉他:"下午三点我有个项目进度汇报会。"然后你去忙别的事,秘书也跟着发呆。到了两点五十,你突然回来说:"快,帮我整理一份项目进展摘要,还要有风险清单,最好附上几张图表。"秘书这才慌里慌张地开始查资料、整理数据。
一个优秀的人类秘书绝对不会这样工作。他在早上接到会议安排的那一刻,就会开始思考:"汇报会肯定需要进展摘要、风险报告、数据图表……"然后在你忙碌的那几个小时里,默默把这些东西准备好。等你回来,他直接递上一份完整的资料包。
今天的AI助手更像前者——知道你有会但坐等你来要资料;ProAct想打造的,是后者——听到"有会"就开始悄悄备料。
研究团队指出,这种"被动等待"的设计在心理学上有一个对应的概念叫"反应性应对",而他们所追求的,是心理学研究中一种更高效的策略——"前瞻性应对"。前瞻性应对的核心是:在需求真正浮现之前,提前感知、积累资源、做好准备。人类中的高效者,往往都是前瞻性应对的高手。研究团队认为,AI助手也应该具备这种能力。
**二、ProAct如何把"空闲时间"变成准备时间**
ProAct的整体设计,可以理解为一套"预判-准备-交付"的循环流水线。每一次用户和AI完成一轮对话之后,AI不是立刻休眠,而是进入一个主动工作的"后台模式"。
这个后台模式由两个紧密协作的模块驱动。第一个叫做"未来状态预测",第二个叫做"空闲时间信息获取"。前者负责预判用户接下来最可能需要什么,后者负责评估这些预判是否值得立刻去准备,并实际完成准备工作。
支撑这两个模块运转的,是一套持续更新的"持久记忆"系统。这套记忆系统不仅记录了你说过的每一句话,还维护着一份关于你的"用户画像"——你的习惯、偏好、正在进行的项目、已经解答过的问题、还悬而未决的知识空白。每一次新的对话,都会给这份记忆增添新的内容。而这份记忆,正是AI预判你未来需求的核心依据。
"未来状态预测"模块的工作逻辑是这样的:它会同时从两个角度分析你的下一步需求。一方面是"近景预测",也就是根据你刚才说的话,推断在当前这个话题延伸下去,你最可能问的下一个问题是什么。另一方面是"远景扩展",也就是翻查你的历史记忆,看看你长期关注的话题、未完成的任务或者之前留下的知识缺口,判断有没有值得主动补充的信息。
除此之外,记忆系统自身也会主动发出"补货信号"——当系统发现某些信息已经过时、某些知识存在空白、某些事实缺乏依据时,这些"记忆缺口"本身也会被转化成预判候选项,加入待处理队列。
预判完成后,会产生一批候选"未来需求"。每一个候选项都包含四个要素:预判的具体需求是什么、这个预判是基于哪些对话内容或记忆线索得出的、预判的置信度有多高、以及如果要准备这个需求,应该从哪里搜集信息。
紧接着,"空闲时间信息获取"模块登场。它的任务是为每一个候选需求打一个"值不值得现在就准备"的分数。这个分数综合考虑四个维度:用户对这条信息的实际相关程度、当前记忆中对这方面知识的缺口有多大、这条信息相比已有记忆能提供多少新增价值、以及这条信息的时效性。只有综合得分超过门槛值的候选项,才会获得"立即准备"的资格;得分偏低的则会被暂时搁置,等待时机,或者静默存入记忆备用。
对于通过筛选的候选需求,系统会进一步检查现有记忆中是否已经有足够的支撑信息。如果已有充分依据,就直接复用,避免重复搜索;如果只有部分相关信息,就只搜集缺失的那部分;如果几乎是空白,才会进行完整的分解式搜索——把大问题拆解成若干子问题,逐一搜索、提取、核验,直到信息足够完整。
最终,搜集整理好的信息会被封装成一个"知识产物",包含它所支撑的预判需求、一段准备说明,以及完整的信息来源溯源链条。这条溯源链条非常重要,它确保了后续在实际回答中使用这些预备信息时,依然有扎实的事实依据,不会因为提前准备而降低准确性。
**三、"要不要现在就告诉你"——一道精心设计的筛选关卡**
准备好了知识产物之后,还有最后一关:要不要现在就主动推送给用户?什么时候推、以什么方式推,是另一个需要精细把控的决策。
研究团队设计了一套"效用感知交付策略"来处理这个问题。每一份准备好的知识产物,都会被评估一个"推送分数":信息的预期价值减去打扰用户的成本,再加上一个中性偏移量。这个分数超过一定门槛,才会触发主动推送;如果达不到门槛,信息就会悄悄存入记忆,等到用户主动触及相关话题时再自然融入回答,或者等到下一轮对话来临时作为辅助背景。
具体来说,交付方式分为三种:主动推送是指AI直接告诉用户"我帮你准备好了这些,你应该用得上";融入回答是指在用户问下一个问题时,把预备好的信息自然地编织进答案里;静默存储则是完全不打扰用户,只是默默让这些信息待命,随时可用。
这种区分很重要。一个频繁打断你的AI助手,哪怕每次推送的信息都有用,也会让人烦不胜烦。研究团队明确把"不打扰用户"列为整个系统需要优化的约束条件之一,与"减少用户努力"、"控制计算成本"、"避免错误信息"并列。
**四、专门为"主动预判能力"打造的评测标尺**
评估一个AI助手的反应式回答能力相对容易——问它一个问题,看答案准不准就行了。但评估它"主动预判"的能力,就复杂得多:你怎么证明AI确实预判到了用户的需求,而不是碰巧说对了?你怎么量化"减少了用户的等待和提问"这件事?
为此,研究团队专门设计了ProActEval这套评测框架。整个框架包含200个场景,覆盖40个不同的生活和工作领域。每个场景都围绕一套精心设计的"用户需求链"展开。
每个场景的核心是两份材料。一份是"事实清单",里面包含该场景下所有相关的具体事实,全部使用虚构的人名、机构名、地址、邮箱和网址,确保评测结果的可核验性——AI的每一条回答,都可以精确对照事实清单判断准确与否,任何"无中生有"的内容都会被计入错误。另一份是"用户需求图谱",记录了这个场景下用户可能产生的所有需求,每个需求都标注了重要程度、所依赖的具体事实、出现的先后顺序,以及最关键的一个字段——"在哪个需求被满足之后,这个需求就变得可以预判了"。
举个例子来说明这个设计的精妙之处。在一个财务规划场景里,用户第一个需求是询问公司401k养老金计划的雇主匹配比例。当AI回答了这个问题之后,用户接下来问"怎么注册参与这个计划"就变得高度可预判——因为知道了有匹配福利,下一步自然是想去参与。这种"前一个需求满足后,后一个需求就可以被预判"的链条关系,在ProActEval里被系统性地标注出来,形成了整个评测的核心结构。
评测时,一个AI用户模拟器会按顺序提出各个需求。如果被测系统已经主动提前涵盖了某个需求,模拟器就会直接跳过这个需求,不再专门提问——这种"跳过"直接体现为用户提问次数的减少,也就是对用户努力程度的量化。被测系统在整个过程中,看不到任何评测专用的隐藏字段,只能使用公开信息来运作,确保测试的公平性。
研究团队还围绕五种不同的"认知情境类型"组织了场景。这五种类型分别是:记忆基础知识型(主要考察对稳定事实的记忆和调取)、信息转译与缺口填补型(考察跨语言或格式转换时的完整性)、溯源与依赖推理型(考察理清事物因果链条的能力)、交接与一致性控制型(考察跨话题切换时的连贯性)、以及准备就绪与后续跟进型(考察为延迟发生的任务提前做好准备的能力)。
用来度量系统表现的指标也颇为全面。效率方面,有"达到80%关键需求覆盖所需轮次"和"达到100%关键需求覆盖所需轮次"两个指标,还有"用户主动提问次数"这个直接度量用户努力的指标。覆盖率方面,有总体需求覆盖率和关键需求覆盖率。事实准确性方面,有正确传达事实的比例和"无中生有"错误的比例。特别针对主动预判能力,还有一个"预判召回率",专门度量AI在用户提问之前就主动涵盖了多少可预判需求。
**五、实验结果:预判能力到底值不值**
研究团队用ProActEval对三种不同配置进行了全面对比测试,覆盖全部200个场景。
第一种是纯粹的被动响应模式,不启用任何主动预判或后台信息获取功能,作为基准参照线。第二种是"无方向的空闲信息获取"模式,会在空闲时间进行信息搜索,但没有预判模块指引方向,搜索目标是随机的背景性信息。第三种是完整的ProAct配置,也就是预判模块和信息获取模块全部启用,获取行为由预判结果精确指导。
对比结果非常鲜明地回答了一个关键问题:光是"在空闲时搜点东西"有没有用?答案是:几乎没什么用。"无方向的空闲信息获取"模式虽然在每个场景上平均消耗了将近7万个额外的计算单元,完成任务所需的轮次却只比纯被动模式减少了不到1%,用户提问次数的减少也微乎其微。这说明,盲目搜索换不来真正的效率提升。
而完整的ProAct配置则大不相同。在达到100%关键需求覆盖这个目标上,所需的对话轮次从8.11轮降低到了6.91轮,降幅14.8%。用户主动提问的次数从9.14次降到了8.08次,降幅11.7%。"无中生有"的错误率从13.2%降低到了9.5%,降幅28.1%。总体需求覆盖率从89.2%提升到了95.6%,关键需求覆盖率从93.8%提升到了97.7%。预判召回率这个指标,在完整ProAct下达到了0.428,而另外两种模式均为0——意味着ProAct实际上提前覆盖了42.8%的可预判需求,另外两种模式则完全没有这种能力。
研究团队还专门把ProAct与另一个公开可用的"主动式AI助手"方案ProactiveAgent进行了直接比较。ProactiveAgent采用的是另一种主动设计思路,但测评结果显示,它在1572个可预判需求中只主动覆盖了32个,预判召回率为0.020;而ProAct覆盖了703个,预判召回率为0.447。这说明"主动"这件事本身还不够,关键在于主动的方向是否精准指向了真正值得预判的内容。
研究团队还做了一组"搜索预算分析"实验,在一个匹配的50场景子集上,把每轮空闲时间的搜索次数从4次逐步提升到16次,观察效果如何变化。结果呈现出一条典型的收益递减曲线:随着搜索次数增加,预判召回率确实在持续提升,但完成任务的轮次和用户提问次数在超过一定点后就不再明显下降,甚至出现轻微波动,而计算成本则在线性攀升。这个发现很有实践意义:搜索预算不是越大越好,存在一个最优的"性价比区间",超过这个区间只是在烧算力而不是在帮用户。
**六、持久记忆系统:ProAct的"长期地基"**
为了验证ProAct的记忆系统是否真的能可靠地支撑这种长期、跨话题的预判能力,研究团队还在另一个专门测试"AI助手长期记忆能力"的基准——MemBench上进行了评测。
这个测试重点考察AI能否从大量历史对话中准确推断出用户的偏好和情绪状态。比如,通过翻阅用户过去几十次关于食物、电影、书籍的讨论,判断这个用户喜欢什么风格的东西;或者通过历史对话推断出用户在某个时间段的情绪变化。
在10000个词元的历史对话规模下,ProAct的推断准确率达到了84.3%,远高于同类方法中最好的基准成绩74.2%,提升幅度约13.6%。在100000个词元的更大规模历史对话下,ProAct达到了86.3%,同样超过所有对比方法。值得注意的是,其他大多数方法的准确率在历史对话量增大时出现了明显下降,而ProAct不仅没有下降,反而略有提升,说明它的记忆系统在处理长历史信息时具有相当的稳定性。
ProAct的记忆系统在读写效率上也表现均衡。读取一条记忆大约需要0.04秒,写入一条新知识大约需要0.06秒,这个速度在实际部署中完全可以接受。
**七、失败案例分析:主动并非万能**
研究团队对实验中出现的失败情况进行了系统归纳,这部分内容其实很有参考价值。
在200个测试场景中,有6个场景(占3%)的最终关键需求覆盖率反而比纯被动模式更低。研究团队分析原因发现,这类退步主要源于一种"空间竞争"效应:AI主动推送的预备信息占据了回答空间,反而影响了对当前用户实际问题的覆盖。这提示了一个设计教训:主动推送必须和反应式回答保持兼容,两者不能相互挤压。
还有一类失败模式叫做"准确率与实用性脱钩"。在192个有非零预判召回率的场景中,有82个场景的用户提问次数并没有因此减少。分析发现,这主要是因为有些预判信息来得太晚,或者用户本来就打算在那一轮问这个问题,所以提前准备好了也不算节省提问次数。这说明评估主动式AI助手,光看预判准不准是不够的,还要看这个预判到底有没有帮到用户。
此外,当搜索预算很大时,系统倾向于追逐边际价值越来越低的需求,同时大量推送行为会改变对话走向,导致某些核心需求反而没有被及时处理。这进一步证实了"搜索预算不是越大越好"这个结论。
还有一个有趣的结构性发现:主题比较集中、需求之间有清晰因果链条的场景,比主题高度分散、需求之间缺乏逻辑关联的场景,更容易从主动预判中获益。这和直觉相符——如果一件事自然而然地引出下一件事,预判就容易做准;如果每个需求都是孤立的,预判的依据就很薄弱。
**八、研究的局限与潜在风险**
研究团队在论文中坦诚地列出了几点局限性。目前所有的测试都在人工设计的合成场景中完成,每个场景的事实是预先确定、可精确核验的。这种"封闭世界"设定意味着实验结论是针对这类受控环境的,能否直接推广到开放式的真实对话场景,还有待进一步研究。
研究团队也直接点出了持久记忆和未来需求预测在真实部署中可能带来的隐私问题。一个记录了你所有偏好和行为的AI系统,如果缺乏严格的数据控制机制,可能会对用户隐私造成风险。研究团队建议真实部署中必须引入数据最小化原则、明确的数据保留期限控制、操作日志、删除机制,以及用户对主动记忆使用的明确授权。
此外,AI系统评估本身依赖于另一个大模型作为"评判者",这个"以AI评AI"的设置本身也有自身的可靠性局限,评判结果并非绝对客观。
说到底,ProAct代表的不是某一个具体产品或工具,而是一种对AI助手该怎么运作的重新思考。过去我们默认AI助手的角色是"等你来找它";ProAct提出的思路是,好的助手应该像那位有经验的秘书一样,在你还没开口之前,就把你需要的东西悄悄备好。
当然,这不意味着AI助手应该变成一个不停打扰你的"过度热情的销售员"。研究团队花了相当大的篇幅来设计那道"值不值得告诉你"的筛选关卡,背后的道理正在于此:主动的价值,在于精准,而不在于频繁。
这项研究目前还处于受控实验阶段,从合成场景到真实世界还有不少距离要走。但它提出的问题——AI助手如何在不被激活的时间里真正"为你服务"——是一个正在被越来越多研究者关注的方向。感兴趣的读者可以通过arXiv编号2605.25971查阅完整论文,代码也已公开,有技术背景的读者可以进一步探索。
---
Q&A
Q1:ProAct的"空闲时间预判"和普通AI助手的区别到底在哪里?
A:普通AI助手只在用户发问后才开始工作,对话结束就进入休眠状态,两次对话之间的时间完全闲置。ProAct则会在每次对话结束后,利用空闲时间分析对话历史和用户记忆,预判用户接下来最可能需要什么,提前搜集相关信息备用。关键区别不只是"会主动搜索",而是搜索方向由预判模块精确指导,实验显示无方向搜索几乎没有效果,而有方向的预判搜索才能真正减少用户的提问次数和等待时间。
Q2:ProActEval和其他AI记忆评测基准有什么不同?
A:现有的记忆类评测基准主要测试AI能否准确回忆已有信息,属于被动记忆测试。ProActEval专门为主动预判能力设计,每个场景都包含一条"需求预判链",明确标注了哪些需求在特定前提被满足后变得可预判。评测时,如果AI提前主动覆盖了某个需求,用户模拟器就跳过该需求不再提问,这样"减少提问次数"这个效果被直接量化出来,而不是只看回答准不准。
Q3:ProAct在增加"主动预判"功能后会不会更容易产生错误信息?
A:实验结果显示反而是相反的情况。与纯被动响应模式相比,ProAct的"无中生有"错误率下降了28.1%,从13.2%降至9.5%。研究团队认为原因在于:提前搜集信息并形成带有来源溯源的知识产物,让回答时有更扎实的事实依据,而不是被迫在用户催问时临时生成内容。当然,如果主动推送了不相关或低质量的信息,也可能影响回答准确性,这在极少数退步场景中确实有体现,说明推送筛选机制的质量同样重要。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。