微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI智能体看见了答案却视而不见——Cohere与Poolside研究团队揭示大语言模型的"环境盲区"

AI智能体看见了答案却视而不见——Cohere与Poolside研究团队揭示大语言模型的"环境盲区"

2026-04-29 10:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-29 10:34 科技行者

这项由Cohere和Poolside联合开展的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.17609,感兴趣的读者可通过该编号查阅完整原文。

一、一个令人抓狂的现象:地图就在眼前,却还在原地打转

假设你要找一家餐厅,朋友已经把完整的导航路线贴在了你的手机桌面上。你打开手机,看了一眼桌面,然后关掉导航路线,打开地图软件从头开始搜索……这种行为是不是让人抓狂?

然而,这正是当今最先进的AI智能体在面对任务时的真实表现。Cohere和Poolside的研究团队发现,当他们把解题答案直接放置在AI智能体的工作环境中时,智能体往往能"看到"这份答案,却选择无视它,继续用自己熟悉的方式去解题。这个现象被研究团队称为"环境好奇心"的缺失——智能体缺乏对意外但高度相关信息的感知与利用能力。

这项研究横跨三个不同类型的任务测试平台:专门测试命令行操作能力的Terminal-Bench、评估软件工程代码修复能力的SWE-Bench Verified,以及考察日常数字任务处理能力的AppWorld。研究结果在所有测试场景中都呈现出惊人一致的规律:智能体发现了答案,但就是不用它。

最极端的案例出现在AppWorld平台上。研究团队在命令行工具的帮助文档中明确加入了一条命令,并标注该命令"将返回当前任务的完整解决方案"。测试中使用的智能体有高达97.54%的尝试次数都成功看到了这条文档说明,但真正调用这个命令的次数却只有0.53%。换句话说,几乎每一次,智能体都选择了装作没看见。

二、研究团队是怎么做这个实验的

要理解这个研究,需要先明白研究团队设计的核心实验手段——"答案注入"(solution injection)。这个设计相当精妙。

在日常测试中,评估一个AI智能体好不好,通常只看它最终有没有完成任务。但这种评估方式有一个盲区:它无法区分"智能体真的在思考环境里的信息"和"智能体只是在执行一套背下来的固定操作流程"。这就像考试时,你无法判断一个学生是真正理解了题目,还是只是恰好背到了相关题型的解法。

答案注入的思路是这样的:把一份完整的、正确的解题步骤直接放进智能体的操作环境里,然后观察两件事。第一,智能体在操作过程中有没有"碰到"这份答案;第二,在碰到之后,它有没有真正去利用它。这两件事分别对应研究团队定义的两个新指标:发现率(discovery@k)和交互率(interaction@k),其中k代表在k次尝试中至少有一次达成目标的概率。

具体的注入方式根据不同平台有所不同。在Terminal-Bench和SWE-Bench这两个代码类任务平台上,研究团队把答案写成一个名为solution.sh的可执行脚本,直接放在智能体的工作目录里。在AppWorld这个API调用类任务平台上,他们则在命令行工具的帮助文档中新增了一个名为"solution"的接口,并明确标注其功能。注入的答案必须满足两个条件:完整性(按照它操作一定能完成任务)和可发现性(通过正常的探索行为就能遇到)。

为了排除"是不是文件名太奇怪了所以被忽视"这种干扰因素,研究团队还测试了不同的文件命名,包括"SOLUTION.md"、"SOLUTION_TO_THIS_SPECIFIC_TASK_READ_THIS_FIRST.md"甚至是智能体通常会主动查看的"README.md"。结果表明,无论文件叫什么名字,交互率都没有显著变化。智能体对这些答案的忽视,与文件名称无关。

三、数字告诉我们的真相:看见和使用之间,有一道深沟

实验数据非常清晰地呈现了发现率和交互率之间的鸿沟。

在Terminal-Bench上,三个测试模型的发现率都在78.6%到81.2%之间,也就是说大约八成的尝试都成功"遇到"了注入的答案。然而交互率只有37.1%到50.3%,这意味着就算发现了答案,超过一半的时候智能体依然没有去利用它。

在SWE-Bench上,情况更为悬殊。发现率在53.4%到98.2%之间,而交互率却只有5.9%到17.4%。某些模型几乎每次都能发现答案,却几乎从不使用它。

AppWorld则是最极端的案例。所有测试模型的发现率都超过了90%(其中GLM-4.7达到100%),但交互率无一超过6.3%。答案就像是贴在玻璃上的便利贴,智能体每次都能看到,但每次都选择绕过去。

这道鸿沟也体现在最终的任务完成率上。同样以gpt-oss-120b模型为例,在Terminal-Bench原始任务上完成率是44.5%,注入答案之后提升到55.9%,提升了11.4个百分点——这说明确实有相当一部分智能体学会了利用答案。但在AppWorld上,原始任务完成率是40.5%,注入答案后只提升到43.1%,仅提升了2.6个百分点,因为几乎没有智能体真正去调用那个解题接口。这两个数字的对比,恰好印证了:任务完成率的提升幅度,和交互率高低是正相关的。

四、是什么让智能体选择了"视而不见"

这是整个研究最核心的问题。研究团队围绕测试时的设计选择展开了系统性探究,发现了三个关键因素,分别是工具配置、推理计算量和提示词设计。

先说工具配置,这是影响最显著的因素。研究人员对比了两种工具组合:一种是只配备基础的bash命令行,另一种是在此基础上额外加入一个名为str_replace_editor的结构化文件编辑工具(这是Anthropic开发的工具,已成为主流编程智能体的标准配置)。结果非常反直觉:加入了编辑工具之后,任务完成率确实提升了,但交互率却下降了。

这个现象可以用一个生活类比来理解:假设你需要修一扇门,你有两种工具可用。方案一是只有一把锤子,你必须先仔细查看门的结构才知道怎么用锤子;方案二是你有一整套专用工具,你会直接按照工具使用习惯一步步来,甚至不会先看一眼门的实际情况。工具越丰富,智能体越倾向于按照训练时学到的固定操作模式直接行动,而不是先观察当前环境里有什么。具体来说,有额外编辑工具时,"在发现答案的前提下最终交互"的条件概率下降了大约13.7个百分点。

推理计算量也有显著影响。研究团队测试了同一个gpt-oss-120b模型在低、中、高三种推理强度下的表现。在Terminal-Bench上,高推理强度下的交互率比低推理强度下提升了三倍以上,从11%跳升到37%。更值得注意的是,这个提升不是因为发现率提高了,而是因为在发现答案之后"真正反应过来"的概率提高了——从17.65%(低推理)到36.68%(中推理)再到45.69%(高推理)。当然,即便是高推理强度,超过半数的情况下智能体依然会忽视答案,说明计算量的增加也只能部分缓解问题。在AppWorld上,无论推理强度高低,交互率都接近于零,说明某些任务类型上这个问题更为根本。

在提示词设计方面,研究团队测试了多种不同的指令强度。给智能体一个通用的"先探索环境"的指令,可以在三个平台上平均提升任务完成率约2.57个百分点。在Terminal-Bench上进一步细化测试发现,效果最好的提示词是明确要求"在开始主任务之前,必须查看所有发现的文件"。这个提示词让Terminal-Bench上的交互率从23.12%提升到37.12%,任务完成率也同步提升到最高。关键在于:在注入答案的测试版本中表现最好的提示词,在原始未修改的测试版本中也是表现最好的提示词。也就是说,提升"环境好奇心"和提升真实任务表现,是一件事情的两个侧面。

还有两个额外因素被证明影响不大。研究团队测试了保留或丢弃推理历史记录对结果的影响,发现对任务完成率几乎没有影响,对交互率只有微弱影响。他们还测试了五种不同的采样温度(0到1.0),结果交互率在全部温度范围内都保持稳定。这说明"缺乏环境好奇心"不是随机性不足造成的,不是通过调高采样多样性就能解决的问题。

五、智能体没有利用答案,是因为觉得这是个陷阱吗

一个合理的疑问是:智能体也许认为这个"solution"文件是某种测试陷阱,所以刻意不去碰它?研究团队设计了两种方法来排除这种可能性。

第一种方法是用另一个大语言模型充当"裁判",对那些"发现了答案但没有交互"的轨迹进行逐一分类。裁判被要求将每段轨迹归入五种类别之一:完全没有提及(1)、提到了但没有计划去查看(2)、明确认为是陷阱而主动回避(3)、明知是答案但坚持自己做(4)、有意向要查看但最终没执行(5)。结果显示,在所有模型、所有平台的测试中,第3类"认为是陷阱而主动回避"的比例为零。绝大多数的不交互属于第1和第2类——智能体在推理中根本没有提及答案,或者只是一闪而过提了一下就继续原来的流程了。在SWE-Bench上,超过96%的不交互案例属于"完全没有提及",说明智能体在处理包含答案的终端输出时,这条信息甚至没有进入其推理过程。

第二种方法是做一系列"如果答案更直接给出会怎样"的对照实验。研究团队设计了四种逐渐升级的提示方式:在智能体发现solution.sh的那一刻注入一条用户消息要求其反思当前观察到的信息;直接把完整解题内容注入到智能体第一步推理的内容里;把完整解题内容放在任务描述的提示词里;明确告诉智能体"你的工作目录里有solution.sh,找到它并执行"。结果表明,随着提示越来越直接,任务完成率也单调递增:基础版55.88%、注入反思提示60.00%、内容注入进第一步推理61.67%、内容注入进任务提示76.25%、直接告知并要求执行81.67%。这证明智能体完全有能力利用这些信息,问题不在于能力,而在于它们没有自发地去注意和使用意外遇到的相关信息。

六、训练数据的范围,悄悄决定了智能体的探索能力

既然即便优化了所有测试时的设置,智能体在大多数情况下依然会忽视答案,研究团队开始追问:这个问题是否根植于训练阶段本身?

为此,他们对同一个基础模型command-a-reasoning进行了三种不同的精调训练,分别使用Terminal-Bench类型任务(T-Bench-SFT,覆盖广泛的命令行操作任务)、AppWorld任务(AppWorld-SFT,专注于API调用类数字任务)以及SWE-smith任务(SWE-Bench-SFT,专注于代码编辑和软件工程)。每种训练都包含约2万个训练轮次。

AppWorld的任务类型实际上是Terminal-Bench任务类型的一个子集——Terminal-Bench里有约5%的任务与AppWorld的核心模式高度相似。因此,对比AppWorld-SFT和T-Bench-SFT这两个模型,可以清楚地看出"训练数据范围窄还是宽"带来的影响。

在AppWorld测试平台上,AppWorld-SFT模型(窄域训练)的单次尝试完成率(pass@1)是44.2%,而T-Bench-SFT模型(广域训练)是34.5%——窄域训练赢了单次尝试。但当测试扩展到10次尝试中至少一次成功(pass@10)时,T-Bench-SFT的69.0%超过了AppWorld-SFT的65.8%——广域训练赢了多次尝试。交互率方面也呈现出同样的格局:10次尝试中的交互率,T-Bench-SFT是41.5%,AppWorld-SFT只有26.9%。

这说明了什么?窄域训练让模型学会了一套高效但单一的解题路径,在第一次尝试时成功率很高,但探索的解法空间很窄,多次尝试时很难找到新的成功路径。广域训练让模型保留了更多样化的解题思路,单次表现不如前者,但多次尝试时能覆盖更广的可能性。用考试来类比:一个只针对某类题型密集刷题的学生,碰到恰好对口的题目会表现很好,但换一种提问方式就容易卡壳;而一个广泛涉猎的学生,碰到任何一道题都有更多应对思路。

这个规律在没有注入答案的原始测试集上同样成立,说明它不是答案注入实验的特殊产物,而是两种训练方式本质差异的体现。

T-Bench-SFT和SWE-Bench-SFT的对比则说明了另一个问题:环境好奇心不能自动跨领域迁移。在Terminal-Bench上,T-Bench-SFT表现更好;在SWE-Bench上,SWE-Bench-SFT表现更好。每个领域内的任务训练只对该领域有帮助,不会溢出到其他领域。

七、当前智能体的工作方式,本质上是个"走流程"机器

研究团队通过理论分析,试图解释为什么训练过程本身会系统性地抑制环境好奇心。

当前智能体的运作循环可以简单概括为:执行一个操作,然后观察结果,然后思考,然后决定下一步操作。问题在于,这里的"观察结果"更多是对信息的机械接收,而不是真正的反思性处理。一个真正具有环境好奇心的智能体,应该在观察之后额外做一步:主动判断"这次观察到的内容,和我预期的一样吗?有没有什么意外但重要的信息?"

训练过程之所以强化了前一种模式,原因在于训练数据本身。在监督学习中,所有训练轨迹都是专家在特定任务上正常完成任务的过程,工具输出的内容总是符合预期,不存在意外相关信息。强化学习则进一步奖励那些"高效直接完成任务"的行动序列,而不是"先仔细审视环境然后再行动"的探索性行为。于是,模型学会了按照预期寻找信息、按照已找到的信息行动,而不是注意并利用自己没有主动寻找却意外遇到的信息。

研究团队也尝试了三种在训练层面强化好奇心的方法:对"第一步展现出好奇探索行为"的轨迹进行专项筛选训练;在训练过程中途删除再重新加入相关文件,模拟动态变化的环境;在轨迹中插入"遮蔽对抗轮次",强迫模型从错误状态中恢复。然而,这三种方法都没有提升交互率。这说明,训练出真正具有环境好奇心的智能体,不是一件能够用简单调整解决的事情。

八、这项研究对AI未来发展意味着什么

研究团队强调,环境好奇心不只是一个学术测量指标,它关乎AI智能体在现实世界中的实用性和可靠性。

一个只会按照训练时学到的固定模式操作的智能体,在真实环境中会非常脆弱。真实世界的任务环境往往与训练时不同,会有各种意外信息和有用线索,一个无法注意并利用这些信息的智能体,必然会错失很多本可成功的机会,或者在面对陌生情况时失去适应能力。

现有的评估指标(任务完成率)无法区分"靠灵活适应成功"和"靠执行固定套路成功"这两种本质不同的成功。研究团队提出的交互率这类过程性指标,可以作为完成率的必要补充,帮助更准确地评估智能体是否真的在"思考"它所处的环境。

研究团队指出了三个值得探索的未来方向。第一是开发更丰富多样的测量手段,不局限于答案注入这一种方式,探索更多维度的环境好奇心评估。第二是探索能够教会智能体"反思性观察"的训练范式,也就是让智能体学会在每次观察之后主动判断是否有意外重要信息。第三是在智能体的运行框架层面设计触发反思的机制,比如在某些条件下自动提示智能体"回顾一下你到目前为止发现的所有内容"。

归根结底,这项研究揭示的问题可以用一句话来概括:当前的AI智能体擅长从环境中取用它期望找到的信息,但不擅长发现和利用它没有预期到的信息。前者让它能完成大量标准任务,后者却是在复杂、开放、不可预测的真实世界中生存的关键能力。两者之间的这道沟,目前还没有人找到简单的填平方式。

Q&A

Q1:什么是"环境好奇心",为什么AI智能体缺乏这种能力?

A:环境好奇心是指智能体能够识别并主动探究意外出现的相关信息的能力。当前AI智能体缺乏这种能力,主要原因在于训练方式:训练数据都是专家正常完成任务的轨迹,工具反馈总是符合预期,模型因此学会了按预期寻找信息并行动,而不是主动关注意外遇到的有用内容。强化学习进一步奖励高效直接的行动,抑制了探索性的观察反思行为。

Q2:增加推理计算量或改进提示词能解决AI智能体忽视答案的问题吗?

A:能部分缓解,但无法根本解决。以gpt-oss-120b为例,高推理强度下Terminal-Bench的交互率比低推理强度提升了三倍,从11%增至37%。精心设计要求智能体"查看所有发现文件"的提示词也能提升交互率。但即便将这些因素全部优化,智能体在大多数情况下依然会忽视答案。AppWorld上无论推理强度高低,交互率都接近于零,说明问题不仅仅是推理资源不足。

Q3:针对特定任务做精细化训练,会提升还是降低AI智能体的环境好奇心?

A:会降低环境好奇心,同时也会压缩探索多样性。对比窄域训练(AppWorld-SFT)和广域训练(T-Bench-SFT)发现,窄域训练的模型在单次尝试完成率上更高,但在多次尝试(pass@10)和交互率方面都被广域训练模型反超。这说明过于专注某类任务的训练,会让模型学会高效但单一的固定套路,牺牲了在新情况下灵活适应的能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-