
这项由微软研究院(Microsoft Research)主导的研究成果发表于2026年5月,论文编号为arXiv:2605.24517,有兴趣深入了解的读者可以通过该编号查询完整论文。
**研究概要**
每天,全球数以百万计的程序员和系统管理员都在使用命令行界面(也就是那个黑底白字的终端窗口)来完成各种任务:复制文件、运行程序、查看错误日志、部署服务器。这些工作对人类来说需要经验积累,而对于人工智能来说,同样如此。微软研究院的科学家们正在训练AI代理(可以理解为能自己在电脑上执行操作的智能助手)来完成这类终端任务——然而,他们发现了一个被所有人忽视已久的训练盲区,并提出了一个极为简洁却效果显著的解决方案,将AI代理在复杂终端任务上的成功率直接翻倍。
这个方案被称为ECHO,全称"环境交叉熵混合目标"(Environment Cross-entropy Hybrid Objective)。它的核心思路用一句话就能说清楚:当AI在终端里执行了一个命令,屏幕上出现的那些输出内容——不管是成功的结果还是报错信息——本身就是极其珍贵的学习材料,但现有的训练方法完全忽视了它们。ECHO的工作就是把这些被忽视的内容重新纳入学习过程。
---
一、被遗忘的"学习材料":为什么失败的操作也有价值
要理解ECHO解决的问题,可以把AI代理的训练过程想象成一个学徒在学习烹饪的场景。这个学徒(也就是AI)每次做菜(执行终端命令),厨房里都会发生一系列事情:炒锅冒烟了、食材变色了、厨师长皱眉了,或者菜香四溢。这些所有发生的事情,就是"环境反馈"。
传统的训练方式(称为GRPO,即Group-Relative Policy Optimization,一种强化学习方法)是这样运作的:学徒做完一整道菜,厨师长只给一个最终评价——"合格"或"不合格"。学徒只能根据这个单一的好坏评价来调整自己的做法。这个评价被称为"奖励信号",而且它非常稀疏——因为大多数时候,初学者做的菜都不合格,评价永远是"不合格",学徒几乎得不到任何有效的学习信号。
在微软研究院的实验中,使用Qwen3-8B(一个80亿参数的语言模型)作为AI代理时,往往只有不到15%的操作尝试能成功完成任务。这意味着超过85%的训练时间里,传统方法下的AI几乎什么都学不到,因为"失败"的尝试得不到任何有意义的梯度信号(可以理解为"学习的推动力")。
然而,这些失败的尝试并非毫无价值。回到厨房的比喻:即便菜做砸了,学徒仍然能从过程中获得大量信息——火候太大时食材会变焦黑(这是视觉反馈),加盐过多时汤会变咸(这是味觉反馈),油温不够时食材会粘锅(这是触觉反馈)。这些中间过程的信息,才是真正帮助学徒理解"厨房世界如何运转"的关键材料。
对AI代理来说,这些"中间过程信息"就是终端屏幕上显示的每一行输出:文件列表、训练日志、编译错误、配置文件内容、网络请求响应、程序崩溃时的错误追踪信息,以及grep命令搜索到的结果。每一次AI执行一个命令,终端都会产生这样的输出,而这些输出完整地记录了"命令执行之后世界发生了什么变化"。
传统的GRPO训练方法的问题就在这里:AI在执行每个命令时,确实会"看到"这些终端输出(因为它们被作为上下文信息输入到模型中),但模型的训练过程完全不对这些输出内容进行学习——它们只是被动地进入了模型的"视野",却没有进入模型的"学习目标"。这就像学徒看到了锅里冒出的烟,却根本不去思考"冒烟意味着什么"。
---
二、ECHO的核心机制:让终端输出成为学习目标
ECHO的解决方案听起来几乎令人难以置信地简单:既然AI每次执行命令后,终端都会产生输出,那为什么不让AI同时学习"预测这些输出内容"呢?
回到烹饪比喻:ECHO相当于在原有训练方式(最终菜品好坏评价)的基础上,增加了一个额外的学习任务——"在每一个烹饪步骤之后,学徒需要预测接下来会看到什么现象"。预测火候过大时食材会焦化,预测加入某种调料后汤的颜色会改变,预测搅拌速度加快后面糊的状态会如何变化。通过反复练习这种"预测→观察真实结果→修正预测"的过程,学徒会逐渐建立起对厨房世界运作规律的深刻理解。
在技术层面,ECHO向原有的GRPO训练目标添加了一个辅助损失函数(可以理解为一个额外的学习评分项)。原有的GRPO损失函数只评估AI的"动作选择"是否正确——也就是说,AI输出的命令本身是否合适。而ECHO新增的"环境预测损失"则评估AI能否准确预测它的命令执行后终端会显示什么内容。
最终的ECHO训练目标可以表达为:总体学习目标 = 标准的GRPO策略梯度损失 + λ × 环境观察预测损失。其中λ是一个平衡系数,用来控制两个学习目标各自的权重。经过大量实验,研究团队发现λ取0.05(即环境预测损失占总损失的约5%)效果最佳。
ECHO有一个极其关键的工程特性:它完全不需要额外的计算资源。AI在处理每一批训练数据时,本来就需要计算模型对整个对话序列的预测分数(这个计算被称为"前向传播")。ECHO只是在这个已经存在的计算结果上,额外读取了终端输出位置的预测分数,并将其纳入损失计算。不需要额外的推理过程,不需要额外的训练数据,不需要任何教师模型,也不需要修改模型结构——唯一改变的是损失函数的计算掩码(可以理解为"计算哪些位置的分数")。
研究团队在选择学习目标时也做了一个细致的区分。终端在返回结果时,实际上包含两个部分:一部分是固定格式的"警告前缀"(当AI的命令格式有问题时出现),另一部分才是真正的"命令输出内容"(实际的终端反馈)。团队发现警告前缀的内容非常单调,模型在大约60个训练步骤内就能完全记住它的模式,之后这部分内容就不再提供有价值的学习信号了。而真正的命令输出内容则大不相同——它包含了特定任务的具体信息,比如文件名、测试失败的具体原因、字节数、错误格式等,这些内容在整个训练过程中始终保持丰富的多样性,能持续提供有价值的学习信号。因此,ECHO只对真正的命令输出内容进行预测学习,而跳过格式固定的警告前缀。
---
三、实验设置:在真实的"虚拟电脑"里测试
研究团队构建了一套严格的实验环境来验证ECHO的效果。整个训练和测试过程都在Docker容器(可以理解为隔离的虚拟电脑环境)中进行,AI代理在这些虚拟环境里执行真实的终端命令,面对真实的文件系统、真实的程序运行结果、真实的错误信息。
训练数据方面,研究团队从多个来源收集并筛选了8870个终端任务,涵盖数据处理、系统操作和软件开发工具使用三大类别。这些任务都经过了严格筛选——只保留那些GPT-5在16次尝试中至少能成功完成一次的任务,确保任务既有挑战性又是可解的。其中8770个任务用于训练,100个任务保留用于内部验证。
实验测试了三个不同的起始模型:Qwen3-8B(阿里巴巴开发的80亿参数模型)、OpenThinker-Agent-v1-SFT(一个经过专家示范数据微调的Qwen3-8B变体,使用了约1.5万个由GLM-4.6模型生成的专家操作示范进行预训练)以及Qwen3-14B(140亿参数的更大版本)。对每个模型,研究团队分别进行了普通GRPO训练和ECHO训练,在完全相同的条件下对比结果。
评估方面,研究团队使用了四个测试集:val100(从训练数据中保留的100个任务,测试模型在熟悉类型任务上的表现)、ITD内部开发集(71个任务,来自不同来源,测试泛化能力)、OpenThoughts-TBLite(100个设计给小型模型的终端任务,难度中等)以及TerminalBench-2.0(89个任务,这是该领域最具挑战性的公开测试集,由多所高校和研究机构共同建立)。每个任务通过单元测试自动验证AI是否真正完成了要求,评估完全客观,没有人工打分的主观成分。
---
四、实验结果:成功率翻倍,还有更多惊喜
ECHO的实验结果相当清晰。在最受关注的TerminalBench-2.0测试集上,Qwen3-8B模型通过普通GRPO训练后,pass@1(即每个任务给一次机会的成功率)为2.70%,而使用ECHO训练后这一数字跳升到5.17%,提升幅度接近90%,几乎翻倍。Qwen3-14B的情况更为惊人:GRPO训练后的pass@1为5.17%,ECHO训练后达到10.79%,同样接近翻倍。
pass@3和pass@5(每个任务分别给三次和五次机会的成功率)也都呈现出类似的提升幅度。Qwen3-14B在ECHO训练后的pass@5达到了19.10%,而GRPO训练后仅为13.48%。在内部测试集上,提升同样一致:val100测试集上Qwen3-8B从54.9%提升到63.7%,ITD测试集从16.2%提升到18.9%,TBLite测试集从9.5%提升到11.4%。
研究团队还观察到一个有趣的规律:14B模型在TerminalBench-2.0上的提升幅度比8B模型更大,但在内部测试集上的提升反而相对较小。团队给出的解释是:更大的模型有更多的参数容量来同时服务于两个学习目标(策略学习和环境预测),而较小的模型在两个目标之间可能存在更多的容量竞争。因此,更大的模型能从环境预测学习中提取出更具泛化性的终端运作规律,在更难、更陌生的测试任务上体现出更明显的优势。
从训练曲线来看,ECHO的优势不仅体现在最终性能上,还体现在学习速度上。在Qwen3-8B上,ECHO训练版本在大约220步时就达到了GRPO训练版本在500步才能达到的最高性能——换句话说,ECHO让相同的训练资源发挥出了1.5倍到2.3倍的效率。这意味着使用ECHO,可以用更少的计算时间和电力消耗达到同等甚至更好的AI能力水平。
---
五、真的学到了"终端世界的规律"吗?一个关键的验证实验
性能数字固然好看,但研究团队追问了一个更深层的问题:ECHO真的让AI建立起了对终端世界运作规律的理解,还是只是某种统计上的偶然?
为了回答这个问题,团队设计了一个颇具巧思的验证实验。他们让一个更强大的模型——Qwen3-32B(参数量是被测试模型的四倍)——独立完成了大量终端任务,记录下它的完整操作过程,包括它执行的每一个命令以及对应的终端输出。然后,他们用这些由Qwen3-32B生成的操作记录来测试那些经过GRPO和ECHO训练的小模型:给定Qwen3-32B执行的命令,小模型能多准确地预测对应的终端会显示什么内容?
这个测试相当苛刻,因为被测试的小模型从未见过这些具体的操作序列——它们是由一个完全不同的、更强大的模型生成的。如果模型真的理解了终端世界的运作规律(而不只是记住了自己操作过的情况),它就应该能对"陌生操作者"的操作结果做出准确预测。
结果非常明确。在Qwen3-14B上,经过普通GRPO训练的模型,其环境预测误差相对于基础模型几乎没有变化;而经过ECHO训练的模型,预测误差在val100测试集上从0.24 nats大幅下降到0.07 nats,在ITD测试集上从0.39下降到0.31,在TBLite测试集上从0.30下降到0.23。Qwen3-8B上的结果呈现出完全相同的模式:GRPO训练几乎不改变预测误差,ECHO训练则让误差在val100上从0.29骤降至0.07,在ITD上从0.46降至0.32,在TBLite上从0.35降至0.25。
这个结果说明了一件重要的事:ECHO确实在训练模型理解"终端世界如何响应命令",而且这种理解具有真正的泛化性——它能迁移到模型自己从未执行过的操作场景中。相比之下,普通的GRPO训练虽然能提升任务完成率,但并不真正改变模型对终端世界的理解深度。
---
六、无需专家示范:ECHO弥合了数据鸿沟
在AI训练领域,有一种常见的做法叫做"监督微调"(SFT),也就是先让模型大量模仿专家的操作示范,再进行强化学习。这就好比厨艺学徒在开始独立做菜之前,要先跟着名厨反复观摩数百次规范操作。
实验中的OpenThinker-Agent-v1-SFT模型正是经历了这个过程——它在进行GRPO训练之前,已经通过约1.5万个由GLM-4.6模型(一个更强大的AI)生成的专家操作示范进行了预训练。这个专家示范预训练阶段显然带来了优势:直接对比发现,在Qwen3-8B上,先进行专家SFT再进行GRPO训练,比直接进行GRPO训练在各个测试集上都有明显提升。
研究团队的关键问题是:ECHO能否在不使用任何专家示范的情况下,弥补这种差距?结果出乎意料地令人振奋。从同样的基础Qwen3-8B出发,使用ECHO训练后的模型,在val100测试集上达到了63.7%的成功率,在ITD测试集上达到了18.9%,在TBLite测试集上达到了11.4%。而经过专家SFT再加GRPO训练的模型,对应的数字分别是63.5%、18.8%和11.6%。
换句话说,在内部测试集上,ECHO几乎完全弥补了专家示范预训练带来的优势:它弥合了val100上SFT差距的101.6%,ITD上的103.9%,TBLite上的88.9%。没有任何专家示范,仅靠让AI在终端里自己探索并学习预测自己操作的后果,就几乎能达到与看了1.5万个专家示范相当的效果。
在更难的TerminalBench-2.0测试集上,ECHO弥合了约50%的专家SFT差距(pass@1弥合50.0%,pass@3弥合48.6%,pass@5弥合50.0%)。研究团队认为,这一差距的存在是合理的:专家示范不只是教会模型"了解终端世界",还教会了模型"如何制定高层策略"——比如在面对未知任务时该先尝试哪类命令、如何分解复杂任务、什么时候应该继续尝试而什么时候应该换思路。ECHO能够通过自主交互习得前者(终端知识),但后者(任务策略)仍然需要专家示范来传授。这说明ECHO并不能完全取代专家示范,但它能以零示范成本获得专家示范价值的相当大一部分。
---
七、训练效率和推理效率的双重提升
ECHO带来的好处不止体现在最终性能数字上,还体现在两个实际使用维度:训练速度和推理效率。
训练速度方面,ECHO让模型更快地从每一批训练数据中提取学习价值。具体来说,Qwen3-8B在使用ECHO训练时,在整体评分(val100+ITD+TBLite综合)上,只需240步就能达到GRPO训练版本500步才能达到的峰值,效率提升达1.92倍。在最难的TBLite测试集上,这一优势更为明显,只需220步对比GRPO的500步,效率提升2.27倍。
推理效率方面,ECHO训练出的模型在实际执行任务时更加"干练"——它们能用更少的操作步骤完成同样的任务,并且更少出现"卡死"的情况。在TerminalBench-2.0的实际测试中,Qwen3-8B经过ECHO训练后,超时率(任务在规定时间内无法完成的比例)从19.8%骤降至9.0%,降幅达55%;平均操作步数从24.3步降至19.8步,减少了18%;完成任务所需的总token数从43200降至30300,减少了30%。
对OT-SFT模型,ECHO同样显著降低了超时率(从45.2%降至24.7%)并大幅减少了操作步数(从平均66.3步降至37.7步,减幅43%)。这意味着ECHO训练出的模型不仅更聪明(成功率更高),还更高效(完成任务所需的时间和资源更少)——这两点在实际部署中都具有切实的价值。
Qwen3-14B在超时率和操作步数上没有出现明显改善(两者分别略微增加了6%和7%),但它在总token消耗上仍然减少了13%,并且在TerminalBench-2.0上取得了三个模型中最大的性能提升。这说明不同规模的模型从ECHO中受益的方式可能略有不同,但整体收益是一致的。
---
八、一个更大胆的实验:没有评分系统,AI还能自我进步吗?
ECHO最出人意料的实验探索来自对一个哲学问题的追问:如果完全去掉"最终评分"(也就是去掉任务完成与否的奖励信号),只让AI执行命令并学习预测终端的反应,AI还能进步吗?
这个问题很有意义,因为现实世界中并非所有任务都有清晰的"对错评判",构建可靠的评分系统本身就需要大量工程工作。如果AI能仅靠观察自己行动的后果来自我进步,那将开辟一种全新的、低成本的AI训练方式。
研究团队以最强的Qwen3-8B ECHO检查点为起点,在第500步时关闭了任务奖励系统,只保留环境预测损失继续训练100步。这个模型继续在终端里执行命令、观察结果,并仅仅通过"学习预测终端会显示什么"来更新自己的参数——没有任何关于任务成败的反馈。
结果显示,这种"无评分器的自我适应"在某些条件下确实能够带来性能提升。在val100测试集上(模型已经比较熟悉的任务类型),无过滤的环境预测训练带来了3.8个百分点的成功率提升。在更难的域外任务(即模型不太熟悉的任务类型)上,情况更为复杂:在对轨迹进行过滤(只保留命令格式正确、工具调用有效的训练样本)之后,ITD测试集上提升了5.2个百分点,PyTerm测试集(928个专注于Python脚本生成的任务)上提升了10.0个百分点。
TBLite测试集是唯一没能从这种方式中受益的情况,成功率反而下降了3.9个百分点。研究团队分析认为,这是因为不同任务的终端反馈性质不同:PyTerm任务的反馈非常"直接"——程序崩溃时的错误追踪、打印输出的数值、生成的文件内容,这些都清晰地指向"下一步应该怎么做";而TBLite的任务往往需要协调文件系统、配置文件和进程状态,终端输出与具体操作决策之间的关系更加间接,学习预测这类输出对改善操作策略的帮助有限。
这个实验的发现打开了一个值得进一步探索的方向:当任务的终端反馈足够"直接"且"与操作高度相关"时,AI可能真的能在没有任何外部评分的情况下,通过纯粹的环境交互实现自我提升。
---
说到底,ECHO这项研究揭示的是一个简单却被长期忽视的事实:在AI训练的过程中,每一次操作都会产生反馈,而这些反馈一直静静地躺在训练数据里,等待被利用。就像一个学生做错了作业,不只是"错了"这个事实能帮助他学习,错误答案本身的具体模式——是计算错了还是概念理解有误,是粗心失误还是知识缺漏——才是真正有价值的学习信息。
ECHO做的事,本质上就是把AI自己操作产生的"错误答案详情"变成了学习素材。这个思路没有使用任何花哨的新技术,没有增加任何额外的计算量,却让终端任务的成功率翻倍,让学习速度提升了一倍以上,甚至在某些情况下让AI在没有任何外部评分的情况下也能自我进步。
这项研究对AI领域的启示也许可以这样概括:在人工智能的训练过程中,"看到的"和"学到的"之间往往存在巨大的鸿沟。AI代理每次与环境交互,都在"看到"大量信息,但只有极少一部分被纳入真正的学习过程。ECHO提醒我们,弥合这个鸿沟可能并不需要更多数据或更大模型,只需要更聪明地利用已有的信息。
对于普通读者而言,这意味着未来的AI助手可能会变得更加"接地气"——不只是知道任务应该怎么完成(理论知识),还真正理解在现实操作环境中事情是如何一步步演变的(实践经验)。这种对"现实世界如何响应操作"的理解,正是让AI代理从"纸上谈兵"走向"真正有用"的关键一步。感兴趣的读者可以通过arXiv编号2605.24517查阅原论文,其中包含了完整的实验数据、算法细节和理论分析。
---
Q&A
Q1:ECHO训练方法和普通的AI强化学习训练有什么区别?
A:普通的强化学习训练(如GRPO)只看最终结果——任务完成就给奖励,失败就不给,AI只能从成功案例中学习。ECHO在此基础上增加了一个学习任务:让AI同时学习预测它每次执行命令后终端屏幕会显示什么内容。这样即便任务最终失败,AI也能从操作过程中的每一步反馈中学到东西,相当于把85%以上原本"白费"的失败训练时间也利用了起来。
Q2:TerminalBench-2.0是什么测试,为什么用它来衡量AI代理的能力?
A:TerminalBench-2.0是一个专门测试AI在命令行终端环境中完成真实任务能力的公开测试集,包含89个任务,由多所高校和研究机构共同建立。它被认为是该领域最有挑战性的评测之一,任务完全通过程序自动判断,客观反映AI能否真正在真实的计算机操作环境中完成工作,而不只是生成听起来正确的文字答案。
Q3:ECHO为什么能在不用专家示范数据的情况下达到接近专家训练的效果?
A:研究发现,专家示范数据提供的价值主要有两类:一是"如何理解终端的反馈并与环境有效互动",二是"遇到具体任务时该采用什么高层策略"。ECHO通过让AI学习预测自己操作的终端结果,能够自主习得第一类知识;但对于第二类任务策略知识,专家示范仍有不可替代的作用。这就是为什么ECHO在内部测试上几乎完全弥合了差距,但在最难的TerminalBench-2.0上只弥合了约50%。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。