微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

微软研究院教会AI"感受"终端：让失败的操作也能产生学习价值的训练新方法

人工智能强化学习新型算法

微软研究院教会AI"感受"终端：让失败的操作也能产生学习价值的训练新方法

作者：科技行者

2026-06-01 14:03

分享至：

微软研究院提出ECHO方法，通过让AI预测终端命令的输出结果，将被忽视的环境反馈转化为密集训练信号，使终端任务成功率翻倍。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 14:03 • 科技行者

这项由微软研究院（Microsoft Research）主导的研究成果发表于2026年5月，论文编号为arXiv:2605.24517，有兴趣深入了解的读者可以通过该编号查询完整论文。

**研究概要**

每天，全球数以百万计的程序员和系统管理员都在使用命令行界面（也就是那个黑底白字的终端窗口）来完成各种任务：复制文件、运行程序、查看错误日志、部署服务器。这些工作对人类来说需要经验积累，而对于人工智能来说，同样如此。微软研究院的科学家们正在训练AI代理（可以理解为能自己在电脑上执行操作的智能助手）来完成这类终端任务——然而，他们发现了一个被所有人忽视已久的训练盲区，并提出了一个极为简洁却效果显著的解决方案，将AI代理在复杂终端任务上的成功率直接翻倍。

这个方案被称为ECHO，全称"环境交叉熵混合目标"（Environment Cross-entropy Hybrid Objective）。它的核心思路用一句话就能说清楚：当AI在终端里执行了一个命令，屏幕上出现的那些输出内容——不管是成功的结果还是报错信息——本身就是极其珍贵的学习材料，但现有的训练方法完全忽视了它们。ECHO的工作就是把这些被忽视的内容重新纳入学习过程。

---

一、被遗忘的"学习材料"：为什么失败的操作也有价值

要理解ECHO解决的问题，可以把AI代理的训练过程想象成一个学徒在学习烹饪的场景。这个学徒（也就是AI）每次做菜（执行终端命令），厨房里都会发生一系列事情：炒锅冒烟了、食材变色了、厨师长皱眉了，或者菜香四溢。这些所有发生的事情，就是"环境反馈"。

传统的训练方式（称为GRPO，即Group-Relative Policy Optimization，一种强化学习方法）是这样运作的：学徒做完一整道菜，厨师长只给一个最终评价——"合格"或"不合格"。学徒只能根据这个单一的好坏评价来调整自己的做法。这个评价被称为"奖励信号"，而且它非常稀疏——因为大多数时候，初学者做的菜都不合格，评价永远是"不合格"，学徒几乎得不到任何有效的学习信号。

在微软研究院的实验中，使用Qwen3-8B（一个80亿参数的语言模型）作为AI代理时，往往只有不到15%的操作尝试能成功完成任务。这意味着超过85%的训练时间里，传统方法下的AI几乎什么都学不到，因为"失败"的尝试得不到任何有意义的梯度信号（可以理解为"学习的推动力"）。

然而，这些失败的尝试并非毫无价值。回到厨房的比喻：即便菜做砸了，学徒仍然能从过程中获得大量信息——火候太大时食材会变焦黑（这是视觉反馈），加盐过多时汤会变咸（这是味觉反馈），油温不够时食材会粘锅（这是触觉反馈）。这些中间过程的信息，才是真正帮助学徒理解"厨房世界如何运转"的关键材料。

对AI代理来说，这些"中间过程信息"就是终端屏幕上显示的每一行输出：文件列表、训练日志、编译错误、配置文件内容、网络请求响应、程序崩溃时的错误追踪信息，以及grep命令搜索到的结果。每一次AI执行一个命令，终端都会产生这样的输出，而这些输出完整地记录了"命令执行之后世界发生了什么变化"。

传统的GRPO训练方法的问题就在这里：AI在执行每个命令时，确实会"看到"这些终端输出（因为它们被作为上下文信息输入到模型中），但模型的训练过程完全不对这些输出内容进行学习——它们只是被动地进入了模型的"视野"，却没有进入模型的"学习目标"。这就像学徒看到了锅里冒出的烟，却根本不去思考"冒烟意味着什么"。

---

二、ECHO的核心机制：让终端输出成为学习目标

ECHO的解决方案听起来几乎令人难以置信地简单：既然AI每次执行命令后，终端都会产生输出，那为什么不让AI同时学习"预测这些输出内容"呢？

回到烹饪比喻：ECHO相当于在原有训练方式（最终菜品好坏评价）的基础上，增加了一个额外的学习任务——"在每一个烹饪步骤之后，学徒需要预测接下来会看到什么现象"。预测火候过大时食材会焦化，预测加入某种调料后汤的颜色会改变，预测搅拌速度加快后面糊的状态会如何变化。通过反复练习这种"预测→观察真实结果→修正预测"的过程，学徒会逐渐建立起对厨房世界运作规律的深刻理解。

在技术层面，ECHO向原有的GRPO训练目标添加了一个辅助损失函数（可以理解为一个额外的学习评分项）。原有的GRPO损失函数只评估AI的"动作选择"是否正确——也就是说，AI输出的命令本身是否合适。而ECHO新增的"环境预测损失"则评估AI能否准确预测它的命令执行后终端会显示什么内容。

最终的ECHO训练目标可以表达为：总体学习目标 = 标准的GRPO策略梯度损失 + λ × 环境观察预测损失。其中λ是一个平衡系数，用来控制两个学习目标各自的权重。经过大量实验，研究团队发现λ取0.05（即环境预测损失占总损失的约5%）效果最佳。

ECHO有一个极其关键的工程特性：它完全不需要额外的计算资源。AI在处理每一批训练数据时，本来就需要计算模型对整个对话序列的预测分数（这个计算被称为"前向传播"）。ECHO只是在这个已经存在的计算结果上，额外读取了终端输出位置的预测分数，并将其纳入损失计算。不需要额外的推理过程，不需要额外的训练数据，不需要任何教师模型，也不需要修改模型结构——唯一改变的是损失函数的计算掩码（可以理解为"计算哪些位置的分数"）。

研究团队在选择学习目标时也做了一个细致的区分。终端在返回结果时，实际上包含两个部分：一部分是固定格式的"警告前缀"（当AI的命令格式有问题时出现），另一部分才是真正的"命令输出内容"（实际的终端反馈）。团队发现警告前缀的内容非常单调，模型在大约60个训练步骤内就能完全记住它的模式，之后这部分内容就不再提供有价值的学习信号了。而真正的命令输出内容则大不相同——它包含了特定任务的具体信息，比如文件名、测试失败的具体原因、字节数、错误格式等，这些内容在整个训练过程中始终保持丰富的多样性，能持续提供有价值的学习信号。因此，ECHO只对真正的命令输出内容进行预测学习，而跳过格式固定的警告前缀。

---

三、实验设置：在真实的"虚拟电脑"里测试

研究团队构建了一套严格的实验环境来验证ECHO的效果。整个训练和测试过程都在Docker容器（可以理解为隔离的虚拟电脑环境）中进行，AI代理在这些虚拟环境里执行真实的终端命令，面对真实的文件系统、真实的程序运行结果、真实的错误信息。

训练数据方面，研究团队从多个来源收集并筛选了8870个终端任务，涵盖数据处理、系统操作和软件开发工具使用三大类别。这些任务都经过了严格筛选——只保留那些GPT-5在16次尝试中至少能成功完成一次的任务，确保任务既有挑战性又是可解的。其中8770个任务用于训练，100个任务保留用于内部验证。

实验测试了三个不同的起始模型：Qwen3-8B（阿里巴巴开发的80亿参数模型）、OpenThinker-Agent-v1-SFT（一个经过专家示范数据微调的Qwen3-8B变体，使用了约1.5万个由GLM-4.6模型生成的专家操作示范进行预训练）以及Qwen3-14B（140亿参数的更大版本）。对每个模型，研究团队分别进行了普通GRPO训练和ECHO训练，在完全相同的条件下对比结果。

评估方面，研究团队使用了四个测试集：val100（从训练数据中保留的100个任务，测试模型在熟悉类型任务上的表现）、ITD内部开发集（71个任务，来自不同来源，测试泛化能力）、OpenThoughts-TBLite（100个设计给小型模型的终端任务，难度中等）以及TerminalBench-2.0（89个任务，这是该领域最具挑战性的公开测试集，由多所高校和研究机构共同建立）。每个任务通过单元测试自动验证AI是否真正完成了要求，评估完全客观，没有人工打分的主观成分。

---

四、实验结果：成功率翻倍，还有更多惊喜

ECHO的实验结果相当清晰。在最受关注的TerminalBench-2.0测试集上，Qwen3-8B模型通过普通GRPO训练后，pass@1（即每个任务给一次机会的成功率）为2.70%，而使用ECHO训练后这一数字跳升到5.17%，提升幅度接近90%，几乎翻倍。Qwen3-14B的情况更为惊人：GRPO训练后的pass@1为5.17%，ECHO训练后达到10.79%，同样接近翻倍。

pass@3和pass@5（每个任务分别给三次和五次机会的成功率）也都呈现出类似的提升幅度。Qwen3-14B在ECHO训练后的pass@5达到了19.10%，而GRPO训练后仅为13.48%。在内部测试集上，提升同样一致：val100测试集上Qwen3-8B从54.9%提升到63.7%，ITD测试集从16.2%提升到18.9%，TBLite测试集从9.5%提升到11.4%。

研究团队还观察到一个有趣的规律：14B模型在TerminalBench-2.0上的提升幅度比8B模型更大，但在内部测试集上的提升反而相对较小。团队给出的解释是：更大的模型有更多的参数容量来同时服务于两个学习目标（策略学习和环境预测），而较小的模型在两个目标之间可能存在更多的容量竞争。因此，更大的模型能从环境预测学习中提取出更具泛化性的终端运作规律，在更难、更陌生的测试任务上体现出更明显的优势。

从训练曲线来看，ECHO的优势不仅体现在最终性能上，还体现在学习速度上。在Qwen3-8B上，ECHO训练版本在大约220步时就达到了GRPO训练版本在500步才能达到的最高性能——换句话说，ECHO让相同的训练资源发挥出了1.5倍到2.3倍的效率。这意味着使用ECHO，可以用更少的计算时间和电力消耗达到同等甚至更好的AI能力水平。

---

五、真的学到了"终端世界的规律"吗？一个关键的验证实验

性能数字固然好看，但研究团队追问了一个更深层的问题：ECHO真的让AI建立起了对终端世界运作规律的理解，还是只是某种统计上的偶然？

为了回答这个问题，团队设计了一个颇具巧思的验证实验。他们让一个更强大的模型——Qwen3-32B（参数量是被测试模型的四倍）——独立完成了大量终端任务，记录下它的完整操作过程，包括它执行的每一个命令以及对应的终端输出。然后，他们用这些由Qwen3-32B生成的操作记录来测试那些经过GRPO和ECHO训练的小模型：给定Qwen3-32B执行的命令，小模型能多准确地预测对应的终端会显示什么内容？

这个测试相当苛刻，因为被测试的小模型从未见过这些具体的操作序列——它们是由一个完全不同的、更强大的模型生成的。如果模型真的理解了终端世界的运作规律（而不只是记住了自己操作过的情况），它就应该能对"陌生操作者"的操作结果做出准确预测。

结果非常明确。在Qwen3-14B上，经过普通GRPO训练的模型，其环境预测误差相对于基础模型几乎没有变化；而经过ECHO训练的模型，预测误差在val100测试集上从0.24 nats大幅下降到0.07 nats，在ITD测试集上从0.39下降到0.31，在TBLite测试集上从0.30下降到0.23。Qwen3-8B上的结果呈现出完全相同的模式：GRPO训练几乎不改变预测误差，ECHO训练则让误差在val100上从0.29骤降至0.07，在ITD上从0.46降至0.32，在TBLite上从0.35降至0.25。

这个结果说明了一件重要的事：ECHO确实在训练模型理解"终端世界如何响应命令"，而且这种理解具有真正的泛化性——它能迁移到模型自己从未执行过的操作场景中。相比之下，普通的GRPO训练虽然能提升任务完成率，但并不真正改变模型对终端世界的理解深度。

---

六、无需专家示范：ECHO弥合了数据鸿沟

在AI训练领域，有一种常见的做法叫做"监督微调"（SFT），也就是先让模型大量模仿专家的操作示范，再进行强化学习。这就好比厨艺学徒在开始独立做菜之前，要先跟着名厨反复观摩数百次规范操作。

实验中的OpenThinker-Agent-v1-SFT模型正是经历了这个过程——它在进行GRPO训练之前，已经通过约1.5万个由GLM-4.6模型（一个更强大的AI）生成的专家操作示范进行了预训练。这个专家示范预训练阶段显然带来了优势：直接对比发现，在Qwen3-8B上，先进行专家SFT再进行GRPO训练，比直接进行GRPO训练在各个测试集上都有明显提升。

研究团队的关键问题是：ECHO能否在不使用任何专家示范的情况下，弥补这种差距？结果出乎意料地令人振奋。从同样的基础Qwen3-8B出发，使用ECHO训练后的模型，在val100测试集上达到了63.7%的成功率，在ITD测试集上达到了18.9%，在TBLite测试集上达到了11.4%。而经过专家SFT再加GRPO训练的模型，对应的数字分别是63.5%、18.8%和11.6%。

换句话说，在内部测试集上，ECHO几乎完全弥补了专家示范预训练带来的优势：它弥合了val100上SFT差距的101.6%，ITD上的103.9%，TBLite上的88.9%。没有任何专家示范，仅靠让AI在终端里自己探索并学习预测自己操作的后果，就几乎能达到与看了1.5万个专家示范相当的效果。

在更难的TerminalBench-2.0测试集上，ECHO弥合了约50%的专家SFT差距（pass@1弥合50.0%，pass@3弥合48.6%，pass@5弥合50.0%）。研究团队认为，这一差距的存在是合理的：专家示范不只是教会模型"了解终端世界"，还教会了模型"如何制定高层策略"——比如在面对未知任务时该先尝试哪类命令、如何分解复杂任务、什么时候应该继续尝试而什么时候应该换思路。ECHO能够通过自主交互习得前者（终端知识），但后者（任务策略）仍然需要专家示范来传授。这说明ECHO并不能完全取代专家示范，但它能以零示范成本获得专家示范价值的相当大一部分。

---

七、训练效率和推理效率的双重提升

ECHO带来的好处不止体现在最终性能数字上，还体现在两个实际使用维度：训练速度和推理效率。

训练速度方面，ECHO让模型更快地从每一批训练数据中提取学习价值。具体来说，Qwen3-8B在使用ECHO训练时，在整体评分（val100+ITD+TBLite综合）上，只需240步就能达到GRPO训练版本500步才能达到的峰值，效率提升达1.92倍。在最难的TBLite测试集上，这一优势更为明显，只需220步对比GRPO的500步，效率提升2.27倍。

推理效率方面，ECHO训练出的模型在实际执行任务时更加"干练"——它们能用更少的操作步骤完成同样的任务，并且更少出现"卡死"的情况。在TerminalBench-2.0的实际测试中，Qwen3-8B经过ECHO训练后，超时率（任务在规定时间内无法完成的比例）从19.8%骤降至9.0%，降幅达55%；平均操作步数从24.3步降至19.8步，减少了18%；完成任务所需的总token数从43200降至30300，减少了30%。

对OT-SFT模型，ECHO同样显著降低了超时率（从45.2%降至24.7%）并大幅减少了操作步数（从平均66.3步降至37.7步，减幅43%）。这意味着ECHO训练出的模型不仅更聪明（成功率更高），还更高效（完成任务所需的时间和资源更少）——这两点在实际部署中都具有切实的价值。

Qwen3-14B在超时率和操作步数上没有出现明显改善（两者分别略微增加了6%和7%），但它在总token消耗上仍然减少了13%，并且在TerminalBench-2.0上取得了三个模型中最大的性能提升。这说明不同规模的模型从ECHO中受益的方式可能略有不同，但整体收益是一致的。

---

八、一个更大胆的实验：没有评分系统，AI还能自我进步吗？

ECHO最出人意料的实验探索来自对一个哲学问题的追问：如果完全去掉"最终评分"（也就是去掉任务完成与否的奖励信号），只让AI执行命令并学习预测终端的反应，AI还能进步吗？

这个问题很有意义，因为现实世界中并非所有任务都有清晰的"对错评判"，构建可靠的评分系统本身就需要大量工程工作。如果AI能仅靠观察自己行动的后果来自我进步，那将开辟一种全新的、低成本的AI训练方式。

研究团队以最强的Qwen3-8B ECHO检查点为起点，在第500步时关闭了任务奖励系统，只保留环境预测损失继续训练100步。这个模型继续在终端里执行命令、观察结果，并仅仅通过"学习预测终端会显示什么"来更新自己的参数——没有任何关于任务成败的反馈。

结果显示，这种"无评分器的自我适应"在某些条件下确实能够带来性能提升。在val100测试集上（模型已经比较熟悉的任务类型），无过滤的环境预测训练带来了3.8个百分点的成功率提升。在更难的域外任务（即模型不太熟悉的任务类型）上，情况更为复杂：在对轨迹进行过滤（只保留命令格式正确、工具调用有效的训练样本）之后，ITD测试集上提升了5.2个百分点，PyTerm测试集（928个专注于Python脚本生成的任务）上提升了10.0个百分点。

TBLite测试集是唯一没能从这种方式中受益的情况，成功率反而下降了3.9个百分点。研究团队分析认为，这是因为不同任务的终端反馈性质不同：PyTerm任务的反馈非常"直接"——程序崩溃时的错误追踪、打印输出的数值、生成的文件内容，这些都清晰地指向"下一步应该怎么做"；而TBLite的任务往往需要协调文件系统、配置文件和进程状态，终端输出与具体操作决策之间的关系更加间接，学习预测这类输出对改善操作策略的帮助有限。

这个实验的发现打开了一个值得进一步探索的方向：当任务的终端反馈足够"直接"且"与操作高度相关"时，AI可能真的能在没有任何外部评分的情况下，通过纯粹的环境交互实现自我提升。

---

说到底，ECHO这项研究揭示的是一个简单却被长期忽视的事实：在AI训练的过程中，每一次操作都会产生反馈，而这些反馈一直静静地躺在训练数据里，等待被利用。就像一个学生做错了作业，不只是"错了"这个事实能帮助他学习，错误答案本身的具体模式——是计算错了还是概念理解有误，是粗心失误还是知识缺漏——才是真正有价值的学习信息。

ECHO做的事，本质上就是把AI自己操作产生的"错误答案详情"变成了学习素材。这个思路没有使用任何花哨的新技术，没有增加任何额外的计算量，却让终端任务的成功率翻倍，让学习速度提升了一倍以上，甚至在某些情况下让AI在没有任何外部评分的情况下也能自我进步。

这项研究对AI领域的启示也许可以这样概括：在人工智能的训练过程中，"看到的"和"学到的"之间往往存在巨大的鸿沟。AI代理每次与环境交互，都在"看到"大量信息，但只有极少一部分被纳入真正的学习过程。ECHO提醒我们，弥合这个鸿沟可能并不需要更多数据或更大模型，只需要更聪明地利用已有的信息。

对于普通读者而言，这意味着未来的AI助手可能会变得更加"接地气"——不只是知道任务应该怎么完成（理论知识），还真正理解在现实操作环境中事情是如何一步步演变的（实践经验）。这种对"现实世界如何响应操作"的理解，正是让AI代理从"纸上谈兵"走向"真正有用"的关键一步。感兴趣的读者可以通过arXiv编号2605.24517查阅原论文，其中包含了完整的实验数据、算法细节和理论分析。

---

Q&A

Q1：ECHO训练方法和普通的AI强化学习训练有什么区别？

A：普通的强化学习训练（如GRPO）只看最终结果——任务完成就给奖励，失败就不给，AI只能从成功案例中学习。ECHO在此基础上增加了一个学习任务：让AI同时学习预测它每次执行命令后终端屏幕会显示什么内容。这样即便任务最终失败，AI也能从操作过程中的每一步反馈中学到东西，相当于把85%以上原本"白费"的失败训练时间也利用了起来。

Q2：TerminalBench-2.0是什么测试，为什么用它来衡量AI代理的能力？

A：TerminalBench-2.0是一个专门测试AI在命令行终端环境中完成真实任务能力的公开测试集，包含89个任务，由多所高校和研究机构共同建立。它被认为是该领域最有挑战性的评测之一，任务完全通过程序自动判断，客观反映AI能否真正在真实的计算机操作环境中完成工作，而不只是生成听起来正确的文字答案。

Q3：ECHO为什么能在不用专家示范数据的情况下达到接近专家训练的效果？

A：研究发现，专家示范数据提供的价值主要有两类：一是"如何理解终端的反馈并与环境有效互动"，二是"遇到具体任务时该采用什么高层策略"。ECHO通过让AI学习预测自己操作的终端结果，能够自主习得第一类知识；但对于第二类任务策略知识，专家示范仍有不可替代的作用。这就是为什么ECHO在内部测试上几乎完全弥合了差距，但在最难的TerminalBench-2.0上只弥合了约50%。

人工智能强化学习新型算法

分享至