微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

斯坦福团队揭秘：AI大模型如何像厨师一样掌握复杂技能

人工智能语言模型推理人机协作系统

斯坦福团队揭秘：AI大模型如何像厨师一样掌握复杂技能

作者：科技行者

2026-01-04 09:40

分享至：

斯坦福大学研究团队提出的ReAct方法，通过让AI在执行任务时交替进行推理和行动，解决了传统方法要么只会空想要么盲目执行的问题。该方法在复杂问答、事实验证和虚拟环境交互等任务中显著超越现有方法，更重要的是让AI决策过程变得透明可解释，支持人类轻松介入纠错。研究展示了思考与行动协同的强大潜力，为构建更智能可信的AI系统指明了方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-04 09:40 • 科技行者

这项由斯坦福大学人工智能实验室的Shunyu Yao、Jeffrey Zhao、Dian Yu等研究人员共同完成的研究，发表于2022年10月的机器学习顶级会议NeurIPS（神经信息处理系统大会）。论文题目为"ReAct: Synergizing Reasoning and Acting in Language Models"，arXiv预印本编号为2210.03629。研究团队还包括了来自普林斯顿大学和Meta AI的研究者，他们共同探索了一个听起来很抽象但实际上非常贴近生活的问题：如何让人工智能在解决问题时既能思考又能行动。

你有没有想过，当你做一道复杂的菜时是怎样的过程？比如做一道红烧肉，你不会只是站在那里冥思苦想菜谱的每个步骤，也不会闭着眼睛胡乱操作。实际上，你会先想"我应该先焯水去腥"，然后真的去烧水、焯肉，看到水面浮出泡沫后再想"嗯，现在可以了，下一步该炒糖色了"，接着又真的去做炒糖色这个动作。这种"想一步、做一步、看结果、再想下一步"的循环，就是人类解决复杂问题的自然方式。

然而，当前的大型语言模型——那些能写文章、能对话的人工智能系统——在处理需要与外部世界交互的任务时，往往表现得像个只会纸上谈兵的理论家。它们要么只会在脑子里空想（纯推理），要么就像个莽夫一样盲目行动（纯执行），很难像人类那样把思考和行动有机结合起来。这就好比让一个从未下过厨房的人去做红烧肉，要么他会写出一份看起来完美但完全不切实际的菜谱，要么就会手忙脚乱地瞎折腾，最后做出一锅黑糊糊的东西。

斯坦福的研究团队提出了一个叫做ReAct的新方法，这个名字其实是"Reasoning"（推理）和"Acting"（行动）两个词的巧妙结合。这个方法的核心思想非常简单：让AI在执行任务时，把它的思考过程用语言明确表达出来，然后基于这些思考去采取行动，再根据行动的结果来调整下一步的思考。就像你做菜时会小声嘀咕"火太大了，得调小一点"，然后真的去调火，再观察锅里的变化一样。

这项研究之所以重要，是因为它触及了人工智能领域一个长期存在的难题：如何让AI系统既具备深度思考能力，又能有效地与真实世界互动。过去，研究者们往往把这两种能力分开训练，结果就是AI要么成了"空想家"，要么成了"行动派"，很少有人尝试把两者真正融合起来。ReAct方法的创新之处在于，它不需要对现有的语言模型进行额外训练或修改，只需要用一种巧妙的方式来引导模型，就能让它学会这种"边思考边行动"的技能。

研究团队在多个不同类型的任务上测试了ReAct方法，包括回答复杂问题、验证事实真伪，以及在虚拟环境中进行互动式游戏。结果显示，ReAct方法不仅大幅提升了AI完成任务的成功率，还让整个决策过程变得更加透明可解释。你可以清楚地看到AI是怎么一步步思考、尝试、调整的，就像看着一个厨师娓娓道来他的烹饪思路一样。更令人惊喜的是，当AI在某个步骤犯错时，人类可以轻松地介入纠正，因为思考过程都是用自然语言表达的，不再是深藏在复杂神经网络中的黑箱。

这项研究的潜在应用非常广泛。从帮助人们查找和核实网络信息，到协助完成需要多步骤规划的复杂任务，再到开发更智能的虚拟助手和机器人系统，ReAct方法都可能带来革新。更重要的是，它为我们理解和改进人工智能系统提供了一个新的视角：也许让AI变得更智能的关键，不是让它变得更复杂，而是让它学会像人类一样，把思考和行动自然地结合起来。

一、烹饪大师的秘诀：推理与行动的协奏曲

要理解ReAct方法的精妙之处，我们需要先搞清楚当前AI系统在处理复杂任务时面临的困境。这就像要理解为什么传统的烹饪方法做不出米其林级别的菜肴一样，得先知道问题出在哪儿。

目前的大型语言模型主要有两种工作模式。第一种模式叫做"思维链"，英文是Chain-of-Thought，简称CoT。这种方法让AI在给出最终答案之前，先把中间的推理步骤一步步写出来。比如你问它"小明有5个苹果，给了小红2个，又买了3个，现在有几个？"，它不会直接说"6个"，而会写"小明原本有5个，给了小红2个剩3个，又买了3个所以是3加3等于6个"。这种方法确实让AI的推理能力大大提升，就像让学生在考试时必须写出解题步骤一样，能减少粗心犯错。

但是思维链方法有个致命弱点：它完全在AI的"脑袋"里进行，不与外部世界发生任何交互。这就好比让你闭着眼睛在心里默默规划怎么走迷宫，却不允许你真的去走一步、看看前面是不是死路。对于那些答案完全依赖内部知识的问题，这种方法还行；但对于需要查资料、需要试错、需要根据实时反馈调整策略的任务，思维链就显得力不从心了。更糟糕的是，语言模型的知识是固化在训练时期的，它可能会编造事实、产生幻觉，或者在推理的长链条中逐渐偏离正轨，就像一个人闭着眼睛走路会越走越歪一样。

第二种模式恰好相反，叫做"行动优先"。这种方法让AI直接与外部环境交互，通过采取各种行动来完成任务。比如在一个虚拟游戏环境中，AI可以发出"向北走"、"打开门"、"拿起钥匙"这样的指令，然后根据环境的反馈来决定下一步做什么。这听起来很实用，但问题是这种方法往往缺乏深思熟虑的规划。AI可能会像无头苍蝇一样乱撞，尝试各种毫无意义的行动，效率极其低下。就像一个人在陌生城市找路，既不看地图也不思考，只是随机选方向乱走，能走到目的地全靠运气。

研究团队意识到，人类在解决复杂问题时从来不是只用其中一种模式。我们会在头脑中进行推理规划，但这种推理是紧密结合着实际行动和观察的。当你修理一个坏掉的电器时，你会先想"可能是电池没电了"，然后去检查电池，如果发现电池是好的，你会立刻调整思路"那可能是接触不良"，再去检查接触点。这种思考-行动-观察-再思考的循环，才是高效解决问题的关键。

ReAct方法正是基于这个洞察设计的。它让语言模型在执行任务过程中，交替生成两种内容：一种是"思考轨迹"，用自然语言表达当前的分析、计划、推断；另一种是"行动指令"，实际去查询信息、操作环境或调用工具。更妙的是，每次行动后，环境会给出反馈——称为"观察"——然后AI会根据这个观察来调整下一步的思考。这就形成了一个"思考-行动-观察-再思考"的闭环。

举个具体例子来说明这个过程有多自然。假设你问AI："苹果公司的创始人出生在哪个城市？"使用ReAct方法的AI会这样工作：

首先它会思考："这个问题是在问苹果公司创始人的出生地，我需要先确定创始人是谁。"然后它采取行动，去维基百科搜索"苹果公司创始人"。搜索结果返回了一段文字，提到史蒂夫·乔布斯是苹果公司的联合创始人之一。AI观察到这个信息后，继续思考："好，创始人是史蒂夫·乔布斯，现在我需要找他的出生地。"接着它再次行动，搜索"史蒂夫·乔布斯出生地"。这次搜索返回的结果显示他出生于加州旧金山。AI观察到这个信息后思考："我已经找到了答案。"最后给出回答："旧金山。"

这个过程看起来简单，但其中蕴含着深刻的智慧。每一步思考都基于真实的观察结果，而不是凭空臆想；每一次行动都有明确的目的，而不是盲目尝试。思考和行动相互支持、相互矫正，就像两条腿走路，比单腿跳要稳当得多。

更进一步说，这种方法带来了几个重要的好处。第一，它大大减少了AI产生幻觉的机会。因为AI不再依赖可能过时或错误的内部知识，而是实时从可靠来源获取信息。这就像做菜时边做边尝味道，而不是完全凭记忆中的菜谱，自然更容易做出好味道。第二，思考过程变得可解释了。你可以清楚地看到AI为什么做某个决定，它的推理链条是否合理，哪一步出了问题。这对于建立人们对AI系统的信任非常重要。第三，人类可以轻松介入纠错。当你看到AI的思考走偏了，可以直接用自然语言提示它调整方向，就像你在教一个学徒做菜时随时给予指导一样。

研究团队特别强调，思考和行动之间存在着双向的协同作用。一方面，思考帮助行动变得更有目的性和策略性。AI不会像无头苍蝇一样乱撞，而是有计划地选择每一步行动。另一方面，行动带来的观察结果也反过来支持和改进思考过程。真实的反馈可以纠正错误推断，提供新的信息，引导推理走向正确方向。这种相互促进的关系，正是ReAct方法威力的来源。

从实现角度来看，ReAct方法的巧妙之处在于它不需要对语言模型进行任何修改或额外训练。它只是通过精心设计的提示词——就是你给AI的指令格式——来引导模型按照"思考-行动-观察"的模式工作。这种设计被称为"提示工程"，就像给一个聪明但缺乏经验的助手写一份详细的工作指南，告诉他每一步该想什么、做什么、注意什么。只要指南写得好，助手就能表现出色。

这种设计哲学反映了当前AI研究的一个重要趋势：与其费力地训练一个全新的模型，不如充分挖掘现有大型模型的潜力。这就好比与其从头培养一个新厨师，不如给一个已经有基本功的厨师提供更好的菜谱和指导。ReAct方法证明，只要引导得当，现有的语言模型已经具备了将推理和行动结合起来的能力，只是之前没有人用对方法激发出来而已。

二、实战演练：在知识的海洋中导航

为了验证ReAct方法的实际效果，研究团队选择了一个对AI来说颇具挑战性的任务领域：回答需要多步推理和信息检索的复杂问题。这类任务就像让你在一个巨大的图书馆里找答案，不仅要知道去哪几个书架找书，还要能从不同的书中提取信息，再把它们拼接起来得出答案。

具体来说，他们使用了两个标准测试集，一个叫HotpotQA，另一个叫Fever。HotpotQA包含了各种需要"跳跃式推理"的问题，也就是说，你需要从一个信息点跳到另一个信息点，最后才能得出答案。比如"某位奥斯卡获奖导演的母校位于哪个州？"这样的问题，你得先找到这位导演是谁，再找到他的母校是哪所大学，最后确定这所大学在哪个州。Fever则是一个事实验证数据集，给你一个陈述句，你需要判断它是真是假，并找到支持你判断的证据。

研究团队把ReAct方法与几种现有方法进行了对比。第一种是标准的提示方法，就是直接问模型问题，让它给答案。第二种是思维链方法，让模型把推理步骤写出来。第三种是纯行动方法，让模型通过搜索维基百科来找答案，但不要求它解释推理过程。通过这样的对比，可以清楚地看出加入推理、加入行动、以及把两者结合起来分别带来了多大的改进。

结果相当令人振奋。在HotpotQA任务上，ReAct方法的表现显著超过了所有对比方法。具体数字是这样的：标准提示方法的准确率只有百分之三十多，思维链提高到了百分之四十多，而ReAct达到了百分之五十多。这个提升看起来可能不算特别夸张，但考虑到这些都是非常困难的问题，每提升几个百分点都是很不容易的。更重要的是，ReAct不仅答对了更多问题，还在解题过程中展现出了更强的鲁棒性和灵活性。

研究团队深入分析了ReAct为什么表现更好。他们发现，在很多案例中，纯粹的思维链方法会因为知识过时或缺失而产生错误的推断。比如在回答关于某部最近上映电影的问题时，如果模型的训练数据截止日期早于这部电影的上映时间，它就完全不知道这部电影的存在，只能瞎猜或者编造答案。而ReAct方法会先去搜索电影信息，基于真实检索到的内容来推理，自然就准确得多。

另一个有趣的发现是关于推理链条的长度。对于那些需要多步推理的复杂问题，思维链方法容易在长长的推理链条中迷失方向，就像一个人在脑子里推演很多步后就搞混了。而ReAct方法每进行一步推理就会采取一次行动、获得一次观察，这些来自真实世界的反馈就像一个个路标，帮助AI保持在正确的轨道上。研究数据显示，在需要四步以上推理的问题中，ReAct的优势尤其明显。

研究团队还特别关注了一种叫做"幻觉"的问题。所谓幻觉，就是AI编造事实的现象。比如你问它"谁赢得了2023年诺贝尔物理学奖？"，如果它的训练数据只到2022年，它可能会编造一个听起来很合理但完全虚假的答案。在他们的测试中，思维链方法产生幻觉的比例相当高，大约每四个回答中就有一个包含编造的信息。而ReAct方法因为依赖真实的信息检索，幻觉现象大幅减少，只有大约每十五个回答中才会出现一次。这个改进非常关键，因为对于需要准确信息的应用场景来说，AI编造事实是绝对不能容忍的。

更深入一点，研究团队分析了ReAct中思考和行动的具体协同方式。他们发现，思考轨迹在任务中扮演了多种角色。有时候，思考是在分解问题，把一个大问题拆成几个小问题。比如面对"哪位演员同时出演过《泰坦尼克号》和《盗梦空间》？"这个问题，AI会思考："我需要分别找到这两部电影的演员名单，然后找交集。"有时候，思考是在提取信息，从检索到的大段文字中抓住关键点。有时候，思考是在进行常识推理，根据已知信息推导出新结论。有时候，思考还在做算术计算或逻辑判断。

与此同时，行动也不是单一的。最常见的行动是"搜索"，就是在维基百科中查找特定条目。还有一种行动叫"查看"，是在一个维基百科页面内查找特定信息。研究团队给AI设计了一个简化的维基百科接口，每次搜索会返回页面的前几段文字，AI可以选择深入查看某个段落，或者跳转到相关链接的页面。这就像你在网上查资料时，先看搜索结果的摘要，觉得相关就点进去细看，不相关就换一个链接。

一个特别值得注意的案例是这样的问题："Musician和哪个杂志都是在美国出版的？"这个问题其实有点绕，因为"Musician"本身就是一本杂志的名字，但很容易被误解为"音乐家"这个职业。纯思维链方法几乎都会掉进这个陷阱，开始搜索某位音乐家创办的杂志之类的无关信息。而ReAct方法会先思考："我需要确认Musician是什么"，然后搜索"Musician magazine"，发现它确实是一本杂志，再搜索"美国出版的杂志"，从而顺利找到答案。这个例子生动展示了行动带来的观察如何纠正错误的初始理解。

在Fever事实验证任务上，ReAct的表现同样优异。这个任务的难度在于，你不仅要判断一个陈述的真假，还要找到支持你判断的确凿证据。比如给你一句话"汤姆·汉克斯出演过一部关于二战的电影"，你需要去找证据证明这是真的（比如《拯救大兵瑞恩》），或者证明这是假的。ReAct方法会系统地搜索相关信息，逐步收集证据，然后综合判断。研究数据显示，ReAct在这个任务上也比其他方法表现更好，尤其是在需要查找多条证据的复杂陈述上。

研究团队还做了一个很有意思的消融实验，就是分别移除思考或行动中的一个，看看性能会下降多少。结果发现，两者都是不可或缺的。如果只有行动没有思考，AI会盲目搜索，效率很低，经常找不到正确答案。如果只有思考没有行动，AI就退化成了普通的思维链方法，会产生大量幻觉和错误推断。只有两者结合，才能发挥最佳效果。这就像做菜需要食谱和实际操作配合，光看食谱不动手不行，闭着眼睛瞎做也不行，得边看边做才能做出好菜。

此外，研究团队还测试了ReAct在处理"分心信息"时的鲁棒性。在真实的信息检索场景中，你搜到的内容往往包含很多无关信息，需要有能力筛选出真正有用的部分。他们特意构造了一些包含大量干扰信息的测试案例，发现ReAct方法能够通过思考来识别和过滤这些干扰，而纯行动方法则容易被误导。这再次证明了思考的价值：它不仅帮助规划行动，还帮助理解和利用行动的结果。

三、虚拟世界的探险：在游戏中学会规划

除了知识密集型任务，研究团队还想知道ReAct方法在需要多步决策和环境交互的场景中表现如何。为此，他们选择了两个基于文本的交互式游戏环境进行测试。这类游戏就像早年的文字冒险游戏，你通过输入文字指令来控制角色行动，游戏会用文字描述发生了什么。虽然听起来有点复古，但这类环境对AI来说是绝佳的测试场，因为它需要理解当前状态、规划长期目标、处理复杂的因果关系。

第一个测试环境叫ALFWorld，这是一个模拟家庭环境的虚拟世界。在这个世界里，AI扮演一个家用机器人，需要完成各种日常任务，比如"把干净的杯子放到咖啡机上"、"找到两个苹果放进冰箱"之类的。这些任务看似简单，但实际上需要多步规划和推理。比如要放"干净的"杯子，你得先找到杯子，判断它干不干净，如果脏了还得先拿去洗，然后才能放到咖啡机上。整个过程可能涉及十几个甚至几十个连续的行动。

第二个环境叫WebShop，模拟的是网上购物场景。AI需要根据给定的购物需求，在一个包含数千件商品的虚拟电商网站上搜索、浏览、比较，最终买到最符合要求的商品。比如任务可能是"买一双价格不超过50美元的黑色运动鞋，尺码为10号"。AI需要使用搜索功能找到候选商品，点进商品页面查看详细信息，比较不同选项，最后做出购买决定。这个任务很有实用价值，因为它模拟了真实的在线购物过程。

在ALFWorld环境中，研究团队对比了ReAct和几种基准方法。一个基准是完全基于指令的方法，类似于人类教AI一套固定的操作流程。另一个是纯粹基于模仿学习的方法，让AI观察人类玩家的操作记录来学习。还有一个是思维链方法，让AI规划好所有步骤后再执行。而ReAct则是在执行过程中边思考边行动。

结果显示，ReAct方法在ALFWorld上取得了非常接近人类专家水平的表现。具体来说，人类专家的成功率在百分之九十以上，而ReAct达到了百分之八十左右。相比之下，纯思维链方法只有百分之三十多的成功率。这个差距主要来自于两方面：一是思维链无法根据环境的实时反馈调整计划，计划一旦出错就会全盘皆输；二是在复杂的多步任务中，完全在头脑中预演所有步骤是极其困难的，很容易出现规划错误。

研究团队详细分析了一些成功和失败的案例。在一个典型的成功案例中，任务是"把加热过的苹果片放进垃圾桶"。ReAct的执行过程是这样的：首先思考"我需要找到苹果"，然后执行"环顾四周"的行动，观察到房间里有一张桌子。继续思考"苹果可能在桌子上"，执行"走向桌子"。到了桌子旁，执行"检查桌子"，观察到桌子上确实有一个苹果。思考"现在要拿起苹果"，执行"拿起苹果"。接着思考"我需要加热它，微波炉可以加热"，执行"找到微波炉"。找到后执行"打开微波炉"，"放入苹果"，"关闭微波炉"，"启动微波炉"。微波炉运转后，思考"现在苹果加热好了"，执行"打开微波炉"，"取出苹果"。最后思考"还需要找到垃圾桶"，执行一系列移动和搜索行动，找到垃圾桶后把苹果放进去。整个过程流畅自然，每一步都有明确的目的。

相比之下，思维链方法的一个典型失败案例是这样的：它会先在头脑中规划"第一步去桌子拿苹果，第二步去微波炉加热，第三步去垃圾桶扔掉"，但在实际执行时可能发现苹果根本不在桌子上，或者微波炉在另一个房间，这时它就不知道该怎么办了，因为它的规划是基于假设而非真实观察的。

一个特别有意思的现象是，ReAct会在遇到意外情况时自我纠错。比如在寻找某个物品时，如果在预期的位置没找到，它会思考"这里没有，我应该去别的地方找"，然后调整搜索策略。这种灵活性是纯规划方法所不具备的。研究团队统计发现，在所有成功完成的任务中，大约有百分之四十的案例中途发生了计划调整，说明这种动态应对能力是至关重要的。

在WebShop环境中，ReAct的表现同样出色。这个任务的挑战在于，商品种类繁多，需要在庞大的商品库中高效搜索，还要准确理解商品描述，判断是否符合购买要求。研究团队设置了各种不同复杂度的购物任务，从简单的"买一件白色T恤"到复杂的"买一款评分4星以上、价格在30到50美元之间、有USB-C接口的蓝牙耳机"。

ReAct在这个任务上的策略展现了高度的智能。它会先思考"我应该用关键词搜索来缩小范围"，然后输入合适的搜索词。看到搜索结果后，思考"这几个商品看起来相关，我需要逐个查看详情"。点进商品页面后，会系统地检查价格、评分、具体参数是否符合要求。如果某个商品几乎符合但有一项不满足，它会思考"这个不符合颜色要求，继续找别的"，返回搜索结果页面查看其他选项。

数据显示，ReAct在WebShop上的成功率达到了百分之四十多，远超纯行动方法的百分之二十多和思维链方法的百分之十多。这个任务上ReAct的优势特别明显，因为它需要在大量信息中导航，需要基于观察到的信息动态调整策略，这正是ReAct擅长的。

研究团队还对比了使用不同规模语言模型时ReAct的表现。他们测试了从几亿参数的小模型到千亿参数级别的大模型。结果发现，ReAct方法在各种规模的模型上都能带来改进，但改进的幅度随模型规模增大而增加。这说明，模型的基础推理能力越强，ReAct方法就越能发挥其潜力。但即使在相对较小的模型上，ReAct仍然显著优于不使用这种方法的情况。

一个值得强调的发现是关于样本效率。所谓样本效率，就是需要多少示例才能让AI学会做一件事。研究团队发现，ReAct方法只需要很少的示范案例就能工作得很好。在他们的实验中，通常提供一到六个示范案例就足够了。这些案例就像给AI的"教科书"，展示了如何在类似任务中进行思考和行动。AI通过模仿这些示例中的模式，就能举一反三地处理新任务。这种"少样本学习"能力非常宝贵，因为在很多实际应用中，收集大量标注数据是很昂贵的。

四、人机协作的新可能：可解释性与可纠错性

ReAct方法不仅提升了任务性能，还带来了两个非常重要的副产品：可解释性和可纠错性。这两个特性对于将AI系统应用到真实世界中具有关键意义。

所谓可解释性，就是你能理解AI为什么做某个决定。传统的AI系统往往像个黑箱，你给它输入，它给你输出，中间发生了什么完全不透明。就像你找一个算命先生问事，他闭着眼掐指一算就告诉你结果，你根本不知道他是怎么算的。这种黑箱性质在很多场景下是不可接受的，比如医疗诊断、金融决策、法律判断等需要高度可信度的领域。

ReAct方法则完全不同。因为AI会把它的思考过程用自然语言明确表达出来，你可以清楚地看到它每一步在想什么、为什么选择这个行动、如何解读观察到的信息。研究团队展示了许多详细的执行轨迹，读起来就像是在看AI的"思维日记"。比如在回答问题时，你能看到它先确定需要找什么信息，然后去哪里搜索，搜到了什么，从中提取了什么关键点，基于这些点做了什么推理，最终得出什么结论。整个链条清晰可见。

这种透明性带来了多重好处。对于研究者来说，它有助于诊断系统在哪里出错了。当AI给出错误答案时，你可以回溯它的思考过程，找到问题所在——是信息检索失败了，还是推理逻辑有漏洞，还是误解了观察结果。这比从黑箱系统中试图反推错误原因要容易得多。对于用户来说，透明的决策过程能够建立信任。你不会盲目相信一个不知道怎么得出结论的系统，但如果你能检查它的推理链条，验证每一步是否合理，就会更放心地采纳它的建议。

更进一步，可解释性还使得人机协作成为可能。这就引出了ReAct的第二个重要特性：可纠错性。因为思考过程是用自然语言表达的，人类可以很容易地介入其中，在AI走偏时进行纠正。这种协作模式被研究团队称为"ReAct with Human in the Loop"，也就是"带人类参与的ReAct"。

具体来说，人类可以在任何时刻观察AI的思考轨迹，如果发现它的推理出现错误或偏离目标，可以用自然语言给出提示或纠正。比如AI在搜索信息时可能走进了死胡同，反复搜索一些无关的内容。这时人类可以介入说"你应该搜索X而不是Y"，或者"这条信息是错误的，换个方向"。AI会理解这些自然语言的指导，调整自己的策略继续执行。

研究团队在HotpotQA任务上专门测试了这种人类介入的效果。他们设计了一个实验：让人类观察AI的执行过程，在AI陷入困境或即将犯错时提供帮助。结果非常惊人。在没有人类帮助的情况下，ReAct的准确率大约是百分之五十多。而当允许人类在关键时刻给予少量提示后，准确率飙升到了百分之七十多。更重要的是，人类平均每个问题只需要介入一到两次，每次只需要给出一句简短的提示，就能产生如此显著的效果。

这种高效的人机协作成为可能，正是因为ReAct使用了自然语言作为思考和行动的媒介。自然语言是人类和AI都能理解的"通用货币"。如果AI的内部表示是复杂的数学向量或神经网络激活模式，人类根本无法直接理解或干预。但当AI用"我认为答案可能与X有关"这样的自然语言思考时，人类可以立即判断这个想法是否正确，并给出相应的反馈。

研究团队展示了一些具体的人机协作案例。在一个案例中，问题是关于某部电影的导演和主演的关系。AI一开始搜索了电影名称，但不小心点进了一个同名但不相关的条目。它开始基于这个错误的信息进行推理。人类观察到这个错误后，简单地说了一句"你找错电影了，应该是2015年的那部"。AI立即理解了这个提示，重新搜索了正确的电影，然后顺利完成了任务。整个过程就像两个人在合作解决问题，一个人在操作，另一个人在旁边看，发现问题就提醒一下。

另一个案例更有趣。任务是判断一个关于科学事实的陈述是否正确。AI搜索到了一段技术性很强的文字，其中包含大量专业术语。AI的思考是"根据这段文字，陈述似乎是正确的"。但人类发现AI其实误解了文字中的一个关键概念。人类解释说"这里说的X其实是指Y，不是Z"。AI根据这个澄清重新分析了文字，得出了正确的结论。这个案例展示了人类的专业知识如何弥补AI的理解盲点。

研究团队还分析了人类介入通常发生在哪些环节。数据显示，最常见的介入时机有三种。第一种是信息检索出错时，比如AI搜索了错误的关键词，或者理解错了搜索结果的含义。第二种是推理逻辑出现漏洞时，比如AI做了不正确的假设，或者忽略了某个重要条件。第三种是陷入循环行为时，比如AI重复执行同样的无效行动，没有意识到需要换个策略。在这些情况下，一句简短的人类提示往往能够让AI"茅塞顿开"，回到正轨。

这种人机协作模式对于实际应用有深远的意义。在很多真实世界的任务中，完全自动化的AI系统可能不够可靠或不够灵活，而完全依赖人类又效率太低。ReAct提供了一个中间方案：让AI承担大部分工作，人类只在必要时进行监督和干预。这就像自动驾驶汽车的辅助驾驶模式，平时车自己开，遇到复杂情况提示人类接管。这种模式既提高了效率，又保证了可靠性。

从更宏观的角度看，ReAct的可解释性和可纠错性体现了一种新的AI设计哲学：不是试图打造一个完美的全能系统，而是创建一个能够与人类有效协作的系统。这种哲学认识到，AI和人类各有所长——AI擅长处理大量信息和快速计算，人类擅长常识推理和价值判断——最好的结果来自于两者的优势互补。ReAct方法通过自然语言这个共同媒介，建立起了一座人机沟通的桥梁。

五、举一反三：提示设计的艺术

ReAct方法的一个显著特点是，它不需要对语言模型进行专门训练，而是通过精心设计的提示词来引导模型的行为。这种方法被称为"提示工程"或"上下文学习"，在当前的大型语言模型研究中越来越重要。理解ReAct如何设计提示，可以帮助我们更好地把握这种方法的本质。

提示工程就像给一个聪明的新员工写工作指南。这个员工很聪明，学习能力强，但对你们公司的具体业务不熟悉。你不可能从头培训他，那太费时间了。你能做的是写一份详细的指南，包含几个示范案例，展示遇到不同类型的任务时应该怎么处理。员工通过研究这些案例，就能理解你的要求，然后应用到新的任务上。

在ReAct方法中，提示词通常包含两个部分。第一部分是任务描述和格式说明，告诉模型它需要做什么，输出应该遵循什么格式。比如会明确说明"你需要交替生成Thought（思考）和Action（行动），每次行动后会得到Observation（观察），然后继续思考"。第二部分是示范案例，通常是一到六个完整的任务执行轨迹，展示在类似任务中应该如何思考和行动。

研究团队在设计这些示范案例时非常讲究。他们不是随机挑选的，而是精心选择了具有代表性的案例，覆盖任务的不同类型和常见的挑战。比如在问答任务中，示范案例会包括需要单步查询的简单问题，需要多步推理的复杂问题，以及容易产生误解的刁钻问题。通过研究这些多样化的案例，模型能够学习到一套通用的问题解决策略。

一个关键的设计细节是如何表达思考、行动和观察。研究团队尝试了不同的格式，发现清晰的标记和结构化的表达非常重要。最终他们采用的格式是这样的：每个思考前面标注"Thought:"，每个行动前面标注"Action:"，每个观察前面标注"Observation:"。这种明确的标记帮助模型理解什么时候该思考、什么时候该行动，也帮助解析和理解模型的输出。

在行动的表达上，研究团队定义了一套简洁的动作空间。比如在知识检索任务中，主要的行动包括"Search[关键词]"用于搜索维基百科条目，"Lookup[词语]"用于在当前页面中查找特定信息，以及"Finish[答案]"用于给出最终答案。这些行动都是用自然语言表达的，但有明确的语法规则，方便程序解析和执行。这种设计平衡了自然性和可操作性——既足够自然让语言模型能够生成，又足够规范让系统能够准确执行。

研究团队还探索了示范案例数量的影响。他们发现，随着示范案例从一个增加到六个，性能稳步提升，但提升速度逐渐放缓。到六个案例之后，再增加更多案例的边际收益就很小了。这个发现很有实用价值，因为每增加一个示范案例都会占用模型的输入长度（也叫上下文窗口），而这个长度是有限的。知道大约六个案例就足够了，可以帮助我们有效利用有限的上下文空间。

另一个有趣的实验是关于示范案例的选择策略。研究团队对比了随机选择案例和精心挑选案例的效果。结果显示，如果示范案例选得好，代表性强，即使只有三个案例也能达到不错的效果；而如果选得不好，即使有六个案例也可能表现平平。这说明案例的质量比数量更重要。好的示范案例应该涵盖任务的主要模式，展示关键的思考策略和常见的陷阱处理方法。

研究团队还尝试了一种叫做"自动案例生成"的技术。基本思路是先让模型在一些简单任务上尝试执行，然后挑选出成功的执行轨迹作为示范案例。这样可以减少人工编写案例的工作量。实验显示，这种自动生成的案例虽然不如人工精心编写的案例效果好，但也能达到可用的水平，尤其是在数据量大的情况下，通过筛选和优化，可以得到相当不错的示范案例集合。

在思考的表达上，研究团队发现，鼓励模型表达更详细的思考过程通常能带来更好的性能。比如不仅说"我需要查找X"，而是说"我需要查找X，因为Y，这样可以得到Z"。这种更详细的思考有几个好处：一是促使模型更深入地分析任务，减少草率决策；二是提供更丰富的中间信息，有助于后续步骤的推理；三是让人类更容易理解和检查推理过程。当然，过于冗长的思考也会占用过多的输出空间，需要找到一个平衡点。

研究团队还对比了ReAct与其他提示方法的设计差异。思维链方法的提示通常只包含思考过程，没有行动和观察。而纯行动方法的提示只包含行动序列，没有思考。ReAct的创新在于把两者有机结合，并且通过观察这个关键环节，建立起思考与行动之间的闭环反馈。这种设计看似简单，但正是这种简单的结构带来了强大的能力。

一个值得注意的细节是错误处理。在实际执行中，有时行动可能失败，比如搜索一个不存在的条目，或者在游戏环境中执行一个不合法的操作。研究团队在提示中包含了如何处理这些错误情况的示范。比如当搜索失败时，思考可能是"这个条目不存在，我需要换个关键词"，然后尝试一个相关但不同的搜索。这种错误处理能力让ReAct在面对不完美的真实世界时更加鲁棒。

从更广泛的视角看，ReAct的提示设计体现了一个重要理念：大型语言模型已经具备了丰富的知识和强大的推理能力，我们不需要从头教它所有东西，只需要用恰当的方式激发和引导这些能力。这就像一个武功高强的人，不需要从头学武，只需要有人指点一下如何将已有的功力应用到特定情境中。提示工程就是这种"指点"的艺术。

研究团队还探索了将ReAct与其他技术结合的可能性。比如他们尝试了与思维链方法的混合，让模型在某些步骤使用纯推理（不需要外部交互时），在其他步骤使用ReAct（需要查询信息时）。这种混合方法在某些任务上取得了更好的效果，说明不同方法之间可以互补。他们还尝试了在ReAct的基础上加入反思机制，让模型定期回顾自己的执行过程，判断是否在正确的轨道上，如果发现偏离就及时调整。这些扩展探索为未来的改进指明了方向。

六、局限与未来：仍在路上的探索

尽管ReAct方法取得了令人鼓舞的成果，研究团队也诚实地指出了当前方法的局限性和未来可能的改进方向。科学研究的价值不仅在于解决了什么问题，也在于清楚地认识到还有什么问题没有解决。

首先，ReAct方法的性能仍然受到底层语言模型能力的限制。虽然ReAct能够充分发挥模型的潜力，但如果模型本身的推理能力或语言理解能力不足，ReAct也难以施展拳脚。研究团队在小规模模型上的实验显示，虽然ReAct相比其他方法仍有提升，但绝对性能还是受制于模型规模。这意味着，要真正发挥ReAct的威力，需要与不断进步的语言模型技术相结合。随着更强大的语言模型出现，ReAct的表现也会相应提升。

其次，当前的ReAct实现在行动空间的设计上相对简单。在知识检索任务中，行动主要是搜索和查看；在游戏环境中，行动是预定义的游戏指令。但在更复杂的真实世界应用中，可能需要更丰富多样的行动类型。比如在机器人控制中，行动可能涉及复杂的运动控制；在软件开发辅助中，行动可能包括代码编写、测试、调试等。如何设计和扩展行动空间，使其既足够强大又保持可管理性，是一个需要进一步探索的问题。

第三，思考和行动的平衡仍然是一门艺术而非科学。在某些任务中，可能需要更多的思考和更少的行动；在另一些任务中，情况可能相反。当前的ReAct方法主要依赖示范案例中体现的平衡，模型会模仿这些案例的思考-行动比例。但这种隐式的平衡可能不是最优的。未来可以探索更明确的策略，比如让模型自己决定什么时候需要深入思考，什么时候应该快速行动。

第四，长期任务中的规划和记忆管理是一个挑战。在需要数十步甚至上百步才能完成的复杂任务中，如何保持对整体目标的把握，如何记住和利用之前的观察结果，如何避免陷入局部最优，这些都是ReAct当前版本没有充分解决的问题。虽然语言模型有一定的上下文记忆能力，但在极长的任务序列中，早期的信息可能会被遗忘或淹没。研究团队提到，未来可以引入显式的记忆机制或层级规划结构来缓解这个问题。

第五，自动评估和优化ReAct的执行策略仍然困难。当前主要依赖人工分析和调整示范案例来改进性能。如果能开发出自动评估思考质量和行动效率的方法，就可以进行更系统的优化。比如可以用强化学习的思路，让模型通过试错来学习更好的ReAct策略。或者可以开发自动的案例挖掘和筛选工具，从大量执行轨迹中找出最有价值的示范案例。

第六，在多模态场景中应用ReAct也是一个有待开拓的方向。当前的ReAct主要处理文本信息，但真实世界的很多任务涉及图像、视频、音频等多种模态。比如让机器人完成一个家务任务，它需要看到环境的视觉信息，可能还需要听到声音指令。如何将ReAct扩展到多模态设置，让思考和行动能够处理和利用多种类型的信息，是一个激动人心的研究方向。

第七，伦理和安全问题需要认真考虑。当AI系统能够在真实世界中采取行动时，就必须确保这些行动是安全的、符合伦理的。ReAct方法让AI的决策过程更透明，这在一定程度上有助于发现和防止不当行为。但仅有透明性是不够的，还需要加入明确的安全约束和价值对齐机制。比如在某些敏感领域，可能需要限制某些类型的行动，或者要求在执行某些行动前必须得到人类的批准。

研究团队还指出，当前的实验主要在相对受控的环境和任务上进行。虽然这些任务已经相当复杂和有挑战性，但与真实世界的开放性和不确定性相比还是有差距的。将ReAct应用到真实的、高风险的应用场景中，还需要克服许多工程和实践上的挑战。比如如何处理噪声信息，如何应对意外情况，如何与不完美的外部系统交互，这些都需要进一步的研究和实践。

尽管存在这些局限，研究团队对ReAct方法的未来发展持乐观态度。他们认为，思考和行动的协同是智能系统的核心特征之一，ReAct提供了一个简洁而有效的框架来实现这种协同。随着语言模型技术的不断进步，随着更多研究者在这个方向上的探索，ReAct及其衍生方法有望在越来越广泛的应用中发挥作用。

从更宏观的角度看，ReAct代表了人工智能研究的一个重要趋势：从追求单一维度的能力提升（比如更准确的预测、更流畅的生成），转向追求多种能力的有机整合。真正的智能不是某一项能力的极致，而是多种能力的和谐协作。推理和行动，内省和交互，规划和执行，这些看似对立的方面其实是相辅相成的。ReAct方法展示了一种整合这些方面的可能路径，为构建更全面、更强大的智能系统提供了启发。

说到底，ReAct的故事还在继续。这篇研究打开了一扇门，展示了一片充满可能性的新天地。门后还有很多未知等待探索，还有很多挑战等待克服。但正如所有重要的科学突破一样，关键不是一蹴而就地解决所有问题，而是找到一个正确的方向，迈出坚实的第一步。ReAct无疑在"让AI既能思考又能行动"这个方向上，迈出了重要的一步。

这项研究于2022年10月首次发布在arXiv预印本平台上，随后在人工智能和机器学习领域引起了广泛关注。如果你对技术细节感兴趣，想深入了解ReAct方法的数学原理、详细实验设置和完整数据分析，可以通过arXiv编号2210.03629查找完整论文。论文由斯坦福大学、普林斯顿大学和Meta AI的研究者共同完成，是跨机构协作的成果，也反映了学术界和工业界在推进人工智能技术上的共同努力。

Q&A

Q1：ReAct方法是如何让AI同时具备思考和行动能力的？

A：ReAct让AI在执行任务时交替生成"思考"和"行动"两种内容。每次思考时，AI会用自然语言分析当前情况、规划下一步；然后采取具体行动，比如搜索信息或执行指令；行动后获得观察结果，再基于这个结果进行下一轮思考。这种"思考-行动-观察-再思考"的循环，模仿了人类解决问题的自然方式，让AI不会只空想也不会盲目行动，而是把两者有机结合起来。

Q2：ReAct方法在实际任务中比传统方法提升有多大？

A：在复杂问答任务中，ReAct的准确率达到50%以上，而纯思维链方法只有40%多，标准方法只有30%多。在虚拟家居任务中，ReAct的成功率达到80%左右，接近人类专家的90%，而思维链方法只有30%多。更重要的是，ReAct大幅减少了AI编造事实的现象，从每四个答案出现一次降低到每十五个答案才出现一次。而且当允许人类在关键时刻提供少量提示时，准确率可以进一步提升到70%以上。

Q3：普通人能用上基于ReAct方法的AI产品吗？

A：虽然ReAct还主要是研究阶段的成果，但它的核心思想已经开始影响实际AI产品的设计。未来的智能助手、信息检索工具、自动化系统都可能采用类似的"边思考边行动"机制。由于ReAct不需要对语言模型进行额外训练，只需要好的提示设计，它比较容易集成到现有系统中。随着大型语言模型越来越强大和普及，基于ReAct原理的应用可能会逐渐走进日常生活，帮助人们更高效地查找信息、完成复杂任务。

人工智能语言模型推理人机协作系统

分享至