微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

从流水线到智能大脑：AI智能体如何学会自主思考、使用工具和记忆信息

人工智能强化学习智能体系统

从流水线到智能大脑：AI智能体如何学会自主思考、使用工具和记忆信息

作者：科技行者

2025-12-25 23:14

分享至：

这项研究由北京交通大学研究团队完成，系统阐述了人工智能智能体从"流水线"范式向"模型原生"范式的转变。研究表明，通过强化学习，AI可以自主学会规划、使用工具和管理记忆等核心能力，而不再依赖外部脚本。论文详细分析了这一范式转变如何重塑深度研究助手和GUI智能体等实际应用，并探讨了未来多智能体协作和自我反思等新兴能力的发展方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-25 23:14 • 科技行者

这是一项由北京交通大学的桑继涛、肖金林、韩佳润、陈吉林、陈晓毅、韦舒宇、孙永杰和王宇航等研究人员共同完成的研究。该论文发表于2025年10月的美国计算机协会学报（J. ACM），论文编号为arXiv:2510.16720v2。有兴趣深入了解的读者可以通过这个编号在学术数据库中查询完整论文。

一、从被动回答到主动思考：AI的根本转变

想象一下，几年前的人工智能就像一个非常聪明的秘书，你问它什么，它就回答什么。但现在，研究人员正在把AI变成一个真正的助手，能够自己制定计划、使用工具、记住信息，甚至在遇到问题时能够自主探索解决方案。这个转变听起来简单，但实际上代表了人工智能发展中的一个重大里程碑。

这项研究的核心问题很有趣：我们应该如何构建这样的智能体？长期以来，研究人员采用的是一种"流水线"的方式。就像工厂的流水线一样，每个环节都有专门的工具和规则。比如，当你想让AI制定一个计划时，你需要给它一个特殊的提示词，告诉它"一步步思考"；当你想让它使用工具时，你需要建立一个系统来解析它的输出并执行相应的操作；当你想让它记住信息时，你需要建立一个数据库来存储和检索这些信息。

但这种方式有个根本的问题。这些流水线上的每一个环节都是从外部强加给AI的，就像你用绳子牵着一只狗，狗并不是真正理解为什么要往那个方向走，只是被迫跟随。当环境改变，或者遇到流水线没有预见到的情况时，整个系统就容易崩溃。

研究人员提出了一个激进的想法：与其不断地从外部调整这些流水线，不如让AI自己学会这些能力。这就像教一个孩子不是通过不断纠正他的每一步行动，而是让他通过尝试和失败来学会走路。这种新的方式被称为"模型原生"范式，意思是这些能力不再是外部强加的，而是内化在AI的参数中的。

二、强化学习：让AI学会从经验中成长

现在让我们来理解一个关键的转变是如何发生的。传统上，AI模型是通过监督学习训练的，就像学生做练习题，老师给出标准答案。但对于智能体任务来说，这种方法有个致命的问题：你很难为复杂的任务提供标准答案。

比如说，让AI写一份研究报告。这个任务涉及多个步骤：搜索信息、评估信息的质量、组织思路、撰写内容。一个人类专家可能需要花费数小时来完成这项工作，更别说为AI标注出每一步应该怎么做的"标准答案"了。如果你要为成千上万个这样的任务提供标准答案，成本会高得离谱。

强化学习提供了一个优雅的解决方案。与其告诉AI"应该怎么做"，强化学习让AI自己去尝试，然后根据结果的好坏给予奖励或惩罚。这就像教一个孩子骑自行车，你不需要告诉他每一个肌肉应该怎么动，你只需要在他成功时给他鼓励，在他摔倒时帮他起来。通过反复的尝试和反馈，他最终学会了骑自行车。

这种方法之所以能够工作，关键在于现代AI模型已经通过海量数据的预训练获得了丰富的世界知识。这个预训练的基础就像一个人已经学会了走路，现在要学的是如何跑步。强化学习不是从零开始教AI，而是在已有的知识基础上，通过与环境的互动，让AI学会更复杂的行为。

强化学习相比于传统的监督学习有两个根本的优势。首先，它能够处理动态的学习过程。在监督学习中，AI被动地接收一个固定的数据集。但在强化学习中，随着AI的策略不断改进，它生成的数据也在不断变化，这样AI就能够探索到监督学习中不存在的新的、可能更优的解决方案。其次，强化学习提供了更灵活的反馈机制。监督学习要求有一个"正确答案"，但在现实中，很多任务没有唯一的正确答案，只有相对更好的答案。强化学习通过比较不同方案的相对价值，能够处理这种情况。

三、规划能力的演进：从外部脚本到内部思维

让我们具体看看AI的三个核心能力是如何从外部流水线转变为内部能力的。首先是规划能力，也就是AI能够制定计划、分解目标的能力。

在早期的流水线方式中，有一种方法叫做"思维链"提示。这个方法很简单：你给AI一些例子，展示如何一步步思考，然后AI就会模仿这种思考方式。比如，你可能会告诉AI："让我们一步步思考这个问题"，然后AI就会生成一系列的推理步骤。但这里有个问题：AI并不是真正理解为什么这样思考是有效的，它只是学会了在看到这种提示时，输出看起来像推理步骤的文本。

这就像一个演员背台词。演员可能完美地背诵了莎士比亚的对白，但他不一定理解剧本的深层含义。当剧本改变时，或者当他需要即兴表演时，他就会陷入困境。同样，当AI遇到与训练数据不同的新情况时，这种基于提示的方法就容易失效。

新的方法是让AI真正学会规划。研究人员使用强化学习来训练AI，使其能够自己生成推理步骤。一个突破性的例子是OpenAI的o1模型。这个模型通过大规模的强化学习，学会了在生成最终答案之前进行深思熟虑。它不是被提示去思考，而是真正学会了什么时候需要思考、应该如何思考。

为了支持这种学习，研究人员开发了多种方法来生成训练数据。一种方法是多路径采样：AI生成多个可能的推理路径，然后根据最终答案是否正确来筛选高质量的路径。另一种方法是树搜索，这更像是AI在一个思维树中进行搜索，在每一步都评估哪条路径最有前景。这些方法的共同点是，它们都让AI通过实际的尝试和反馈来学习规划，而不是被动地模仿提示。

四、工具使用能力：从被动执行到主动决策

接下来是工具使用能力。在流水线时代，AI使用工具的方式很简单：AI生成一个结构化的请求，系统解析这个请求，然后执行相应的操作。比如，AI可能会生成一个API调用，系统就会执行这个调用。但这里的问题是，AI并不真正理解使用这个工具的后果。它就像一个盲人在黑暗中挥舞一根魔杖，不知道魔杖会造成什么影响。

新的方法是让AI学会真正理解工具的作用。通过强化学习，AI可以学会什么时候应该使用工具、应该使用哪个工具、以及如何根据工具的结果来调整自己的策略。这就像一个真正的工匠，他不仅知道如何使用锤子，还知道什么时候应该用锤子，什么时候应该用螺丝刀。

OpenAI的o3模型展示了这种能力。它学会了在自己的推理过程中调用各种工具，就像一个研究员在做研究时，知道什么时候应该查阅文献、什么时候应该进行实验、什么时候应该咨询专家。Moonshot的K2模型进一步推进了这个方向，通过合成大规模的工具使用轨迹和多阶段的强化学习，使AI能够处理更复杂的多步决策任务。

五、记忆能力：从外部存储到内部参数化

最后是记忆能力。这可能是三个能力中最容易被忽视的，但它对于长期任务的成功至关重要。

在流水线时代，短期记忆的处理方式是通过对话总结。当一个对话变得太长时，系统会总结之前的对话内容，然后把这个总结插入到新的对话中。这就像一个秘书在会议中间停下来，把之前讨论的要点总结一遍。这种方法有个问题：总结过程中会丢失信息，而且总结本身也需要AI的处理能力。

长期记忆则是通过检索增强生成来处理的。系统会把过去的信息存储在一个向量数据库中，当需要某些信息时，就从数据库中检索。这就像一个图书馆员，他不需要记住所有的书，只需要知道如何找到它们。但这种方法的问题是，检索过程可能不准确，而且系统需要维护一个额外的数据库。

新的方法是让AI学会自己管理记忆。Qwen-2.5-1M模型通过合成长序列数据，扩展了AI的原生上下文窗口，让AI能够直接处理更长的文本。MemAct模型更进一步，它把记忆管理重新框架化为一个工具使用问题：AI学会了什么时候应该存储信息、什么时候应该检索信息，就像一个真正聪明的人知道什么时候应该做笔记、什么时候应该翻翻笔记。

对于长期记忆，MemoryLLM模型采用了一个革命性的方法：把记忆参数化为模型内部的隐藏向量，这些向量在模型的每一次前向传播中不断更新。这就像一个人的大脑不仅有短期记忆（当前的思维过程），还有长期记忆（大脑中的神经连接），而这些长期记忆会随着经验的积累而改变。

六、应用实践：深度研究助手和GUI智能体

这些能力的进步不仅仅是学术上的成就，它们已经开始改变实际的应用。研究人员重点讨论了两类应用：深度研究助手和GUI智能体。

深度研究助手是为了处理知识密集型任务而设计的，比如写文献综述、进行市场分析。早期的版本，比如Perplexity，采用的是流水线方式：查询扩展、信息检索、答案生成，每一步都是独立的。Google的Deep Research是第一个升级版本，它把这个过程变成了多轮的迭代过程，但仍然依赖于精心设计的流水线。

真正的转变来自于OpenAI的模型原生Deep Research助手。这个助手是基于o3模型微调的，它的内部策略学会了如何规划整个研究过程。与流水线版本相比，它能够保持更好的长期一致性，进行更深入的信息探索，对不同的信息环境有更强的适应性。最近，通义实验室的WebAgent系列进一步推进了这个方向，WebSailor解决了为不确定任务合成高质量轨迹数据的难题，而通义DeepResearch模型能够在动态的网络环境中执行复杂的多步研究任务。

不过，深度研究助手仍然面临两个关键的挑战。首先，在开放网络上操作会暴露于大量的信息噪声，而强化学习可能会通过奖励虚假的相关性而放大幻觉。其次，为开放式的研究任务定义奖励函数是困难的，因为研究的质量不是由可验证的答案决定的，而是由洞察力和批判性分析等主观因素决定的。

GUI智能体是另一类重要的应用，用于处理操作密集型任务，比如自动化软件测试、工作流自动化。早期的GUI智能体采用流水线方式，比如AppAgent，它通过XML视图层次结构来感知UI元素，或者Mobile-Agent，它调用专门的感知工具如目标检测和光学字符识别。

新的方向是开发模型原生的GUI智能体，它把感知、规划、定位和动作执行都内化到一个统一的策略中。UI-TARS是这个方向的早期尝试，它通过端到端的训练，学会了从视觉和UI上下文中预测低级动作。GUI-Owl和OpenCUA进一步推进了这个范式，通过强化学习优化长期的结果奖励，使GUI智能体获得了更强的鲁棒性、适应性和超越模仿的决策能力。

但模型原生的GUI智能体也面临独特的挑战。首先，与高级的文本任务不同，GUI交互涉及细粒度的低级输入和输出，需要AI在像素级的视觉线索、小部件层次结构和精确的动作序列上进行推理。小的感知或定位错误很容易级联为任务失败。其次，GUI环境是动态演变的，同一个网页在不同的时间可能看起来不同，由于布局变化、弹出窗口或后端更新。这种非平稳性使得并行探索和强化学习特别困难，因为曾经收集的轨迹可能无法泛化到同一任务的后续执行。

七、算法创新：从PPO到GRPO再到DAPO

支撑这个范式转变的是强化学习算法的不断创新。早期的RL方法，比如PPO和DPO，主要用于对齐AI的输出到人类偏好。但这些方法对于长期任务来说效率不足，因为它们依赖于密集的、步级的监督。

为了解决这个问题，研究人员开发了一系列新的、结果驱动的RL算法。GRPO通过计算一组采样响应内的相对奖励来评估优势，避免了需要绝对值评论家网络的需要，从而提高了训练稳定性。DAPO进一步改进了多轮交互的性能，通过解耦正负优势的裁剪机制和动态采样策略，使其特别适合训练长期智能体。这些算法的进步共同形成了一个统一的训练解决方案：基础模型加上RL学习算法加上良好定义的任务环境。

八、数据合成：计算转化为智能的引擎

理解RL在训练智能体中的角色的另一个角度是数据合成。AI的发展历程可以看作是不断尝试以最高效率把计算能力转化为智能。在过去的二十年中，计算能力以每年3-4倍的速度增长，总体增长了万亿倍。

这个过程分为两个主要阶段。在第一个阶段（大约2010-2020年），进步主要由架构创新驱动。从支持向量机到深度神经网络再到Transformer，这些创新使模型能够有效地利用和编码越来越多的数据。在第二个阶段（过去五年），焦点转向了数据侧。自监督学习，特别是下一个令牌预测，首次解锁了使用整个互联网作为预训练语料库的能力。当前的前沿是在后训练中使用RL来把计算转化为高质量的合成数据。

这个过程可以分为两个子阶段。首先是RL用于LLM的内部推理，合成的数据是内部的，不涉及环境交互，比如推理轨迹。其次是RL用于LLM智能体的环境交互，涉及通过工具调用和环境反馈的交互式RL学习，生成捕捉智能体行为后果的交互数据。

从这个角度看，强化学习生成两种类型的合成数据。外推数据来自LLM本身执行的内部认知任务。模型被激励去生成不存在于原始预训练语料库中的程序数据，然后使用奖励信号来选择和放大高质量的样本。比如，在数学推理中，互联网规模的语料库可能包含查询和答案，以及必要的知识，但很少包含完整的、逐步的解决轨迹。RL鼓励模型通过其现有知识空间进行探索，组合已知的概念来生成以前未见的推理路径。当一条路径导致正确答案时，它就被正向强化。

干预数据是当智能体被训练与外部环境交互以完成任务时生成的。自然数据通常是观察性的，比如来自人类GUI操作日志的截图和点击位置对，它们仅仅揭示行为相关性：人类在某些背景下倾向于做什么。相比之下，RL允许智能体主动执行干预，改变环境的状态，并接收奖励。通过学习干预数据而不是被动观察，智能体获得了从行动到结果的因果映射，从而学会了预测其行动的后果。

九、统一的学习框架：基础模型加算法加任务

最近的一个重要趋势是认识到AI研究正在向一个统一的方法论转变。与其为特定问题设计特定的解决方案，研究现在从一个统一的方法论开始：LLM加RL，然后寻求合适的任务来评估和进一步增强模型能力。这个统一的范式可以表示为：基础模型加学习算法加任务环境。

基础模型提供了通用的世界知识和推理先验。学习算法（比如RL或偏好优化）通过交互和优化来适应和改进这些能力。任务环境定义了环境、工具集和奖励信号，这些都背景化了学习。在这个框架内，社区的贡献往往集中在几个关键方面。

数据合成涉及创建高质量的、大规模的交互数据来支持RL智能体对经验的需求，使其能够在多样化的约束下学习。奖励函数设计涉及为结果不容易验证的复杂任务制作复杂的奖励函数，通常平衡结果奖励与过程指导。环境和基准构造涉及构建模拟环境和可重现的基准，提供交互式的、可验证的、具有挑战性的场景，既用于训练也用于评估。

任务不仅仅是最终目标，它定义了允许学习算法有效优化基础模型的整个学习世界。这个向统一方法论的趋势类似于经典物理学的发展。在牛顿之前，物理学的子领域是分散的：天体力学由开普勒定律描述，地球力学由伽利略的研究开创，光学和流体动力学有自己的分散的经验和几何原理。牛顿的三运动定律、万有引力定律，加上微积分这个强大的数学工具，提供了一个统一的框架，把这些实验研究统一在一套原则下。

类似的动力学现在可以在AI中观察到，通过LLM加RL方法论的出现。LLM提供了世界知识和基础推理的统一模型，类似于一套基础原则。同时，RL提供了一个动态的、目标导向的优化框架，类似于一个通用问题解决引擎。遵循这个平行，这个方法论"奇点"的兴起正在转变AI研究的焦点，就像牛顿转变了物理学一样。在物理学中，这导致了应用扩展到流体动力学和天体力学等领域，新的焦点是增强能力以解决多体问题等复杂挑战，最终导致了量子理论等理论创新。类似地，AI的实际焦点现在范围从应用扩展到医疗、科学发现和社会系统模拟等实际领域，到增强能力所需的挑战，如持续学习、安全和对齐，最终可能走向关于通用智能的新理论。