微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

阿里巴巴推出WebShaper：让AI像人一样搜索信息的革命性突破

信息搜索人工智能形式化方法

阿里巴巴推出WebShaper：让AI像人一样搜索信息的革命性突破

作者：科技行者

2025-07-25 11:44

分享至：

阿里巴巴通义实验室推出WebShaper系统，通过创新的形式化驱动方法让AI具备人类级别的信息搜索推理能力。该系统在权威测试中取得优异成绩，WebShaper-72B模型在GAIA测试中获得60.19分，超越众多开源系统。其核心创新在于建立数学化的任务表示框架和智能扩展器，系统化生成高质量训练数据，有望显著改变未来的信息搜索体验。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-25 11:44 • 科技行者

当我们想要了解某个复杂问题时，通常会在网上搜索各种资料，然后把这些信息拼凑起来得出答案。现在，阿里巴巴通义实验室的研究团队开发出了一个名为WebShaper的系统，让人工智能也能像人类一样进行这种复杂的信息搜索和推理。这项突破性研究由郑伟涛、吴嘉龙、殷文彪、张俊凯等十多位研究人员共同完成，于2025年7月发表。有兴趣深入了解的读者可以通过https://github.com/Alibaba-NLP/WebAgent 或 https://huggingface.co/datasets/Alibaba-NLP/WebShaper 访问相关资源和数据集。

这项研究解决了一个困扰AI领域已久的难题：如何让人工智能具备像人类一样的信息搜索和推理能力。想象一下，当你想知道"哪位球员既在1990年代出生，又在2004-05赛季为一支成立于1966年的东德足球队效力"这样复杂的问题时，你需要先找到这支球队是谁，再查找这支球队在特定赛季的球员名单，最后筛选出符合年龄条件的球员。整个过程需要多次搜索、筛选和推理。传统的AI系统在处理这类需要多步骤信息搜索的问题时往往力不从心，而WebShaper则能够像经验丰富的研究员一样，有条不紊地完成这些复杂任务。

在权威的GAIA基准测试中，WebShaper-72B模型取得了60.19分的成绩，超越了众多知名系统，成为开源信息搜索AI中的佼佼者。这个分数意味着什么呢？简单来说，就是在100个需要复杂信息搜索的问题中，WebShaper能够正确回答其中的60个，这个成绩已经接近商业化的顶级系统。

研究团队的创新之处在于他们开发了一套全新的训练数据生成方法。传统方法就像是先随便收集一堆食材，然后根据现有食材来决定做什么菜。而WebShaper的方法则相反，它先确定要做什么菜，然后有针对性地去寻找合适的食材。这种"菜谱驱动"的方法确保了训练数据的质量和多样性，让AI能够学到更加系统化的信息搜索技能。

一、重新定义信息搜索：从随机收集到精准设计

传统的AI训练数据生成方式存在一个根本问题，就像一个没有章法的图书管理员，先把各种书籍随意堆放，然后再试图从这堆书中找出有用的信息来出考试题。这种方法虽然能够产生一些训练数据，但往往会导致信息结构混乱、推理路径不清晰的问题。

研究团队发现，现有的信息搜索AI训练方法大多采用"信息驱动"的方式。这种方式的工作流程是这样的：首先在互联网上大量收集信息，然后将这些信息整理成结构化的格式，最后让大语言模型根据这些结构化信息生成问题。这就好比先去市场买了一大堆随机的蔬菜，回家后再想办法用这些蔬菜做出一道菜。

这种方法有两个明显的弊端。第一个问题是信息结构与推理结构之间的不匹配。当AI模型试图理解复杂的信息结构时，很难确保生成的问题具有清晰的推理逻辑。就像用随机买来的食材做菜，很难保证做出来的菜品味道协调一样。第二个问题是信息检索的无序性会导致大量冗余和同质化的信息结构，限制了任务的多样性和知识覆盖面。

WebShaper提出了一种截然不同的"形式化驱动"方法。这种方法首先建立了信息搜索任务的数学形式化表示，然后基于这个形式化框架来指导数据的生成。这就像一个经验丰富的厨师，先确定要做什么菜，然后根据菜谱的要求去精确购买所需的食材。

为了实现这种形式化表示，研究团队基于集合论开发了一套完整的信息搜索任务描述语言。他们将信息搜索过程抽象为对"知识投影"的操作。知识投影可以理解为在特定关系下的实体集合。比如说，如果我们有一个关系叫"出生于"，那么"出生于90年代"这个知识投影就代表所有在1990-1999年间出生的人的集合。

这种形式化方法支持两种基本操作：并集和交集。并集操作用于处理信息搜索中的不确定性问题。比如当我们只知道目标球员在2000-2010年间的某个时间段效力，但不知道具体年份时，就可以用并集操作来表示"在2000年效力的球员"与"在2001年效力的球员"与"在2002年效力的球员"等的合集。交集操作则用于处理需要同时满足多个条件的复杂查询。比如寻找既在特定年份效力又在特定年代出生的球员，就需要用到交集操作。

研究团队证明了并集操作满足分配律，这为简化复杂的信息搜索表达式提供了数学基础。通过这种形式化表示，任何复杂的信息搜索任务都可以被分解为基础知识投影操作的组合，这为系统化地生成多样化的训练任务奠定了理论基础。

二、智能扩展器：让AI学会自主思考和验证

有了形式化的任务表示方法，下一个挑战就是如何基于这套方法自动生成高质量的训练数据。这就需要一个能够理解形式化语言并自主进行信息搜索的智能系统，研究团队将其称为"扩展器"。

扩展器的工作方式很像一个资深的研究助理。当给它一个简单的问题时，它能够自动将这个问题扩展成更复杂、更有挑战性的问题，同时确保新问题的答案仍然是正确的。这个过程是通过多轮迭代完成的，每一轮迭代都会增加问题的复杂度。

整个扩展过程从构建种子问题开始。研究团队首先构建了一个离线的维基百科数据库，通过随机游走的方式在不同的维基百科文章间跳转，收集相关内容。然后使用大语言模型基于收集到的内容生成初始的问答对。为了确保这些种子问题的质量，研究团队设计了一套过滤机制，使用WebDancer框架对每个问题进行5次尝试回答，只保留至少有一次回答正确的问题。通过这种方式，他们最终构建了18000个高质量的种子问题。

扩展器采用了一种叫做"逐层扩展"的策略。传统的扩展方法要么是随机添加信息（就像在一道菜里随意加调料），要么是按顺序链式扩展（就像做菜时严格按照步骤1、2、3进行）。但这两种方法都有明显的缺陷：随机添加容易产生冗余信息，而链式扩展容易产生推理捷径，让AI可以通过简单的路径就得到答案，而不需要进行复杂的多步推理。

逐层扩展策略则避免了这些问题。它的工作原理是这样的：首先找出当前问题中所有的"叶子常量"（可以理解为推理链条的端点），然后逐一对这些叶子常量进行扩展，将它们转换为需要进一步推理才能得到的变量。这就像在解谜游戏中，每次都把最简单的线索替换成需要额外推理步骤才能得到的更复杂线索，确保玩家必须经过完整的推理过程才能找到答案。

扩展器本身就是一个智能代理，基于ReAct框架构建，能够进行"思考-行动-观察"的循环。它配备了三种核心工具：搜索工具用于在网上查找相关信息，总结工具用于整合多个信息源的内容，验证工具用于确保生成的子问题符合形式化要求且具有适当的难度。

验证过程包含两个关键步骤。首先检查生成的子问题是否与原常量在类型上保持一致，确保扩展后的问题在逻辑上是合理的。然后检查子问题是否过于简单，如果AI可以直接回答而不需要进行信息搜索，那么这个子问题就会被拒绝。这种严格的验证机制确保了生成的训练数据既具有挑战性又保持了正确性。

三、从理论到实践：构建完整的训练流程

有了形式化框架和智能扩展器，接下来需要将生成的复杂问题转换为AI可以学习的训练数据。这个过程包括轨迹构建、数据过滤和模型训练三个关键步骤。

轨迹构建是指为每个生成的问题创建完整的解答过程。研究团队开发了一个基于QwQ模型的智能代理，这个代理同样采用ReAct框架，能够模拟人类研究员解决复杂信息搜索问题的过程。代理配备了两个核心工具：搜索工具用于进行Google搜索，访问工具用于深入阅读特定网页内容。

对于每个问题，代理会进行5次独立的尝试，每次尝试都会产生一个完整的解答轨迹，包括思考过程、搜索行为、信息收集和最终答案。这种多次尝试的方法能够捕捉到解决复杂问题时可能存在的多种有效路径，为AI学习提供更丰富的样本。

数据过滤阶段采用了严格的质量控制标准。首先使用评判大语言模型检查每个轨迹的最终答案是否正确，只保留正确的轨迹。然后检查轨迹中是否存在工具调用错误、幻觉现象或严重的重复行为，进一步筛选出高质量的训练数据。通过这种多层过滤机制，研究团队最终获得了5000个高质量的训练轨迹。

模型训练采用了监督微调加强化学习的两阶段方法。在监督微调阶段，AI模型学习如何模仿专家的解题轨迹，掌握基本的信息搜索技能。在强化学习阶段，模型通过与环境的反复交互来优化其决策策略，学会在面对新问题时选择最优的搜索路径。

强化学习使用了GRPO算法，这是一种专门为语言模型设计的策略优化方法。算法会对模型的每次搜索行为进行评分，奖励那些能够有效接近正确答案的行为，惩罚那些偏离目标的行为。通过这种奖惩机制，模型逐渐学会了如何在复杂的信息搜索空间中找到最有效的路径。

四、实验验证：超越现有系统的优异表现

为了验证WebShaper的有效性，研究团队在两个权威的信息搜索基准测试上进行了全面评估：GAIA和WebWalkerQA。这些测试就像是AI领域的"高考"，专门用来评估AI系统在复杂信息搜索任务上的表现。

在GAIA测试中，WebShaper-72B模型取得了60.19分的优异成绩，显著超越了其他开源系统。相比之下，第二名的系统得分为55.4分，WebShaper的优势相当明显。更令人印象深刻的是，WebShaper-32B模型也取得了52.43分的好成绩，这意味着即使在较小的模型规模下，WebShaper的方法仍然能够保持竞争优势。

在WebWalkerQA测试中，WebShaper同样表现出色，72B模型取得了52.2分的成绩，成为该测试中表现最好的系统。这个结果特别有意义，因为WebWalkerQA测试更注重评估AI在真实网络环境中的信息搜索能力，更接近实际应用场景。

为了更好地理解WebShaper方法的优势，研究团队进行了详细的对比分析。他们将WebShaper与现有的几种代表性数据集进行了比较，包括WebWalkerQA、E2HQA和MHQA等。结果显示，在相同的训练数据量下，使用WebShaper数据集训练的模型在各种规模下都能取得更好的性能。

特别值得注意的是强化学习阶段带来的显著提升。在GAIA测试中，32B模型经过强化学习后性能提升了7.8分，72B模型更是提升了13.5分。这种大幅提升说明WebShaper生成的训练数据具有良好的可优化性，能够支持AI系统通过强化学习获得进一步的能力提升。

五、深入分析：揭示成功背后的关键因素

为了理解WebShaper成功的原因，研究团队进行了多个维度的深入分析。这些分析就像医生给病人做全身检查一样，从各个角度验证了方法的有效性。

首先是领域分布分析。WebShaper生成的数据集覆盖了广泛的知识领域，其中体育类问题占21%，学术类问题占17%，政治类问题占15%，娱乐类问题占13%，文学类问题占12%，其余领域也都有适当的覆盖。这种均衡的分布确保了训练出的AI系统具有广泛的知识适应性，不会在特定领域出现明显的偏向。

形式化方法的有效性验证显示了显著的优势。研究团队构建了一个对照组，使用自然语言而非形式化语言进行数据生成，然后比较两种方法的效果。结果显示，使用形式化语言生成的数据在所有测试模型上都取得了更好的性能，这证明了形式化方法确实能够产生更高质量的训练数据。

逐层扩展策略的优势也得到了实验验证。与顺序扩展方法相比，逐层扩展生成的数据能够让AI模型取得更好的性能。这是因为逐层扩展避免了推理捷径和信息冗余，确保AI必须经过完整的多步推理过程才能得到答案。

工具使用分析揭示了WebShaper训练数据的另一个重要特征：复杂性。统计显示，解决WebShaper生成的问题平均需要更多的搜索和访问操作。在需要3次以上搜索操作的复杂任务中，WebShaper的比例是其他数据集的3-4倍。这种高复杂度的任务分布培养了AI更强的信息处理和推理能力。

案例研究进一步展示了WebShaper方法的优势。以一个典型问题为例："哪位作者既撰写了分析中世纪北欧与北美原住民接触的学术文章，又在同一期刊上发表了关于Lake Mohave文物和更新世湖水位的分析文章，这位作者所写章节的标题是什么？"这个问题需要多步推理：首先找到发表了这两篇文章的期刊，然后确定作者身份，最后找到该作者撰写的章节标题。整个推理过程不存在捷径，必须经过每个步骤才能得到正确答案。

六、技术创新：突破传统数据生成的局限

WebShaper在技术实现上有几个重要的创新点，这些创新共同构成了其成功的基础。

知识投影表示法是核心创新之一。传统的信息搜索任务表示方法往往依赖自然语言描述，这种描述方式虽然直观，但缺乏精确性和可操作性。WebShaper提出的知识投影表示法将复杂的信息搜索任务转换为数学表达式，每个表达式都可以通过基本的集合操作来计算。

为了使这种形式化表示更容易被AI理解和操作，研究团队设计了一套专门的表示语言。这种语言使用三元组[X, r, S]来表示一个知识投影，其中X是变量，r是关系，S可以是变量或常量。通过变量和常量的组合，可以表达任意复杂的信息搜索任务。

分布律的应用简化了复杂表达式的处理。研究团队证明了知识投影操作满足分布律，即R(S1) ∪ R(S2) = R(S1 ∪ S2)。这个数学性质允许将复杂的并集操作转换为简单的集合合并操作，大大简化了系统的实现复杂度。

递归处理机制使得系统能够处理任意深度的嵌套查询。通过将递归的知识投影展开为平坦的三元组列表，系统可以系统化地处理各种复杂的信息搜索任务，而不会因为递归深度的增加而导致处理困难。

智能扩展器的自主验证能力是另一个重要创新。传统的数据生成方法通常缺乏质量控制机制，生成的数据质量参差不齐。WebShaper的扩展器集成了双重验证机制：一致性验证确保生成的子问题在类型上与原问题保持一致，难度验证确保生成的问题具有适当的挑战性。

七、实际应用与未来展望

WebShaper的成功不仅体现在实验室的测试成绩上，更重要的是它为实际应用开辟了新的可能性。这种能够进行复杂信息搜索和推理的AI系统在多个领域都有巨大的应用潜力。

在学术研究领域，WebShaper可以帮助研究人员快速收集和整理相关文献，进行跨学科的知识发现。当研究人员需要了解某个复杂问题的全貌时，AI系统可以自动搜索相关资料，分析不同观点，并提供综合性的总结报告。

在商业分析领域，WebShaper可以用于市场调研、竞争分析和投资决策支持。企业分析师可以让AI系统自动收集行业数据、分析市场趋势、评估竞争对手的策略，从而做出更明智的商业决策。

在教育领域，WebShaper可以成为智能学习助手，帮助学生进行深度学习和研究性学习。当学生遇到复杂问题时，AI系统可以引导他们逐步收集信息、分析问题，培养批判性思维和研究能力。

在新闻媒体领域，WebShaper可以协助记者进行调查报道，自动收集相关信息、核实事实、发现新闻线索。这种能力对于需要大量事实核查和深度调查的新闻报道尤其有价值。

研究团队的工作也为AI领域的发展指明了新方向。形式化驱动的数据生成方法不仅适用于信息搜索任务，也可以推广到其他需要复杂推理的AI任务中。这种方法的核心思想是先建立任务的数学模型，然后基于这个模型系统化地生成训练数据，这种范式转换可能会影响整个AI训练数据生成领域的发展。

同时，WebShaper的成功也显示了开源AI系统的巨大潜力。在商业化的AI系统占据主导地位的背景下，WebShaper证明了开源社区同样可以开发出具有竞争力的AI系统。这对于推动AI技术的民主化和普及化具有重要意义。

从技术发展趋势来看，WebShaper代表了从"数据驱动"向"任务驱动"的重要转变。传统的AI开发方法往往是先收集大量数据，然后让AI从数据中学习规律。而WebShaper的方法是先明确任务的结构和要求，然后有针对性地生成符合要求的训练数据。这种转变可能会成为未来AI系统开发的新范式。

说到底，WebShaper不仅仅是一个技术创新，更是对AI如何学习和思考的深度思考。它告诉我们，要让AI真正具备人类水平的智能，不是简单地给它更多数据，而是要教会它如何系统化地思考问题、如何有条理地收集信息、如何严谨地进行推理。这种方法论的转变可能会对整个AI领域产生深远的影响，推动AI系统向更加智能、更加可靠的方向发展。

对于普通用户来说，WebShaper的成功意味着我们可能很快就能享受到更加智能的信息搜索服务。未来的搜索引擎不只是简单地返回相关网页，而是能够理解复杂问题、主动收集信息、进行深度分析，并提供准确、全面的答案。这将极大地改变我们获取和处理信息的方式，让每个人都能更轻松地获得高质量的知识服务。

Q&A

Q1：WebShaper是什么？它与传统的AI搜索有什么不同？ A：WebShaper是阿里巴巴开发的AI信息搜索系统。与传统AI搜索不同，它能像人类研究员一样进行多步推理和复杂信息整合，而不是简单返回相关网页。它通过数学形式化方法训练，能够系统化地处理需要多次搜索、筛选和推理的复杂问题。

Q2：WebShaper的性能表现如何？能超过其他AI系统吗？ A：WebShaper在权威测试中表现优异，其72B模型在GAIA测试中获得60.19分，显著超越其他开源系统的55.4分。在WebWalkerQA测试中也取得52.2分的最佳成绩，接近商业化顶级系统的水平，证明了其在复杂信息搜索任务上的优越性。

Q3：普通人能使用WebShaper吗？它会如何改变我们的搜索体验？ A：目前WebShaper主要是研究阶段的技术，普通用户可以通过GitHub等平台了解相关信息。未来基于此技术的应用可能会让搜索变得更智能，不再只是返回网页链接，而是能够理解复杂问题、主动收集相关信息并提供准确全面的分析结果，大大提升信息获取的效率和质量。

信息搜索人工智能形式化方法

分享至