这项由阿里巴巴通义实验室的李宽、张中旺、尹慧峰等多位研究员共同完成的突破性研究,发表于2025年7月3日的arXiv平台,论文编号为arXiv:2507.02592v1。对这项研究感兴趣的读者可以通过https://github.com/Alibaba-NLP/WebAgent 获取完整的开源代码和详细信息。
在我们日常生活中,当面对复杂问题时,人类往往需要在网络上搜索大量信息,然后像侦探一样拼凑线索来找到答案。比如你想知道"某位著名软件开发者在1980年代与父亲共同购买的第一台计算机型号",这需要你先识别这个人的身份,再查找他的个人经历,最后才能得到答案。然而,人类在这种复杂信息搜索中存在明显局限:记忆有限、注意力容易分散,而且无法同时探索多个信息路径。
阿里巴巴的研究团队注意到,像OpenAI的Deep Research这样的顶级AI系统已经在复杂网络搜索任务中展现出超越人类的能力,特别是在BrowseComp这样极具挑战性的基准测试中表现优异。然而,开源的AI模型在面对同样任务时却几乎完全无能为力,准确率接近零。这就像是有些侦探能够轻松破解复杂案件,而另一些侦探却连最基本的线索都找不到。
为了解决这个问题,研究团队开发了WebSailor——一个完整的训练方法体系,专门用来培养AI智能体在面对极度复杂和不确定信息时的推理能力。就像培训一名优秀侦探需要让他接触各种疑难案件一样,WebSailor通过精心设计的高难度训练数据和创新的强化学习算法,让开源AI模型也能获得媲美顶级商业系统的能力。
一、破解信息搜索难题的三个层次
研究团队发现,网络信息搜索任务可以比作三种不同难度的侦探案件。第一类案件就像寻找失物,线索明确,很容易找到答案。比如"2004年理查德·道金斯奖的获得者是谁",这类问题通过简单搜索就能解决。
第二类案件稍微复杂一些,需要串联多个线索。就像追踪一个人的行踪,你需要先找到他在A地的记录,再查到他去了B地,最后确定他的最终位置。这类似于"阿里巴巴现任CEO母校的首位中科院院士是谁"这样的多步骤问题,虽然步骤较多,但每一步都有清晰的逻辑路径。
第三类案件则是真正的挑战——那些没有预设解决路径的复杂迷案。就像面对一个涉及多个嫌疑人、多条时间线、多种可能动机的案件,侦探必须在大量相互关联的线索中摸索前进,创造性地探索各种可能性。这正是WebSailor要解决的核心问题。
现有的训练数据主要集中在前两类相对简单的任务上,这就像只让侦探处理简单案件,当他面对真正的疑难杂案时自然束手无策。因此,要培养真正强大的AI智能体,必须让它接触那些充满不确定性、需要创新思维的复杂场景。
二、构建极具挑战性的训练迷宫
为了创造真正有挑战性的训练数据,研究团队采用了一种巧妙的"知识图谱随机游走"方法。可以把这个过程想象成在一座巨大的图书馆里建造一个复杂的信息迷宫。
首先,他们从维基数据中选择一些相对冷门的实体作为起点,就像选择一本不太知名但很有趣的书作为探索起点。然后,他们使用模拟的网络浏览工具收集这个实体的各种信息,就像仔细阅读这本书的内容,记下其中提到的其他相关概念和人物。
接下来是关键步骤:系统会随机选择已知实体,继续扩展到新的相关实体,建立起它们之间的关系网络。这个过程不是简单的线性链接,而是刻意构建复杂的网状结构,就像在迷宫中故意创造多条交叉路径,让探索者无法依赖简单的直线思维。
更重要的是,研究团队在生成问题时故意引入"信息模糊化"技术。他们会把精确的时间改成模糊的时间段,比如把"2015年"说成"21世纪初期";把具体的名称部分遮蔽,比如说"一个姓F开头的机构创始人";把数量信息转换成定性描述,比如把"市场份额0.8%"说成"市场份额不到1%"。
这种模糊化处理大大增加了问题的初始不确定性,迫使AI系统必须进行推理、比较和综合分析,而不能简单地进行信息检索。就像侦探面对的往往不是"嫌疑人在周二下午3点出现在咖啡厅"这样的明确线索,而是"嫌疑人在本周中段的某个下午出现在市中心的某个饮品店"这样需要进一步核实和推理的模糊信息。
通过这种方法生成的训练数据集被称为SailorFog-QA,它具有三个重要优势:所有数据都基于真实的互联网环境,确保训练与实际应用场景的一致性;多样化的图结构自然产生了需要各种复杂推理模式的问题;这种方法具有高度的可扩展性,可以高效地生成大规模训练数据。
三、重构推理轨迹的艺术
获得复杂的问答对只是第一步,更大的挑战在于如何为这些问题生成高质量的解决轨迹。虽然像QwQ-32B和DeepSeek-R1这样的大型推理模型能够解决一些复杂问题,但直接使用它们的输出进行训练会带来两个严重问题。
第一个问题是"风格污染"。这些模型在推理时往往表现出强烈的个人风格,就像每个名侦探都有自己独特的破案方式。如果直接模仿这些风格,被训练的AI可能会变得过于死板,失去探索新解决方案的灵活性。这就像让新手侦探完全按照福尔摩斯的方式办案,可能会在面对福尔摩斯没有遇到过的新型案件时无所适从。
第二个问题是"上下文过载"。这些模型的推理过程往往非常详细冗长,而复杂的网络智能体任务可能需要几十次工具调用,产生的历史记录很容易超出现代AI模型的上下文处理能力。这就像一个侦探的案件记录过于详细,反而影响了办案效率。
为了解决这些问题,研究团队提出了一种创新的"推理重构"方法。他们首先让专家模型生成完整的解决轨迹,包括所有的原始思考过程。然后,他们选择性地保留成功的行动-观察序列,但丢弃原始的冗长思考过程。这就像保留侦探的所有调查行动和发现的证据,但不保留他冗长的内心独白。
接下来,他们使用另一个强大的指令跟随模型为每个步骤重新生成简洁、目标导向的思考过程。这个过程可以比作请一位经验丰富的导师为每个调查步骤提供清晰、简洁的理由说明。通过这种方式,他们创造出了既保持解决方案逻辑又避免风格污染的高质量训练数据。
这种方法的关键在于强制使用"短链思维"风格,确保最终的推理链足够紧凑,适合长期任务使用。就像训练侦探用最精练的语言记录关键推理步骤,既保持逻辑清晰又不会被过多细节淹没。
四、冷启动与强化学习的完美结合
在获得高质量的训练数据后,WebSailor采用了一个两阶段的训练策略。第一阶段是"拒绝采样微调"(RFT)冷启动,第二阶段是创新的强化学习算法。
冷启动阶段就像为新手侦探提供基础训练。研究团队发现,虽然一些研究建议跳过传统的监督学习直接进行强化学习,但对于如此复杂的网络推理任务,适度的冷启动是必不可少的。这是因为这类任务的奖励信号极其稀疏——大多数情况下AI系统得不到任何有用的反馈,就像新手侦探在没有基础技能的情况下很难从实际办案中学到东西。
在冷启动阶段,系统使用三层过滤机制来确保训练质量。首先是正确性过滤,只保留最终答案正确的轨迹。其次是长度过滤,因为专家模型通常具有更强的长文本处理能力,所以要剔除超过32k令牌的轨迹以适应目标模型的能力。最后是复杂度过滤,只保留需要5次以上工具调用的轨迹,确保模型学习到真正的复杂推理模式。
第二阶段引入了研究团队创新开发的"重复采样策略优化"(DUPO)算法。传统的智能体强化学习面临一个严重问题:由于需要与环境多轮交互,训练速度极其缓慢。这就像让侦探一个案子一个案子地积累经验,效率很低。
DUPO算法通过两个动态采样策略解决了这个问题。在训练前,算法会过滤掉过于简单的案例(那些在8次尝试中全部成功的问题)。在训练过程中,系统不会用填充来扩展批次,而是从同一批次中复制那些具有非零标准差的样本。相比于其他方法的顺序处理,这种方法实现了大约2-3倍的加速。
就像组织侦探培训时,不让学员重复练习已经完全掌握的简单案例,而是让他们多次演练那些仍有改进空间的中等难度案例。这样既保证了训练效果,又大大提高了训练效率。
为了避免奖励欺骗问题,研究团队采用了基于规则的奖励机制,结合格式验证和答案验证。格式分数检查推理轨迹是否遵循预定义格式,答案分数使用AI裁判确定最终预测是否正确。这确保了系统不会钻空子,而是真正学会解决问题。
五、突破性实验结果
WebSailor在多个权威基准测试中展现出了令人瞩目的性能表现,真正实现了开源模型与顶级商业系统的能力对等。
在最具挑战性的BrowseComp-en基准测试中,WebSailor-72B达到了12.0的准确率,相比之下,其他开源方法如WebDancer-32B只有2.5,WebThinker-RL只有2.8。更令人惊讶的是,即使是相对较小的WebSailor-7B也达到了6.7的准确率,显著超越了基于大得多的32B模型构建的竞争系统。这证明了性能提升主要来自训练方法的创新,而不仅仅是模型规模的增加。
在中文版本的BrowseComp-zh测试中,WebSailor-72B取得了30.1的成绩,与顶级商业系统Doubao的26.0分相当,这标志着开源模型首次在如此复杂的任务中达到了商业级别的性能水平。
更重要的是,WebSailor展现出了优秀的任务泛化能力。在GAIA基准测试中,WebSailor-72B达到了55.4的准确率,在XbenchDeepSearch中达到了55.0分。虽然在GAIA上的领先优势相对较小,但研究团队的分析显示,这主要是因为GAIA中包含大量数学和计算任务,而WebSailor专门针对信息检索优化。在纯信息检索子集上,WebSailor的表现依然非常出色。
为了验证WebSailor在简单任务上的兼容性,研究团队在SimpleQA基准上进行了测试。结果显示,WebSailor-72B达到了93.5%的准确率,显著超越了所有其他方法,证明了基于复杂不确定性驱动推理模式的训练具有良好的向下兼容性。
六、深度分析与发现
研究团队通过详细的对比分析揭示了WebSailor成功的关键因素。在训练数据复杂度分析中,他们发现SailorFog-QA的工具调用分布与BrowseComp-en基准测试高度相似,都呈现长尾分布,大量样本需要超过5次工具调用,有些甚至需要20多次交互。相比之下,WebDancer的训练数据严重偏向简单任务,超过50%的轨迹只需要2次工具调用,几乎没有超过10次的复杂案例。
在强化学习效果分析中,研究团队比较了Pass@1和Pass@3的性能差异。结果显示,强化学习训练在所有基准测试中都带来了显著提升,其中在最困难的BrowseComp任务上改进最为明显。这种差异很有意义:BrowseComp的极端复杂性要求智能体生成异常长且复杂的轨迹,使得稳定、可重复的成功变得困难。强化学习通过强化成功策略和剪除无效路径,显著提高了模型收敛到连贯解决方案的能力。
冷启动实验的对比揭示了另一个重要发现。虽然直接强化学习方法在Pass@1准确率上显示出更大的增长幅度,但经过RFT冷启动的模型最终收敛性能明显更优。更重要的是,冷启动模型的工具调用次数在整个训练过程中保持高位且稳定,而直接强化学习模型的工具调用次数虽然稳步增长,但始终维持在较低水平,表明其无法掌握长期推理。这在BrowseComp-en上的性能差距尤其明显,说明没有冷启动的情况下,模型很难通过自我探索获得那些只有强大推理模型才具备的复杂策略。
七、技术创新的实际意义
WebSailor的技术突破不仅体现在性能数字上,更重要的是它证明了开源AI系统完全有能力达到甚至超越商业闭源系统的水平。这种突破具有深远的意义。
从技术层面来看,WebSailor验证了"不确定性驱动训练"这一全新范式的有效性。传统方法往往专注于让AI系统学习确定性的、有明确解决路径的任务,这就像只训练侦探处理有明确证据链的案件。而WebSailor证明了,通过精心设计高不确定性的训练场景,可以培养出AI系统真正的创新推理能力,让它们能够在没有预设解决方案的情况下找到正确答案。
从实用价值来看,WebSailor展现出的"超人级"推理能力意味着AI助手在处理复杂信息查询时将变得更加可靠和强大。当用户提出那些需要综合多个信息源、进行复杂推理的问题时,配备WebSailor技术的AI系统能够像经验丰富的研究助手一样,系统性地搜索、分析和综合信息,最终提供准确可靠的答案。
从开源生态的角度来看,WebSailor的成功表明开源社区完全有能力开发出媲美顶级商业产品的AI技术。这不仅降低了先进AI技术的使用门槛,也为更多研究者和开发者提供了学习和改进的基础,有望推动整个AI领域的快速发展。
研究团队也诚实地指出了当前方法的局限性。由于将训练轨迹限制在32k令牌以下,这可能限制了模型处理更复杂问题的能力。另外,WebSailor有时会表现出"过度思考"的倾向,即对看似简单的问题也会调用多步工具进行交叉验证。不过,研究团队的定性分析表明,这种行为往往不是盲目探索,而是在进行交叉验证,使用不同信息源来验证初始发现,这实际上体现了系统的谨慎和可靠性。
说到底,WebSailor代表了AI智能体发展的一个重要里程碑。它不仅在技术上实现了突破,更重要的是为AI系统获得真正的"超人级"能力指明了方向。通过专门针对高不确定性场景的训练,结合创新的强化学习方法,AI系统能够发展出超越人类认知局限的推理能力。
这种能力的获得并非偶然,而是来自于对问题本质的深刻理解和巧妙的解决方案设计。研究团队认识到,真正的智能不在于记忆大量事实,而在于面对不确定性时的推理和探索能力。WebSailor正是通过模拟这种挑战,培养出了AI系统的"智慧"而非仅仅是"知识"。
展望未来,这项研究为AI智能体的发展开辟了新的道路。随着技术的进一步完善和计算资源的提升,我们有理由相信,基于类似原理开发的AI系统将在更多领域展现出超越人类的能力,成为我们探索知识、解决问题的强大伙伴。对于普通用户而言,这意味着将来的AI助手不仅能回答简单问题,更能协助我们处理那些需要深度研究和复杂推理的挑战性任务,真正成为我们思考和决策的得力助手。
Q&A
Q1:WebSailor是什么?它能做什么? A:WebSailor是阿里巴巴开发的AI智能体训练方法,专门让AI在复杂网络信息搜索中实现"超人级"推理。它能让AI像资深侦探一样,在面对没有明确解决路径的复杂问题时,通过创新性探索和推理找到正确答案。比如追踪一个人的复杂经历或查找历史事件的关联信息等。
Q2:WebSailor会不会取代人类的信息搜索工作? A:WebSailor主要是增强而非取代人类能力。它在处理需要大量交叉验证和复杂推理的信息查询方面确实超越了人类,但仍需要人类提出问题和判断答案的实用性。更像是给每个人配备了一个永不疲倦、记忆力超群的研究助手。
Q3:普通人能使用WebSailor技术吗? A:目前WebSailor还主要是研究阶段的技术,但阿里巴巴已经开源了相关代码。随着技术成熟,预计将来会集成到各种AI助手产品中,让普通用户在遇到复杂信息查询需求时能够获得更准确、更全面的帮助。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。