这项由阿里巴巴通义实验室的耿鑫宇、夏鹏、张振等研究人员领导的研究发表于2025年8月,完整论文可通过GitHub项目页面https://github.com/Alibaba-NLP/WebAgent获取。研究团队开发了一个名为WebWatcher的AI系统,它能同时理解图片和文字,并像经验丰富的研究员一样在网络上查找信息、分析数据、得出结论。
过去,当我们遇到复杂问题需要深入研究时,通常需要花费大量时间在搜索引擎上查找资料、浏览网页、分析图片和文档,然后将这些信息整合起来得出答案。这个过程就像一名侦探需要收集各种线索、分析证据、推理判断才能破解案件一样复杂。现在,研究团队创造的WebWatcher就像一个永不疲倦的数字侦探,它不仅能理解我们的问题,还能主动搜索相关信息、分析图片内容、访问网页、甚至进行数学计算,最终为我们提供准确全面的答案。
WebWatcher的诞生解决了当前AI助手面临的一个重要问题:大多数AI系统要么只能处理文字信息,要么只能分析图片,很少有系统能够同时处理多种类型的信息并进行深度推理。这就像让一个只会看不会听的侦探去破案,或者让一个只会听不会看的侦探去调查,效果都会大打折扣。WebWatcher的创新之处在于,它既能"看"懂图片,又能"读"懂文字,还能像人类研究员一样使用各种工具来收集和分析信息。
在测试中,WebWatcher在多个极具挑战性的基准测试上都表现出色,特别是在需要同时处理视觉和文本信息的复杂任务中,它的表现超越了包括GPT-4o在内的多个知名AI系统。更令人印象深刻的是,当面对需要多步推理和深度分析的问题时,WebWatcher能够像经验丰富的研究员一样制定调查计划、使用合适的工具、验证信息准确性,最终得出可靠的结论。
研究背景:为什么需要一个会看图的智能搜索助手
当我们在日常生活中遇到复杂问题时,往往需要同时分析文字信息和图片内容才能找到答案。比如,你看到一张陌生动物的照片,想了解这种动物的生活习性和分布范围;或者你需要分析一份包含图表的科学报告,理解数据背后的含义。这些任务就像让一名侦探同时分析现场照片和文字证词一样,需要综合多种信息源才能得出准确结论。
然而,目前大多数AI搜索助手都存在明显的局限性。传统的搜索系统主要处理文字信息,面对图片内容时就像盲人摸象一样无法准确理解。而专门的图像分析系统虽然能够识别图片内容,但在需要结合外部知识进行深度推理时却显得力不从心。这种情况就像让一个只有单一技能的侦探去处理复杂案件,往往会遗漏重要线索或得出错误结论。
研究团队发现,现实世界中的信息查找任务往往需要同时具备多种能力:能够理解图片中的视觉内容,能够搜索和分析文本信息,能够访问网页获取最新资料,甚至能够进行数学计算来验证数据。这就像一名全能侦探需要具备观察、推理、调查、分析等多种技能才能成功破案一样。基于这种认识,他们决定开发一个能够同时处理多种信息类型、使用多种工具的智能助手系统。
更重要的是,研究团队意识到,仅仅能够处理多种信息类型还不够,系统还必须能够进行深度推理和规划。真正的信息研究往往需要多个步骤:首先确定调查方向,然后收集相关证据,接着分析这些证据,最后综合得出结论。这个过程就像侦探破案需要制定调查计划、收集证据、分析线索、验证假设一样复杂。因此,WebWatcher不仅要具备多种"感官"能力,还要具备类似人类研究员的推理和规划能力。
一、WebWatcher的核心能力:像全能侦探一样工作
WebWatcher的设计理念就像培养一名全能数字侦探,它具备了现代信息调查所需的各种技能。当你向它提出一个复杂问题时,WebWatcher首先会像经验丰富的侦探一样分析问题的关键要素,然后制定调查计划,决定需要使用哪些工具和方法来收集信息。
系统的第一项核心能力是图像理解和搜索。当你提供一张图片时,WebWatcher不仅能够识别图片中的对象、场景和文字内容,还能够基于图片内容进行相关信息搜索。这就像一名侦探既能观察现场细节,又能根据观察结果查找相关案例和背景信息。比如,如果你上传一张包含特殊植物的照片,WebWatcher能够识别植物特征,然后搜索相关的植物学资料、生长环境信息和用途说明。
第二项核心能力是智能网页搜索和信息提取。WebWatcher能够根据问题需要,自动生成合适的搜索关键词,在互联网上查找相关资料。更重要的是,它不会简单地返回搜索结果,而是会访问具体网页,提取其中的有用信息,并判断信息的可靠性和相关性。这个过程就像侦探不仅会寻找线索,还会验证线索的真实性和重要性。
第三项核心能力是动态网页访问和内容分析。现代互联网上的很多重要信息都隐藏在具体的网页中,需要点击链接、浏览页面才能获取。WebWatcher具备了访问这些网页并提取关键信息的能力,就像侦探能够深入调查现场、查看详细记录一样。这种能力使得WebWatcher能够获取最新、最准确的信息,而不是仅仅依赖预训练数据中的历史信息。
第四项核心能力是数学计算和数据分析。在处理包含数字、图表或需要计算验证的问题时,WebWatcher能够编写和执行代码来进行精确计算。这就像侦探在分析案件时不仅会直觉判断,还会通过严密的逻辑推理和数据分析来验证结论。无论是解析复杂图表中的数据趋势,还是验证某个数学推论,WebWatcher都能提供准确的分析结果。
最后,WebWatcher还具备了文字识别和处理能力。当遇到包含文字的图片时,比如扫描文档、手写笔记或者图表标签,系统能够准确提取这些文字信息并将其整合到整体分析中。这种能力就像给侦探配备了放大镜,能够仔细观察和分析每一个细节。
所有这些能力的协同工作使得WebWatcher能够处理现实世界中的复杂信息查询任务。它不是简单地使用单一工具来解决问题,而是根据问题的具体需求,灵活组合不同的工具和方法,最终提供全面、准确的答案。
二、训练数据的精心设计:教会AI像人类研究员一样思考
要让WebWatcher像熟练的研究员一样工作,研究团队面临的首要挑战是如何为它提供高质量的学习材料。这个过程就像为侦探学员设计实战训练课程一样,需要精心构造各种复杂案例,让系统学会在不同情况下如何调查、分析和推理。
传统的AI训练通常依赖现有的问答数据集,但这些数据集往往过于简单,缺乏真实世界信息查询任务的复杂性和深度。研究团队意识到,要训练出真正实用的智能助手,需要创造一套全新的训练数据生成方法。他们的解决方案就像为侦探训练营设计一套渐进式课程,从基础技能逐步发展到复杂案件处理。
数据生成的第一步是创造多样化的知识背景。研究团队像勤奋的图书管理员一样,系统性地收集了来自维基百科、GitHub、arXiv等权威知识源的信息。但他们并不是简单地下载这些信息,而是模拟人类研究员的浏览行为,通过随机游走的方式在这些网站上"探索",发现不同知识点之间的联系和关系。这个过程就像让一名好奇的研究员在图书馆中随意浏览,从一本书的参考文献跳到另一本书,逐渐建立起知识之间的关联网络。
在建立了丰富的知识基础后,研究团队开始设计问题的复杂度等级。他们将训练问题分为两个难度级别,就像为侦探训练设置初级案件和高级案件一样。初级问题虽然需要多步推理,但涉及的实体和关系相对明确,答案可以通过系统性的信息检索获得。而高级问题则更具挑战性,研究团队故意模糊化了问题中的关键信息,比如将具体的日期替换为模糊的时间描述,将人名替换为职位描述,这样系统就必须通过上下文推理来确定具体的指代对象。
更巧妙的是,研究团队开发了一套将文本问答转换为图像相关问答的自动化流程。这个过程就像把纯文字的案件描述转换为包含现场照片和物证的复合案件。系统会为每个文本问题寻找相关的真实图片,然后重新构造问题,使其必须结合图片内容才能得到答案。这样,原本可能只需要文本搜索的问题就变成了需要图像理解、信息搜索和综合分析的复合任务。
为了确保训练数据的质量,研究团队设计了严格的筛选机制,就像为侦探训练营的案例进行质量把关一样。每个生成的问答对都需要经过多轮验证:首先检查问题是否真的需要图像信息才能解答,然后验证答案的准确性,最后确认整个推理过程的逻辑合理性。只有通过了所有质量检测的问答对才会被纳入最终的训练数据集。
研究团队还特别注重训练数据的多样性和平衡性。他们确保数据集涵盖了自然科学、工程技术、人文社会科学、艺术娱乐等多个领域,就像确保侦探训练涵盖各种不同类型的案件一样。这种多样性保证了WebWatcher能够处理来自不同领域的复杂问题,而不会在某些特定领域表现突出但在其他领域表现糟糕。
通过这种精心设计的数据生成方法,研究团队最终创造了一个包含数十万个高质量训练样例的数据集。每个样例都像一个精心设计的训练案例,不仅测试系统的单项技能,更重要的是培养系统的综合推理和问题解决能力。
三、推理轨迹生成:教会AI制定调查计划
拥有了高质量的训练数据还不够,研究团队面临的下一个挑战是如何教会WebWatcher像经验丰富的研究员一样制定和执行调查计划。这就像不仅要给侦探提供案件资料,还要教会他们如何系统性地分析案件、制定调查策略、使用各种工具收集证据、并最终得出结论。
传统的AI系统通常只是学习输入和输出之间的对应关系,就像学生只记住了考试答案但不理解解题过程一样。研究团队意识到,要让WebWatcher真正具备深度研究能力,必须让它学会整个思考和调查的过程。因此,他们开发了一套自动化的推理轨迹生成系统,能够为每个训练问题创造完整的"调查日志"。
这个推理轨迹生成过程就像让一名资深侦探为每个案件撰写详细的调查报告,记录从接到案件到破案的每一个步骤。系统首先分析问题的关键要素,确定需要调查的方向和可能需要使用的工具。然后,它会模拟真实的调查过程:先进行初步的信息搜索,根据搜索结果调整调查策略,使用图像搜索工具分析相关图片,访问具体网页获取详细信息,必要时进行数学计算验证数据,最终综合所有信息得出答案。
在生成推理轨迹时,系统特别注重决策的合理性和工具使用的恰当性。每一步操作都必须有明确的目的和合理的依据,就像侦探的每个调查行动都必须服务于案件的整体解决方案。比如,如果系统决定使用图像搜索功能,它必须明确说明为什么需要这个功能、期望获得什么信息、以及这个信息如何帮助解决整个问题。
更重要的是,研究团队为推理轨迹设计了严格的质量控制标准。生成的每条轨迹都必须通过三重检验:首先验证最终答案是否正确,然后检查每个中间步骤是否逻辑一致,最后确认工具使用是否恰当有效。这种质量控制就像对侦探的调查报告进行多重审核,确保每个步骤都经得起推敲。
为了避免系统产生冗长而低效的推理轨迹,研究团队还设置了效率要求。每条轨迹必须包含至少三次工具调用,确保系统学会进行多步推理,但同时要避免无意义的重复操作。这种平衡就像培训侦探既要全面调查又要避免浪费时间,在彻底性和效率之间找到最佳平衡点。
通过这种方式生成的推理轨迹不仅记录了解决问题的步骤,更重要的是展现了系统性思考的过程。每条轨迹都像一个完整的案例研究,展示了如何从复杂问题出发,逐步收集信息、分析证据、验证假设、最终得出可靠结论。这些轨迹成为WebWatcher学习的宝贵资源,教会它如何像人类专家一样进行深度思考和系统调查。
四、强化学习优化:让AI学会自我改进
仅仅让WebWatcher学会基本的调查方法还不够,就像一名新手侦探掌握了基本技能后,还需要通过实践来不断提高自己的判断力和决策能力。研究团队采用了先进的强化学习技术,让WebWatcher能够通过不断的实践和反馈来改进自己的表现。
这个强化学习过程就像为侦探设置了一个实训环境,让他们在模拟案件中练习,根据破案效果来调整自己的调查策略。WebWatcher会针对同一个问题尝试多种不同的调查路径,比较这些路径的效果,然后学习哪些策略更容易得到准确答案,哪些工具组合更加高效。
研究团队设计的强化学习机制特别巧妙,它不需要为每个调查步骤设置详细的奖励信号,而是采用了一种叫做"群体相对策略优化"的方法。这种方法就像让一群侦探学员同时处理相同的案件,然后比较他们的破案效果,表现好的学员的方法会被重点学习和模仿,而表现差的方法会被逐渐摒弃。
具体来说,系统会为同一个问题生成多个不同的调查方案,每个方案都代表一种可能的解决路径。然后,系统会评估每个方案的质量,这个评估不仅看最终答案是否正确,还要考虑调查过程是否规范、工具使用是否合理、推理逻辑是否清晰。那些既能得到正确答案又能展现良好调查方法的方案会获得较高评分,反之则获得较低评分。
通过这种群体比较的方式,WebWatcher逐渐学会了区分好的调查策略和坏的调查策略。它开始倾向于使用那些经过验证有效的方法组合,避免那些容易导致错误的操作序列。这个过程就像侦探通过大量案件实践,逐渐形成了自己独特而有效的办案风格。
强化学习的另一个重要作用是帮助系统学会适应不同类型的问题。不同领域的问题往往需要不同的调查方法,比如科学问题可能更需要数据计算和图表分析,而历史问题可能更依赖文献检索和时间线梳理。通过强化学习,WebWatcher能够根据问题的特点选择最合适的调查策略,就像经验丰富的侦探能够根据案件类型调整自己的调查重点。
研究团队还发现,强化学习不仅提高了WebWatcher的准确性,还显著改善了它的调查效率。系统学会了避免无用的重复搜索,能够更快地识别关键信息,并且在遇到困难时知道何时需要寻求额外的信息源。这种效率的提升就像侦探在经验积累中学会了如何更精准地把握调查重点,避免在无关细节上浪费时间。
五、评估基准的创新设计:真正的智能测试
为了全面评估WebWatcher的能力,研究团队不仅使用了现有的测试标准,还专门设计了一个名为BrowseComp-VL的新型评估基准。这个测试就像为侦探设计了一套全新的资格考试,不仅测试基本技能,更重要的是检验在复杂真实场景中的综合表现能力。
BrowseComp-VL的设计理念是模拟真实世界中的复杂信息查询任务。传统的AI测试往往关注单一技能,比如图像识别准确率或文本理解能力,就像只测试侦探的观察力或逻辑推理能力一样。但现实中的复杂问题往往需要多种技能的综合运用,因此这个新基准特别强调跨模态信息整合和多步骤推理能力。
测试中的问题被精心设计成需要同时处理图像和文本信息才能解决的复杂任务。比如,系统可能需要分析一张包含特殊建筑的照片,然后搜索相关的历史资料、建筑特点和文化背景,最终回答关于该建筑某个特定方面的深入问题。这种问题就像给侦探一张现场照片,然后要求他们不仅要分析照片内容,还要调查相关背景,最终解答一个复杂的推理问题。
更具挑战性的是,测试中的许多问题都采用了"实体模糊化"的设计。这意味着问题中的关键信息被故意表述得模糊不清,比如用"位于某北方城市的重要火车站"来代替具体的地名,用"著名生物学家"来代替具体的人名。这种设计迫使系统必须通过上下文分析和推理来确定具体的指代对象,然后才能开始正式的信息查询过程。
研究团队还确保了测试问题的多样性和现实性。问题涵盖了自然科学、工程技术、人文社会、艺术娱乐等多个领域,每个领域都有不同复杂程度的问题。更重要的是,所有问题都基于真实的网络信息环境,答案无法通过简单的记忆或模板匹配获得,必须通过实际的网络搜索和信息分析才能得到。
在多个评估基准上的测试结果显示,WebWatcher展现出了显著的性能优势。在最具挑战性的"人类最后考试"(HLE)基准上,WebWatcher-32B达到了13.6%的通过率,超越了GPT-4o、Gemini-2.5-flash等知名AI系统的RAG版本。在BrowseComp-VL基准上,WebWatcher的平均得分达到27.0%,比其他开源系统有明显提升。这些结果就像显示了WebWatcher在侦探技能考试中获得了优异成绩,证明了它确实具备了处理复杂真实任务的能力。
特别值得注意的是,研究团队还分析了WebWatcher在不同类型任务中的工具使用模式。结果发现,系统能够根据问题特点灵活调整工具使用策略:在需要大量信息检索的任务中,它主要使用文本搜索工具;在需要视觉分析的任务中,它更多地依赖图像搜索和分析功能;在需要数据验证的任务中,它会主动使用代码执行工具进行计算。这种自适应的工具使用模式表明,WebWatcher真正学会了像人类专家一样根据任务需求选择合适的工作方法。
六、技术创新的深层意义:重新定义AI助手
WebWatcher的技术创新不仅仅是性能数字的提升,更重要的是它代表了AI助手发展的一个重要转折点。传统的AI系统就像专业度很高但技能单一的专家,只能在特定领域内提供帮助。而WebWatcher则像一名多技能的通用研究员,能够适应各种不同类型的信息查询任务。
这种技术突破的关键在于实现了真正的多模态深度整合。以往的多模态AI系统大多只是简单地将不同类型的信息拼接在一起,就像让一个只会看的专家和一个只会听的专家坐在一起商量问题。而WebWatcher实现的是更深层次的融合,它能够在统一的推理框架中同时处理视觉信息、文本信息和外部工具反馈,形成一个有机的整体。
另一个重要创新是推理过程的可解释性。WebWatcher不是一个"黑盒"系统,它会详细记录自己的思考过程,包括为什么选择某个搜索策略、如何分析获得的信息、以及最终结论是基于哪些证据得出的。这种透明度就像让一名侦探详细记录自己的办案过程,不仅有助于验证结论的可靠性,也为改进方法提供了宝贵的反馈信息。
研究团队的工作还展示了如何通过精心设计的训练方法来提升AI系统的能力。他们没有简单地增加训练数据的数量,而是专注于提高数据的质量和复杂性。这种方法论的创新表明,AI系统的性能提升不仅需要更强的计算能力和更大的模型,更需要更聪明的训练策略和更精细的数据工程。
从实际应用角度来看,WebWatcher代表的技术方向可能会显著改变我们与信息交互的方式。未来,我们可能不再需要花费大量时间在搜索引擎和各种网站之间跳转,而是可以直接向AI助手提出复杂问题,让它代替我们完成繁琐的信息收集和分析工作。这就像有了一个永远在线、知识渊博、工作效率极高的个人研究助手。
当然,这种技术发展也带来了新的思考。当AI系统能够像人类专家一样进行深度研究时,我们如何确保信息的准确性和可靠性?如何避免AI系统在复杂推理过程中产生错误或偏见?如何平衡AI助手的便利性和人类独立思考能力的培养?这些都是需要继续探索和解决的重要问题。
说到底,WebWatcher的出现标志着AI技术从简单的模式识别向真正的智能推理迈出了重要一步。它让我们看到了AI助手的未来形态:不是冷冰冰的工具,而是能够理解复杂问题、制定调查策略、灵活使用各种方法、最终提供深度洞察的智能伙伴。这种技术发展方向不仅会改变我们获取和处理信息的方式,也可能会重新定义人机协作的模式,为解决更加复杂的现实问题提供强有力的支持。随着这类技术的不断成熟和普及,我们有理由期待一个信息获取更加便捷、知识探索更加深入的未来。对于想要深入了解技术细节的读者,完整的研究论文已在GitHub上开放,地址为https://github.com/Alibaba-NLP/WebAgent。
Q&A
Q1:WebWatcher和普通的AI搜索助手有什么区别?
A:WebWatcher最大的区别在于它能同时理解图片和文字信息,并且会像研究员一样主动制定调查计划。普通AI助手通常只能处理文字或者只是简单回答问题,而WebWatcher会主动搜索网页、分析图片、进行计算,然后综合所有信息给出深度分析的答案。就像普通助手只会查字典,而WebWatcher会进行完整的研究调查。
Q2:WebWatcher的准确率怎么样?比GPT-4o等知名AI强吗?
A:在多个challenging基准测试中,WebWatcher确实表现优异。比如在"人类最后考试"测试中,WebWatcher-32B达到13.6%通过率,超过了GPT-4o的9.8%。在BrowseComp-VL测试中平均得分27.0%,也明显高于GPT-4o的13.4%。不过这主要体现在需要深度推理和多信息源整合的复杂任务上。
Q3:普通人现在能使用WebWatcher吗?如何获得?
A:目前WebWatcher还是研究阶段的项目,暂时没有面向普通用户的产品版本。不过研究团队已经在GitHub上开源了相关代码和技术细节(https://github.com/Alibaba-NLP/WebAgent),技术开发者可以基于这些资源进行研究和开发。相信随着技术成熟,未来会有基于类似技术的产品服务推出。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。