微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴团队首次让AI学会真正"冲浪"网页:小模型也能像侦探一样深度挖掘网络信息

阿里巴巴团队首次让AI学会真正"冲浪"网页:小模型也能像侦探一样深度挖掘网络信息

2025-12-30 16:42
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-30 16:42 科技行者

这项由阿里巴巴通义实验室的李柏轩、吴嘉龙、殷文彪等研究人员联合开展的研究发表于2025年12月,论文编号为arXiv:2512.23647v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们在网上搜索信息时,大多数时候就像站在图书馆门口,只能看到书架上的标签,却无法真正翻开书本阅读里面的内容。现有的AI助手虽然能够搜索网页,但它们的能力就像一个只会看目录的学生,无法深入挖掘那些隐藏在网页深处的珍贵信息。

阿里巴巴的研究团队意识到这个问题后,决定让AI学会像经验丰富的侦探一样工作。他们开发了一套名为"嵌套浏览器使用学习"(NestBrowse)的全新方法,让AI不仅能看到网页表面的内容,还能像人类一样点击按钮、填写表单、浏览页面,真正深入网络的每个角落去寻找答案。

这项研究的突破性在于,他们不仅让AI学会了使用浏览器,更重要的是设计了一套巧妙的"双重工作模式"。就像一个优秀的侦探既要有宏观的破案思路,又要有细致的证据收集能力一样,这套系统让AI在解决问题时能够统筹全局,同时又能专注于每个网页的细节分析。

更令人惊讶的是,研究团队发现,经过这种特殊训练的小型AI模型,竟然能够在复杂的信息搜索任务中超越许多体量更大的系统。这就像一个训练有素的年轻侦探,虽然经验不如老侦探丰富,但凭借正确的方法和工具,也能破解复杂的案件。

一、为什么现有的AI搜索助手像"近视眼"一样局限

当前的AI信息搜索助手面临着一个根本性的局限,就像一个只能透过门缝观察房间的人。目前大多数AI助手只能使用两种基本工具:搜索引擎查询和简单的网页内容获取。这种方式就好比你想了解一家餐厅的详细信息,但只能看到餐厅门口的招牌和菜单,却无法进入餐厅与服务员交流,也无法看到厨房的实际操作。

现实世界的网络信息就像一座巨大的地下宝藏,表面上的搜索结果只是冰山一角。许多有价值的信息隐藏在需要交互才能获取的地方:比如需要点击"查看更多"按钮才能展开的详细内容,需要在搜索框中输入特定关键词才能找到的数据库信息,或者需要选择不同选项才能看到的动态更新内容。这些信息对于解决复杂问题至关重要,但传统的AI搜索方法根本触及不到。

阿里巴巴研究团队发现,这种局限性就像给侦探戴上了眼罩,让他们只能听到一些模糊的线索,却无法亲自到现场调查。当面对那些需要深度信息挖掘的复杂问题时,这种"近视眼"式的搜索方法显然力不从心。

现有的一些尝试虽然想要让AI学会使用浏览器,但就像教一个人开车却没有给他完整的驾驶手册一样。这些系统往往过于复杂,给AI提供了太多选择,反而让它们变得犹豫不决。更糟糕的是,网页内容往往包含大量无关信息,就像在一堆干草中寻找针一样,AI很容易被无关内容分散注意力,最终迷失方向。

二、"侦探式"双重工作模式:大局观与细节洞察的完美结合

阿里巴巴团队的创新核心在于设计了一套"嵌套式"的工作模式,就像培养一个既有战略思维又有执行能力的超级侦探。这个系统分为两个层次:外层的"案件总指挥"和内层的"证据收集专家"。

外层的"案件总指挥"就像经验丰富的警局局长,它负责整个调查的大方向。当接到一个复杂案件时,这位局长会制定整体的调查策略:先去哪里调查,需要找什么样的证据,如何将不同线索串联起来。它会决定使用四种基本的调查工具:搜索相关信息、访问特定网站、点击页面元素,以及在表单中填写信息。这四种工具就像侦探的基本装备,简单而全面。

内层的"证据收集专家"则像现场的专业调查员,当"案件总指挥"决定深入某个网站调查时,这位专家就会接手具体的工作。他会像用放大镜仔细检查现场一样,逐一分析网页的每个部分,从中筛选出真正有价值的信息。重要的是,这位专家只会收集与当前调查目标相关的证据,而忽略那些看似有趣但实际无关的信息。

这种双层结构的巧妙之处在于信息的精准过滤。传统方法就像把整个犯罪现场的照片都交给局长,让他在海量信息中寻找线索,这显然会让决策者不堪重负。而新方法中的"证据收集专家"会先进行一轮专业筛选,只把经过整理的关键证据提交给"案件总指挥",这样既保证了信息的完整性,又避免了信息过载的问题。

更重要的是,这种工作模式解决了一个关键的技术难题:如何在有限的"记忆容量"下处理大量信息。就像人的大脑无法同时处理太多信息一样,AI系统也有处理能力的上限。通过这种嵌套结构,系统能够在不超出处理能力的前提下,获取和利用远超其直接处理能力的信息量。

三、四项基本技能:让AI成为网络世界的全能侦探

为了让AI真正掌握网络调查的技能,阿里巴巴团队精心设计了四项基本能力,就像为侦探配备了四种不可或缺的调查工具。这四项技能看似简单,实际上覆盖了网络世界中几乎所有的信息获取场景。

第一项技能是"搜索",这就像侦探的"信息网络"。当遇到一个新案件时,侦探首先要做的就是广泛搜集相关线索。AI的搜索功能可以同时查询多个关键词,并获得最相关的网站链接和简要信息,就像一次性咨询多个消息来源的侦探一样高效。

第二项技能是"访问",相当于侦探亲自前往案发现场勘查。当AI确定了一个有价值的网站后,它会详细分析该网站的内容,但这种分析是有目的性的—它只关注与当前调查目标相关的信息,而不会被网站上的其他内容干扰。这就像一个经验丰富的侦探,即使在复杂的案发现场,也能快速识别出真正重要的证据。

第三项技能是"点击",这是AI与网络世界交互的关键能力。许多网站的重要信息并不会一次性展示,而需要用户点击特定按钮或链接才能获取。就像侦探需要打开抽屉、翻阅文件才能找到关键证据一样,AI的点击功能让它能够深入网站的各个层面,挖掘那些隐藏的信息。

第四项技能是"填写",这让AI能够与那些需要输入信息的网站进行交互。许多有价值的数据库或工具网站需要用户输入特定查询条件才能返回结果。这项技能就像给侦探配备了"万能钥匙",让它能够访问那些需要特定"密码"或"通行证"的信息宝库。

这四项技能的设计哲学是"少而精"。研究团队故意避免了一些看似有用但实际上会增加复杂性的功能,比如页面滚动或页面内搜索。这种取舍就像为侦探精选装备一样,每一件工具都必须是必需且高效的,避免让侦探在选择工具时犹豫不决,影响办案效率。

四、突破性训练方法:让小模型也能成为调查高手

阿里巴巴团队在训练AI系统时采用了一种革命性的方法,就像同时训练一个侦探的战略思维和实地调查技能。传统的AI训练往往只关注单一技能,但这项研究首次实现了"双重技能"的同步培养。

训练过程就像开设了一所专业的"侦探学院"。在这所学院里,AI学生需要同时掌握两门核心课程:一门是"案件分析与决策",另一门是"现场调查与证据收集"。这种并行训练的方法确保了AI在实际工作中能够无缝切换between宏观思考和细节分析。

研究团队选用了高质量的训练案例,这些案例都是真实的复杂信息搜索任务,需要多步推理和深度网络探索才能解决。就像警察学院使用真实案例训练学员一样,这种训练方法让AI接触到了各种可能遇到的情况,从简单的信息查询到复杂的多源信息整合。

特别值得注意的是,训练过程中采用了严格的"质量控制"机制。只有那些能够产生正确结果的训练样本才会被采纳,这就像只有成功破案的调查方法才会被写入教科书一样。这种筛选机制确保了AI学到的都是真正有效的方法,避免了学习到错误或低效的行为模式。

更令人惊讶的是,研究团队发现即使是相对较小的AI模型,经过这种特殊训练后也能表现出色。他们训练了两个不同规模的模型:一个只有40亿参数(NestBrowse-4B),另一个有300亿参数(NestBrowse-30B-A3B)。结果表明,即使是较小的模型也能在复杂任务中超越许多更大的系统,这证明了方法的重要性往往超过模型的大小。

这种发现颠覆了"大就是好"的传统观念。就像一个训练有素的年轻侦探可能比经验不足的资深警官更有效率一样,正确的训练方法能够让较小的AI模型发挥出超乎想象的潜力。这对于AI技术的普及具有重要意义,因为更小的模型意味着更低的计算成本和更广泛的应用可能性。

五、实战检验:小身材大能力的惊人表现

为了验证这套"侦探训练体系"的实际效果,研究团队设计了一系列严格的实战测试,这些测试就像警察部门的年度考核,专门挑选最具挑战性的案件来考验AI侦探的真实能力。

测试采用了四个国际认可的高难度信息搜索基准,包括英文和中文的复杂问题。这些问题不是简单的"某某公司成立于哪一年"这样的直接查询,而是类似"根据OpenReview网站的数据,在NeurIPS 2022会议上,有多少篇名字包含'Yuri'的作者发表的论文获得了'certain'推荐等级"这样需要深度挖掘和多步推理的复杂任务。

令人惊讶的结果出现了:仅有40亿参数的NestBrowse-4B在某些测试中甚至超越了拥有数千亿参数的大型系统。在最具挑战性的BrowseComp测试中,NestBrowse-30B-A3B达到了31.6%的成功率,显著超过了大多数现有系统。这就像一个刚毕业的年轻侦探在破案率上超过了经验丰富的老探员,充分证明了正确方法的威力。

更值得关注的是系统的通用性表现。尽管训练时只使用了英文数据,但这套系统在中文测试中同样表现出色,这说明它学到的不仅仅是特定语言的搜索技巧,而是一套通用的网络信息挖掘方法。这就像一个在美国训练的侦探到了中国,虽然语言不同,但基本的调查方法和逻辑思维依然有效。

研究团队还进行了深入的效率分析,结果显示这套系统在信息处理能力方面表现出色。在处理复杂任务时,即使总的信息处理量远远超出了系统的直接处理能力上限,但通过巧妙的"分层过滤"机制,系统始终能够保持在可管理的工作负荷范围内。这就像一个优秀的侦探能够在海量线索中快速筛选出关键信息,避免被无关信息淹没。

特别有趣的是,研究团队发现内层的"证据收集专家"质量直接影响外层"案件总指挥"的决策水平。当使用更强的内层模型时,整个系统的表现会显著提升,这验证了双层协作机制的有效性。这种发现为未来的系统优化提供了明确的方向:提升每个组件的能力都会带来整体性能的改善。

六、超越传统搜索:AI成为网络世界的"多面手"

这项研究最令人兴奋的发现之一,是AI展现出了超越传统信息搜索的能力,它不再只是一个"信息搬运工",而是成为了能够利用网络世界各种工具的"多面手"。

在一个典型的案例中,AI遇到了一个复杂的数学计算问题:给定特定的函数和初始值,使用牛顿法求解需要多少次迭代才能达到指定精度。面对这个挑战,AI没有试图用自己有限的数学计算能力硬算,而是展现出了令人惊讶的"工具思维"。它先搜索找到了一个专业的在线计算器网站,然后像熟练的用户一样在网站上输入了函数表达式和初始值,点击计算按钮获得了准确结果。

这种行为模式就像一个聪明的工程师,当遇到复杂计算时,不是死记硬背公式,而是知道哪里有合适的计算工具,并且能够熟练使用这些工具。这种"借力打力"的智慧显示了AI对网络资源的深度理解和灵活运用。

更深层的意义在于,这种能力将网络世界变成了AI的"超级工具箱"。网络上存在着数以万计的专业工具和数据库,从天气预报到股票分析,从语言翻译到图像处理,每一个都可能成为AI解决特定问题的有力武器。传统的AI系统就像只能使用自己大脑的人,而这套新系统则像拥有了整个图书馆和实验室的研究员。

研究团队发现,这种"元工具使用能力"(使用工具的工具)可能是未来AI发展的重要方向。与其试图让AI内置所有可能需要的功能,不如教会它如何在需要时找到和使用合适的外部工具。这种方法不仅更加高效,也更加灵活,能够适应网络世界快速变化的特点。

这种发现还揭示了一个重要的设计哲学转变:从"无所不能"到"善于借力"。最强大的AI可能不是那些内置最多功能的系统,而是那些最善于识别需求、寻找资源、整合工具的系统。就像最成功的领导者往往不是个人能力最强的,而是最善于调动团队资源的一样。

七、技术深度解析:让复杂变简单的设计智慧

从技术实现的角度来看,这套系统的设计体现了"化繁为简"的高超智慧。面对网络浏览这样一个本质上极其复杂的任务,研究团队没有选择堆砌功能的路线,而是通过精巧的架构设计实现了复杂性的有效管理。

系统的核心创新在于解决了一个根本性的技术矛盾:如何在有限的计算资源约束下处理几乎无限的网络信息。传统方法就像试图把整个海洋装进茶杯,注定会失败。新方法则像建造了一个智能的"过滤漏斗",能够在信息流动的过程中精准地保留有价值的部分,丢弃无关的噪音。

具体来说,系统采用了一种"渐进式信息累积"的机制。当AI访问一个网页时,它不是一次性处理所有内容,而是将网页分割成合理的片段,逐一分析每个片段,并将有价值的信息累积到一个"临时工作区"中。这个过程就像考古学家在挖掘现场工作,每发现一个有价值的文物,就小心地清理并记录,最终拼凑出完整的历史图景。

更巧妙的是,系统还实现了"目标导向的信息提取"。每当系统分析网页内容时,它都明确知道当前的搜索目标是什么,这种目标意识就像给信息提取过程装上了"导航系统",确保不会在无关信息的海洋中迷失方向。

在训练过程中,系统还采用了"多任务联合学习"的先进方法。这种方法同时训练外层的决策能力和内层的信息提取能力,就像同时练习开车的方向感和操作技巧一样,确保两种能力能够完美配合。这种联合训练的效果远好于分别训练两个独立系统然后简单组合的方法。

研究团队还特别关注了系统的"可扩展性"设计。随着网络技术的快速发展,新的交互方式和信息形式不断出现,一个好的系统必须能够适应这种变化。当前的四工具设计为未来的扩展留下了充足的空间,新的交互能力可以相对容易地集成到现有框架中。

八、实际应用前景:改变我们与信息交互的方式

这项研究的意义远远超出了学术领域,它预示着我们与网络信息交互方式的根本性变革。在不远的将来,我们可能会拥有真正智能的个人信息助手,它们不仅能回答简单问题,更能为我们进行深度的信息调研和分析。

考虑这样一个场景:当你计划一次家庭旅行时,未来的AI助手不仅能为你搜索目的地信息,还能深入各种预订网站比较价格,查看实时的天气预报和交通状况,甚至能够访问社交媒体和评论网站了解其他游客的真实体验。它会像一个经验丰富的旅行规划师一样,为你提供全方位、个性化的建议。

在商业领域,这种技术可能彻底改变市场调研的方式。企业不再需要雇佣大量人员手动收集竞争对手信息,AI助手可以自动深入各种公开数据源,收集和分析市场趋势、产品信息、用户反馈等关键商业情报。这种自动化的深度调研能力将大大降低商业决策的信息收集成本。

教育领域同样将受益匪浅。学生和研究人员在进行学术研究时,AI助手可以帮助他们深入各种学术数据库、在线图书馆和专业网站,自动收集相关文献、数据和案例。这种智能化的研究助手将大大提高学术工作的效率和质量。

医疗健康领域的应用前景也非常广阔。当患者或医生需要了解特定疾病的最新治疗方案时,AI助手可以深入医学数据库、临床试验网站、药物信息平台等专业资源,提供最新、最准确的医疗信息。当然,这种应用需要特别严格的安全和准确性保障。

更重要的是,这种技术的发展可能推动网络信息的"民主化"进程。目前,深度的网络信息挖掘往往需要专业技能和大量时间,普通用户很难充分利用网络的丰富资源。随着这种AI助手的普及,每个人都可能拥有相当于专业调研员的信息获取能力。

九、挑战与展望:通往智能信息时代的路径

尽管这项研究取得了显著突破,但研究团队也诚实地指出了当前系统的局限性和未来需要解决的挑战。目前的系统专注于文本信息的处理,这就像一个只能"读字"不能"看图"的侦探,在面对越来越多元化的网络内容时可能会遇到瓶颈。

现代网络世界充满了图像、视频、音频等多媒体内容,这些内容往往包含着丰富的信息。未来的发展方向之一就是让AI助手具备"多感官"的信息处理能力,能够理解和分析各种形式的网络内容。这种扩展就像给侦探配备更多样的调查工具,让他们能够处理更加复杂的案件。

另一个重要的挑战是信息的准确性和可靠性保障。当AI能够深入网络世界自主收集信息时,如何确保它获取的信息是准确、最新、可信的就变得至关重要。这需要开发更加sophisticated的信息验证和交叉确认机制,就像训练侦探学会辨别真假证据一样。

隐私和安全问题也是不容忽视的考量。当AI系统能够深入各种网站进行交互时,如何保护用户隐私、防止恶意利用就成为必须解决的问题。这需要在系统设计时就内置强有力的安全机制和伦理约束。

从更宏观的角度看,这种技术的发展可能引发对网络生态系统的重新思考。当大量AI系统开始深度访问网站时,这可能对网站的服务器造成压力,也可能改变网站的商业模式。如何在技术进步和生态平衡之间找到合适的平衡点,将是未来需要共同面对的挑战。

展望未来,研究团队相信这种"嵌套浏览器使用"的方法只是智能信息助手发展的起点。随着技术的不断成熟,我们可能会看到更加智能、更加个性化的信息助手出现,它们不仅能够帮助我们获取信息,还能根据我们的具体需求和偏好主动发现和推荐有价值的信息。

最终,这项研究指向了一个令人兴奋的未来:在这个未来里,每个人都可能拥有一个智能的信息伙伴,它了解你的需求,能够代替你在信息的海洋中探索,为你带回真正有价值的知识珍珠。这种技术的成熟将真正实现信息获取的平等化,让每个人都能充分利用人类知识的宝库。

说到底,阿里巴巴团队的这项研究展示了一个重要的理念转变:AI的强大不在于它内置了多少功能,而在于它能多么巧妙地利用外部资源。就像最成功的人往往不是个人能力最全面的,而是最善于整合各种资源和人才的一样。这种"善于借力"的AI设计思路可能会成为未来AI发展的主流方向,让我们期待这种技术为人类社会带来更多的便利和可能性。

Q&A

Q1:NestBrowse系统是什么?

A:NestBrowse是阿里巴巴研究团队开发的一套AI网络浏览系统,它能让AI像侦探一样深度挖掘网络信息。与传统只能搜索和简单访问网页的AI不同,NestBrowse可以点击按钮、填写表单、与网站交互,获取那些隐藏在网络深处的信息。

Q2:为什么小型AI模型也能表现出色?

A:关键在于训练方法而非模型大小。研究团队发现,通过正确的"双重训练"方法(同时训练外层决策和内层信息提取能力),即使只有40亿参数的小模型也能在复杂任务中超越许多更大的系统。这证明了方法比规模更重要。

Q3:这项技术什么时候能普及应用?

A:目前仍在研究阶段,但技术前景很好。未来可能应用于个人信息助手、商业调研、学术研究、旅行规划等领域。不过还需要解决多媒体内容处理、信息准确性验证、隐私安全等挑战才能广泛应用。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-