微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 告别搜索垄断:开源AI搜索框架ODS挑战Perplexity,让人人都能拥有智能搜索助手

告别搜索垄断:开源AI搜索框架ODS挑战Perplexity,让人人都能拥有智能搜索助手

2025-07-31 11:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-31 11:26 科技行者

这项突破性研究来自Sentient公司与华盛顿大学、普林斯顿大学、加州大学伯克利分校的联合团队,主要研究者包括Salaheddin Alzubi、Creston Brooks、Purva Chiniya等多位学者。该研究于2025年3月26日发表在arXiv预印本平台,论文编号为arXiv:2503.20201v1。有兴趣深入了解的读者可以通过该编号在arXiv网站上访问完整论文,同时研究团队已在GitHub上开源了完整代码(https://github.com/sentient-agi/OpenDeepSearch)。

当我们在网上搜索"今天天气怎么样"或"如何做红烧肉"时,搜索引擎会给出大量网页链接,但我们真正想要的其实是一个直接、准确的答案。近年来,像Perplexity这样的AI搜索引擎应运而生,它们不仅能搜索信息,还能像一个博学的助手一样,理解你的问题并给出条理清晰的回答。然而,这些优秀的AI搜索工具大多被大公司牢牢控制,就像高档餐厅的秘制配方一样,普通人和小公司很难接触到核心技术。

正是在这样的背景下,Sentient公司联合多所顶尖大学推出了一个颠覆性的解决方案——开放深度搜索框架(Open Deep Search,简称ODS)。这就像是把高档餐厅的秘制配方免费公开,让任何人都能在自己家里做出同样美味的佳肴。更令人惊喜的是,这个开源"配方"做出的"菜"不仅不逊色于那些商业产品,在某些方面甚至更加出色。

ODS的表现确实令人刮目相看。在两个权威的AI评测基准SimpleQA和FRAMES上,ODS配合强大的开源推理模型DeepSeek-R1,不仅全面超越了Perplexity的所有产品,甚至在复杂推理任务FRAMES上还击败了OpenAI最新发布的GPT-4o搜索预览版。具体来说,在FRAMES测试中,ODS达到了75.3%的准确率,而GPT-4o搜索预览版只有65.6%,提升幅度达到了近10个百分点。在相对简单的事实性问答任务SimpleQA上,ODS也达到了88.3%的高准确率,与GPT-4o搜索预览版的90%非常接近。

这个成就的意义远不止于数字上的胜利。想象一下,如果高质量的AI搜索技术不再被少数大公司垄断,而是像开源的Linux操作系统一样人人可用,这将会带来怎样的变革。小型创业公司可以基于ODS开发自己的智能搜索产品,研究机构可以针对特定领域进行深度定制,甚至个人开发者也能搭建专属的AI搜索助手。这种技术的民主化将彻底改变我们获取和处理信息的方式。

一、搜索引擎的智能化革命

要理解ODS的革命性意义,我们首先需要了解搜索引擎是如何从简单的关键词匹配进化为智能对话助手的。传统搜索引擎就像一个巨大的图书馆索引系统,你输入关键词,它就把包含这些词的网页展示给你。虽然效率很高,但这种方式有个明显的问题:它无法真正理解你想要什么。

比如当你搜索"苹果股价"时,传统搜索可能会给你关于苹果公司、苹果水果价格、甚至苹果食谱的各种结果,你需要自己从中筛选出真正需要的股价信息。更麻烦的是,如果你的问题比较复杂,需要综合多个信息源才能回答,比如"哪位作家既获过诺贝尔文学奖又拍过电影",传统搜索引擎就显得力不从心了。

AI搜索引擎的出现彻底改变了这个局面。它们不仅能理解你问题的真正含义,还能像一个博学的研究助理一样,主动搜集相关信息,进行分析整理,最后给出一个完整、准确的答案。这就像从让你自己去图书馆翻书,变成了有一个专业的研究员帮你完成所有工作,并把结果以最容易理解的方式告诉你。

然而,这种先进技术的发展却被少数几家大公司所主导。Perplexity AI就是其中的佼佼者,它的产品能够回答复杂问题,进行多步推理,甚至处理需要综合多个信息源的查询。OpenAI也在2025年3月推出了GPT-4o搜索预览版,试图在这个快速发展的市场中分一杯羹。

这种技术垄断带来了一系列问题。企业和研究机构只能依赖这些公司的API接口,不仅成本高昂,还面临着服务突然中断或价格大幅上涨的风险。更重要的是,由于无法访问核心技术,他们很难针对特定需求进行深度定制或优化。这就像所有的餐厅都必须使用同一家公司的调料包,无法根据自己的菜系特色进行调整。

正是在这样的背景下,ODS的出现显得格外重要。它不仅打破了技术垄断,更为整个行业提供了一个全新的发展路径。任何人都可以使用、修改和改进这个系统,这种开放性将推动整个AI搜索领域的快速发展和创新。

二、ODS的双核心架构设计

ODS的成功秘诀在于其精心设计的双核心架构,这种设计就像一个配合默契的双人组合:一个负责搜集信息的"情报员"和一个负责分析推理的"智囊团"。这两个核心组件分别是开放搜索工具(Open Search Tool)和开放推理代理(Open Reasoning Agent),它们相互配合,共同完成从理解问题到给出答案的整个过程。

开放搜索工具可以说是整个系统的"眼睛和耳朵"。当你提出一个问题时,它不会像传统搜索引擎那样简单地用你的关键词去匹配网页,而是会像一个经验丰富的研究员一样,首先深入理解你问题的真正含义,然后制定搜索策略。

这个过程的第一步是查询重构。设想你想了解"如何让网速更快",一个普通的搜索引擎可能会直接用这个问题去搜索,但开放搜索工具会更加聪明。它会分析你这个问题背后的多个层面:你可能想了解如何增强WiFi信号强度,或者想知道如何提高网络带宽,又或者想减少网络延迟。基于这种理解,它会生成多个相关但更具体的搜索查询,比如"WiFi信号增强方法"、"网络带宽优化技巧"和"减少网络延迟方案"。

这种查询重构的好处是显而易见的。通过从不同角度搜索同一个问题,系统能够获得更全面、更深入的信息,避免因为用词不当而错过重要内容。这就像一个好记者在采访时不会只问一个问题,而是会从不同角度提出多个相关问题,以获得完整的故事。

接下来是信息检索和处理环节。开放搜索工具会使用专业的搜索引擎API(在实验中使用的是serper.dev)来获取搜索结果,但它不会简单地把原始结果直接交给用户。相反,它会像一个精明的编辑一样,仔细分析每一条搜索结果的质量和相关性。

系统会特别关注信息源的可靠性。当搜索结果中出现相互矛盾的信息时,它会优先考虑来自政府机构、教育机构和知名研究机构的内容,这些信息源通常更加权威和可信。这种做法类似于一个专业记者在写稿时会优先引用官方声明和专家观点,而不是随意采信网络传言。

更进一步,开放搜索工具还会深入到搜索结果页面的具体内容中。它不满足于仅仅从搜索结果的标题和摘要中提取信息,而是会实际访问相关网页,分析页面内容,提取最相关的段落和信息点。这个过程使用了先进的文本切块和重排序技术,能够准确识别出与用户问题最相关的内容片段。

特别值得一提的是,开放搜索工具还为一些重要的信息源提供了定制化处理。对于Wikipedia、ArXiv学术论文库、PubMed医学文献数据库等高质量信息源,系统有专门的处理流程,能够更好地提取和组织这些平台上的信息。这就像有一个专业的图书管理员,他不仅知道去哪里找书,还知道如何快速定位到每本书中最相关的章节。

三、智能推理代理的双重方案

如果说开放搜索工具是系统的"情报收集员",那么开放推理代理就是系统的"大脑"。它负责理解用户的问题,调用各种工具(包括搜索工具),并基于收集到的信息进行推理分析,最终给出准确、完整的答案。

研究团队为开放推理代理设计了两种不同的实现方案,分别基于ReAct框架和CodeAct框架,对应ODS的两个版本:ODS-v1和ODS-v2。这种双重设计就像为同一个问题提供了两种不同的解决思路,用户可以根据具体需求选择最适合的版本。

ODS-v1基于ReAct框架,这是一种将推理过程和行动执行有机结合的方法。ReAct的名字来源于"Reasoning and Acting"(推理与行动),它的工作方式很像人类解决复杂问题的思维过程。当面对一个问题时,我们通常会先思考一下,然后采取某种行动收集信息,基于新信息再进行思考,然后采取下一步行动,如此循环直到找到答案。

在实际操作中,ReAct框架会将这个过程标准化为一系列交替出现的思考(Thought)、行动(Action)和观察(Observation)步骤。当用户提出问题"法国的首都是什么"时,系统首先会进入思考模式,分析这是一个关于地理知识的直接问题,然后决定采取搜索行动,接着观察搜索结果确认答案是巴黎,最后给出回复。

为了让ReAct框架发挥最佳效果,研究团队采用了一种创新的社区协作方式。他们组织了一场社区活动,邀请200名志愿者设计ReAct提示模板。这些志愿者来自不同背景,他们根据自己的直觉和经验,设计了各种各样的推理模式。这种方法的好处是获得了多样化的思维方式,让系统能够处理各种不同类型的问题。这就像一个团队拥有了来自不同专业领域的顾问,每个人都能从自己的角度提供独特的见解。

ODS-v1还集成了多种专业工具,让推理代理能够处理不同类型的任务。除了核心的网络搜索工具,系统还配备了数学计算工具(通过Wolfram Alpha API),用于处理复杂的数值计算问题。此外还有"继续思考"工具,当遇到特别复杂的问题时,系统可以进入深度推理模式,将复杂问题分解为多个子问题逐一解决。

ODS-v2则基于CodeAct框架,代表了一种完全不同的解决思路。CodeAct的核心理念是利用编程代码的强大表达能力来处理复杂任务。我们知道,代码是一种非常精确和强大的表达方式,它可以描述复杂的逻辑关系,可以模块化组合,还可以反复调用和修改。

在传统的思维链推理中,当我们需要解决一个数学问题时,系统可能会用自然语言描述计算步骤,但这种方式往往不够精确,也容易出错。而CodeAct框架则会直接生成可执行的Python代码来解决问题。比如需要计算复合利率时,它不是用文字描述计算过程,而是直接写出计算代码并执行,这样既确保了准确性,又提高了效率。

CodeAct的另一个优势是其强大的工具集成能力。由于代码天然具有模块化和组合性,CodeAct可以更容易地调用各种外部工具和API。这就像一个程序员可以轻松地调用各种库函数来完成复杂任务,而不需要每次都从头开始编写代码。

研究团队选择了SmolAgents框架来实现CodeAct版本的推理代理。SmolAgents是一个专门为代理系统设计的轻量级框架,它允许高度定制化,同时易于部署和分发。这种选择使得ODS-v2不仅功能强大,还具有很好的可扩展性和易用性。

四、卓越性能的背后

ODS之所以能够在激烈的竞争中脱颖而出,关键在于其性能的全面突破。研究团队在两个权威评测基准上进行了详细测试,结果显示ODS不仅全面超越了现有的开源解决方案,甚至在某些方面超过了最先进的商业产品。

FRAMES是一个专门设计用于测试复杂推理能力的评测基准,包含824个需要多步推理的挑战性问题。这些问题的难度相当高,往往需要整合来自多个信息源的内容才能得出正确答案。想象一下这样的问题:"1975年获得雷诺·马歇尔诗歌奖的获奖者,如果还活着的话,在鲁比·考尔发布她的书《牛奶与蜂蜜》时会是多少岁?"

这个问题看似简单,但实际上需要多个步骤才能解决:首先需要找到1975年雷诺·马歇尔诗歌奖的获奖者是谁,然后查找这个人的出生年份,接着确定鲁比·考尔的书《牛奶与蜂蜜》的发布时间,最后进行年龄计算。这种多步推理正是FRAMES基准要测试的核心能力。

在这个具有挑战性的测试中,ODS-v2配合DeepSeek-R1模型达到了75.3%的准确率,这个成绩相当令人瞩目。作为对比,OpenAI最新的GPT-4o搜索预览版只达到了65.6%的准确率,而Perplexity的旗舰产品Sonar Reasoning Pro更是只有44.4%。这意味着ODS在复杂推理任务上的表现明显优于目前最先进的商业产品。

更有趣的是,研究团队发现ODS在执行搜索时表现出了很强的适应性。在FRAMES这样的复杂任务中,ODS-v2平均每个问题会进行3.39次搜索,这说明系统能够智能地判断何时需要获取更多信息。而在相对简单的SimpleQA任务中,同样的系统平均只进行1.45次搜索,显示了很好的效率控制能力。

SimpleQA是另一个重要的评测基准,专门测试模型在事实性问答方面的准确性。这个基准包含4326个短答案问题,涵盖科学技术、政治、艺术、地理、体育、音乐等多个领域。这些问题的特点是有唯一正确答案,比如"加拿大真人秀《服务与保护》在哪个美国电视台首播?"或者"谁获得了2010年的IEEE弗兰克·罗森布拉特奖?"

在SimpleQA测试中,ODS-v2达到了88.3%的准确率,这个成绩非常接近GPT-4o搜索预览版的90%,同时显著超过了Perplexity默认版本的82.4%和Sonar Reasoning Pro的85.8%。考虑到ODS是完全开源的解决方案,这样的性能表现确实令人印象深刻。

特别值得注意的是,ODS的优异表现并非依赖于暴力搜索策略。一些系统会通过大量重复搜索来提高准确率,但这种方法效率低下且成本高昂。相比之下,ODS展现出了很强的智能性,它能够根据问题的复杂程度和初始搜索结果的质量来决定是否需要进行额外搜索。

研究团队还进行了详细的消融实验,逐一分析了系统各个组件的贡献。结果显示,开放搜索工具、推理代理的各个子组件(包括思维链推理、ReAct框架、少样本学习)都对最终性能有显著贡献。这种全面的性能分析不仅验证了系统设计的合理性,也为未来的改进提供了明确的方向。

五、真实案例中的智能表现

为了更好地理解ODS的实际能力,让我们通过几个具体案例来看看它是如何处理复杂问题的。这些案例不仅展示了系统的技术能力,更重要的是展现了其在实际应用中的智能表现。

第一个案例涉及一个需要多步推理和精确计算的问题:"1950年至1957年生产的詹森拦截者的轴距是多少毫米?"这个问题看似简单,但实际上包含了多个潜在的陷阱。

当ODS处理这个问题时,它首先通过搜索获得了相关信息,但发现搜索结果中存在相互矛盾的数据:一些资料显示轴距是112英寸(2845毫米),而另一些显示是112.5英寸(2858毫米)。面对这种情况,普通的搜索系统可能会随意选择一个答案,或者简单地列出所有可能的结果让用户自己判断。

但ODS展现了更高的智能水平。它仔细分析了不同数据源的可靠性和具体指向,发现112英寸的数据更多地与1950年原始规格相关,而112.5英寸的数据可能来自后期变型或其他版本。基于这种分析,系统判断112英寸更符合问题中特定年份范围的要求。

为了确保答案的准确性,ODS还调用了Wolfram Alpha数学计算工具,将112英寸精确转换为2845毫米。这种多重验证的方法不仅确保了答案的正确性,也展现了系统的严谨性。

相比之下,Perplexity Sonar Reasoning Pro在处理同样的问题时出现了明显的混乱。它在不同的数据间摇摆不定,最终给出了错误的答案2858毫米,缺乏ODS那种系统性的分析和验证过程。

第二个案例更能体现ODS的推理能力:"在Kanye West的歌曲《Power》中被采样的歌曲最初由哪个乐队演奏,该乐队的主唱出生于哪一年?"这是一个典型的多跳推理问题,需要经过多个中间步骤才能到达最终答案。

ODS处理这个问题的过程展现了类似人类研究员的思维方式。它首先识别出需要找到Kanye West歌曲《Power》中的采样来源,通过搜索确定采样来自King Crimson乐队的《21st Century Schizoid Man》。但这只是第一步,系统还需要进一步确定King Crimson的主唱是谁。

在这个过程中,ODS遇到了一些混乱的信息,但它没有被误导。系统发现一些搜索结果错误地将Greg Lake标识为相关人员,但通过更深入的分析,它正确识别出Robert Fripp才是King Crimson的真正领导者和关键人物。

当ODS发现初始搜索结果中缺少Robert Fripp出生年份的信息时,它主动进行了第二次搜索,最终确定答案是1946年。这种自适应的搜索策略展现了系统的智能性:它能够识别信息缺口并主动补充,而不是简单地基于不完整信息给出答案。

第三个案例展示了ODS在处理精确性要求很高的问题时的表现:"《Shrek》在2002年击败《Jimmy Neutron: Boy Genius》获得的那个奖项,哪位抗议美国参与伊拉克战争的日本人也多次获得过?"

这个问题的复杂性在于它需要多个知识点的精确连接。ODS首先识别出《Shrek》在2002年获得的是首届奥斯卡最佳动画长片奖,然后需要找到既反对伊拉克战争又多次获得该奖项的日本人。

通过系统性的搜索和分析,ODS成功地将这些线索连接起来,识别出宫崎骏既因为反战立场而抵制2003年奥斯卡颁奖典礼,又凭借《千与千寻》和《男孩与苍鹭》两次获得最佳动画长片奖。这种复杂的跨领域知识整合能力正是高质量AI搜索系统的核心价值。

相比之下,Perplexity Sonar Reasoning Pro在处理这个问题时显得力不从心,无法建立起不同信息点之间的有效连接,最终得出了模糊不清的结论。

这些案例清楚地展示了ODS的核心优势:它不仅能够搜索和检索信息,更重要的是能够像人类专家一样进行复杂的推理分析,处理信息矛盾,识别信息缺口,并做出智能的判断。这种能力的背后是精心设计的架构和算法的完美配合。

六、技术民主化的深远影响

ODS的开源发布不仅仅是一个技术产品的问世,更代表着AI搜索领域一次重要的技术民主化浪潮。这种民主化的影响将是深远而多层次的,它将重新塑造我们对信息获取、知识创造和技术发展的理解。

从最直接的层面来看,ODS的开源特性打破了技术垄断的壁垒。在此之前,想要构建高质量的AI搜索系统需要巨大的资源投入和技术积累,这使得只有少数大型科技公司能够进入这个领域。现在,任何有一定技术能力的团队都可以基于ODS构建自己的搜索解决方案,这就像从"只有大工厂才能生产汽车"变成了"任何有能力的车间都可以组装汽车"。

这种变化对创业公司和中小企业来说意义重大。他们不再需要从零开始研发搜索技术,而可以将有限的资源集中在业务逻辑和用户体验的优化上。一家专注于医学信息的初创公司可以基于ODS快速构建医学问答系统,一家教育科技公司可以开发针对学生的智能学习助手,而这些在以前都需要大量的基础技术投入。

更重要的是,ODS的插件化设计使得用户可以自由选择底层的语言模型。这就像组装电脑时可以自由选择处理器、显卡和内存一样,用户可以根据自己的需求、预算和性能要求来配置系统。想要更强推理能力的用户可以选择DeepSeek-R1,注重成本效益的用户可以选择较小的模型,这种灵活性是封闭商业系统无法提供的。

从研究和创新的角度来看,ODS的开源特性将推动整个领域的快速发展。研究人员可以基于ODS进行各种实验和改进,而不需要重复构建基础设施。这种协作模式类似于Linux操作系统的发展历程,众多开发者的贡献汇聚成了强大的生态系统。

特别值得一提的是,ODS的开源特性还将促进透明度和可解释性的提升。用户可以清楚地了解系统是如何工作的,搜索结果是如何产生的,推理过程是怎样进行的。这种透明度不仅有助于建立用户信任,也为监管和审计提供了可能。在AI系统越来越多地影响人们决策的今天,这种透明度显得尤为重要。

从全球化的角度来看,ODS的开源特性也具有重要意义。不同国家和地区的开发者可以根据当地的语言、文化和法律要求对系统进行定制。一个中文搜索系统可能需要特殊的分词算法和语言模型,一个欧洲的系统可能需要遵守GDPR等隐私法规,而开源的架构使这些定制化成为可能。

教育领域也将从这种技术民主化中受益匪浅。高等院校和研究机构可以使用ODS来教学和研究,学生们可以通过实际操作来学习AI搜索系统的工作原理。这种实践性的学习方式将培养出更多具有实际能力的技术人才。

当然,技术民主化也带来了新的挑战。开源系统的广泛使用可能导致信息质量的参差不齐,不同实现之间的兼容性问题,以及潜在的安全风险。但历史经验告诉我们,开源社区通常能够通过协作和持续改进来解决这些问题。

从长远来看,ODS代表的技术民主化趋势将推动AI搜索技术向更加多元化、个性化和专业化的方向发展。我们可能会看到针对不同行业、不同用户群体、不同使用场景的各种专门化搜索系统,而这种多样性正是开源生态系统的最大优势。

说到底,ODS的意义远超出了一个技术产品的范畴。它代表着一种理念:高质量的AI技术不应该被少数公司垄断,而应该成为全人类共同的知识财富。这种理念的实现将推动整个社会在信息获取和知识创造方面的进步,让更多的人能够从AI技术的发展中受益。

这项研究也告诉我们,开源不等于性能妥协。通过精心的设计和实现,开源系统完全可以达到甚至超越商业系统的性能水平。ODS在多个基准测试中击败商业竞品的表现就是最好的证明。这种成功将鼓励更多的研究团队和公司投入到开源AI技术的开发中,形成良性循环。

未来,随着ODS生态系统的不断完善和扩展,我们有理由相信,它将成为AI搜索领域的重要基础设施,为整个行业的发展和创新提供强有力的支撑。而对于普通用户来说,这意味着他们将有更多选择,更好的服务,以及更加透明可信的AI搜索体验。这项来自Sentient公司与多所顶尖大学的合作研究,或许正在书写AI搜索技术发展的新篇章。

Q&A Q1:ODS是什么?它与传统搜索引擎有什么区别? A:ODS是开放深度搜索框架,它不像传统搜索引擎只是返回网页链接,而是能理解问题含义,主动搜集信息并给出完整答案,就像一个智能研究助手。它完全开源,任何人都可以使用和定制。

Q2:ODS的性能真的能超过GPT-4o和Perplexity吗? A:是的,在FRAMES复杂推理测试中,ODS达到75.3%准确率,超过GPT-4o搜索版的65.6%和Perplexity产品。在SimpleQA事实问答中也达到88.3%,接近GPT-4o的90%,这证明开源系统同样可以拥有顶级性能。

Q3:普通人可以使用ODS吗?需要什么技术门槛? A:ODS已在GitHub开源,具有一定编程基础的开发者可以直接使用。对于非技术用户,需要等待基于ODS构建的具体产品。它支持插件化配置,用户可以根据需求选择不同的语言模型作为底层引擎。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-