微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Salesforce发布EDR:让AI智能体像专业分析师一样做企业深度研究

Salesforce发布EDR:让AI智能体像专业分析师一样做企业深度研究

2025-12-05 10:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-05 10:22 科技行者

这项由Salesforce AI Research团队的Akshara Prabhakar、Roshan Ram、Zixiang Chen等研究人员开展的研究发表于2025年10月,论文编号为arXiv:2510.17797v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当今企业面临着前所未有的数据爆炸挑战。每天产生的海量信息就像无边无际的图书馆,企业需要从中找到对业务决策有用的洞察。然而,传统的分析方法就像用放大镜在图书馆里一本一本地翻找信息,既费时又容易遗漏关键内容。

Salesforce的研究团队开发了一个名为"企业深度研究"(Enterprise Deep Research,简称EDR)的AI系统,它就像一个永不疲倦的专业研究分析师。这个AI分析师不仅能够同时处理多个复杂的研究任务,还能在研究过程中接受人类的实时指导,确保研究方向始终符合企业需求。

EDR系统最大的创新在于它的"可操控性"。传统的AI研究工具就像自动驾驶汽车,一旦启动就只能按照预设路线行驶,无法中途调整方向。而EDR更像是一个经验丰富的出租车司机,不仅知道目的地在哪里,还能根据乘客的实时需求调整路线,甚至在发现更有价值的信息时主动建议绕道探索。

一、EDR系统的核心架构:像交响乐团一样协调工作的AI团队

EDR系统的设计理念就像组建一个专业的研究团队。在这个团队中,有一个总指挥(主研究智能体),负责分解复杂的研究任务并协调整个团队的工作。同时,还有四个专业的搜索专家分别负责不同的信息来源:一个负责搜索互联网上的通用信息,一个专门查找学术论文,一个专注于代码仓库,还有一个专门挖掘LinkedIn上的专业人士信息。

这种分工就像一家高端咨询公司的运作模式。当客户提出一个复杂的商业问题时,项目经理会将任务分解为多个子问题,然后安排不同专业背景的顾问分别负责市场调研、技术分析、人员评估等工作。每个顾问都在自己的专业领域内深挖信息,最后由项目经理将所有信息整合成一份完整的报告。

EDR系统的主研究智能体扮演的就是这个项目经理的角色。当企业用户提出研究需求时,比如"分析人工智能在医疗行业的应用前景",主智能体会智能地将这个大问题分解为若干个具体的子问题:AI在诊断领域的应用现状、主要技术供应商的产品对比、医疗机构的采用情况、监管政策的影响等等。

然后,它会根据每个子问题的特点,派遣最合适的专业搜索智能体去收集信息。需要查找最新的研究论文时,就派学术搜索专家出马;需要了解相关技术的开源实现时,就让代码搜索专家上场;需要找到行业内的关键人物和公司信息时,LinkedIn搜索专家就会发挥作用。

更重要的是,EDR系统还配备了一个"反思机制",就像团队中有一个质量管控专员,会定期检查研究进度,发现信息缺口,并及时调整研究方向。这个机制会自动识别出哪些方面的信息还不够充分,哪些研究方向可能已经偏离了用户的真实需求,然后生成新的研究任务来填补这些空白。

二、任务管理系统:让研究过程像项目管理一样清晰可控

EDR系统最具创新性的特征之一是它的任务管理机制。研究团队创建了一个叫做"todo.md"的动态任务清单,就像项目管理软件中的任务看板一样,将整个研究过程变得透明可控。

这个任务清单不是简单的文本文档,而是一个智能的、实时更新的工作计划。每个研究任务都有自己的身份标识、优先级评分、当前状态和来源标记。任务的优先级从5到10分不等,分数越高表示越重要。系统会自动根据用户的指导意见调整任务优先级,确保最重要的问题得到优先解决。

任务的生命周期就像工作流程一样清晰:从"待处理"状态开始,转为"进行中",最后变成"已完成"或"已取消"。用户可以随时查看这个任务清单,了解研究进展,就像查看项目进度表一样。

更重要的是,用户可以在研究过程中通过自然语言向系统发送指导意见。比如,用户可以说"更多关注同行评议的学术资源"或"优先考虑最近发表的研究"。系统会智能地理解这些指导,并相应地调整任务优先级、添加新任务或取消不相关的任务。

这种设计的巧妙之处在于,它解决了传统AI系统的一个核心问题:用户无法在AI工作过程中进行干预。就像给GPS导航仪重新设定目的地一样,用户现在可以在AI研究过程中随时调整方向,确保最终结果符合自己的真实需求。

三、专业搜索工具:针对不同信息源的精准挖掘策略

EDR系统配备的四个专业搜索智能体各有各的"专业技能",就像不同领域的专家一样。

通用网络搜索专家负责在互联网上搜索新闻、报告和一般知识。它使用Tavily API作为搜索引擎,能够进行语义去重,避免收集到重复信息。这个专家特别擅长找到最新的市场动态、企业新闻和行业趋势。

学术搜索专家专门针对学术出版物和同行评议的内容。它能够访问包括arXiv在内的多个学术资源库,支持模糊去重来处理标题变化的同一篇论文,还可以根据时间加权来强调最新的研究。当企业需要了解某个技术领域的最新科研进展时,这个专家就会发挥重要作用。

GitHub搜索专家专注于代码仓库、技术实现和软件文档。它会在仓库级别进行去重,避免重复分析同一个项目,并且优先提供文件级别的URL以获得最大效用。当企业想要了解某项技术的开源实现情况或寻找可用的开发工具时,这个专家最为有用。

LinkedIn搜索专家则专门挖掘专业档案、公司信息和领域专家。它经过优化,能够高效检索相关人员信息,并且严格限制在linkedin.com域名内搜索,确保信息的专业性和可靠性。这对于了解行业内的关键人物、公司高管或寻找潜在合作伙伴特别有价值。

每个专家都配备了智能的结果处理机制,包括内容提取、去重和相关性评分。它们就像训练有素的助理研究员,不仅知道在哪里找信息,还知道如何筛选和整理信息,确保提供给用户的都是高质量、高相关性的内容。

四、企业级工具生态:连接内部数据的智能桥梁

除了搜索外部信息,EDR系统还配备了一套完整的企业内部数据分析工具,就像给研究团队配备了一套专业的实验设备。

文件分析工具就像一个多才多艺的文档专家,能够处理各种格式的文件,包括数据库文件、PDF文档、Word文档、文本文件、电子表格和图像。它使用格式特定的解析器和AI驱动的内容摘要技术,不仅能提取文件内容,还能保持原有的布局结构,并进行语义内容分析。这意味着企业可以将自己的内部报告、研究文档或数据文件上传到系统中,让AI分析师充分利用这些内部知识。

NL2SQL智能体则像一个精通数据库的分析师,能够将自然语言查询转换为SQL语句,直接与企业的结构化数据库进行交互。它具备模式感知能力,能够理解数据库的结构,并进行查询分解和多层验证,包括语法检查、语义验证、性能优化和安全检查。这让非技术人员也能够通过自然语言查询复杂的企业数据。

数据可视化智能体就像一个专业的图表设计师,能够根据量化发现生成可视化图表。它会根据数据特征自适应选择图表类型,包括柱状图、折线图、散点图、热力图和饼图。所有可视化都在安全的执行环境中渲染,支持交互式探索,并能导出多种格式供报告使用。

通过模型上下文协议(MCP),EDR系统还支持与自定义企业系统的扩展集成。这就像给研究团队配备了一套可定制的专业工具,企业可以根据自己的特定需求连接远程计算服务和其他领域工具。MCP支持HTTP和stdio传输协议,大大降低了新工具集成的技术门槛。

五、智能研究流程:从问题到洞察的自动化旅程

EDR系统的研究流程设计得就像一个经验丰富的咨询项目的执行过程。当用户提交研究问题后,系统会自动启动一个结构化的、迭代的工作流程。

首先,系统会创建一个初始的轻量级任务计划,通常包含3到5个高优先级任务。这些任务会被标注唯一标识符、优先级分数和来源元数据。来自初始用户查询的任务被标记为"初始查询",后续为解决知识缺口而生成的任务被标记为"知识缺口",响应用户指导而创建的任务则标记为"指导"。指导衍生的任务获得最高优先级10分,原始查询任务获得9分,知识缺口任务获得7分。

在每个研究迭代的开始,主研究智能体会构建一个综合提示,包含原始研究目标、先前发现的逐步精炼摘要、未解决的信息需求集合,以及从用户交互中派生的所有主动指导约束。基于这个综合上下文,AI会执行自适应查询分解,生成3到7个新任务和相应的搜索查询。

系统实施三层质量控制机制。首先是语义去重,通过模糊字符串匹配和前缀规范化来防止冗余搜索,合并重复项并在优先级更高时更新它们。其次是约束执行,确保遵循指导说明,比如排除用户标记的术语或提升与焦点指令对齐的内容。最后是优先级调整,动态重新排序执行序列,让高影响力和用户对齐的查询获得优先处理。

查询会并行分派给专业智能体,包括通用搜索、学术文献、代码仓库和领域工具。智能体会执行过滤、去重和相关性评分,然后返回结果进行聚合。

六、结果整合与增量合成:构建连贯的知识体系

从不同专业智能体返回的结果会经过三个阶段的处理,就像组装一台精密机器一样,每个环节都至关重要。

第一阶段是智能体间去重。系统通过语义相似性比较来整合结果,识别多个搜索工具间的重叠内容。引用标准化确保URL和标题格式的一致性,优先选择每个独特来源的最高质量表示。

第二阶段是AI驱动的合成。AI会将新收集的研究内容合并到现有的运行摘要中,使用专门的合成过程。它接受四个输入:先前迭代的运行摘要、新获取的网络研究结果、反思产生的知识缺口,以及用户上传的知识(如果存在)。AI执行上下文压缩,提取关键洞察的同时保留引用链接和元数据。这防止了指数级的上下文增长,系统维护的是逐步精炼的知识表示,而不是累积所有原始搜索输出。

第三阶段是源引用管理。提取的来源在去重字典中跟踪,维护URL到元数据的映射,供后续报告生成使用。未使用的来源会被记录以保证透明度,但从最终引用中排除。

合成步骤确保每次迭代都在先前发现的基础上构建,而不会失去连贯性或超出上下文限制,使系统能够处理10次以上迭代和数百个来源的会话。

七、实时指导机制:人机协作的智能交互

EDR系统最具突破性的特征之一是它的实时指导能力。传统的AI研究工具就像老式的录音机,一旦按下播放键就只能按照预设程序运行到结束。而EDR更像是一个智能对话伙伴,能够在工作过程中接收和理解人类的指导意见。

系统实现了一个基于队列的、竞态条件安全的指导机制,能够在不中断正在进行的执行过程的情况下实现实时用户指导。用户消息在研究执行期间排队,如果积累了多条消息,系统会对它们进行摘要以提取核心指令。比如,"专注于同行评议的资源"和"优先考虑最新论文"会被整合为"强调最新的同行评议文献"。

消息在反思阶段的迭代间以原子方式处理,防止与活跃查询的干扰。为防止数据丢失,系统采用基于快照的合并机制:在反思过程中到达的指导消息会自动保存并添加到反思后队列中。这确保用户输入永远不会丢失,同时在稳定的消息集上维护确定性的AI推理。

提取的指令会更新研究任务管理器,将指导约束整合为优先级提升、排除过滤器或焦点指令,确保在后续查询生成和执行周期中与用户意图保持一致。

这种设计的精妙之处在于,它让用户成为研究过程的积极参与者,而不是被动的观察者。用户可以随时根据中间结果调整研究方向,就像在导航过程中根据路况变化选择更好的路线一样。

八、反思与任务更新:智能的自我完善机制

反思机制是EDR系统的核心引擎,就像一个经验丰富的项目经理会定期检查工作进展并调整计划一样。在每次迭代后,系统会根据当前任务计划和累积知识对聚合结果进行评估。

系统会识别几个关键方面的问题。首先是知识缺口,包括缺失的概念、未探索的领域,或相对于原始用户查询的证据不足。其次是任务不对齐,即由于新发现或用户指导指令而不再相关的任务。第三是质量不一致,包括智能体返回的矛盾或低置信度信息。

基于这个分析,研究任务管理器会更新任务计划。它会生成新任务来解决知识缺口,优先级分数反映其重要性。会更新任务状态,将不对齐或已解决的任务取消或标记为完成。还会清除队列,指定已通过任务创建或取消完全解决的用户指导消息的索引。未解决的消息继续排队等候后续循环。

研究任务管理器在每次状态修改时会增加版本计数器,只有在发生变化时才触发前端更新。这种基于版本的轮询提供了任务状态和来源的实时可见性,而无需连续状态流传输。

反思是迭代和累积的,确保后续研究循环越来越专注于未解决的知识缺口,同时与先前发现保持连续性。这就像一个学习型组织,能够从每次项目经验中总结教训,并将这些教训应用到下一个项目中。

九、迭代优化与循环终止:追求完美的平衡艺术

EDR系统的查询规划、智能体执行、指导集成、结果聚合和反思的循环会迭代重复。每个循环都整合来自先前迭代和用户指导消息的反馈,逐步朝着研究问题的全面覆盖收敛。

终止条件的设计体现了系统的智能性。当知识缺口得到解决、达到最大循环限制,或系统确定报告完整性足够时,循环就会结束。这就像一个经验丰富的研究员知道什么时候已经收集了足够的信息来回答研究问题。

系统还实现了智能的成本控制机制。在评估中,EDR在DeepResearch Bench上消耗的令牌数是其他系统的四分之一,这表明其高效的搜索和合成策略。通过避免冗余搜索和智能的上下文压缩,系统能够在保持高质量输出的同时控制计算成本。

最终报告生成阶段,系统会合成运行摘要、聚合来源、代码片段和指导历史,形成结构化报告。质量保证检查会验证引用完整性、结构连贯性、查询覆盖和对用户指令的遵循。最终文档通过前端界面交付,提供研究过程的交互式详细描述,保持透明度、可重现性和用户对齐的洞察生成。

十、性能评估:在标准测试中展现的卓越表现

研究团队在三个重要的开放式深度研究基准测试中评估了EDR系统的性能,结果令人印象深刻。

在DeepResearch Bench测试中,这是一个包含100个博士级复杂研究任务的基准,涵盖22个不同领域,EDR获得了49.86的总分,在所有专有和开源智能体系统中表现最佳。特别是在指令遵循和可读性标准方面,EDR获得了特别高的分数。在成本方面,EDR消耗的令牌数比langchain-open-deep-research少4倍,显示了其高效的搜索和合成策略。

在DeepConsult测试中,这是一个专门的商业和咨询导向提示集合,EDR达到了71.57%的最高胜率和6.82的优秀平均质量分数,超过了其他开源系统。同时,失败率仅为9%,表明大多数报告都明显优于或与基准系统相当。

在ResearchQA测试中,这是一个包含3750个科学测试问题的大规模多领域基准,EDR获得了68.5%的竞争性覆盖率。虽然Perplexity Deep Research达到了75.3%的最高总体覆盖率,但EDR在一般、影响和比较项目上表现强劲。分析显示EDR在引用处理(85%失败率)、示例生成和多标准标准方面存在严重弱点,这为未来改进指明了方向。

在企业用例评估中,EDR在复杂的内部专有数据库的开放式研究和研究方面都取得了出色的表现。系统在SQL生成和执行方面达到了95%以上的准确率,99.9%的正常运行时间,同时在不同工作负载中保持了可靠性和可扩展性。用户研究报告了98%的任务完成率、4.8/5的满意度分数,以及复杂分析任务的洞察时间减少了50%。

十一、研究轨迹数据集:为未来研究铺路的宝贵资源

研究团队还收集了201个完整的智能体轨迹,其中99个来自DeepResearch Bench,102个来自DeepConsult。与之前只捕获最终输出的基准测试不同,这些轨迹暴露了完整的推理过程,包括搜索、反思和合成,使得能够对规划和决策动态进行细粒度分析。

这个数据集的价值就像为AI研究人员提供了一个详细的"思维录像"。研究人员可以看到AI系统在每个步骤是如何思考和决策的,这对于研究长期智能体行为和开发更高效的研究智能体的训练和评估方法具有重要意义。

轨迹分析显示了一些有趣的模式。报告合成在第4-5次迭代时达到峰值,词汇增长+1785词(是平均值的3倍),标志着在充分信息积累后最有生产力的增长阶段。对1422个反思实例的分析揭示了市场(27.1%)、比较(18.4%)和成本(14.2%)分析中反复出现的知识缺口。每次迭代的源使用保持在约14个的稳定水平,反映了EDR在扩展研究工作流程中持续的多样性和连贯性。

十二、技术实现细节:构建企业级系统的工程智慧

EDR系统的技术实现体现了现代软件工程的最佳实践。系统使用React 18和TypeScript构建前端,利用并发渲染、自动批处理和改进的错误边界来实现高性能和稳健的开发体验。TypeScript确保了全面的类型安全、严格的类型检查和无缝重构。

界面设计采用Material-UI,提供可访问、响应式和可主题化的组件,遵循WCAG指南,配备高级UI元素如可排序数据表、验证表单和交互式可视化。Tailwind CSS提供实用优先的样式框架,具有自定义设计令牌、响应断点和优化的CSS生成,以实现最小的包大小。

数据获取和状态同步由React Query管理,支持智能缓存、后台重新获取、乐观更新和自动重试机制,确保流畅响应的用户体验。

后端基于FastAPI构建,提供全面的REST API,具有流式响应、后台任务处理、全面错误处理、CORS支持、自动API文档生成、缓存控制中间件等高级功能。系统支持多种LLM提供商,包括OpenAI、Anthropic、Groq和SambaNova,通过环境变量配置API密钥。

十三、未来发展方向:持续改进的roadmap

基于评估结果,研究团队识别了几个重要的改进方向。首先是增强输出事实性,通过改进引用和证据基础来解决引用处理的弱点。其次是开发预测性指导机制,让系统能够更主动地预测用户需求。第三是扩展跨更广泛企业数据生态系统的集成,提高系统的适用性。

研究团队还计划继续完善多智能体推理应用,探索更复杂的协作模式和更智能的任务分解策略。这些改进将进一步提升EDR系统在企业环境中的实用性和效果。

EDR系统代表了AI驱动企业分析的重要进步,通过可操控的上下文工程实现了动态和可解释的人机协作。系统将智能工具选择、自适应规划和跨系统检索相结合,促进了大规模、透明和目标对齐的研究工作流程。

说到底,EDR系统就像给企业配备了一个永不疲倦、知识渊博的研究助手。这个助手不仅能够独立工作,还能够理解和响应人类的指导,确保研究结果始终符合企业的实际需求。随着企业面临越来越复杂的决策挑战,这样的AI助手将成为不可或缺的战略工具,帮助企业在激烈的市场竞争中保持优势。

Q&A

Q1:EDR系统与传统的AI研究工具有什么本质区别?

A:EDR最大的区别在于它的"可操控性"。传统AI研究工具像自动驾驶汽车,一旦启动就只能按预设路线行驶。而EDR更像经验丰富的出租车司机,能根据乘客实时需求调整路线。用户可以在研究过程中通过自然语言发送指导意见,系统会智能理解并调整研究方向,确保结果符合真实需求。

Q2:EDR系统如何保证企业数据的安全性?

A:EDR系统设计了完整的企业级安全机制。它支持处理内部专有数据库,通过模型上下文协议(MCP)实现安全的企业系统集成。所有数据可视化都在安全的执行环境中渲染,支持多种格式导出。系统还配备了多层验证机制,包括语法检查、语义验证、性能优化和安全检查,确保企业数据的安全和隐私。

Q3:普通企业用户需要什么技术背景才能使用EDR系统?

A:EDR系统专门为非技术用户设计。企业用户只需要用自然语言描述研究需求,就像和专业分析师对话一样。系统配备的NL2SQL智能体让非技术人员也能通过自然语言查询复杂的企业数据库。整个研究过程通过直观的任务清单展示,用户可以随时查看进展并发送指导意见,无需任何编程或技术背景。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-