微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI能帮我们查数据库吗?伯克利大学团队首次发布数据代理基准测试

AI能帮我们查数据库吗?伯克利大学团队首次发布数据代理基准测试

2026-03-26 12:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-03-26 12:22 科技行者

这项由加州大学伯克利分校、华盛顿大学和 Hasura 公司合作的研究发表于2026年的机器学习顶级会议,论文编号为arXiv:2603.20576v1,首次系统性地评估了人工智能代理在处理现实企业数据查询任务中的表现。

在现代企业办公环境中,数据分析师们每天都要从各种不同的数据库系统中查找信息。设想一个销售分析师需要找出"上个季度哪些潜在客户值得跟进",这个看似简单的问题实际上需要从客户关系管理系统中找到潜在客户记录,再从另一个文档数据库中匹配通话记录,然后从非结构化的文字中识别客户意图,最后运用业务领域知识判断哪些客户值得继续跟进。整个过程就像一个复杂的拼图游戏,需要从多个不同的盒子中找出正确的拼图块。

随着人工智能技术的快速发展,越来越多的企业开始尝试让AI代理来处理这类复杂的数据查询任务。Uber的QueryGPT每月处理超过120万次查询,OpenAI也建立了内部数据代理来查询7万个数据集共计600TB的数据。然而,构建可靠的数据代理仍然面临巨大挑战,因为企业数据通常分散在多个异构的数据库系统中,存在格式不一致和信息埋藏在非结构化文本中的问题。

研究团队发现,现有的评估基准测试只能测试数据代理能力的一小部分。就好比只用游泳测试来评估三项全能运动员的整体实力一样,现有的文本转SQL测试只能评估模型将自然语言问题转换为单一数据库查询的能力,而表格问答测试虽然能测试推理能力,但测试中的表格都直接提供在问题中,这与实际生产环境中需要从数据库查询获取数据的情况相去甚远。

为了填补这一评估空白,研究团队开发了数据代理基准测试DAB,这是首个用于评估AI代理在现实复杂数据任务中表现的综合基准。他们深入调研了Hasura公司的PromptQL数据代理平台在六个不同行业的实际应用情况,包括科技、金融、食品服务、电子商务、软件即服务和医疗保健行业。通过对企业客户的深度访谈和查询模式分析,他们发现了现实数据查询面临的四个核心挑战。

第一个挑战是多数据库集成。现实中的企业数据往往分散在多个不同的数据库系统中,每个系统使用不同的查询语言。就像一个图书管理员需要同时查询多个使用不同编目系统的图书馆一样,AI代理必须能够跨越SQL方言和MongoDB查询语言等不同系统进行操作。调查显示,72%的组织将数据存储在分散的孤岛中,82%的组织报告这些数据孤岛会破坏关键工作流程。

第二个挑战是格式不一致的连接键。在不同数据库中,代表同一实体的标识符可能格式完全不同,比如一个系统中使用"123",另一个系统中使用"bid_123",还可能存在尾随空格或缩写名称的问题。这就像两个人用不同的昵称称呼同一个朋友,AI代理需要智能识别并调和这些不匹配,然后才能正确地将不同数据库的信息关联起来。

第三个挑战是非结构化文本转换。答案经常隐藏在文本字段中,需要AI代理解析成结构化的值才能进行过滤、分组或连接操作。比如一个产品评论中可能包含"这本书是英文版的"这样的信息,而不是在专门的"语言"字段中标注"English"。AI代理需要像阅读理解专家一样从自然语言文本中提取关键信息。

第四个挑战是领域知识需求。正确回答查询需要专业知识,这些知识无法仅从数据结构中推断出来。比如计算股票波动率必须使用调整后的收盘价来考虑股票分割和股息的影响,这需要金融专业知识。企业还有自己特定的业务概念定义,比如"超级用户"可能指在功能使用上位于80%分位数以上、管理多个项目且频繁登录的用户。

基于这些发现,研究团队构建了包含54个自然语言查询的DAB基准测试,覆盖12个数据集、9个不同领域和4个数据库管理系统。这些数据集涵盖新闻文章、电子商务、客户关系管理、软件工程、本地商业评论、音乐、金融市场、医学研究和专利知识产权等多个领域。为了确保基准测试的真实性,他们从开源数据集开始,然后系统性地对数据进行扰动,使其表现出在生产环境中观察到的相同特征。

在数据准备过程中,研究团队采用了精心设计的方法来模拟现实世界的数据混乱情况。他们故意移除那些可以直接回答查询的列,然后将这些信息以其他形式保存在需要更多处理工作的地方。比如将匹配的标识符替换为不同格式的版本,强制AI代理检测和调和不匹配的情况。他们还将结构化属性值嵌入到自由文本字段中,使用GPT-4o找到自然的插入点,尽可能少地改变原始文本。

每个数据集都被分布到至少两个不同的数据库管理系统中,镜像了在生产环境中观察到的异构模式。他们将非结构化和面向客户的数据放在MongoDB中,将结构化数据放在DuckDB、PostgreSQL或SQLite中。这种设置迫使AI代理需要调和模式和查询方言的差异,因为MongoDB的查询语言与SQL有很大差异,即使在SQL系统之间,方言也有所不同。

为了测试AI代理的实际表现,研究团队评估了五个前沿的大语言模型代理:GPT-5.2、GPT-5-mini、Gemini-3-Pro、Gemini-2.5-Flash和Kimi-K2。他们使用ReAct模式,这是一种先进的代理架构,模型会迭代地推理下一步该做什么、执行工具调用、观察结果,然后决定下一个行动。每个代理都配备了列出可用数据库、对数据库执行查询、运行Python代码和返回最终答案的工具。

然而,测试结果令人担忧。表现最好的代理Gemini-3-Pro仅达到38%的一次通过准确率,即使是50次尝试中至少成功一次的概率也不超过69%。更令人震惊的是,有一个数据集完全没有被任何代理在所有试验中正确解决。这就像即使是最优秀的学生在这场考试中也只能勉强及格,而且还有完全无法解答的题目。

通过对代理行为的深入分析,研究团队发现了一些有趣的模式。那些在数据探索上投入太少或太多时间的代理表现都不佳,而表现最好的两个代理都将大约20%的工具调用分配给数据探索。这就像烹饪时既不能完全不了解食材就开始下锅,也不能花太多时间研究食谱而忘记实际烹饪。

错误分析显示,85%的错误答案源于错误的计划制定或实施失误,而代理很少选择错误的数据源。这意味着AI代理通常能找到正确的数据表和列,但在决定如何处理这些数据以及如何正确实施计算方面存在困难。每个代理都使用正则表达式来从自由文本中提取结构化值,没有代理尝试基于自然语言处理或大语言模型的文本提取方法。

研究团队还发现,将聚合计算推送到SQL中的代理具有更好的成本效率。GPT-5-mini平均数据库查询与Python执行的比例为2.6:1,将聚合推入SQL并在3-5个工具调用中完成大多数查询。相比之下,Kimi-K2的比例为1.1:1,获取广泛的结果集并在Python中处理它们。这种差异在很大程度上解释了成本差距:GPT-5-mini总成本67美元,准确率30%,而Kimi-K2成本1304美元,准确率仅23%。

在文本提取方面,研究发现了一个普遍的失败模式。所有代理都使用正则表达式进行文本提取,当正则表达式不足以处理复杂情况时就会失败。比如在专利数据集中,查询需要解析各种自然语言日期格式,如"dated 5th March 2019"或"March the 18th, 2019"。每个代理都尝试基于正则表达式的日期提取,失败后从不尝试其他方法。类似的模式在其他地方也产生系统性错误:在癌症研究数据中,匹配"MALE"的正则表达式错误地匹配了"FEMALE"字符串内部,导致性别分类错误。

为了进一步验证研究结果,团队还与Hasura公司合作,使用其生产级数据代理PromptQL进行了案例研究。PromptQL在查询执行前构建语义层,分析底层数据库以建立包括表关系、列描述和数据特征在内的精心策划的元数据。使用相同的Claude-Opus-4.6模型,PromptQL代理达到51%的一次通过准确率,比基线ReAct代理的44%提高了7个百分点。

PromptQL在需要定位相关表格和列的数据集上看到最大改进,比如Yelp数据集提高40个百分点,新闻数据集提高35个百分点。然而,两种代理都在需要从非结构化文本列进行批量提取的专利查询上完全失败。这表明专业基础设施有助于数据发现和导航,但尚未解决DAB中的所有挑战。

研究团队通过对失败轨迹的详细分析,识别出五种主要的失败模式。首先是"规划前失败",代理在尝试解决查询之前就放弃了。第二种是"错误计划",代理尝试解决方案但逻辑结构错误,即使完美执行也无法产生正确答案。比如在计算十年间平均评分时,代理可能先计算每本书的平均评分,然后对这些书级平均值求平均,而不是直接对十年内所有评分求平均。

第三种失败模式是"错误数据选择",代理遵循正确的计划但选择错误的数据源。第四种是"错误实施",代理制定正确计划并选择正确数据源,但实施计算时出错。比如在从详情列提取出版年份时,代理应用正则表达式并返回最小匹配值,这可能对应ISBN段而不是真正的年份。最后一种是"运行时错误",代理在运行过程中遇到技术错误。

分析结果显示,错误实施占45%的失败案例,错误规划占40%,错误数据选择仅占15%。这表明代理通常能识别正确的表格和列,主要挑战在于决定如何处理数据以及正确实施计算。值得注意的是,Gemini-2.5-Flash的63.4%失败都是因为返回空响应而立即终止,这通常发生在模型收到被截断并存储到文件的大型工具结果后。

这项研究的意义远超学术评估,它为整个AI代理开发社区提供了重要洞察。研究结果表明,即使是最先进的AI模型在处理现实企业数据任务时仍然面临重大挑战。当前的代理在文本提取方面特别需要改进,暴露专门的提取工具,如日期解析器、命名实体识别标记器或基于LLM的提取操作符,可能会解决DAB中最难解决的查询。

代理框架也可以通过提供更丰富的语义层来减少代理的规划负担。成本效率分析显示,将计算推送到数据库而不是在Python中处理大型结果集可以显著降低成本并提高性能。此外,并行工具调用能力在多数据库工作负载中存在巨大的未开发潜力,因为每个数据源可以独立查询。

对于企业而言,这些发现提醒他们在部署数据代理时需要谨慎考虑。虽然AI代理在处理简单查询方面表现良好,但复杂的跨数据库分析任务仍然需要人工监督和验证。企业在投资数据代理解决方案时,应该优先考虑那些提供语义层和专业化提取工具的平台。

研究团队强调,DAB只是评估数据代理能力的第一步。由于底层企业数据的专有性质,他们不得不从开源数据集构建基准,并人工引入现实世界的复杂性。虽然这些扰动是基于真实观察的,但仍然是现实混乱情况的简化版本。未来的研究需要更多真实世业数据的参与,以及更复杂的评估场景。

说到底,这项研究揭示了一个重要现实:尽管AI技术在许多领域取得了显著进步,但在处理现实世界复杂数据任务时仍有很长的路要走。就像学会游泳不等于能够完成铁人三项一样,能够处理简单数据查询的AI代理在面对企业级复杂任务时仍然力不从心。

这并不意味着我们应该对AI代理失去信心,而是提醒我们需要更加务实地看待当前技术的能力边界。对于企业决策者而言,这项研究提供了宝贵的参考,帮助他们在部署数据代理时设置合理期望并制定相应的风险管理策略。对于AI研究者而言,DAB基准测试为未来的技术改进指明了清晰的方向,特别是在文本提取、计划制定和跨数据库操作方面。随着技术的持续发展和这类基准测试的不断完善,我们有理由期待未来的AI代理能够更好地胜任现实世界的数据分析挑战。

Q&A

Q1:什么是数据代理基准测试DAB?

A:DAB是首个用于评估AI代理处理现实复杂数据任务的综合基准测试,包含54个跨越12个数据集、9个领域和4个数据库系统的自然语言查询,专门测试AI代理在多数据库集成、格式不一致连接键处理、非结构化文本转换和领域知识应用方面的能力。

Q2:目前最先进的AI代理在数据查询任务中表现如何?

A:表现最好的Gemini-3-Pro代理仅达到38%的一次通过准确率,即使给50次尝试机会,成功率也不超过69%。85%的错误来自规划失误和实施错误,而且有整个数据集完全无法被任何代理正确解决。

Q3:企业部署数据代理时需要注意什么?

A:企业应该设置合理期望,重点关注提供语义层和专业化提取工具的平台,对复杂跨数据库分析任务保持人工监督,优先在简单查询场景中部署,并制定相应的风险管理策略来应对AI代理的局限性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-