微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI能否准确理解英国公共卫生指南?英国卫生安全局首创最大规模LLM健康知识基准测试

AI能否准确理解英国公共卫生指南?英国卫生安全局首创最大规模LLM健康知识基准测试

2025-07-08 09:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-08 09:32 科技行者

在人工智能技术飞速发展的今天,各种聊天机器人和AI助手已经深入我们的日常生活。当人们遇到健康问题时,越来越多的人会习惯性地询问AI,就像咨询一位随时在线的医生朋友。但是,这些AI真的能准确理解和传达复杂的公共卫生指南吗?英国卫生安全局的Joshua Harris等十多位研究人员在2025年5月发表的这项开创性研究给出了答案。这项研究发表在预印本平台arXiv上,论文标识符为arXiv:2505.06046v2,为我们揭示了当前最先进AI模型在公共卫生知识方面的真实表现。

这项研究首次大规模评估了AI模型对英国政府公共卫生指南的掌握程度,就像给AI们举办了一场史无前例的"公共卫生知识大考"。研究团队从英国政府网站收集了687份现行的公共卫生指导文件,涵盖从疫苗接种到食品安全,从传染病防控到化学品毒理学等十个主要领域,构建了一个包含超过8000道多选题的全新基准测试系统PubHealthBench。这就好比建造了一座巨大的知识图书馆,然后让24个不同的AI模型进入其中接受测试,看看它们到底掌握了多少英国公共卫生的"家底"。

研究的意义不仅在于技术层面的突破,更关乎每个人的健康安全。当你深夜突然担心某种症状,或者想了解最新的疫苗接种建议时,AI给出的回答是否可靠?这项研究就是要回答这个关乎民生的重要问题。英国卫生安全局作为英国卫生与社会保障部的执行机构,承担着保护公众健康的重要职责。他们进行这项研究,正是出于对AI在公共卫生领域应用安全性的深度关切。

一、构建AI健康知识的"试金石"

要测试AI的公共卫生知识水平,首先需要建立一套科学严谨的评测体系。研究团队面临的第一个挑战就像是要为一位博学的学者设计考试题目——既要覆盖足够广泛的知识领域,又要确保题目的准确性和实用性。

研究团队采用了一种创新的自动化流程来构建这个测试系统。他们首先从英国政府官方网站gov.uk收集了1150份公共卫生指导文件,这些文档包括HTML和PDF两种格式。这就像是搬来了一整座图书馆的藏书,内容涵盖了英国公共卫生的方方面面。

处理这些文档的过程充满了技术挑战。HTML文档相对简单,可以直接转换为易于处理的标记格式。但PDF文档就像是一本本装帧精美却难以拆解的古籍,需要特殊的处理方法。研究团队采用了一种两阶段的处理流程:首先使用传统工具提取PDF中的原始文本,然后让GPT-4o-mini这个视觉AI模型"看图说话",逐页提取文本内容并整理成规范的标记格式。这种方法确保了即使是复杂版式的PDF文档,其中的重要信息也不会丢失。

文档处理完成后,研究团队将这些庞大的文件切分成20488个较小的段落,每个段落都包含完整的上下文信息。这就像是把一本厚重的百科全书拆分成一张张知识卡片,每张卡片都保留了足够的背景信息,确保读者能够理解其含义。

接下来的关键步骤是从这些段落中筛选出真正包含公共卫生建议的内容。毕竟,政府文档中有很多背景介绍、操作细节等信息,虽然重要,但不是测试AI知识掌握程度的重点。研究团队使用AI模型对每个段落进行分类,筛选出7946个包含实质性公共卫生建议的段落作为题目生成的素材。

题目生成过程采用了先进的Llama-3.3-70bn-Instruct模型。这个过程就像是请一位资深的公共卫生专家为每个知识点设计考试题目。AI需要基于每个段落的内容,生成一道选择题,包括一个正确答案和六个错误但很有迷惑性的选项。这些错误选项不能明显错误,而要设计得足够巧妙,即使是公共卫生专家也需要仔细思考才能判断。

为了确保题目质量,研究团队还设计了一个自动化的错误检测系统。使用另一个AI模型Llama-3-70bn-Instruct来检查生成的题目是否存在逻辑错误、表述不清或答案争议等问题。这就像是有一位严格的审题老师,对每道题目都进行细致的检查和筛选。经过这道质量控制流程,最终有14440道题目通过了初步筛选。

最后,研究团队还考虑到了题目的时效性和代表性。他们剔除了基于已撤销指南的题目,并在HTML和PDF来源的题目之间保持平衡,确保测试内容能够更均匀地覆盖各个主题领域。经过这些精心的筛选和平衡,最终的PubHealthBench基准测试包含了8090道高质量的选择题。

这个构建过程展现了现代AI技术的强大能力,但同时也体现了人工监督和质量控制的重要性。研究团队不仅创造了一个技术工具,更是建立了一套可持续更新、不断完善的评测体系,为未来的AI健康知识评估奠定了坚实基础。

二、让AI接受史上最严格的健康知识考试

当测试系统构建完成后,真正的挑战才刚刚开始。研究团队需要让24个不同的AI模型接受这场前所未有的公共卫生知识大考。这些被测试的AI就像是来自不同学校的学生,有的是GPT-4.5、Claude-Sonnet-3.7这样的"尖子生",也有Gemma-3、Phi-4等各具特色的"参赛选手"。

为了确保测试的公平性和准确性,研究团队设计了三种不同难度的测试版本。第一种是包含全部8090道题目的完整版测试,就像是一场马拉松式的知识竞赛,全面考察AI的知识储备。第二种是经过人工专家审核的760道题目精选版,这些题目经过严格筛选,确保每道题都有明确的标准答案,就像是精心挑选的"黄金题库"。第三种则是最具挑战性的自由作答测试,AI需要在没有选项提示的情况下直接回答问题,这就像是从选择题考试升级为论述题考试,难度陡然增加。

在选择题测试中,AI们的表现确实令人印象深刻。最优秀的几个模型,包括GPT-4.5、GPT-4.1和o1,在8000多道题目的测试中都取得了超过90%的正确率。这个成绩相当惊人,要知道这些题目涵盖了从血液安全到疫苗接种,从化学品毒理到传染病防控的广泛领域。这就好比一个学生在涵盖医学、生物学、化学、流行病学等多个学科的综合考试中都能取得A级成绩。

更有趣的是,研究团队还安排了人类专家与AI进行"人机对战"。五位具有相关背景的人类测试者在允许使用搜索引擎但禁止使用AI工具的条件下,完成了600道测试题。结果显示,人类专家的平均正确率为88%,这意味着最优秀的AI模型已经超越了人类在快速检索和应用公共卫生知识方面的能力。这并不是说AI比人类更聪明,而是说明AI在快速检索和整合大量信息方面确实具有优势。

然而,当测试升级为自由作答形式时,情况发生了戏剧性的变化。即使是表现最好的AI模型,正确率也下降到了75%以下,与选择题测试相比下降了17到63个百分点不等。这种差异就像是学生在选择题考试中得了90分,但在论述题考试中却只能得到70分,暴露了AI在深度理解和准确表达方面的局限性。

研究团队深入分析了AI在自由作答中表现不佳的原因。主要问题在于AI经常会在正确信息的基础上添加一些并非来自英国官方指南的额外建议或信息。这就像是一个过度热心的朋友,在给你正确建议的同时,又忍不住加上一些自己的"小贴士",结果反而降低了答案的准确性和权威性。

有趣的是,在自由作答测试中,那些被称为"推理模型"的AI(如o1和o3-Mini)表现相对更好,它们在正确率下降方面明显小于其他模型。这些模型就像是更加谨慎的学生,在回答问题前会进行更多的思考和验证,因此能够给出更准确、更贴合官方指南的答案。

测试还揭示了一个重要发现:所有AI模型在回答面向公众的健康指南问题时表现都明显好于回答面向医疗专业人员的指南问题。这个现象很好理解——面向公众的健康指南通常表述更清晰、更直接,而专业医疗指南往往包含更多技术细节和专业术语,对AI的理解能力提出了更高要求。

三、揭示AI健康知识的"强项"与"软肋"

通过对测试结果的深入分析,研究团队发现了AI在不同健康领域知识掌握方面的有趣规律。这些发现就像是给AI绘制了一份详细的"知识地图",清楚地显示了它们的强项和弱点。

在十个主要的公共卫生领域中,AI们表现最出色的是气候与健康以及弱势群体健康保护相关的知识。在这些领域,大部分AI模型的正确率都能达到90%以上。这种优异表现可能源于这些话题在训练数据中出现频率较高,以及相关指南的表述相对简洁明确。气候变化对健康的影响、弱势群体的健康保护措施等内容,往往具有较强的普遍性和一致性,不同国家和机构的建议趋于一致,这为AI的学习和掌握创造了有利条件。

相比之下,AI们在化学品和毒理学领域的表现明显较弱,平均正确率比其他领域低5-10个百分点。这个结果并不意外,因为化学品毒理学是一个高度专业化的领域,涉及大量具体的化学物质名称、毒性参数、处理程序等细节信息。这些信息不仅专业性强,而且经常根据最新研究结果进行更新,对AI的知识更新速度和深度理解能力都提出了更高要求。

从指南的目标受众角度分析,研究发现了一个非常有意义的规律:AI在回答面向普通公众的健康指南问题时,表现始终优于回答面向医疗专业人员或临床医生的指南问题。具体来说,最优秀的AI模型在公众健康指南方面的正确率可以达到96%,接近测试的理论上限,而在临床指南方面的正确率则下降到91%左右。

这种差异反映了一个重要现象:面向公众的健康指南通常使用更简单直接的语言,避免过多的医学术语,逻辑结构也更加清晰。例如,公众版的疫苗接种指南会明确告诉人们"什么时候接种"、"接种什么疫苗"、"有什么注意事项",而临床版的指南则可能涉及复杂的医学判断标准、特殊情况处理、药物相互作用等专业内容。

从AI的规模和类型来看,研究还发现了一些有趣的规律。在选择题测试中,大规模的商业AI模型(如GPT系列、Claude系列)与中等规模的开源模型(如Llama-3.3-70B、Phi-4-14B)之间的差距相对较小,通常在10-20个百分点以内。但在自由作答测试中,这种差距明显扩大,小规模模型的表现下降幅度往往超过35个百分点。

这种现象揭示了AI能力的一个重要特点:在有明确选项提示的情况下,AI可以通过排除法、关键词匹配等策略获得不错的成绩,但在需要完全依靠内在知识生成答案时,模型规模和训练质量的差异就会显著放大。这就像是在有提示的情况下,学生可以通过各种技巧猜测答案,但在完全开放的考试中,真正的知识水平差异就会显现出来。

研究团队特别关注了AI在处理最新信息方面的能力。值得注意的是,测试中有31%的题目基于2024年更新的指南文档,这些内容很可能超出了大部分AI模型的训练数据时间范围。然而,优秀的AI模型仍然在这些"超纲"内容上表现良好,这说明它们具备了一定的知识迁移和推理能力,能够基于已有的基础知识来理解和应用新的信息。

另一个引人注目的发现是,被称为"推理模型"的AI(如OpenAI的o1系列)在选择题测试中并没有显示出明显优势,但在自由作答测试中却表现出了相对更好的稳定性。这些模型在回答问题时会进行更多的内部思考和验证,虽然这在多选题环境中可能是"过度设计",但在需要生成完整答案的场景中却显示出了价值。

四、AI回答健康问题的"真实水平"大揭秘

当我们从实验室的理想环境回到现实世界的应用场景时,AI在健康知识方面的表现呈现出了更加复杂和微妙的图景。自由作答测试的结果为我们打开了一扇窗,让我们看到AI在实际应用中可能面临的挑战和局限。

在自由作答测试中,即使是表现最优秀的o1模型,正确率也只有74%,这与其在选择题测试中91%的成绩形成了鲜明对比。这种差距不仅仅是数字上的下降,更反映了AI在不同应用场景下能力的根本性差异。这就好比一个学生在标准化考试中表现优异,但在实际工作中却可能遇到各种意想不到的挑战。

研究团队通过仔细分析AI的错误答案,发现了几种典型的问题模式。最常见的问题是AI会在正确信息的基础上添加额外的建议或说明,而这些附加信息虽然在常识上可能正确,但并不符合英国官方指南的具体表述。这就像是一个热心但不够严谨的朋友,在转达医生建议时忍不住加上自己的理解和补充,结果反而可能误导听者。

例如,当被问及某种疫苗的接种建议时,AI可能会正确地说出英国官方推荐的接种时间和人群,但随后又添加一些关于疫苗原理、可能副作用或其他国家做法的信息。虽然这些额外信息本身可能是准确的,但在评估AI是否准确传达英国官方指南时,这些"画蛇添足"的内容就成了扣分项。

另一个常见问题是AI在处理具有地域特殊性的健康指南时可能出现混淆。英国的公共卫生政策和其他国家存在一定差异,AI在训练过程中接触了来自世界各地的健康信息,有时候会无意中将其他国家的做法或建议混入对英国指南的阐述中。这种"知识串台"现象在涉及具体数值、时间节点或操作程序的问题中尤为明显。

有趣的是,在自由作答测试中,不同AI模型之间的表现差异比选择题测试更加明显。一些较小的开源模型,如Phi-4-4B和Llama-3.1-8B,在自由作答中的正确率下降超过60个百分点,从80%左右跌至仅有18-19%。这种急剧下降暴露了小规模模型在知识生成和表达准确性方面的严重局限。

相比之下,大规模的商业模型虽然也出现了显著下降,但下降幅度相对较小。GPT-4.5从92%下降到59%,Claude-Sonnet-3.7从87%下降到58%,这种相对稳定的表现说明了模型规模和训练质量在复杂任务中的重要性。

推理模型在自由作答测试中显示出了独特的优势。o1模型的正确率下降幅度仅为17个百分点,o3-Mini的下降幅度也只有18个百分点,远小于其他类型的模型。这种相对稳定的表现可能源于推理模型在生成答案前进行的更深入思考和验证过程。它们就像是更加谨慎的学者,会在给出最终答案前反复检查和确认。

研究团队还使用了一套自动化的评分系统来评估自由作答的质量。这个系统使用GPT-4o-Mini作为"判官",通过比较AI的答案与标准答案以及相关文档内容来判断回答的准确性。这种AI评判AI的方法虽然创新,但也带来了新的思考:当我们用AI来评估AI时,评判的标准和偏向性如何保证?

为了验证这套评分系统的可靠性,研究团队进行了大量的验证测试。他们发现这个自动评分系统在区分明显正确和明显错误的答案方面表现优异,准确率超过99%。但在处理那些部分正确或存在细微差别的答案时,系统的表现还有待进一步验证和改进。

从实际应用的角度来看,自由作答测试的结果为AI在健康咨询领域的应用提供了重要启示。虽然AI在知识检索和基本理解方面已经达到了相当高的水平,但在需要准确、完整、权威地传达特定机构指南时,仍然存在不容忽视的风险。这提醒我们,在设计AI健康助手时,可能需要采用更加保守和谨慎的策略,例如提供信息来源、限制回答范围或增加人工审核环节。

五、人工智能健康助手的现实考量

当我们将实验室的测试结果投射到现实世界的应用场景中时,这项研究揭示的问题和机遇都变得更加具体和紧迫。普通人在深夜突然出现症状时,越来越习惯向AI寻求快速解答,而不是等到第二天才联系医生或查阅官方资料。在这种情况下,AI的准确性和可靠性就不仅仅是技术问题,更是关乎公共健康安全的社会问题。

研究结果显示,当前最先进的AI模型在回答公共健康问题时已经达到了相当高的准确性,特别是在面向普通公众的健康指南方面。这意味着对于大多数常见的健康咨询,AI已经能够提供基本可靠的信息。这种能力的实现为改善健康信息的可及性带来了巨大机遇,特别是对那些地理位置偏远或医疗资源有限的地区而言。

然而,研究同时也揭示了AI应用中的潜在风险。在自由作答模式下,AI倾向于添加额外信息的特点可能在实际应用中造成困扰。当一个焦虑的患者向AI询问症状时,收到的可能不仅是准确的官方建议,还有各种"善意"但可能不够准确的补充信息。这种信息过载可能增加患者的困惑,甚至可能导致不当的自我诊断或治疗行为。

更值得关注的是AI在处理不同复杂程度健康问题时的表现差异。对于简单明确的公共卫生建议,如基本的疫苗接种时间表或食品安全指导,AI的表现相对可靠。但对于需要专业医学判断的复杂情况,AI的准确性明显下降。这提醒我们需要建立清晰的边界:AI可以很好地传达已有的标准化健康信息,但不应被期望处理需要个性化医学判断的复杂问题。

研究中发现的地域性差异也值得深思。AI在全球化的数据集上训练,可能会混淆不同国家或地区的医疗政策和健康建议。对于英国居民而言,收到基于美国或欧盟标准的健康建议可能是无用甚至有害的。这凸显了开发地域化、本土化AI健康助手的重要性。

从技术发展的角度来看,推理模型在复杂健康问题处理上的相对优势为未来的发展方向提供了指引。这些模型通过更深入的思考过程来生成答案,虽然计算成本更高,但在准确性和可靠性方面表现更好。随着计算技术的进步和成本的降低,这种"慢思考"的AI可能成为健康咨询领域的优选方案。

研究团队构建的PubHealthBench基准测试系统本身也具有重要的实用价值。这套系统不仅可以用于评估现有AI模型的健康知识水平,还可以作为训练和改进AI模型的工具。更重要的是,随着公共卫生指南的不断更新,这套自动化的评测系统可以快速适应变化,为AI模型的持续改进提供及时反馈。

对于普通用户而言,这项研究提供了使用AI健康助手的实用指导。在咨询简单、明确的健康信息时,AI可以作为一个可靠的初步信息来源。但对于复杂的健康问题,特别是涉及个人具体情况的诊断或治疗决策,仍然需要寻求专业医疗人员的帮助。AI最适合的角色是作为健康信息的"初级筛选器"和"知识传递者",而不是医疗决策的最终依据。

从政策制定的角度来看,这项研究为监管部门提供了重要参考。如何在鼓励AI技术在健康领域应用的同时,确保公众安全,需要建立合适的监管框架和技术标准。PubHealthBench这样的评测工具可能成为未来AI健康应用认证和监管的重要工具。

这项研究也展现了跨学科合作的重要性。AI技术的发展不能脱离具体应用领域的专业知识,而公共卫生领域的创新也需要借助最新的技术手段。英国卫生安全局进行这项研究,体现了公共卫生机构在AI时代的前瞻性思维和责任担当。

六、展望未来:AI健康助手的发展方向

基于这项开创性研究的发现,我们可以清晰地看到AI在公共卫生领域应用的未来发展轨迹。这不仅仅是技术的进步,更是整个健康信息传播和获取方式的根本性变革。

首先,这项研究为AI健康应用的标准化和规范化奠定了基础。PubHealthBench作为第一个专门针对公共卫生知识的大规模AI评测基准,很可能成为行业标准的起点。未来,我们可能会看到更多类似的评测系统出现,覆盖不同国家、不同医疗体系的健康指南。这种标准化评测将推动AI健康应用的质量提升,就像汽车安全测试推动了汽车工业的安全标准提升一样。

研究中发现的AI在不同类型健康信息处理上的差异,指向了未来AI系统设计的重要方向:专业化和分层化。未来的AI健康助手可能不再是"万能选手",而是针对不同需求和复杂程度设计的专门系统。面向普通公众的AI助手将专注于传达清晰、准确的基础健康信息,而面向医疗专业人员的AI系统则需要处理更复杂的临床决策支持任务。

推理模型在复杂健康问题处理上的优势,预示着"慢思考"AI的发展前景。虽然这些模型目前计算成本较高,但随着硬件技术的进步和算法的优化,它们可能成为处理复杂健康咨询的首选方案。这种AI不会立即给出答案,而是会像experienced医生一样,先收集信息、分析症状、考虑各种可能性,然后给出经过深思熟虑的建议。

地域化和本土化将成为AI健康应用的重要发展方向。每个国家和地区都有自己的医疗政策、文化背景和健康挑战,AI系统需要深度适应这些本土特色。英国卫生安全局的这项研究为其他国家的类似工作提供了宝贵范例,我们可能会看到更多国家建立自己的AI健康知识评测体系。

实时更新和持续学习能力将变得越来越重要。公共卫生指南会根据最新科学发现和疫情变化而更新,AI系统需要具备快速适应这些变化的能力。研究团队开发的自动化评测流程为解决这个问题提供了思路,未来的AI系统可能具备自主学习和验证新健康信息的能力。

人机协作模式将进一步完善。研究显示,虽然最优秀的AI在某些测试中已经超越了人类专家,但这并不意味着AI将完全取代人类在健康咨询中的作用。更可能的情况是,AI和人类专家将形成更紧密的协作关系,AI负责快速检索和初步分析,人类专家负责复杂判断和最终决策。

透明度和可解释性将成为AI健康应用的关键要求。用户需要了解AI建议的来源和依据,特别是在涉及健康决策时。未来的AI健康助手可能需要不仅提供答案,还要解释推理过程,引用具体的指南条目,甚至提供原始文档的链接。

从更宏观的角度来看,这项研究展现了AI技术在促进健康公平方面的巨大潜力。通过提供24小时可获得的、准确的健康信息,AI可以帮助缩小不同地区、不同社会经济群体之间的健康信息获取差距。这对于实现全民健康覆盖具有重要意义。

同时,研究也提醒我们需要保持谨慎和理性。AI健康应用的快速发展不应该以牺牲安全性和准确性为代价。建立完善的监管框架、持续的质量监控和有效的风险管理机制,将是确保AI技术真正造福人类健康的关键。

说到底,这项由英国卫生安全局Joshua Harris团队完成的研究,不仅为我们揭示了当前AI在健康知识方面的真实水平,更为我们指明了未来发展的方向。它告诉我们,AI确实有潜力成为我们健康生活的得力助手,但这需要技术进步、政策支持和全社会的共同努力。在人工智能日益普及的今天,这样的研究显得尤为珍贵和及时。对于想要深入了解这项开创性工作的读者,可以通过arXiv平台(论文编号:2505.06046v2)获取完整的研究报告。

Q&A

Q1:PubHealthBench是什么?它能测试AI的哪些能力? A:PubHealthBench是英国卫生安全局开发的首个大规模AI公共卫生知识评测系统,包含超过8000道基于英国官方健康指南的选择题。它能测试AI对疫苗接种、食品安全、传染病防控等十个健康领域的知识掌握程度,以及AI在回答健康问题时的准确性和可靠性。

Q2:目前最先进的AI在健康知识方面表现如何?会不会取代医生? A:最优秀的AI模型(如GPT-4.5)在选择题测试中达到90%以上正确率,已超越人类快速检索健康信息的能力。但在自由作答中正确率下降到75%以下,且容易添加非官方的额外信息。因此AI更适合作为健康信息的初步来源,而非医疗决策的最终依据,不会完全取代医生的专业判断。

Q3:普通人使用AI健康助手时需要注意什么? A:AI在回答简单明确的健康问题(如疫苗接种时间、基本食品安全)时比较可靠,但处理复杂的个人健康问题时准确性下降。建议将AI作为获取基础健康信息的工具,但涉及具体症状诊断、治疗决策等复杂问题时,仍需咨询专业医疗人员。同时要注意AI可能提供的额外信息未必准确。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-