在人工智能迅猛发展的今天,一个实际而紧迫的问题浮出水面:当普通人向AI提问有关公共健康的问题时,它们给出的建议可靠吗?2025年5月,英国卫生安全局(UK Health Security Agency)的研究团队发布了一项重要研究,试图回答这个问题。这项由Joshua Harris领导、包括Fan Grayson、Felix Feldman、Timothy Laurence等在内的研究团队,创建了一个全新的基准测试,专门评估大语言模型对英国政府公共健康信息的掌握程度。这篇研究论文题为《Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information》,发表在arXiv预印本平台(arXiv:2505.06046v1),目前正在接受同行评审。
一、为什么我们需要了解AI对公共健康信息的掌握程度?
想象一下这个场景:一位刚从国外旅行回来的人出现了轻微发热和腹痛症状,担心可能感染了某种传染病。深夜时分,医院和诊所都已关门,这位患者拿起手机,向ChatGPT询问:"根据英国卫生部门的建议,我应该怎么办?"
在这种情况下,AI给出的建议是基于准确的官方信息,还是可能包含过时或错误的内容?这不仅仅是一个技术问题,更是关乎公共健康安全的重要议题。
随着大语言模型(简称LLM,可以理解为驱动ChatGPT、Claude等聊天机器人的人工智能系统)变得越来越普及,人们越来越倾向于向这些AI助手咨询各种问题,包括健康相关问题。然而,目前我们对这些模型在特定领域(如英国公共健康指南)的知识掌握程度了解甚少。正如论文作者指出的,公共健康指南经常更新,不同机构和地区的指导方针也有所不同,这使得大语言模型难以保持对最新、最准确信息的掌握。
一旦AI在健康建议方面出现"幻觉"(即生成看似合理但实际上不准确的内容)或提供不完整的信息,可能会对咨询者的健康决策产生负面影响。考虑到英国政府越来越希望将大语言模型整合到现有的实际工作流程中,对这些模型在英国公共健康指南理解方面进行全面评估变得尤为关键。
二、如何测试AI对公共健康知识的掌握程度?
研究团队创建了一套名为PubHealthBench的评测工具,就像是专门为AI设计的一场公共健康知识考试。这套测试包括了两种主要形式:多选题和开放式问答。
首先,让我们了解一下这个"考试"的出题材料从何而来。研究人员收集了超过1000份来自英国政府网站(gov.uk)的公共健康指南文档,这些文档来自英国卫生安全局发布的PDF和HTML格式的官方材料。这些文档涵盖了从疫苗接种到食品安全、从传染病控制到健康不平等等多个公共健康领域。
将这些文档转换成适合测试的格式并不简单。想象一下,如果你需要从几千页的教科书中提取关键信息并制作成考题,这个过程就类似于研究团队所做的工作。他们首先将PDF文档转化为标记语言格式,然后将长文档分割成更小的、有意义的部分,最终保留了687份文档中的有用信息作为测试材料。
基于这些材料,研究团队开发了多选题测试(就像我们熟悉的选择题考试)和自由回答形式的测试(更像是简答题)。多选题测试包含超过8000个问题,每个问题都直接基于英国公共健康指南的内容,并提供一个正确选项和六个错误选项。
为了确保测试的质量,研究人员手动审核了约800个问题(约占总数的10%),并对这些问题进行了人类专家评估。这就像是在正式考试前,先让教授们检查一遍试题的质量和准确性。
这套测试不仅仅是为了评估AI能否选出正确答案,更重要的是,它能帮助我们了解AI在面对真实世界的健康咨询时,能否提供与官方指南一致的准确信息。
三、谁参加了这场"考试"?人类表现如何?
在这场特殊的"考试"中,共有24个大语言模型参与测试。这些模型包括了目前业界最先进的私有模型,如OpenAI的GPT-4.5和GPT-4.1、Anthropic的Claude Sonnet 3.7、Google的Gemini系列,以及一系列开源模型如Llama-3.3、Phi-4等。这些模型就像是不同学校或不同背景的学生,各自带着不同的知识储备和能力参加这场考试。
有趣的是,研究团队还邀请了真实的人类参与同样的测试,以建立一个基准线。五位人类测试者被允许使用搜索引擎(但不能使用AI工具)来回答问题,平均每个问题限时2分钟。这些人类测试者并非公共健康专家,更像是普通公众在遇到健康问题时,通过网络搜索寻找官方指南的情况。
在多选题测试中,人类测试者的平均得分为88%。这个分数设定了一个重要的比较基准:它代表了一个普通人在有搜索引擎帮助但时间有限的情况下,能够找到多少准确的公共健康信息。
研究团队还估算了这套测试的理论上限分数。由于一些问题可能存在模糊性或多个选项都可能是正确的情况,他们认为即使是完美的答题者也难以达到100%的准确率,理论上限可能在97%左右。
四、AI模型的表现有多好?
在多选题测试中,最先进的私有大语言模型表现出色。OpenAI的GPT-4.5、GPT-4.1和o1模型都取得了超过90%的准确率,不仅超过了人类基准线(88%),还接近了测试的理论上限(97%)。
这就像是在一场考试中,最优秀的AI学生不仅超过了普通人类学生的平均分,还接近了这门课程可能的最高分。具体来说,GPT-4.5模型在测试中获得了92.5%的准确率,领先于所有其他模型。
较小的开源模型(如参数量在5-15亿之间的模型)也表现不错,大多数得分超过了75%。这表明即使是规模较小、可公开获取的AI模型也掌握了相当程度的英国公共健康知识。
然而,当我们将测试形式从多选题改为开放式回答时,情况发生了显著变化。在这种更接近实际使用场景的测试形式中,所有模型的表现都大幅下降。最好的模型(o1)也只获得了74%的准确率,比其在多选题测试中的表现低了约17个百分点。
这种差异很容易理解。想象一下,回答一道选择题,你只需从给定的选项中找出最佳答案;但如果是回答一个开放式问题,你需要从头构建完整的答案,没有任何提示或线索。同样,当大语言模型面对开放式问题时,它们需要从自己的"知识库"中提取相关信息并生成答案,这比从给定选项中选择正确答案要困难得多。
五、不同类型的健康信息,AI理解程度有何不同?
研究发现,大语言模型对不同主题领域和针对不同受众的公共健康信息的掌握程度存在显著差异。
在主题方面,所有模型在"气候与健康"以及"包容性健康环境中的健康保护"相关指南上表现最好,而在"化学品和毒理学"领域表现相对较差。这就像是学生在某些科目上表现出色,而在其他科目上相对薄弱。
更有趣的是受众差异。AI模型对面向普通公众的健康指南掌握得最好,而对临床指南(面向医疗专业人员的)掌握得相对较差。在面向公众的指南测试中,顶级模型GPT-4.5获得了高达96%的准确率,几乎达到了理论上限。
这一发现具有重要意义。普通公众最可能向通用聊天机器人咨询健康问题,而这恰恰是大语言模型表现最好的领域。这意味着当普通人向AI询问公共健康信息时,获得准确回答的可能性相对较高,这在某种程度上降低了潜在风险。
六、开放式回答的挑战
开放式回答测试揭示了大语言模型在提供健康信息时面临的真正挑战。在这种更接近真实使用场景的测试中,没有一个模型的准确率超过75%。
这种表现下降主要有三个原因:首先,模型需要在没有任何提示的情况下回忆正确的信息;其次,模型可能生成与源文本不一致的额外信息(即"幻觉");第三,模型无法通过排除法推断出正确答案。
不同模型在开放式回答测试中的表现差异也很大。一些较小的模型(如Phi-4-14B)与其在多选题中的表现相比下降了超过45个百分点,而其他同等规模的模型(如Gemma-3-12B)则表现相对稳定,下降幅度与顶级私有模型相当。
有趣的是,研究发现具有"推理能力"的模型(如o1和o3-Mini)在开放式回答测试中开始显示出优势。这就像是在考试中,有些学生善于选择题,而另一些则在需要深度思考和构建答案的开放题中表现更好。
七、这项研究对我们意味着什么?
这项研究为我们提供了第一个系统性的评估,帮助了解大语言模型对英国公共健康指南的掌握程度。结果既令人鼓舞又值得警惕。
令人鼓舞的是,当前顶级的AI模型在多选题测试中表现出色,超过了使用搜索引擎的人类。这表明当给予一定提示时,这些模型能够识别出准确的公共健康信息。
同时值得警惕的是,当处理开放式问题(更接近实际使用场景)时,所有模型的表现都大幅下降。这意味着当人们向聊天机器人询问健康建议时,仍然存在获取不准确或不完整信息的风险。
研究的一个重要发现是,AI模型对面向公众的指南掌握得最好,这在某种程度上降低了风险,因为普通用户最可能询问的正是这类基础信息。
对于公共健康机构和AI开发者来说,这项研究提供了宝贵的参考。它表明虽然大语言模型在作为公共健康信息源方面显示出巨大潜力,但在实际应用中仍需额外的安全措施或工具,特别是在提供开放式回答时。
对普通用户而言,这项研究提醒我们:虽然向AI询问健康信息可能方便快捷,但目前的技术仍不能完全替代专业医疗建议,特别是在复杂的健康问题上。
八、未来的方向
研究团队不仅发布了研究结果,还公开了他们创建的PubHealthBench测试集和提取的英国政府公共健康指南数据集。这为后续研究提供了宝贵资源,可用于进一步探索大语言模型在公共健康领域的应用。
未来的研究方向可能包括:探索不同类型的公共健康查询,如多轮对话或包含图像的查询;测试模型对其他国家和语言的公共健康指南的掌握程度;以及研究如何改进模型在开放式回答中的表现。
随着大语言模型不断发展,它们在公共健康信息传播中的作用可能会越来越重要。这项研究为确保这一过程安全、准确迈出了重要一步。
归根结底,这项研究告诉我们,当前最先进的AI已经相当擅长辨别准确的公共健康信息,但在自行生成完整、准确的健康建议时仍面临挑战。对于我们普通用户来说,这意味着我们可以将AI视为寻找健康信息的辅助工具,但在做重要健康决策时,仍应咨询医疗专业人士或官方指南。
有兴趣深入了解这项研究的读者可以通过arXiv平台查阅完整论文(arXiv:2505.06046v1),或访问研究团队在Hugging Face上发布的数据集和测试基准(https://huggingface.co/datasets/Joshua-Harris/PubHealthBench)。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。