微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 大数据知识vs人际互动:研究发现LLM的医学专业知识在人机交互中大打折扣

大数据知识vs人际互动:研究发现LLM的医学专业知识在人机交互中大打折扣

2025-04-30 11:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-30 11:52 科技行者

2025年4月,来自牛津大学、班戈大学和其他机构的研究团队发布了一项引人深思的研究,揭示了大型语言模型(LLM)在医疗健康领域应用的一个重要盲点。这项由牛津大学互联网研究所的Andrew Bean、Rebecca Payne以及团队资深成员Luc Rocher和Adam Mahdi领导的研究刊登在arXiv(arXiv:2504.18919v1),为我们展示了一个值得注意的现象:即使大型语言模型在医学考试中表现优异,但当它们被用于辅助普通人进行医疗决策时,效果却令人失望。

一、智能模型的医疗潜力与现实差距

想象一下,你有一个医学问题,但附近没有医生可以咨询。如今,你可能会打开手机,向ChatGPT这样的AI助手寻求建议。这个场景正在全球范围内变得越来越常见。实际上,调查显示,每六个美国成年人中就有一个每月至少使用AI聊天机器人一次来获取健康信息。

最新一代的AI模型,如GPT-4o、Llama 3和Command R+,在医学知识测试中表现惊人。它们在美国医学执照考试这样的专业测试中几乎能取得完美成绩,这让许多人相信它们可以为公众提供可靠的医疗建议。这就像拥有一位随时待命的虚拟医生,特别是对于那些难以获得医疗服务的人群来说,这似乎是一个完美的解决方案。

然而,牛津大学的研究者们发现了一个令人意外的问题:当这些聪明的AI模型与普通人互动时,它们的表现远不如预期。这就像是一个优秀的医学专家突然失去了有效沟通的能力,无法让病人理解自己的专业建议。

二、研究方法:模拟真实医疗咨询的大规模实验

研究团队设计了一项精巧的实验,就像是在搭建一个微型医疗咨询世界。他们邀请了1,298名英国参与者,每位参与者都被要求处理一个医疗情境,就像他们在现实生活中遇到这种情况一样。

研究者们首先创建了十个不同的医疗场景,从头痛到胸痛,从呼吸困难到腹部不适等各种常见症状。三位医生共同编写了这些场景,并一致确定了每种情况的最佳应对方式(处置方案)。然后,另外四位医生为每个场景提供了可能的疾病诊断列表。

参与者被随机分配到四个组:三个实验组分别使用GPT-4o、Llama 3或Command R+获取帮助,而对照组则可以使用他们平时在家会采用的任何方法(比如搜索引擎或仅凭个人知识)。每位参与者都需要做两件事:确定可能的医疗状况(疾病诊断),并选择最佳的应对措施(是自我护理、预约看医生、紧急就医还是叫救护车)。

这就像是在测试:当你有健康问题时,是向AI咨询更有帮助,还是使用传统方法更有效?

三、出人意料的结果:AI单独表现优异,人机合作却失败

研究结果令人惊讶。当研究者直接向AI模型提问这些医疗场景时,它们表现出色 - 在识别相关疾病方面的准确率高达94.9%,在建议正确处置方案方面的准确率达到56.3%。这就像是AI医生在没有病人的情况下,能够准确诊断和推荐合适的治疗方案。

然而,当普通人使用这些同样的AI模型进行咨询时,情况大不相同。使用AI辅助的参与者在识别相关疾病方面的准确率低于34.5%,在选择正确处置方案方面的准确率低于44.2%。更令人惊讶的是,这些数字与没有使用AI的对照组相比并没有显著优势 - 事实上,在识别相关疾病方面,对照组的表现甚至更好,准确率达到47.0%。

想象一下这个场景:如果你把一本详尽的医学教科书和一位顶尖医生单独放在一个房间里,他们能够解决复杂的医疗问题。但是当你作为病人走进房间,尝试描述你的症状并理解医生的建议时,突然间,沟通成了最大障碍,导致诊断准确率大幅下降。这就是研究者们观察到的现象。

四、困难的人机互动:沟通问题的深入分析

为什么会出现这样的结果?研究团队分析了参与者与AI模型之间的对话记录,发现了两个关键问题。

首先,信息传递不完整。参与者往往无法向AI清晰地描述所有相关症状。就像病人可能忘记告诉医生一些关键症状一样,参与者在描述情况时遗漏了重要细节,导致AI无法全面了解情况。分析显示,即使在参与者与AI的对话中,AI提及相关疾病的比例也只有65.7%到73.2%,明显低于AI单独分析场景时的表现。

其次,AI的建议没有被正确理解或采纳。即使AI确实提供了正确的信息,参与者也经常无法识别哪些建议最重要,或者误解了AI的意图。这就像医生给出了正确诊断,但病人因为不理解医学术语而错过了关键信息。

研究发现,AI模型通常在每次对话中会提供2.21个可能的疾病,但只有约34%是正确的。而参与者在最终回答中平均只提到1.33个疾病,显示他们在筛选信息方面也存在困难。这就像是从大量医学建议中只吸收了一小部分,而且不一定是最重要的那部分。

五、当前评估方法的局限性:测试成绩不等于实际表现

研究还指出了当前评估AI医疗能力的方法存在重大缺陷。传统上,我们通过医学执照考试这样的标准测试来评估AI的医学知识水平。然而,研究团队发现,这些测试成绩与AI在实际人机交互中的表现几乎没有相关性。

研究者们比较了三个AI模型在医学问答测试(MedQA)和实际人机交互中的表现。结果显示,在30种测试情况中,26种情况下AI在问答测试中的表现远远优于在人机交互中的表现。这就像一个学生在笔试中得了高分,但在实际操作中却表现平平。

更令人担忧的是,即便是用AI模拟的"虚拟病人"进行测试,也无法准确预测真实人类与AI交互的结果。模拟测试显示的问题分布与真实人类的问题分布有很大差异,而且两者之间的相关性很弱。这就像用机器人测试产品的使用体验,却无法真实反映人类用户会遇到的困难。

六、健康顾问AI的未来之路:需要突破人机交互这道坎

研究结果对于AI在医疗领域的应用提出了重要警示。尽管AI拥有丰富的医学知识,但如果无法有效地与普通人交流,这些知识就无法转化为实际帮助。

研究团队指出,AI需要不仅掌握医学知识,还需要更好地理解用户提供的不完整信息,主动询问相关症状,并以普通人能理解的方式传达专业建议。就像一位优秀的家庭医生不仅懂医学,还知道如何与不同类型的病人有效沟通一样。

要实现这一目标,研究者建议在评估AI医疗能力时,必须纳入真实用户测试环节。实际上,没有任何模拟测试能够完全替代真实人类的复杂性和多样性。只有通过与真实用户的互动,才能发现和解决人机交互中的实际问题。

七、结论与展望:平衡期望,审慎前行

这项研究给我们上了重要一课:即使是最先进的AI系统,在实际应用中也可能面临意想不到的障碍。尽管科技公司大力推广AI在医疗领域的应用,但我们需要认真评估这些技术是否真的能够在复杂的人机交互环境中提供有效帮助。

研究团队的建议非常明确:在将AI部署为公共医疗助手之前,必须进行系统的、以人为中心的测试。正如一款新药在上市前需要经过严格的临床试验一样,AI医疗系统也需要在真实环境中证明其有效性。

对于普通用户来说,这项研究提醒我们在使用AI获取医疗建议时保持谨慎。尽管AI可能拥有庞大的知识库,但它们与人类的沟通能力仍有很大提升空间。在重要的健康决策上,与专业医护人员沟通仍然是最可靠的选择。

归根结底,这项研究并非否定AI在医疗领域的价值,而是指出了一个亟待解决的关键挑战:如何让AI的专业知识能够通过有效的人机交互真正帮助到普通人。未来的AI医疗系统需要不仅仅是医学专家,还需要成为优秀的沟通者。

有兴趣深入了解这项研究的读者可以在arXiv上查阅完整论文(arXiv:2504.18919v1)。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-