微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI医生看诊时，黑客正在悄悄篡改诊断结果——印度理工学院联合阿联酋人工智能大学揭示医疗AI的致命漏洞

医疗人工智能对抗攻击视觉语言模型安全

当AI医生看诊时，黑客正在悄悄篡改诊断结果——印度理工学院联合阿联酋人工智能大学揭示医疗AI的致命漏洞

作者：科技行者

2026-04-29 10:48

分享至：

这项由印度理工学院巴特那分校、印度理工学院坎普尔分校与阿联酋人工智能大学联合发布的研究（arXiv:2604.17318，2026年4月）提出了名为MedFocusLeak的医疗AI攻击方案。该方案通过将对抗扰动隐藏在医学影像的非诊断背景区域，并利用注意力偏转机制让AI忽视真正的病灶，最终诱导AI给出错误但听起来合理的诊断结论。测试覆盖六种主流视觉语言模型和七种医学影像模态，MedFocusLeak在攻击成功率与图像不可感知性上均全面超越现有方法，揭示了当前医疗AI系统的系统性安全漏洞。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 10:48 • 科技行者

这项由印度理工学院巴特那分校、印度理工学院坎普尔分校与阿联酋人工智能大学（MBZUAI）联合开展的研究，以预印本形式于2026年4月19日发布在arXiv平台，编号为arXiv:2604.17318v1。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一、当AI成为医生，谁来保护它的判断力

假设你去医院做了一次脑部MRI扫描。医院的AI系统把影像看了一遍，给出了"一切正常"的结论。你松了口气，回家了。但实际上，那张影像里清清楚楚地有一个需要关注的肿瘤迹象——只是有人在你不知情的情况下，悄悄动了图像的背景，让AI的"眼睛"偷偷瞟向了不重要的地方，从而忽略了真正的病灶。

这不是科幻故事，而是这篇论文所揭示的真实威胁。

近年来，能够同时"看图片"和"读文字"的人工智能系统（研究者称之为"视觉语言模型"，你可以把它理解成既会看图又会说话的AI）正在被越来越多地引入临床医疗场景。这类AI能够阅读X光片、CT扫描、MRI影像，甚至自动生成一份像模像样的诊断报告。GPT-4o、Gemini这样的通用AI，以及专门针对医学场景微调的BioMedLLaMA、MedVLM-R1等专业医疗AI，都已经在这条路上走了很远。

然而，这些AI系统是否真的安全可靠？当有人蓄意破坏时，它们能抵挡住吗？这正是研究团队想要回答的问题。他们设计了一种名为"MedFocusLeak"的攻击方案，专门用来测试这些医疗AI的防御底线——结果令人警醒。

二、以往的攻击手段为什么在医疗场景中会失效

在正式介绍这项研究的核心发现之前，有必要先理解一个背景问题：针对AI的"欺骗性攻击"（学术上称为"对抗性攻击"）并非新鲜事物。研究者们早就发现，只要在一张图片上加入人眼几乎看不见的微小噪点，就能让AI把一只猫误认成一条狗。这类技术在自然图像领域已经相当成熟。

但医学影像有其特殊之处。你见过X光片吗？那是一张几乎全是灰白色调的图像，背景极为单一。自然图像领域的攻击方法，往往会在医学影像上留下肉眼可见的奇怪花纹或噪点，一个有经验的医生一眼就能察觉到异常，这种攻击也就失去了意义。

此外，现有的针对医疗AI的安全研究，大多集中在"偷模型"（复制AI系统的行为）、"注入恶意指令"（让AI说出不该说的话）等方向，而非真正聚焦于最危险的场景——让AI给出一个错误却看起来完全合理的医疗诊断。这之间有本质区别：前者危害的是商业利益或内容安全，后者危害的是患者的生命健康。

研究团队注意到这个空白，决定从根本上重新思考攻击的逻辑。

三、攻击的核心思路：让AI的"注意力"迷路

研究团队认为，真正有杀伤力的医疗AI攻击，必须满足三个条件：攻击者无需知道AI的内部结构（即"黑盒攻击"，就像你不需要拆开锁就能开门）；图像看起来和原来完全一样，让人和机器都察觉不到异常；以及AI输出的错误诊断听起来必须专业、合理，不会引发临床医生的怀疑。

MedFocusLeak的核心洞察是：与其直接修改图像中病灶所在的区域（那样很容易被发现），不如悄悄改动图像的背景区域，然后通过一种特殊机制，让AI的"注意力"从病灶上移开，转而去关注那些被改过的背景。

这就好比一位法官在审案时，有人在法庭旁边的展示板上偷偷贴了一些与案件无关的花哨图片，分散了法官的注意力，让他忽略了桌上关键的证据，最终做出了错误的判决。

四、MedFocusLeak的四步攻击流程

MedFocusLeak的整个攻击过程可以分为四个紧密配合的步骤，每一步都有其精妙之处。

第一步是生成一个"听起来合理但实际错误"的目标诊断。攻击者将原始医学图像和对应的诊断文本输入GPT-4这类大语言模型，让它生成一份修改版的诊断报告——关键是，这份报告保留了原始的医学影像类型（比如"这是一张X光片"），但把诊断结论悄悄改掉（比如把"右肺下叶有结节"改成"肺部未见明显异常"）。这一步确保了最终的攻击结果在临床上是"可信的错误"，而非荒谬无稽的胡说。

第二步是构建一个"多模态对抗种子"。这里需要理解一个重要概念：这类医疗AI在处理信息时，会把图像和文字融合在一起理解（就像你看一张带说明的图片时，文字会影响你对图片的解读）。研究团队构建了一个特殊的"噪声种子"，它同时包含图像层面和文字层面的对抗信号，两者相互配合，比单独只攻击图像或只攻击文字要有效得多。具体做法是用一张空白白色图像作为起点，把第一步生成的错误诊断文字叠加上去，然后交替优化图像噪声和文字扰动，直到两者相互配合达到最强的干扰效果。

第三步是把攻击信号"藏进"背景区域。研究团队使用了一个名为MedSAM的医学图像分割工具（你可以把它理解成一把专门用来"抠图"的智能剪刀），自动识别出医学影像中最关键的诊断区域（比如病灶、器官轮廓），然后把这个区域严格保护起来，只在周围的背景区域施加攻击噪声。为了在有限的背景空间里最大化攻击效果，他们用动态规划算法找出背景中面积最大的若干个方形区块（默认选取10个），把攻击集中在这些区块上。这样一来，病灶区域完全未受改动，任何查看图像本身的人都不会发现异常。

第四步是施加"注意力偏转损失"。这是整个方案中最精妙的部分。即便背景区域已经被植入了对抗信号，如果AI还是主要盯着病灶区域看，攻击仍然不会成功。研究团队在优化过程中加入了一个额外的目标：明确要求AI在处理这张图像时，把"注意力分配"从前景病灶区域转移到背景区域。他们从AI的内部融合模块中提取注意力权重，然后通过数学优化，让分配给背景的注意力越来越多，分配给前景的越来越少。打个比方，这就像给法官的眼睛贴上了一块磁铁，让他的目光无法停在证据桌上，而是不断被展示板上的干扰图片吸引。

五、实验规模与评估标准

为了验证MedFocusLeak的有效性，研究团队构建了一个包含1000张医学图像及其标准诊断报告的数据集，来源涵盖MIMIC-CXR（胸部X光）、SkinCAP（皮肤镜图像）和MedTrinity（多模态医学数据集）三个公开数据库，覆盖七种成像模态：X光、CT扫描、MRI、皮肤镜、乳腺钼靶、超声波，以及十个人体解剖部位。

评估攻击效果需要两个维度的衡量：攻击成功了多少，以及图像有没有被破坏。研究团队为此设计了三个核心指标。第一个是"医学文本对抗分数"（MTR），用GPT-4充当一位临床专家，对比原始诊断和攻击后的AI输出，看看关键诊断细节是否被成功篡改，同时严格惩罚那些改变了影像模态本身的失败攻击（比如把X光报告改成MRI报告，那就完全离谱了）。第二个是"平均相似度"（AvgSim），用医学专用的图像编码模型（MedCLIP）计算攻击前后图像的视觉相似程度，越接近1说明图像改动越不明显。第三个是"医学攻击综合分"（MAS），用加权几何平均把前两个指标合并成一个单一数字，同时高分的前提是两个指标都要高——光有攻击成功而图像被严重破坏不算，光有图像完整而攻击失败也不算。

此外，研究团队还邀请了三名医学实习生，在一位高级医学专家的监督下，对30张每种模态的对抗图像进行了人工评估，从"对抗文字的临床影响"、"图像质量保留程度"和"综合攻击评分"三个维度打分，最终的评审员间一致性（Cohen's kappa）达到了0.82，说明三位评审员的判断高度一致。

六、与五种现有攻击方法的正面较量

研究团队选取了五种目前业界最具代表性的对抗攻击方法作为对比基准，分别是AttackBard、AnyAttack、AttackVLM、M-Attack和FOA-Attack。这些方法都是为了在不知道AI内部结构的情况下，让AI产生错误输出而设计的，只不过它们原本大多面向自然图像场景，并非专门针对医学影像。

在涵盖六种目标AI模型的综合测试中，MedFocusLeak在所有指标上全面超越了五种基准方法。在综合攻击分（MAS）方面，几个最能说明问题的数字是：面对InternVL这个开源模型，MedFocusLeak达到了0.672的MAS，而排名第二的M-Attack只有0.518；面对GPT-5这个闭源商业模型，MedFocusLeak达到了0.408，几乎是排名第二的AttackVLM（0.225的两倍）；面对MedVLM-R1这个专门为医疗场景训练的专业AI，MedFocusLeak达到了0.340，而该类别中最强基准方法也只有0.277。

至关重要的是，MedFocusLeak在保持高攻击成功率的同时，图像相似度始终维持在0.85左右，意味着图像的外观几乎没有可察觉的变化。相比之下，FOA-Attack虽然也能攻击医学AI，但图像相似度只有0.59，说明它会在图像上留下相对明显的痕迹，在实际临床环境中更容易被发现。

七、"推理型"AI更难骗，但仍然不是铁板一块

这项研究还揭示了一个特别值得关注的现象：专门强化了推理能力的AI（比如MedVLM-R1和Gemini 2.5 Pro thinking版本）比普通AI更难被攻击成功。MedVLM-R1的MAS为0.340，Gemini 2.5 Pro的MAS为0.408，都明显低于同等条件下InternVL（0.672）和QwenVL（0.630）的得分。

这说明，当AI被设计成不只是"看图说话"，而是经过一步步逻辑推理后再给出结论时，它确实更不容易被背景噪声迷惑。这就好比一个经过严格训练的法官，即便旁边有人不断干扰，他也能强迫自己把目光重新拉回证据本身。

然而，即便是这些推理型AI，MedFocusLeak仍然取得了不可忽视的攻击成功率，这说明当前任何类型的医疗AI都还没有建立起足以抵御这类攻击的防御机制。

八、消融实验：每个组件的贡献

研究团队通过一系列"拆零件"测试（学术上称为消融实验）来验证方案中每个设计选择的必要性。

首先测试的是"单独只攻击图像"或"单独只攻击文字"是否足够。结果表明，在QwenVL上，只攻击图像的MAS仅为0.371，只攻击文字为0.502，而图文联合攻击达到了0.629。这个差距说明图像和文字的协同干扰产生了明显的"1+1>2"效果，单打独斗远不如组合出击。

其次测试了去掉"注意力偏转"机制的影响。没有注意力偏转时，QwenVL上的MAS降至0.484，加上之后升到0.629；Gemini 2.5 Pro从0.244升到0.391；MedVLM-R1从0.264升到0.332。注意力偏转机制带来了约30%到60%的性能提升，证明这是方案中不可缺少的关键环节。

关于背景区块的数量，实验发现10个是最优选择。区块越多，攻击成功率越高，但图像相似度也会随之下降（因为被改动的区域更多了），两者在10个区块时达到最佳平衡点。

扰动幅度（ε）的影响同样符合预期：ε越大，攻击越强，但图像改动也越明显。MedFocusLeak在ε=16/255时效果最佳，远超M-Attack和FOA-Attack在同等扰动预算下的表现，说明MedFocusLeak能更高效地利用有限的扰动空间。

关于各个替代模型（CLIP变体）的贡献，测试发现移除CLIP-ViT-G-14（laion版本）会造成最严重的性能崩溃：QwenVL的MAS从0.63跌至0.51，Gemini 2.5 Pro更是从0.39暴跌至接近0，说明这个大型CLIP模型是整个攻击体系的核心骨干。

九、在防御机制面前的表现

现实中的医疗AI部署往往会配备各种"防御盾牌"——在图像进入AI之前先对其进行预处理，以消除可能的对抗扰动。常见的防御手段包括添加高斯噪声、图像平均处理、JPEG压缩、以及专门设计的防御算法ComDefend等。

MedFocusLeak在所有这些防御条件下，仍然比M-Attack表现更好。具体来说，在QwenVL上，有防御时MedFocusLeak的MTR约为0.51，而M-Attack只有约0.42；在BioMedLLaMA-Vision上，差距更为明显，分别约为0.32和0.21。即便是面对专门设计用来消除对抗扰动的ComDefend算法，MedFocusLeak也保持了明显的优势。

这种强韧性的来源，研究团队分析认为主要有两点：一是攻击被限制在背景区域，而防御处理往往对整张图像均匀施加，背景区域保留的扰动信号比前景区域更多；二是多CLIP模型的集成训练让攻击具备了更强的跨模型泛化能力，即使防御改变了图像的某些统计特性，攻击信号依然能在转移后的特征空间中存活。

十、几个令人震惊的真实案例

论文中展示的几个具体案例，将这项研究的危险性从抽象数字落到了真实冲击。

在一个案例中，原始脑部MRI影像显示左侧颞叶有一个边界清晰、信号强度不均匀的占位性病变，这是潜在肿瘤性病变的典型表现，AI给出了"可能存在转移性病变"的正确判断。经过MedFocusLeak攻击后，同一张图像（从外观上看与原图毫无区别）输入AI，输出变成了"T1加权MRI显示脑部结构正常，灰白质分界清晰，未见异常信号区域，未见肿块或病变迹象，中线结构无移位"——一个完全正常的描述。如果这发生在真实临床场景中，患者可能因为这份"正常报告"而失去及时治疗的机会。

另一个案例中，原本诊断为"可能的黑色素细胞病变"的皮肤镜图像，在攻击后被AI判断为"恶性黑色素瘤"——方向正好相反，把良性误判成了恶性。

这两个方向的错误（把有病判成没病，把良性判成恶性）都可以造成严重后果，而且两者在MedFocusLeak的攻击框架下都能够实现。

十一、在分类任务上的跨场景迁移

除了报告生成任务，研究团队还在图像分类任务上测试了MedFocusLeak。他们使用了100张涵盖所有诊断类别的胸部X光图像，判断攻击能否让AI给出错误的疾病类别。

MedFocusLeak在所有测试模型上都取得了最高的分类错误诱导率，其中在BioMedLLaMA-Vision上甚至超过了0.9的成功率——换句话说，超过九成的被攻击图像都让这个专业医疗AI产生了错误的疾病分类。这个结果表明，MedFocusLeak的攻击能力不局限于某一特定任务类型，而是具有广泛的跨任务迁移性。

十二、研究的局限性与边界

研究团队对自身工作的局限性保持了诚实。从计算成本来看，MedFocusLeak比基准方法需要更长的运行时间（大约是M-Attack的1.5到2倍），这在资源受限的临床环境中可能构成障碍。从数据代表性来看，测试使用的都是公开数据集，而真实世界的医学数据往往更加多样和复杂，攻击在陌生数据上的效果还需要进一步验证。从模态局限性来看，对于病理切片这类图像，背景区域本身非常有限（几乎整张图像都是组织细胞的特征区域），可供植入攻击信号的空间严重不足，攻击效果会明显下降。最后，整个攻击流程依赖于MedSAM能够准确识别并分割出前景诊断区域，如果分割结果不准确，整个方案的效果都会受影响。

说到底，这项研究最重要的价值，不在于它提供了一种有效的攻击工具，而在于它让我们清醒地看到了一个正在快速进入临床的技术体系所存在的系统性脆弱性。当AI医生越来越多地参与到真实的诊断决策中时，了解它在什么条件下会失去判断力、它的"注意力"有多容易被操控，是每一个参与开发、部署和监管这类系统的人都必须正视的问题。

研究团队的意图是防御性的——他们公开了攻击方法和代码，目的是推动整个领域更快地建立起有效的防御机制，在真正的恶意行为者发现并利用这个漏洞之前，让更多安全研究者参与进来。这种"以攻促防"的思路，是网络安全领域长期实践证明有效的路径，现在它被引入了医疗AI的安全研究中。

对于普通患者而言，这项研究传递的信息是：不要把AI诊断当作最终裁决，人类医生的介入仍然至关重要。对于医疗机构的技术决策者而言，这项研究在提醒：部署医疗AI时，不能只关注它在正常情况下的准确率，还必须评估它在被刻意干扰时的表现。对于AI研究者而言，这项研究指出了一个明确的研究方向：如何让AI的"注意力"更加稳健，不容易被背景信息所左右，是提升医疗AI可靠性的关键一环。

有兴趣深入了解的读者，可以通过arXiv:2604.17318查阅完整论文，研究团队也已将相关代码开源，可在论文中提供的项目链接处获取。

Q&A

Q1：MedFocusLeak攻击医疗AI的核心原理是什么？

A：MedFocusLeak的核心是把攻击信号藏进医学影像的背景区域（不碰病灶），同时用一种"注意力偏转"机制让AI把关注点从真正的病变区域转向被改过的背景，从而做出错误诊断。整张图像从外观上几乎看不出任何异常，医生和普通人都难以察觉被改动过。

Q2：推理型医疗AI（比如MedVLM-R1）能抵御MedFocusLeak这类攻击吗？

A：推理型AI确实比普通AI更难被攻击，测试数据显示其综合攻击分明显低于一般模型。但MedFocusLeak仍然能在这类模型上取得不可忽视的成功率，说明目前没有任何医疗AI能完全免疫这类攻击，推理能力只是降低了被攻击的概率，并非彻底的防御。

Q3：医院在使用AI辅助诊断时应该怎么防范这类攻击？

A：目前最有效的防御思路是不把AI诊断作为唯一决策依据，保留人类医生的最终判断环节。技术层面可以在图像进入AI前做预处理（如JPEG压缩、高斯平滑等），能一定程度降低攻击效果，但MedFocusLeak在这些防御手段面前仍保持了较高成功率，说明真正有效的防御机制还需要进一步研究。

医疗人工智能对抗攻击视觉语言模型安全

分享至