微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI"看"胰腺肿瘤边界时,五位专家都说不清楚——来自巴塞罗那庞培法布拉大学等机构的AI医学影像研究告诉我们答案

当AI"看"胰腺肿瘤边界时,五位专家都说不清楚——来自巴塞罗那庞培法布拉大学等机构的AI医学影像研究告诉我们答案

2026-05-11 11:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-11 11:17 科技行者

这项研究由西班牙巴塞罗那Sycai Technologies公司、庞培法布拉大学BCN Medtech实验室联合德国埃尔朗根大学医院放射科、法国斯特拉斯堡大学ICUBE实验室、法国雷恩第一大学INSERM UMR 1099实验室、中国科学院深圳先进技术研究院、德国癌症研究中心、法国布雷斯特IMT Atlantique以及多家西班牙医院共同完成,已作为预印本于2026年4月30日发布于arXiv平台,编号为arXiv:2604.27582。

一、一个外科医生最怕听到的问题

当一位患者被确诊为胰腺导管腺癌(简称PDAC,一种极为凶险的胰腺癌类型)时,决定他能否接受手术的关键问题只有一个:肿瘤有没有"爬"上旁边的大血管?

这听起来像是一个非此即彼的判断,但现实远比这复杂。外科医生需要依靠CT扫描图像来观察肿瘤与周围血管的接触情况,这个过程被称为"血管侵犯评估"。问题在于,肿瘤的边界往往模糊,就像一团墨水滴在湿纸上,和周围正常组织的界限混作一片,连经验丰富的放射科医生也会在同一张图像上作出截然不同的判断。

这就是这项研究的出发点。研究团队提出了一个核心疑问:如果连人类专家对同一张CT图像都无法达成共识,那么我们应当如何训练AI来处理这种"没有标准答案"的临床难题?更重要的是,我们应当如何公正地评价一个AI模型在这类任务上的表现?

为了回答这些问题,多个国际机构的研究者联合建立了一套名为CURVAS-PDACVI的开放性基准测试体系,不仅公开了一个由五位独立专家分别标注同一批CT图像的珍贵数据集,还设计了一套超越传统评分方式的多维评估框架,并举办了一场面向全球团队的公开竞赛。这是目前医学AI领域针对胰腺癌血管侵犯评估最系统、最全面的基准研究之一。

二、"同一张CT,五个专家画出五种肿瘤"——这才是真实的医学世界

要理解这项研究的价值,首先需要理解一个令人有些不安的事实:在判断胰腺肿瘤边界这件事上,专家之间的分歧程度远超大多数人的预期。

研究团队构建数据集的方式本身就极具说服力。他们从一个名为PANORAMA的公开CT数据库中挑选了125张扫描图,这些图像已经有一位放射科医生做过初步标注。然后,他们将这些图像分发给另外四位来自不同医院、拥有不同经验年限的认证放射科医生,让每个人独立完成标注,互相之间完全不知道其他人画了什么。

最终,每张CT图像拥有五套完全独立的肿瘤轮廓标注。当研究团队把这五套标注叠放在一起比较时,得到了一个令人震惊的数据:所有专家两两之间的平均一致性评分(用Dice系数衡量,满分100表示完全一致)仅为58.4分,而且标准差高达25.7分。这意味着在相当多的病例中,两位专家画出的肿瘤区域几乎没有重叠。

研究中展示的两个典型案例将这种分歧表现得淋漓尽致。在第一个案例中,五位专家对肿瘤的浸润边界各执一词,标注出的肿瘤与血管的接触面积相差悬殊。在第二个案例中情况更为极端——五位专家甚至标注了完全不同的解剖区域,仿佛他们在不同的图像上寻找不同的东西。

深入分析这种差异后,研究团队发现,专家的标注风格与其临床经验年限密切相关。拥有3年经验的四号标注者与整体的平均一致性最高(60.19%),22年经验的三号标注者紧随其后(59.86%),而只有1年经验的五号标注者则是最主要的"异类",平均一致性仅有55.33%。这种规律并不令人意外,但它说明了一个重要问题:当一个AI模型的"标准答案"仅来自单一标注者时,这个模型实际上学到的不过是某一位医生的个人偏好,而非客观的解剖事实。

在125张原始图像中,研究团队还发现了16张特别棘手的病例——至少有一位放射科医生在这些图像中根本找不到任何肿瘤可以标注,这些病例最终被排除在数据集之外。最终留下的109个病例被划分为训练集(40个)、验证集(5个)和测试集(64个),研究团队在划分时格外注意平衡各组之间的患者性别、年龄分布、CT扫描仪品牌、肿瘤位置和肿瘤体积,以确保后续的模型比较不受样本偏差的干扰。

除了肿瘤标注,研究团队还安排了一位第五位放射科医生对数据库中原有的半自动血管标注进行精细化处理,将血管区分为五个独立的解剖结构:主动脉、腹腔干、门静脉、肠系膜上静脉(SMV)和肠系膜上动脉(SMA)。这种精细化的血管分类对于后续按血管类型独立评估肿瘤侵犯程度至关重要。

三、旧尺子量不出新问题——为何需要一套全新的评估标准

传统的AI医学分割模型评估方式,本质上就是把AI画的轮廓和"标准答案"轮廓叠在一起,看看重合度有多高。这个重合度分数(也就是Dice系数)在很多任务上行之有效,但面对胰腺肿瘤这类本质上存在主观模糊性的标注任务,它就显得力不从心了。

打个比方:假设你要评估一名学生画的地图准不准确,但这张地图上的海岸线本来就有五个版本,每位地理学家画的都不一样。这时候用任何一个版本作为唯一标准来评分都是不公平的。更合理的方式是,看学生画的线条有没有体现出这五个版本共同认可的部分,同时也看他有没有合理表达那些存在争议的区域。

研究团队针对这个问题设计了四类互补的评估指标。第一类是传统的分割质量评估,包括标准Dice系数(把AI的二值化预测与STAPLE共识结果比较)和一个经过改进的阈值平均Dice分数(Thr-DSC),后者通过在多个概率阈值上反复计算重合度,既评估了AI的硬性分割质量,也评估了它与五位专家综合意见的吻合程度。

第二类是多标注者校准评估(MR-ECE)。这个指标评估的不是AI画得准不准,而是AI表达的自信心是否符合实际。好的AI模型在不确定的地方应该表现出犹豫,在确定的地方才表现出坚定。MR-ECE通过把AI的概率预测分别与每位专家的标注进行比较来计算,最终结果反映了AI的自信程度与五位专家之间真实分歧程度的匹配情况。

第三类是概率体积评估(CRPS)。不同专家标注的肿瘤体积会有差异,这些差异本身就构成一个分布。一个好的AI模型输出的预测体积,应当落在这个分布的合理范围内,而不是总是偏高或偏低。CRPS就是用来衡量AI预测的肿瘤体积与五位专家体积分布之间的契合度。

第四类也是最具临床价值的一类——血管侵犯评估。对于每条血管(门静脉、肠系膜上静脉、肠系膜上动脉、腹腔干和主动脉),研究团队都单独计算了AI预测的侵犯角度与五位专家标注的侵犯角度分布之间的差距,使用的是一种叫做Wasserstein距离的统计工具。这种方法不仅判断AI有没有发现肿瘤,还判断AI是否准确捕捉到了肿瘤与每条血管接触的具体程度和不确定性。

最终排名通过把每个团队在九个评估指标上的名次取平均来决定,这确保没有任何一个指标可以单独主导排名结果。

四、六支队伍,六种思路——AI如何应对"没有标准答案"的问题

这场竞赛吸引了来自全球六个研究机构的团队参与,他们的方法在技术实现上都基于同一个医学图像分割框架(nnU-Net),但在如何处理多专家标注的不确定性这个核心问题上,走出了截然不同的路径。

来自法国斯特拉斯堡大学的TwinTrack队采用了一种"先划分职责,再校准结果"的思路。他们用两个串联的神经网络处理图像:第一个在低分辨率下定位胰腺、肿瘤和血管的大致位置,第二个在精细分辨率下细化预测。他们没有在训练阶段尝试融合五位专家的标注,而是等模型训练完成后,用一种叫做等温回归的统计方法,把模型输出的概率值调整到与专家平均共识程度相符。换句话说,他们是在训练结束后"事后补课",把模型学到的自信程度重新校准。

中国科学院深圳先进技术研究院的CorpuSeg队走了另一条路:他们干脆训练了五个独立的模型,每个模型只学习一位专家的标注风格,最后推断时把五个模型的概率预测直接取平均。这种方式让最终预测自然包含了五种不同的"专家视角"。

法国雷恩第一大学的BreizhSeg队选择了更前沿的贝叶斯深度学习方法。他们把一个确定性的神经网络改造成贝叶斯神经网络,通过在网络的归一化层中引入随机扰动,让同一张图像每次经过网络时都会产生略有不同的预测结果。最终的输出是多次随机运算结果的融合,这种方法在数学上模拟了"我对这个区域不太确定"的心理状态。

德国癌症研究中心的MIC DKFZ队采用了最直接也最全面的数据策略:他们把五位专家的所有标注加上STAPLE共识标注全部用于训练,然后用集成学习(训练多个模型再综合输出)和温度缩放技术来校准最终的概率预测。

中国科学院的ROISeg队则代表了最简洁的一端:他们先把五位专家的标注用STAPLE算法融合成一个共识标注,然后直接用这一个目标训练模型,完全不保留任何关于专家分歧的信息。这种做法最接近传统的医学图像分割思路,没有任何显式的不确定性建模。

最后一个方法OrdSTAPLE来自庞培法布拉大学和Sycai Medical,也是比赛组织者作为参考基线提交的方案。他们用一种有趣的"分级"思路来处理专家分歧:除了训练一个普通的STAPLE共识分割模型,他们还训练了第二个模型,专门预测不同区域上专家达成共识的程度(从"无人同意"到"所有人同意"分为多个等级)。把两个模型的输出合并后,最终的预测图既有清晰边界,也在争议区域保持适当的模糊感。

五、结果揭晓:好的"全局成绩",并不等于好的"临床决策工具"

比赛结束后,研究团队对六支队伍的结果进行了全面分析,得出的结论出人意料却合情合理。

在全体测试病例上看,BreizhSeg队的表现最为亮眼,在传统Dice重合度、阈值平均Dice和校准误差三个指标上均排名第一,是综合表现最均衡的方法。MIC DKFZ队紧随其后,在Dice指标上排名第二。ROISeg队虽然Dice分数不算突出,却在概率体积估计(CRPS)上夺得第一名。

然而当把目光转向血管侵犯评估时,排名格局发生了戏剧性变化。TwinTrack队在五条血管中的四条(主动脉、门静脉、肠系膜上静脉和腹腔干)上都取得了最低的Wasserstein距离误差,也就是最准确的血管侵犯评估。CorpuSeg队在肠系膜上动脉上表现最优,并在其他血管上也保持了稳定的竞争力。而在全局指标上排名靠前的BreizhSeg和MIC DKFZ,在血管侵犯评估上的表现则相对平庸。

从各条血管的难度来看,主动脉是最容易评估的结构,因为它体积大、位置固定、与肿瘤的关系相对清晰。相比之下,肠系膜上静脉和门静脉产生的Wasserstein距离误差最高,说明静脉系统的侵犯评估对所有方法来说都是最大的挑战。

研究团队还对排名的稳定性进行了严格验证,通过500次自举重采样(一种评估统计结论可靠性的方法)确认,主要排名趋势并非由个别特殊病例驱动,而是反映了方法本身的系统性差异。

六、最硬的骨头:专家都吵架的那些病例

最能揭示方法本质区别的,是那些连人类专家都无法达成共识的极端困难病例。研究团队专门划出了测试集中专家两两一致性评分低于30%的病例,单独对这个"高难度子集"重新计算所有指标。

结果令人颇为意外。在全局测试中排名较低的OrdSTAPLE,在这个高难度子集上成了表现最优的方法,跨所有指标的平均排名第一。而在全局测试中表现出色的BreizhSeg和MIC DKFZ,在这些极端模糊的病例上,Dice分数出现了大幅下滑——这意味着这两种方法在"有标准答案"时表现好,但当没有标准答案时就开始迷失方向。

TwinTrack和ROISeg走了另一个极端:它们在高难度病例中仍然输出了相对较高的Dice分数,但代价是血管侵犯评估误差急剧增大。换句话说,这两种方法倾向于"硬着头皮"给出一个确定性的答案,即使在专家自己都在争论的地方,也强行画出一条清晰的边界。

这一现象揭示了两种截然不同的失败模式。基于硬性共识训练的模型,面对极端模糊的病例时,要么过于自信地把边界画得太宽(造成过度延伸),要么根本不敢标注(造成体积崩溃)。而专门设计了分歧建模机制的方法——比如OrdSTAPLE——则能在这些极端情况下保持相对稳定,产生更扩散、更诚实的概率分布,而不是假装自己知道答案。

从可视化结果来看,这种差异在图像上非常直观。在标注争议不大的病例中,所有方法基本都能准确定位肿瘤,输出的概率图也大同小异。但在极端模糊的病例中,基于二值目标训练的模型往往产生尖锐的、过于自信的轮廓,而分歧感知型方法则产生渐变的、弥散的概率云,更真实地反映了图像本身所包含的不确定性。

七、这对临床医生意味着什么

研究团队在讨论部分特别强调了这一发现的临床意义。外科决策,特别是胰腺癌能否手术的判断,高度依赖于局部肿瘤-血管界面的精确描述。一个模型即使在全局体积上表现出色,如果在肠系膜上动脉或门静脉旁边的那几毫米区域画错了,都可能导致灾难性的临床后果:过度自信的假阳性接触判断可能把一个本可手术的患者错误判定为无法手术,而过度自信的假阴性判断则可能让外科医生在手术台上遭遇意外。

这意味着,在PDAC的临床辅助决策中,一个AI模型的价值不仅在于它的平均准确率,更在于它能否诚实地表达"我不确定"。一个能产生合理校准概率图的模型,即使Dice分数不是最高,也可能比一个分数更高但过度自信的模型更有临床价值——因为前者至少会提示医生"这个区域需要更仔细地看",而后者可能给医生一种虚假的安全感。

研究同时揭示了一个底层规律:不同评估指标之间的相关性是不对称的。Dice分数和阈值平均Dice分数彼此高度相关,但它们与血管侵犯误差的相关性却相当弱。这用数字证明了一件直觉上应该成立的事:把肿瘤整体画准和把肿瘤与特定血管的接触画准,本质上是两个不同的任务,需要用不同的指标来分别评估。

八、这项研究的局限与展望

研究团队对自己工作的局限性保持了相当清醒的认识。测试集的规模相对有限,64个病例中极端困难的案例更少,这使得在血管侵犯这类细粒度指标上的统计显著性检验结果需要谨慎解读。事实上,大多数血管侵犯指标的成对Wilcoxon检验并未达到统计显著性,这在一定程度上反映了这类任务的固有难度和样本量的制约。

另一个局限在于,本研究的参考标准来自放射科医生的影像判断,而非病理学或手术中的直接观察。这反映了临床前设置的真实情况(术前判断只能依靠影像),但也意味着"标准答案"本身就内嵌了放射科判断的主观性和不确定性。

在方法多样性方面,六支参赛队伍虽然思路各异,但技术架构上都依赖nnU-Net的变体,这使得本次比赛主要捕捉到了训练策略和不确定性建模上的差异,而非更宏观的网络架构设计空间的探索。

展望未来,研究团队希望扩大数据集规模,纳入更丰富的临床终点(比如手术结果)来验证AI预测的真实临床价值,并推动整个领域从确定性分割工具向校准的概率性决策辅助系统转变。

说到底,这项研究做的事情可以用一句话概括:它把"AI有多准确"这个问题,扩展成了"AI对不确定的事情有多诚实"。胰腺癌的影像判断本来就充满模糊,五位顶尖专家面对同一张图画出五种截然不同的轮廓,这不是医生的失职,而是医学现实的真实写照。在这种现实下,强行要求AI给出唯一确定答案,不仅不科学,在某些情况下可能比没有AI更危险。

这项工作让我们看到,下一代医学AI应当具备一种人类医生也推崇的品质:在有把握的地方果断,在没把握的地方坦诚。当一个AI模型面对一张极端困难的CT图像时,它最应该做的事情,或许不是给出一个清晰的轮廓,而是把那片充满争议的区域染成渐变的灰色,然后告诉医生:这里,需要你多看几眼。对这项研究感兴趣的读者,可以通过arXiv编号2604.27582查阅完整论文。

Q&A

Q1:胰腺导管腺癌的血管侵犯评估为什么这么难做准确?

A:胰腺肿瘤边界本身就非常模糊,与周围正常组织混在一起,加上肿瘤紧邻多条重要血管,即使是有丰富经验的放射科医生在同一张CT图上也会画出完全不同的边界。研究数据显示,五位专家两两之间的平均一致性评分仅有58.4分(满分100),在极端病例中五个人甚至标注了完全不同的解剖区域,这种内在模糊性是该任务难度的根本来源。

Q2:CURVAS-PDACVI数据集和一般医学影像数据集有什么不同?

A:最大的区别是标注密度。普通医学影像数据集通常每张图只有一位医生标注,而CURVAS-PDACVI数据集为每张CT提供了五位独立专家的完整标注,并且保留了所有标注的分歧信息,没有强制融合成一个"标准答案"。此外,数据集还包含了精细化分类的五条血管结构标注,支持按血管类型独立评估肿瘤侵犯情况。

Q3:Dice系数为什么不足以评价胰腺癌AI分割模型的临床价值?

A:Dice系数只衡量AI画的轮廓和某个参考轮廓的重叠程度,但在胰腺肿瘤这类任务中,参考轮廓本身就存在多个专家版本。Dice高的模型不一定在肿瘤与血管的接触界面处表现准确,研究数据表明全局Dice与血管侵犯评估误差的相关性很弱。更重要的是,Dice无法反映模型表达不确定性的能力,而一个在模糊区域仍然过度自信的模型在临床上可能造成误判。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-