
这项由法国斯特拉斯堡大学ICube实验室、斯特拉斯堡肿瘤中心(CLCC Institut-Strauss)与德国癌症研究中心(DKFZ)海德堡放射肿瘤科联合开展的研究,以预印本形式于2026年4月17日发布,投稿于医学图像深度学习顶级会议MIDL 2026,论文编号为arXiv:2604.15950。
**胰腺癌,一个让医生们也难以言说的难题**
胰腺癌是世界上最凶险的癌症之一,患者的五年生存率极低,而准确判断肿瘤的边界对于制定手术方案、放疗计划至关重要。医生们通常借助增强CT扫描来观察肿瘤,但问题来了——胰腺肿瘤的边界往往像雾中的山峦,模糊而难以辨认。
以一个场景来理解这种困境:假设你和五位经验丰富的地图绘制师,同时去勘测同一片被薄雾笼罩的山区边界。即便是最顶级的专家,每个人画出的边界线也会有些许甚至相当程度的差异。这种差异不是因为某人犯了错,而是因为山与雾的边界本身就是模糊的、有多种合理解读的。这正是胰腺癌CT图像标注的真实处境——多位顶级放射科医生在标注同一个肿瘤时,彼此之间会出现相当大的分歧,这是真实存在的不确定性,而非失误。
然而,主流的AI医学影像系统却一直在做一件有些"傲慢"的事——它们被训练成只接受一个"正确答案",然后输出一个非此即彼的判断:这里是肿瘤,那里不是。当系统在可信度很高时说"我95%确定这里是肿瘤",这在技术上也许没错,但如果连五位顶级专家都无法统一意见的区域,系统却以高度自信的姿态给出答案,这不仅是错误的,更可能误导临床决策。
这篇论文提出的**TwinTrack框架**,核心思路可以用一句话概括:与其让AI假装确定,不如让它学会表达"有多少比例的专家认为这里是肿瘤"。这个听起来简单的想法,背后有着严谨的数学推导和扎实的实验验证,并最终在MICCAI 2025 CURVAS-PDACVI国际挑战赛中拿下第一名。
---
**一、为什么AI医学影像系统会"假装确定"?**
要理解TwinTrack解决了什么问题,先要理解现有系统的根本缺陷在哪里。
绝大多数医学图像分割AI的训练方式,类似于教一个学生用单一标准答案做题。训练数据的标签通常由一位放射科医生(或通过投票方式综合多人意见后得到一个"最终版本")提供,然后AI反复学习"这里应该是肿瘤,那里应该是背景"。经过这样训练的AI,其输出的"概率值"本质上是一种对这个单一标准答案的自信程度,而不是对"真实不确定性"的度量。
这就好比让五位裁判对一场体操比赛打分,结果只给AI看裁判A一个人的分数,然后问AI"这个动作的得分是多少"——AI学到的只是裁判A的偏好,而不是这个动作本身的客观价值,更无法反映五位裁判之间的分歧。
德国海德堡大学Reuzel等人的研究已经明确证实,在胰腺肿瘤CT标注中,专家间的差异是相当显著的。在这种情况下,一个以单一标注为目标训练出来的AI,其输出概率往往会"过度自信"——在边界模糊区域依然给出接近0或接近1的极端值,而不是反映真实不确定性的中间值。斯坦福大学Guo等人在2017年的研究中也指出,现代深度神经网络普遍存在"校准度差"的问题,也就是说它们说自己"90%确定"时,实际上的正确率可能远不到90%。
以往针对这个问题,研究界主要的解决思路是在**训练阶段**下功夫:比如用多位标注者的数据来训练模型(如概率U-Net、多标注者一致性建模等)。这些方法虽然有效,但代价高昂——需要重新设计模型架构、重新组织训练流程,而且一旦你已经有了一个训练好的模型,这些方法就帮不了你了。
TwinTrack走了一条完全不同的路:不动模型,只在最后输出阶段加一道"校准滤镜",把AI的输出概率调整到与人类专家集体判断一致。这就是所谓的**事后校准(post-hoc calibration)**。
---
**二、TwinTrack的三步流程:从粗到细,最后加一道"人性化滤镜"**
TwinTrack的整体架构可以用一个"城市规划三步法"来理解。
第一步,像无人机俯瞰城市全貌一样,用一个低分辨率的神经网络(nnU-Net)先扫描整个腹部CT体积,大致找到胰腺的位置。这一步不要求精准,只要把胰腺"框住",不漏掉就行,所以宁愿框大一些也不框小。这就是"高召回率感兴趣区域"——确保肿瘤区域一定在框里,哪怕框了很多不相关的组织。
第二步,就像建筑师拿到了特定街区的详细图纸,在这个缩小的区域内,用三个独立训练的高分辨率nnU-Net进行精细分割。这三个模型是"深度集成"(deep ensemble)的成员——它们的结构相同,但因初始化方式不同而形成了各自的判断视角。就像三位建筑师各自绘制同一栋楼的设计图,最后把三份图纸的平均值作为输出。这种集成方式被Lakshminarayanan等人在2017年证明是估计不确定性的有效手段。三个模型的输出概率被简单平均,得到每个体素是肿瘤的概率。
第三步,也是整篇论文最核心的贡献——把前两步得到的概率,经过一个"人类共识校准层",映射到"平均人类反应率"(Mean Human Response,MHR)上去。
什么是平均人类反应率?简单说,对于图像中的每一个体素(可以理解为三维图像中最小的体积单元,类似像素在平面图像中的地位),MHR就是"在所有参与标注的专家中,有多少比例的人认为这里是肿瘤"。如果五位专家中有三位把某个体素标为肿瘤,那这里的MHR就是0.6,即60%。经过校准后,AI在这个体素上的输出概率也应该接近0.6,而不是0.9或0.1。
---
**三、为什么MHR是最合理的校准目标?数学上有严格证明**
这个选择不是拍脑袋决定的。论文的附录A给出了一个优雅的数学论证,值得用通俗语言解释一遍。
校准这件事,本质上是在学一个映射函数:把模型输出的概率值,转换成更准确的概率值。具体方法叫"等渗回归"(isotonic regression),可以理解为学一条只能单调上升(不能弯回来)的曲线,把原始概率映射到更准确的值。为什么要求单调?因为如果模型认为A比B更可能是肿瘤,校准后不应该反过来变成B比A更可能——校准只改变概率的绝对值,不改变相对排序,这是一个合理的约束。
在只有一个标注者的情况下,这个映射就是让模型输出的概率尽可能接近那一个标注者的0/1标签。
当有N个标注者时,自然的扩展是让这个映射同时兼顾所有N个标注者,即最小化对所有标注者的综合误差。数学推导显示,这个多标注者问题可以被严格化简为一个等价的单目标问题:目标就是MHR。换句话说,"向多位标注者的平均判断靠拢"和"直接向MHR靠拢"在数学上是完全等价的。这赋予了TwinTrack校准策略坚实的理论基础——它不是经验性的技巧,而是从多标注者校准目标中自然推导出来的最优解。
等渗回归的具体实现,采用了一种叫"池相邻违规算法"(PAVA)的方法,这是解决单调约束最小化问题的经典高效算法。为了避免在医学图像海量体素上直接计算导致的过拟合和计算爆炸,研究团队将体素按预测概率分成250个等质量分箱(每箱包含大致相同数量的体素),在分箱层面执行校准,这样既保证了计算效率,又起到了隐式正则化的作用,让校准映射更加稳健。
---
**四、实验设计:怎么训练,怎么测试,怎么对比**
了解一项AI研究的可信度,很大程度上取决于实验设计是否严谨。
训练数据来自PANORAMA数据集(第4批次),这是一个大规模腹部CT数据集,用于训练前两步的分割模型。关键在于,这一阶段的训练**完全不使用**多标注者信息,和普通AI训练一样。
多标注者数据只在第三步校准阶段使用,来源是CURVAS-PDACVI数据集的训练拆分——40张CT,每张由5位专家独立标注,提供了丰富的多人意见数据。校准映射就在这40张CT上学习,无需对前两步的模型做任何改动。
最终评估在CURVAS-PDACVI测试集的64张CT上进行,与挑战赛官方评估流程完全一致。
对比实验非常关键。论文设置了三种对照方案,所有方案使用完全相同的分割主体(前两步模型),只有最后的校准目标不同。第一种是"不校准",直接使用集成模型的原始输出概率。第二种是"单标注者校准",用某一个标注者的0/1标签作为目标进行校准。第三种是"硬标签平均",对每位标注者分别训练一个校准器,推断时平均它们的输出。TwinTrack则是向MHR直接校准。
评估指标涵盖四个维度,全面而有针对性。TDSC(软多标注者Dice分数)衡量的是在不同决策阈值下分割结果与MHR的重合程度,分数越高越好,它是衡量"软分割"质量的核心指标。ECE(期望校准误差)衡量的是预测概率与真实观测频率之间的偏差,越低越好。CRPS(连续排名概率分数)衡量的是预测的软体积分布与真实标注体积分布的差异,越低越好。此外还有五条血管的血管侵犯(VI)指标,分别是门静脉(PORTA)、肠系膜上静脉(SMV)、主动脉(AORTA)、腹腔干(CELIAC)和肠系膜上动脉(SMA),每条血管的侵犯程度用Wasserstein距离来衡量预测分布与参考分布的差异。
---
**五、实验结果:数字背后的故事**
结果非常清晰。
TwinTrack在TDSC上达到了0.569,明显高于不校准的0.553,而单标注者校准(0.300)和硬标签平均(0.307)则大幅落后——几乎下降了近一半。ECE方面,TwinTrack以0.0147的最低值胜出,不校准为0.0156,而两种基于硬标签的校准方案则双双达到0.0209,反而比不校准更差。CRPS方面,TwinTrack以5924的最低值领跑,不校准为6032,单标注者校准和硬标签平均则分别高达10342和9860,差距悬殊。
血管侵犯指标同样令人信服。在五条血管中,TwinTrack在PORTA、SMV、AORTA、CELIAC四条血管上取得最低误差,只有SMA一项被硬标签平均(25.9)略微超过(TwinTrack为28.7)。
这些数字用通俗语言翻译一下:以软标签方式使用的硬标签校准,就像五位裁判各给一份分数,然后AI分别去迎合每个裁判的偏好再取平均——结果是AI学会了一种"机械平均",反而比不做校准更糟糕,因为它丢失了原本的概率结构。而TwinTrack直接以五位裁判的真实平均意见为目标,不折腾中间过程,自然更准确。
论文还特别指出了一个有趣的现象:ECE的改善幅度看上去很小(从0.0156降到0.0147),但实际意义不可低估。原因在于ECE的计算被大量的"简单背景体素"所主导——绝大部分CT体素明显不是肿瘤,模型对这些体素的预测本来就很准确,因此ECE数值整体被压低,改善空间自然有限。真正重要的是在0.2到0.8的中间概率区间——也就是专家们也拿不准的"模糊地带"——TwinTrack的可靠性曲线明显更贴近完美校准的对角线。论文附录中的可靠性图直观地展示了这一点:未校准模型的曲线系统性地偏低(过度自信),而TwinTrack的曲线则紧紧跟随理想对角线。
统计显著性也经过了严格验证:所有对比均采用5000次重抽样的配对自助法(paired bootstrap),在95%置信区间下,TwinTrack相对于其他方案的改善均达到统计显著。
---
**六、这项研究的边界与潜力**
诚实地看待这项研究的局限性,有助于更准确地理解它的价值。
TwinTrack的校准步骤依赖一个多标注者校准集——本研究使用了40张CT、每张5个专家标注。在实际推广中,这个要求并不算苛刻(比重新训练整个模型容易得多),但并非所有医院或数据集都具备这样的多标注资源。
此外,该研究专注于胰腺导管腺癌在增强CT上的分割,尽管其核心方法论(事后多标注者校准到MHR)在理论上适用于任何多标注医学图像分割任务,但能否在其他器官、其他模态(如MRI、PET)上取得同等效果,仍需进一步验证。
从更宏观的视角看,这项研究的贡献不仅仅是一个具体的算法,更重要的是它将"校准到MHR"这一思路进行了明确的数学形式化。在此之前,多标注者校准这个方向在医学图像分析领域并未被明确系统地研究过,TwinTrack填补了这一空白,并提供了一个简洁、可复现的基准。
说到底,这项研究传递的信息既简单又深刻:在医学诊断这样高风险的场景下,一个知道"自己不确定"的AI,往往比一个假装确定的AI更有价值。当专家们对某个区域意见不一时,AI也应该诚实地告诉临床医生"这里有60%的专家认为是肿瘤",而不是斩钉截铁地说"肿瘤"或"不是肿瘤"。这种诚实,才是AI辅助医疗诊断走向可信赖的真正基础。
对这一研究方向感兴趣的读者,可以通过arXiv检索编号2604.15950查阅完整论文,包含详细的数学推导、完整的实验数据与置信区间,以及大量定性可视化案例。
---
**Q&A**
Q1:TwinTrack校准方法和普通AI医学图像分割有什么本质区别?
A:普通AI分割模型以"单一正确答案"为训练目标,输出的概率反映的是对这个单一标准的自信度。TwinTrack的校准层则把模型输出的概率重新映射到"多位专家中有多少比例认为这里是肿瘤",这个目标叫做平均人类反应率(MHR)。校准过程不改变模型的相对排序,只调整概率的绝对值,在数学上被证明等价于多标注者联合校准的最优解,让AI在边界模糊区域能够如实表达不确定性而非假装自信。
Q2:TwinTrack需要多少多标注者数据才能完成校准?
A:在本研究中,校准步骤仅使用了40张CT扫描,每张由5位专家独立标注,无需重新训练分割模型,只需在校准集上拟合一个等渗回归映射即可。这个数据量要求相对较低,远比重新收集训练数据或重新设计模型架构成本低。不过研究目前针对的是胰腺癌CT这一特定场景,在其他病种或成像模态下所需数据量可能有所差异。
Q3:胰腺癌CT标注为什么专家之间会有这么大的分歧?
A:胰腺癌肿瘤在CT图像上的边界本身就极度模糊。胰腺周围存在大量复杂的软组织结构,肿瘤往往与正常胰腺组织、血管、脂肪等边界难以分明。此外增强CT的成像效果受扫描时间、患者状态、机器参数等多重因素影响。这种模糊性是影像本身的客观特征,并非专家能力问题,因此即便是顶级放射科医生在标注边界时也会产生实质性分歧,Reuzel等人2021年的医学物理学期刊论文对此有定量证实。
好文章,需要你的鼓励
这项由IIT马德拉斯与BITS Pilani联合发布的研究(arXiv:2604.21523,2026年4月)构建了FOCUS元评估基准,系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误,研究发现顶尖评审AI的检测失败率在某些条件下超过50%,物理合理性和视觉细节类错误尤为难以被发现,两两比较是最可靠的评审范式。
这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架,核心思想是让AI自动优化自身的运行脚手架,再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作,自动迭代改进单个任务的运行配置;外层的元进化循环则在多个任务上训练,学习一套能快速适应任何新场景的通用进化蓝图,从而彻底消除人工脚手架工程的需求。
这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台,通过引入自动课程规划、技能库存储以及迭代反馈机制,成功让大语言模型主导的AI在完全无人类干预的情况下,实现了在复杂开放世界中的自主探索与终身学习。实验数据表明,Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势,为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究(arXiv:2604.25917,2026年4月)提出了RecursiveMAS框架,让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想",形成循环协作,彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略,整个系统只需优化极少量参数,就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升,同时实现最高2.4倍推理加速和75.6%的token用量削减。