微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里巴巴首创医学影像"万能翻译机":一个模型搞定X光、CT、内镜所有影像检索

阿里巴巴首创医学影像"万能翻译机":一个模型搞定X光、CT、内镜所有影像检索

2025-09-19 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-19 11:07 科技行者

这项由阿里巴巴达摩院与帝国理工学院、清华大学、湖畔实验室联合开展的研究发表于2025年9月,论文题为《M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision》。有兴趣深入了解的读者可以通过arXiv:2509.01360v1访问完整论文。

医学影像检索就像医生的"超级搜索引擎"。当医生看到一张X光片显示肺部有阴影时,他们希望能快速找到类似的病例来辅助诊断。然而,现有的医学影像搜索系统就像只会说一种语言的翻译官——专门处理X光的系统看不懂CT扫描,处理超声的系统无法理解内镜视频。这种各自为政的状况让医生们在面对不同类型影像时必须使用多套系统,既麻烦又低效。

现在,阿里巴巴达摩院的研究团队开发出了一个真正的"万能翻译机"——M3Ret系统。这个系统就像一位博学的医学专家,不仅能看懂2D的X光片和超声图像,还能理解3D的CT扫描和彩色的内镜视频。更神奇的是,它甚至能在从未见过核磁共振(MRI)影像的情况下,准确地检索MRI图像。这就好比一个从未学过法语的人,却能通过对其他欧洲语言的深度理解来翻译法语文档。

研究团队收集了超过86万张来自真实医院的影像数据,包括X光片、超声图像、内镜视频和CT扫描。这个数据规模相当于一个大型三甲医院十年积累的影像资料。与以往需要医生标注每张图片内容的方法不同,M3Ret采用了自监督学习技术——就像让系统自己通过大量观察来理解不同影像之间的共同规律,而不需要人工逐一教授。

在实际测试中,M3Ret的表现令人惊艳。在胸部X光影像检索任务中,它的准确率达到了34.5%,超越了目前最强的基于文本监督的BMC-CLIP系统。在超声影像检索中,准确率更是达到95.5%。要知道,BMC-CLIP系统使用了2400万张标注好的医学影像文本对进行训练,而M3Ret仅仅通过视觉信息就达到了更好的效果。

一、统一多模态医学影像的技术突破

传统的医学影像处理系统就像专门的工具箱——X光有X光的工具,CT有CT的设备,每种影像都需要独立的处理系统。这种设计虽然专业,但就像一个木匠需要携带十几个不同的工具箱一样麻烦。M3Ret的创新在于设计了一个"万能工具",能够处理所有类型的医学影像。

这个统一处理的核心技术叫做"统一切片化"。简单来说,就是把不同类型的影像都切成标准大小的"小方块",然后用同一套算法来理解这些小方块。对于2D的X光片,系统会把256×256像素的图像切成16×16像素的小块,同时在时间维度上复制4层,形成一个标准的4D数据块。对于3D的CT扫描,系统会把完整的扫描切成64个切片,每个切片再切成小块。对于内镜视频,系统会随机选取16帧画面,每帧同样切成小块。

这种做法就像把不同语言的文字都转换成相同格式的密码——虽然原始内容不同,但经过转换后都能用同一套解码方法来理解。通过这种统一的数据表示方法,一个神经网络就能同时处理所有类型的医学影像,而不需要为每种影像类型设计专门的网络结构。

系统采用了两种自监督学习方法:遮蔽自编码器(MAE)和对比学习(SimDINO)。遮蔽自编码器的工作原理就像拼图游戏——系统会故意遮住影像的一部分,然后尝试根据看到的部分来推测被遮住的内容。通过这种"填空"练习,系统逐渐学会理解医学影像的内在规律和结构特征。

对比学习则像是"找不同"游戏的升级版。系统会对同一张影像进行不同的变换,比如旋转、缩放或调整亮度,然后学习识别这些变换后的图像其实来自同一个原始影像。同时,系统还要学会区分不同的影像。通过这种方式,系统能够提取出影像中最本质、最稳定的特征信息。

二、跨模态检索能力的惊人表现

M3Ret最令人印象深刻的能力是跨模态检索——用一种类型的影像去搜索另一种类型的相关影像。这就像用中文书的内容去搜索相关的英文书籍,需要系统理解不同语言背后的共同含义。

在CT到X光的检索任务中,当输入一张显示腹部的CT扫描时,M3Ret能够准确找到相应的腹部X光片,准确率达到32.7%。更令人惊讶的是,在从未见过MRI影像的情况下,系统在CT到MRI的检索中仍然达到了42.4%的准确率。这相当于一个从未学过意大利语的人,仅凭对西班牙语和法语的了解就能理解意大利语文章的主要内容。

这种跨模态能力的实现依赖于系统对人体解剖结构的深度理解。虽然X光、CT和MRI的成像原理完全不同,但它们都在展示同一个人体的不同方面。X光显示骨骼结构,CT展现内部器官,MRI突出软组织细节,但它们描述的都是同一个解剖对象。M3Ret通过大量学习,掌握了这些不同成像方式之间的内在联系。

在实际应用中,这种跨模态能力意味着医生可以用一张胸部X光片来搜索相关的胸部CT或MRI影像,为诊断提供更全面的参考信息。比如,当急诊科医生看到一张显示肺部异常的X光片时,系统可以自动找出类似病例的CT扫描,帮助医生更准确地判断病情严重程度。

三、区域异常检索的精细化诊断

除了基础的影像类别检索,M3Ret还能进行更精细的区域异常检索。这种能力就像一个经验丰富的放射科医生,不仅能识别"这是肺部影像",还能指出"左下肺叶有2厘米的结节"。

系统的区域异常检索分为两个层次。第一个层次是区域异常状态检索,比如识别"主动脉正常"或"主动脉异常"。第二个层次是更精确的病灶大小检索,能够识别"腹部低密度病灶,直径20毫米"这样的具体描述。

在区域异常状态检索测试中,M3Ret的准确率达到5.8%,虽然听起来不高,但要知道这是在没有任何区域标注的情况下实现的。相比之下,使用了16万张带有像素级器官和肿瘤标注的VoCo系统准确率仅为3.7%。这就像一个自学成才的医生在某些诊断任务上超越了接受过专业培训的医生。

在更困难的病灶大小检索任务中,M3Ret的准确率为1.4%,同样超越了其他需要大量人工标注的系统。这种能力对临床诊断极其重要,因为病灶的大小直接影响治疗方案的选择。比如,小于1厘米的肺结节通常采用观察随访,而大于3厘米的结节则可能需要立即手术。

四、系统性能的全面验证

研究团队在多个权威数据集上对M3Ret进行了全面测试,就像让一个学生参加不同科目的考试来验证学习效果。在胸部X光数据集ChestXray14上,M3Ret使用SimDINO方法的Top-5检索准确率达到67.4%,明显超越了使用文本监督的BMC-CLIP系统的63.1%。

在超声影像的胎儿平面数据集上,M3Ret的表现更加出色,Top-5检索准确率达到99.0%,几乎达到了完美水平。这意味着当输入一张胎儿大脑的超声图像时,系统在前5个检索结果中几乎总能找到正确的同类图像。

在内镜影像检索方面,虽然M3Ret的绝对性能略低于专门针对内镜数据训练的系统,但考虑到它是在多模态数据上统一训练的,这个结果已经相当不错。在Hyper Kvasir数据集上,M3Ret的Top-5检索准确率为69.0%,接近专业系统的水平。

研究还发现,SimDINO方法在大多数任务上表现优于MAE方法。这说明对比学习更适合医学影像的表示学习,因为医学影像更注重不同样本之间的细微差别,而对比学习正是专门用来学习这种差别的。

五、技术细节的深度解析

M3Ret的技术实现涉及许多精巧的设计细节。在数据预处理阶段,所有影像都被调整为统一的256×256像素格式,然后根据不同模态进行特殊处理。对于灰度的X光和CT影像,系统会将其复制成三通道格式以匹配彩色内镜视频的格式。对于CT扫描,系统会将HU值限制在-1000到1000的范围内,这个范围涵盖了从空气到骨骼的所有人体组织密度。

在网络架构方面,M3Ret使用了Vision Transformer(ViT)作为基础编码器,这种架构特别适合处理被切分成小块的图像数据。系统采用了3×16×16×4的切片大小,这意味着每个数据块包含3个颜色通道、16×16个像素和4个时间或深度切片。这种切片大小是经过大量实验优化的结果,既能保留重要的细节信息,又不会让计算负担过重。

训练过程采用了精心设计的策略来处理不同模态数据的内存需求差异。CT扫描由于包含64个切片,需要的内存比2D影像大得多。因此,系统在训练时对CT使用较小的批次大小(16),而对其他模态使用较大的批次大小(32)。为了保证训练稳定,系统在每个训练步骤中只使用一种模态的数据,但会在不同步骤间轮换模态。

六、与现有方法的全面对比

M3Ret与现有医学影像处理方法相比具有显著优势。传统的BMC-CLIP虽然使用了2400万个影像-文本对进行训练,但其性能在多个任务上都被M3Ret超越。这说明纯视觉的自监督学习在某些情况下比依赖文本标注的方法更有效。

与专门的3D医学影像方法相比,M3Ret也表现出色。VoCo系统虽然在16万张CT扫描上进行了预训练,并使用了大量的分割标注,但在区域异常检索任务上仍然被M3Ret超越。CT-FM系统虽然使用了14.8万张CT扫描进行预训练,但其性能也不如M3Ret。

更值得注意的是,M3Ret甚至能够与一些使用疾病类别标注进行监督学习的方法竞争。Merlin系统使用了600万个CT-电子病历对进行训练,包含丰富的疾病标签信息,但在某些任务上仍然被纯视觉训练的M3Ret超越。这进一步证明了视觉自监督学习的强大潜力。

在计算效率方面,M3Ret也展现了良好的可扩展性。研究团队测试了不同模型规模(ViT-T、ViT-S、ViT-B)和不同数据量(20%、60%、100%)对性能的影响,发现性能随模型规模和数据量的增加呈现幂律增长趋势。这种规律性的增长模式表明,通过进一步扩大模型和数据规模,M3Ret的性能还有很大提升空间。

七、实际应用价值与临床意义

M3Ret的技术突破对临床医疗实践具有重要意义。在实际医疗场景中,医生经常需要参考类似病例来辅助诊断决策。传统方法需要医生手动搜索病例数据库,不仅耗时费力,而且容易遗漏重要信息。M3Ret能够自动、快速、准确地找到相关病例,大大提高诊断效率。

对于教学和科研,M3Ret同样价值巨大。医学院学生可以通过输入一个感兴趣的病例,快速找到大量类似案例进行学习。科研人员可以利用M3Ret快速筛选符合特定条件的影像数据,大大加快研究进度。

系统的跨模态检索能力在多学科会诊中特别有用。当胸外科医生需要参考心脏病学专家的意见时,他们可以用CT影像搜索相关的心电图或超声心动图,为综合诊断提供更多维度的信息。这种跨模态协作能力有望推动精准医疗的发展。

在资源有限的医疗机构中,M3Ret能够发挥类似"远程专家"的作用。基层医院的医生可以通过系统快速找到类似病例的诊断结果和治疗方案,相当于获得了大型医院专家的经验指导。这对提高基层医疗水平具有重要意义。

八、技术创新与方法论贡献

M3Ret的技术创新不仅体现在实际应用效果上,更在于其方法论的突破。传统观点认为,不同模态的医学影像差异太大,必须使用专门的网络架构和训练策略。M3Ret证明了通过合适的数据表示和训练方法,单一的统一模型确实可以处理多种模态的数据。

统一切片化方法的提出解决了多模态数据表示的根本问题。这种方法不仅适用于医学影像,对其他需要处理多模态数据的领域也有重要启发意义。比如,在自动驾驶领域,可能需要同时处理摄像头图像、激光雷达点云和毫米波雷达数据。

自监督学习在医学影像领域的成功应用也具有重要意义。医学影像标注成本极高,需要专业医生花费大量时间。M3Ret证明了即使不依赖这些昂贵的标注,纯视觉的自监督学习也能达到优秀的效果。这为医学AI的规模化应用扫清了重要障碍。

系统展现出的跨模态泛化能力特别令人兴趣。在从未见过MRI数据的情况下能够处理MRI检索任务,说明系统学到了医学影像的通用表示,而不是简单的模态特定特征。这种泛化能力为处理新型成像技术提供了可能性。

九、局限性与未来发展方向

尽管M3Ret取得了显著成果,但研究团队也坦诚地指出了当前系统的局限性。目前的训练数据主要覆盖了主流的医学影像模态,对于PET、SPECT、功能性MRI等特殊成像技术还没有涉及。这些成像技术有其独特的特点和临床价值,未来需要进一步扩展数据覆盖范围。

在技术层面,不同采集协议和设备参数可能导致影像质量差异,这可能影响系统的泛化性能。比如,不同剂量的CT扫描或不同磁场强度的MRI可能产生分布偏移。解决这些问题需要更加鲁棒的训练策略和数据增强方法。

系统目前主要关注影像的整体特征和区域异常,对于更细粒度的病理特征识别还有提升空间。比如,识别肺结节的具体形态特征(毛刺状、分叶状等)或判断骨折的类型(压缩性、粉碎性等)还需要进一步改进。

在实际部署方面,不同医院的影像设备和协议可能存在差异,系统需要具备更强的适应性。此外,医疗数据的隐私保护和法规遵循也是实际应用中必须考虑的重要因素。

十、对医学AI发展的启示意义

M3Ret的成功对整个医学AI领域具有重要启示意义。首先,它证明了数据规模的重要性。86万张影像的训练数据量虽然在自然图像领域不算庞大,但在医学影像领域已经是相当可观的规模。这提醒我们,医学AI的发展需要更多的数据收集和共享合作。

其次,统一模型相对于专门化模型的优势值得深思。虽然直觉上专门化的模型应该在特定任务上表现更好,但M3Ret显示统一模型也能取得优秀效果,并且具有更好的可扩展性和维护性。这对医学AI系统的设计理念产生了重要影响。

自监督学习的成功应用为解决医学数据标注瓶颈提供了新思路。传统的监督学习需要大量专家标注的数据,成本高昂且难以规模化。M3Ret证明了通过巧妙的自监督任务设计,可以充分利用大量无标注的医学影像数据。

跨模态学习的实现也为医学影像分析开辟了新方向。传统研究往往局限于单一模态,但实际临床诊断通常需要综合多种成像信息。M3Ret展示的跨模态能力为开发更符合临床实际需求的AI系统提供了技术基础。

说到底,M3Ret不仅仅是一个技术创新,更像是医学影像AI领域的一次范式转变。它告诉我们,与其为每种影像类型开发专门的系统,不如建立一个能够理解所有影像"语言"的通用系统。这种统一化的思路不仅提高了技术效率,也为医疗AI的普及应用奠定了基础。当医生面对各种类型的影像时,他们不再需要学习使用多套复杂的系统,而是可以依靠一个"懂行"的助手来快速找到需要的信息。

这项研究的意义远超技术层面。它预示着医疗AI正在从专业化工具向通用化平台发展,从依赖大量人工标注向自主学习转变,从单一模态处理向多模态融合进化。这些变化不仅将降低医疗AI的使用门槛,也将大大扩展其应用范围,最终让更多患者受益于AI技术的进步。

Q&A

Q1:M3Ret系统是什么?它能处理哪些类型的医学影像?

A:M3Ret是阿里巴巴达摩院开发的统一医学影像检索系统,就像一个"万能翻译机"。它能同时处理2D的X光片和超声图像、彩色的内镜视频,以及3D的CT扫描。更神奇的是,它甚至能在从未见过MRI影像的情况下准确检索MRI图像,展现了强大的跨模态理解能力。

Q2:M3Ret系统的检索准确率如何?比现有系统好在哪里?

A:M3Ret在多个测试中表现优异。在胸部X光检索中准确率达到34.5%,在超声影像检索中更是达到95.5%,都超越了使用2400万张标注数据训练的BMC-CLIP系统。关键是M3Ret仅通过视觉学习就达到了这些效果,不需要昂贵的人工标注。

Q3:M3Ret系统如何实现跨模态检索?比如用CT图像搜索X光片?

A:M3Ret通过理解人体解剖结构的共同规律实现跨模态检索。虽然CT、X光和MRI的成像原理不同,但都在展示同一个人体的不同方面。系统通过大量学习掌握了这些不同成像方式的内在联系,就像通过理解多种欧洲语言的共同规律来翻译新语言一样。在CT到MRI的检索中,准确率达到42.4%。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-