微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

2025-05-21 14:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-21 14:34 科技行者

常见的显微镜图像多种多样,有普通光学显微镜拍摄的细胞、组织照片,也有利用电子显微镜获取的更微小结构的图像。这些图像对科研人员来说极其宝贵,但随着显微成像技术的快速发展,科学工作者面临着一个严峻挑战:图像数据积累速度远远超过了专家分析处理的能力。想象一下,如果你每天要处理成千上万张照片,而且每张照片都需要你精确地圈出里面的每个细胞或结构,那会是多么费时费力的工作!

近日,复旦大学的李曼宇、何锐安、张子贤、谭伟民和严波团队发表了一篇题为《利用多模态大语言模型统一显微镜下的万物分割》(Unifying Segment Anything in Microscopy with Multimodal Large Language Model)的研究论文,正在接受审议中。这项研究提出了一种名为uLLSAM(统一大语言模型显微镜分割)的创新方法,旨在解决上述挑战。

传统的生物医学图像分割基础模型,如μSAM(显微镜版本的SAM),虽然在某些特定数据集上表现出色,但当面对未见过的领域数据时,往往表现不佳。这就像一个人可能擅长识别狗,但遇到从未见过的猫时就无法很好地辨认。研究团队认为,这种局限性主要源于缺乏"视觉-语言知识"的融合。

想象一下,如果有一个助手既能看懂图像,又能理解文字描述,并能将两者联系起来,那么它的理解能力会大大提升。这就是多模态大语言模型(MLLMs)的优势——它们能够将视觉和语言信息结合起来,实现更全面的理解。复旦大学研究团队正是基于这一思路,利用MLLMs来引导SAM模型学习跨域显微图像数据,从而创造出一个能够处理多种显微镜图像的统一模型。

整个方法的核心在于,研究者们设计了一个"视觉-语言语义对齐"(VLSA)模块,将大语言模型的视觉-语言知识注入到SAM中。有趣的是,研究发现当SAM接收到全局视觉-语言知识提示后,其性能确实显著提升,但在边界轮廓感知方面仍有不足。这就像是一个人能大致分辨出一个物体,但难以准确描绘它的边缘。为了解决这个问题,团队进一步提出了"语义边界正则化"(SBR)技术来增强SAM的边界识别能力。

这种创新方法在9个领域内的显微镜数据集上实现了7.71%的Dice系数(衡量分割准确度的指标)和12.10%的分割准确度(SA)提升,达到了最先进的性能水平。更令人印象深刻的是,该方法在10个领域外的数据集上也展示了6.79%的Dice和10.08%的SA提升,表明其具有强大的泛化能力。简单来说,这个模型不仅在它见过的图像类型上表现优异,而且在它从未"见过"的新类型图像上也能表现出色——这正是科学家们梦寐以求的特性。

接下来,让我们深入了解这项研究的具体内容,看看它如何帮助科学家们更高效地分析显微图像。

一、研究背景与痛点

想象你是一名生物学家,每天工作的一部分就是通过显微镜观察细胞或组织。随着现代成像技术的发展,你获取的图像数量正在呈爆炸性增长。然而,这些珍贵的数据需要专业人员手动分析和标注,这就像是要求一个人徒手清点一大袋米粒——费时费力且容易出错。

现有的挑战主要体现在两个方面:其一,专业人员数量有限,无法跟上图像生成的速度;其二,专家们不仅需要标注图像中的关键区域,还需要详细描述结构特征、复杂细节和潜在机制。这就像要求一个人不仅要数清米粒数量,还要描述每粒米的形状、纹理和来源——这无疑是一项艰巨的任务。

为了解决这一痛点,研究者们开发了各种基础模型来辅助下游任务,如图像修复和细胞组织分割。其中,显微镜版本的"分割一切"模型(μSAM)基于原始SAM开发,提供了针对光学显微镜(LM)和电子显微镜(EM)两种不同类型图像的专用模型权重。这些模型支持交互式分割、交互式跟踪和全自动分割功能。

然而,这些显微镜基础模型通常只专注于特定领域,当应用于异质域数据时,它们的泛化能力面临重大挑战。主要原因在于它们缺乏视觉-语言知识的整合。简单来说,它们只能"看",但不能"理解"所看到的内容,尤其是在处理不同领域的数据时。

而多模态大语言模型(MLLMs)的出现为解决这一问题带来了希望。这类模型具有强大的隐式语义建模能力,能够在视觉和语言组件之间相互增强特征表示,从而更深入地理解图像信息和不同领域的特性。就像一个既能看懂图片又能理解文字的人,能够将两种信息结合起来,获得更全面的理解。

最近,显微镜中心的视觉-语言数据集的增长,特别是BIOMEDICA数据集(包含从科学文献中收集的2400万高质量图像-文本对),为MLLMs在显微镜领域的发展提供了巨大潜力。这就像为模型提供了大量的"教材",让它能够学习如何同时理解图像和相应的专业描述。

在这一背景下,复旦大学的研究团队提出了uLLSAM框架,这是首个探索MLLMs和SAM在显微镜领域集成的框架,旨在利用MLLMs强大的理解和推理能力将视觉-语言知识注入SAM,使SAM能够有效学习跨域视觉-语言知识。

二、uLLSAM的技术创新与工作原理

uLLSAM的核心思想是将多模态大语言模型的语义理解能力与SAM的图像分割能力相结合,创造一个统一的框架来处理不同类型的显微镜图像。让我们用一个简单的比喻来理解:如果将显微镜图像看作是一本充满未知文字的书,传统的SAM只能识别书中的字母形状,而无法理解其含义;而uLLSAM则像是一个既能识别字母形状,又能理解单词含义的阅读者,因此能够更全面地理解整本书的内容。

### 视觉-语言知识注入

研究团队提出的核心创新是"视觉-语言语义对齐"(VLSA)模块。这个模块就像是一个翻译器,将多模态大语言模型提取的视觉-语言知识转换成SAM能够理解的形式,然后注入到SAM中。

技术上,SAM和大语言模型共享相同的视觉转换器(ViT-B/16)。对于视觉-语言对齐,uLLSAM采用与LLaVA相同的方法。具体来说,团队使用视觉投影层和像素混洗函数来调整视觉token的数量。当从大语言模型的最后一层获取隐藏状态后,VLSA模块进一步处理这些隐藏状态:首先从中分离出视觉token,然后使用像素混洗操作调整视觉token的数量,最后通过层归一化和多层感知器等组件修改每个token的维度,使其能够与SAM的提示编码器对齐。

为了确保训练期间的数值稳定性,研究团队还引入了缩放因子α和偏移因子β。这就像在翻译时不仅考虑词汇对应,还要考虑语法结构和语言习惯,以确保翻译结果既准确又自然。

### 语义边界正则化

在训练uLLSAM时,研究者们发现一个有趣的现象:当SAM接收全局视觉-语言知识提示后,其性能确实显著提高,但在边界轮廓感知方面却存在不足。这就像一个人能够辨认出图片中有一只猫,但难以准确描绘出猫的轮廓。

为了解决这个问题,团队提出了"语义边界正则化"(SBR)策略。简单来说,对于每个实例掩码,他们根据SBR策略生成一个正向点和三个负向点。正向点优先从高置信度区域(腐蚀区域)均匀采样,而负向点则从距离实例边界9至11像素且不在实例内的背景点中选择。

这种策略为训练SAM提供了明确的语义边界约束,使模型能够更好地学习实例边界特征,从而在推理过程中只需简单的交互式输入即可获得最佳性能。就像教一个人不仅要认识整体物体,还要特别关注物体的边缘,以便更准确地描绘出来。

### 训练策略

uLLSAM采用三阶段训练方法:视觉-语言对齐、监督微调(SFT)和交互式SAM训练。这种策略使SAM能够从MLLMs中提取丰富的视觉-语言特征。

**第一阶段:视觉-文本对齐预训练**。这一阶段通过视觉投影层将视觉编码器的特征与语言模型的特征空间对齐,高效地将视觉信息与大语言模型集成。团队从BIOMEDICA数据集中采样了约8万对显微镜图像-文本对进行训练。

**第二阶段:监督微调**。由于显微镜数据集中同时具有实例分割标签和高质量文本描述的数据稀缺,研究者们利用Qwen2.5VL-72B为9个LM和EM数据集生成详细的文本描述。这一过程使模型能够在学习强大视觉-语言特征的同时,产生全面的图像级描述。

**第三阶段:交互式SAM训练**。此时MLLMs已能够提取强大的视觉-文本交互特征,SAM可以利用这些特征来提升对图像细节的理解。与MedSAM训练类似,团队仅使用点提示作为交互式输入,因为点能灵活地指示用户感兴趣的区域。对于每个实例,他们使用SBR策略生成用于训练的点,并为每张图像最多选择4个随机实例进行损失计算。

在这一阶段,团队训练了图像编码器、提示编码器、掩码解码器、视觉投影层和VLSA模块,使用BCE和Dice损失函数的线性组合作为训练目标。

三、实验设计与结果分析

为了全面评估uLLSAM的性能,研究团队设计了一系列严格的实验,包括在领域内数据和领域外数据上的测试,以及与现有方法的比较。这就像是对一个新开发的翻译工具进行多语言、多场景的全面测试,以确认其在各种情况下都能可靠工作。

### 数据集与评估指标

研究团队从七个光学显微镜(LM)数据集和两个电子显微镜(EM)数据集中采样了4万张2D图像用于模型训练,并从其余数据集中采样了7.8千张图像用于模型性能验证。由于数据集中包含3D数据和双通道TissueNet,所有数据都被转换为2D格式进行处理,并用0填充创建正方形图像,然后调整为1024×1024分辨率。

此外,团队还准备了10个未训练的数据集来测试模型的零样本性能,包括三个LM数据集、三个EM数据集、两个组织病理学数据集和两个医学数据集。这就像是在多个未知的外语环境中测试一个翻译工具,以评估其适应新语言的能力。

在评估指标方面,研究者们使用了与μSAM相同的SBR策略为7.8千验证数据集生成提示。uLLSAM具有高度灵活性,可以根据计算资源和应用场景选择推理模式,即使在不使用视觉-语言知识(VLK)进行推理时也只有最小的性能损失。评估指标包括分割任务中常用的Dice系数和阈值为0.5的分割准确度(SA)。

### 实验结果

研究团队设计了三组对比实验:第一组被称为"专家模型",参考μSAM分别使用LM和EM数据训练两个专家模型(LM专家和EM专家),然后评估这些训练后的专家模型在领域内和领域外数据上的推理性能;第二组称为"通用模型",将LM和EM数据结合起来训练一个统一的显微镜基础模型;第三组则在原始SAM及其变体上进行测试。

**专家模型性能**:研究结果显示,在单模态数据集上分别训练μSAM和uLLSAM专家模型,然后在领域内和领域外数据集上测试时,uLLSAM在各自领域内的九个数据集上均优于μSAM。在跨域泛化能力方面,uLLSAM同样表现出色,除了在Platynereis数据集上较μSAM稍弱外,在其他所有数据集上都展示出更强的泛化能力。这表明,即使SAM没有在特定模态数据上训练,MLLMs的引导也能显著提高SAM的零样本泛化性能。

**通用模型性能**:受到专家模型实验结果的启发,研究团队尝试使用MLLMs引导SAM在多模态显微镜数据集上进行联合训练,进一步验证MLLMs是否能帮助SAM更好地学习不同领域间的丰富知识。结果显示,uLLSAM在Dice(0.5)和SA(0.5)指标上均全面超越μSAM。特别是在DeepBacs数据集上,uLLSAM分别提升了12.61%和19.33%,而在MitoLab数据集上的最小提升也达到了3.04%和4.77%。

**通用交互式分割模型性能**:研究团队直接在自然环境中的通用基础视觉模型SAM及其变体上测试交互式分割性能。结果显示,在9个LM和EM数据集上的平均性能指标中,自然图像与显微镜图像之间存在显著差距。这驱使研究者开发专门适用于显微镜领域的基础视觉模型,并且需要具备强大的泛化能力。

### 消融实验

为了深入理解uLLSAM的各个组件的贡献,研究团队进行了三个以MLLM为中心的消融实验:第一个实验解决了一个不确定性——由于模型引入了额外参数,性能提升是源于这些额外参数还是源于SAM真正学习了更丰富的领域知识;第二个实验涉及VLSA模块的设计;第三个实验检验SBR策略的有效性。

**视觉-语言知识注入**:研究团队在9个领域内和10个领域外数据集上,仅使用uLLSAM的训练SAM部分进行推理测试。结果显示,即使在推理时不使用视觉-语言知识,性能也全面超越μSAM。特别是在DeepBacs数据集上,Dice和SA指标分别提升了9.76%和14.42%,而在LIVECell数据集上的最小性能提升也达到了1.1%和1.84%。所有数据集的平均性能提升分别为3.94%和6.2%。这强有力地证明性能提升不仅仅是因为参数数量增加。与完整的uLLSAM相比,仅使用SAM组件导致的性能下降只有2.88%和4.36%。

在10个领域外数据集上的结果也同样令人印象深刻:与μSAM相比,不使用大语言模型组件的uLLSAM在GLAS数据集上的Dice和SA性能提升最高,分别达到13.22%和19.00%;在CoNSeP数据集上有轻微性能下降,分别为-1.9%和-1.73%;整体平均性能提升分别为2.98%和4.65%。这进一步证实MLLMs能够引导SAM学习更好的多模态特征。

**VLSA模块**:团队尝试了VLSA模型的不同设计。由于MLLMs的视觉语义提示与SAM的提示空间之间存在差距,他们探索了直接输入这些提示到SAM提示编码器与使用可学习的缩放和偏移因子的性能差异。研究还添加了一个dropout层到VLSA以调查uLLSAM是否存在过拟合现象。分析结果表明,使用可学习的缩放和偏移因子能够提高模型性能,而添加dropout层实际上会降低性能,这表明模型并没有显著的过拟合问题。

**SBR策略**:实验结果显示,直接注入视觉-语言知识会导致模型生成模糊的物体边界,存在过度分割、欠分割和不准确分割等问题。SBR策略带来了平均8.24%的Dice和11.46%的SA性能提升,证实了该策略的有效性。

### 零样本泛化性能

为了进一步验证模型在跨模态数据集上的零样本性能和泛化能力,研究团队额外选择了3个LM、3个EM、2个组织病理学和2个医学数据集(这些数据集在训练过程中未被使用)进行进一步验证。

结果显示,uLLSAM全面超越μSAM。具体来说,GLAS数据集在Dice和SA评估指标上的性能提升最大,分别达到17.84%和24.52%,而CoNSeP数据集的最小提升分别为1.27%和2.57%。在所有10个数据集上,uLLSAM实现了平均6.79%和10.08%的性能提升。

此外,研究团队还探索了不同数量的正向和负向提示点如何影响模型性能。结果表明,当使用1个正向点和3个负向点时,模型在数据集上达到最佳平均性能,这意味着用户通常只需提供四个交互式提示点即可获得令人满意的基线结果。3个负向点显著确定了物体的边界范围,使模型能够更有信心地分割感兴趣区域。

四、研究意义与未来展望

这项研究代表了显微镜图像分析领域的一个重要突破,为科学家们提供了一个强大的工具来处理越来越多的显微镜图像数据。uLLSAM的主要贡献可以概括为以下几点:

**统一的多模态显微镜数据处理**:uLLSAM利用MLLMs引导SAM学习跨域视觉-语言知识,在不同显微镜领域实现了改进的分割性能。这种方法使得处理光学显微镜(LM)和电子显微镜(EM)数据的统一框架成为可能,性能有了显著提升,达到了最先进的结果。

**视觉-语言知识注入**:研究团队提出的视觉-语言语义对齐(VLSA)模块成功地将MLLMs的输出与SAM提示编码器对齐。由于在整合视觉-语言知识后SAM的边界感知能力下降,团队进一步提出了语义边界正则化(SBR)来增强SAM的边界感知能力。

**显微镜分割的强大跨域泛化**:uLLSAM展示了强大的零样本泛化能力,在跨域场景中超越了现有方法。它在来自各种领域的10个未见过的数据集上实现了显著改进,包括LM、EM、病理学和医学影像,展示了其适应新领域的能力,无需额外训练。

这项研究的实际意义不容忽视。想象一下生物学家的工作流程:他们现在可以使用这个统一的工具来分析各种类型的显微镜图像,而不需要为每种图像类型使用不同的工具。这不仅节省了时间和精力,还提高了分析的一致性和可靠性。

然而,尽管取得了显著进步,这项研究仍有一些局限性和未来可以探索的方向:

首先,在训练过程中,研究团队仅考虑了单一的交互模式。未来的工作可以探索多样化的提示交互是否能进一步提升模型的泛化能力。

其次,研究仅仅利用了LLMs的强大语义感知能力来改进SAM的泛化,这允许在推理过程中进行解耦。然而,文本引导的引用分割等任务尚未被探索,部分原因是缺乏专家级的高质量标注数据。

第三,由于计算资源的限制,研究团队无法验证更大规模的LLMs是否能进一步提升模型的泛化和显微图像分析能力。一种可行的方法是采用参数高效微调(PEFT)策略,如LoRA。

第四,目前研究只考虑了LLM和SAM之间的单向交互。未来,研究者们可以探索如何实现这两个组件之间的双向交互,以实现互利共赢的结果。

最后,当前研究尚未对图像级描述输出进行控制干预。未来,可以探索一些强化学习方法来进一步优化模型的文本描述输出。

总的来说,这项研究为MLLMs在显微镜领域的应用开辟了道路,为未来的研究提供了宝贵的见解。随着技术的不断发展,我们可以期待更加智能、高效的显微镜图像分析工具,帮助科学家们更好地理解微观世界,推动科学发现和医学进步。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

  • MatTools:香港大学研究团队打造全新材料科学大模型基准测试工具

    MatTools:香港大学研究团队打造全新材料科学大模型基准测试工具

    香港大学研究团队开发的MatTools是首个全面评估大语言模型在材料科学工具应用能力的基准测试框架。研究发现通用型大模型(如GPT-4o)显著优于专业材料科学模型;AI生成的文档作为检索源比原始代码或官方文档更有效;简单的自反思系统反而优于复杂的多代理架构。这项研究为AI辅助科学工具的设计提供了全新思路,强调"通才胜于专才"、"AI懂AI"和"简单更好"的原则,有望加速材料科学研究和技术创新。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-