微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ReSurgSAM2:新加坡国立大学团队打造的手术视频智能追踪系统,让外科医生用语言指令精准追踪手术工具与组织

ReSurgSAM2:新加坡国立大学团队打造的手术视频智能追踪系统,让外科医生用语言指令精准追踪手术工具与组织

2025-05-16 16:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-16 16:41 Hugging Face

近日,来自新加坡国立大学、中国南方科技大学和英国牛津大学的研究团队发布了一项名为"ReSurgSAM2"的创新研究成果。这项研究由Haofeng Liu、Mingqi Gao、Xuxiao Luo、Ziyue Wang、Guanyi Qin、Junde Wu和通讯作者Yueming Jin共同完成,已于2025年5月13日在arXiv预印本平台公开。研究团队已宣布计划在GitHub平台(https://github.com/jinlab-imvr/ReSurgSAM2)开源其代码和数据集。

想象一下,外科医生正在进行一台复杂的手术,需要精准定位某个特定的手术工具或组织,但却没有办法用双手去指出屏幕上的位置(因为他们的手正忙于手术操作)。这时,如果医生能够简单地说出"请追踪右侧的持针钳",系统就能立即识别并标记出这一工具,甚至在它被血液遮挡、移动或暂时消失后仍能持续追踪,这将极大地提升手术的安全性和效率。这正是ReSurgSAM2系统所实现的功能。

手术场景分割在计算机辅助手术中扮演着至关重要的角色。通过精确识别和区分手术器械与组织,这项技术能够为外科医生提供认知辅助,帮助他们做出更好的决策。然而,现有的手术场景分割方法大多只依赖视频数据,尽管这些系统实现了实时和令人满意的性能,但它们只能为所有器械和组织集体生成语义掩码,无法让外科医生交互式地识别和追踪特定的目标物体。

指示性分割(或称为指代分割)技术的出现为这一问题提供了解决方案。这种技术允许系统根据文本描述自动识别和分割特定物体,对各种手术应用都非常有益。例如,结合增强现实技术,它可以通过增强现实叠加层使医学院学生能够交互式地探索特定器械,从而增强手术教育效果。在术中手术过程中,这种能力可以让系统专注于外科医生指定的感兴趣区域,优化工作流程,提供准确和个性化的导航支持,有助于更安全、更高质量的患者护理。

然而,目前的指示性分割技术还存在一些局限性。RSVIS是首个研究手术领域指示性器械分割的系统,但它仅依赖于三个连续帧的短期信息,导致长期追踪存在固有挑战。自然领域的引用视频对象分割(RVOS)方法虽然可以提供实时处理,但缺乏手术场景所需的稳健长期追踪能力,因为这些方法通常为短视频(不到10秒)开发。这一限制在手术过程中尤为关键,因为手术通常持续数小时,伴随着动态场景变化和器械移动。

最近,Segment Anything Model 2(SAM2)因其交互式框架和令人满意的追踪能力而受到关注,为增强指示性分割任务提供了潜力。通过在初始帧上提供视觉提示作为永久记忆,它可以通过记忆注意力执行一致的追踪。然而,视觉提示(如边界框或多点)依赖于目标物体在前几帧中的存在,并给外科医生在手术过程中增加了标记负担。由于目标物体可能在手术开始时不存在,因此这种交互方式并不理想。相比之下,文本表达提供了更大的灵活性,是最接近音频的形式。将文本提示集成到SAM2中,标志着向手术中免提交互迈出的重要一步。

为了解决这些挑战,研究团队提出了ReSurgSAM2,这是一个建立在SAM2基础上的新型两阶段框架,它依次执行文本引导的目标检测和追踪,实现长时手术视频中高效而准确的RVOS。在检测阶段,团队使用了跨模态空间-时间Mamba(CSTMamba)和可靠初始帧选择(CIFS)策略来识别可靠的初始帧。CSTMamba有效捕获跨视频帧的专用空间-时间依赖关系,同时整合多模态特征,实现对指定物体的精确检测和分割,为稳健的初始帧选择提供支持。利用这些准确的检测结果,CIFS基于置信度选择最佳帧进行追踪初始化。在追踪阶段,他们的多样性驱动长期记忆(DLM)机制通过一个多样化且可靠的记忆库,使SAM2能够在整个手术视频中可靠地追踪物体。

接下来,让我们深入了解ReSurgSAM2框架的具体工作原理和实验结果。

一、ReSurgSAM2框架:两阶段智能追踪系统

想象一下你正在看一部长达数小时的电影,电影中有一位角色在不同场景中反复出现,有时清晰可见,有时被其他人物遮挡,有时甚至离开画面一段时间后再回来。如果你想一直关注这个角色,追踪他的一举一动,你需要做两件事:首先,根据电影开始时的人物介绍或对话找出这个角色是谁;然后,在整部电影中持续识别并跟踪这个角色,即使他穿着不同,或者角度、光线发生变化。

ReSurgSAM2系统正是这样工作的。它分为两个阶段:第一阶段是检测阶段,根据文字描述(如"右侧的持针钳")在视频中找到对应的物体;第二阶段是追踪阶段,一旦找到这个物体,就会持续追踪它,即使它暂时被遮挡或离开视野。

SAM2是一种强大的基础模型,它通过引入时间记忆注意力机制扩展了SAM的功能,同时保留了其分割能力。它实现了一种短期记忆机制,通过队列记录最近几帧的信息,在处理当前帧时会同时参考初始帧和最近的预测结果。对于每一帧,掩码解码器会生成带有两个关键分数的预测:交并比(IoU)分数和遮挡分数。IoU分数估计预测与实际物体的匹配程度,而遮挡分数采用一种有符号的置信度方案 - 正值表示物体存在,负值表示不存在,而数值的绝对大小反映了置信度。这种双评分系统使得即使在物体被遮挡的情况下也能进行追踪。

虽然SAM2在一般视频领域表现出令人瞩目的性能,但在适应手术RVOS时面临限制,包括视觉-语言集成、可靠初始帧识别和长期追踪。为了克服这些限制,研究团队设计了ReSurgSAM2,一个专为手术应用定制的两阶段框架,它无缝集成文本引导的目标检测和追踪。

给定视频流中的第t帧图像ft和语言表达式e,系统分别使用SAM图像编码器和冻结的CLIP文本编码器(配合可训练的MLP)提取特征,目标是获得指示目标的分割掩码mt。在第一阶段,模型通过使用CSTMamba和掩码解码器生成高保真度的分割掩码来增强检测可靠性。掩码的分数随后被送入CIFS,它执行可靠的帧选择,为追踪阶段做准备,以减轻错误累积。一旦CIFS识别出最佳初始帧,模型切换到追踪阶段,提示编码器接收来自文本特征的CLS标记,模型通过整合香草短期记忆和使用DLM的长期记忆,确保在整个视频中可靠一致地追踪目标物体。

二、识别可靠初始帧:跨模态空间-时间Mamba和CIFS策略

在手术视频中找到合适的起始点至关重要。就像在一本书中找到关键人物首次登场的页码一样,如果你找错了,可能会错过重要情节或误解角色。同样,在手术视频追踪中,找到物体第一次清晰可靠出现的帧至关重要。

跨模态空间-时间Mamba(CSTMamba)

只使用单帧进行指示性分割往往会产生次优结果,将这个结果作为追踪的初始参考可能会导致错误累积。因此,精确的目标检测对于团队的两阶段框架至关重要。虽然基于Transformer的方法可以通过利用自注意力机制增强分割,但这种机制由于其二次复杂度而限制了实时手术应用。

最近,Mamba作为一种有前途的替代方案崭露头角,它具有线性复杂度和选择性信息传播能力。STMamba利用这些优势进行视频分割;然而,它缺乏RVOS所需的跨模态能力,并受限于Mamba的线性扫描机制,这限制了其捕获精细像素级信息的能力。

为了解决这些限制,研究团队提出了CSTMamba,它集成了感知记忆库、CSTMamba块和跨模态注意力机制,以促进全面的跨模态空间-时间建模。为了实现时间交互,感知记忆库S存储从图像编码器提取的最近两帧特征。然后,CSTMamba将来自当前帧和感知记忆的语言特征和视频特征作为输入进行跨模态空间-时间建模,并输出融合的图像特征E(ft)'和CLS'标记。

CSTMamba块设计用于全面的空间-时间建模,如图1所示。它将STMamba与7×7 2D深度卷积(DWConv)集成,通过选择性扫描捕获全局特征和通过扩展感受野捕获精细局部特征。在此基础上,一个倒置瓶颈扩展了MLP块至输入维度的四倍,通过利用扩大的中间层有效增强特征表示,提高空间-时间交互。此外,双向跨模态注意力机制——文本到视觉(T2V)和视觉到文本(V2T)——促进了跨模态交互。CSTMamba同时处理视觉-时间信息和跨模态信号,生成丰富的空间-时间特征和具有强跨模态表示的融合CLS'标记,用于最终掩码预测。

简单来说,CSTMamba就像一个高级翻译官,能同时理解"视频语言"和"文字语言",并在二者之间建立联系,帮助系统准确找到文字描述对应的视频中的物体。

可靠初始帧选择(CIFS)

当自动选择用于追踪的初始参考帧时,识别高度可靠的帧以减轻错误累积至关重要。然而,在手术环境中,器械之间和组织之间的小类间相似性增加了错误检测的风险,导致不可靠的分割。为了解决这一挑战,研究团队实现了CIFS,它要求模型在帧选择开始前,基于IoU分数和遮挡分数,在Nw个连续帧中以高置信度预测物体存在。

在选择之前,它使用滑动窗口检测合格的帧,可以表达为:

W = {fj | j ∈ [t - Nw + 1, t] ∧ iouj > δiou ∧ sigmoid(oj) > δo}

其中W是滑动窗口,oj和iouj分别是第t帧预测的遮挡分数和IoU分数,δiou和δo是它们各自的阈值,而sigmoid(·)将分数映射到[0, 1]范围。一旦|W| = Nw,系统会在这Nw个合格帧中选择具有最高IoU分数的一帧作为初始参考。

通过选择最佳且可靠的初始帧,ReSurgSAM2进入第二阶段,在此阶段它通过利用这个参考帧来传播预测,在整个剩余序列中执行稳健追踪,确保语义保真度和时间一致性。

想象这就像选择一张清晰的照片来识别一个人。如果你选的第一张照片就是模糊的、角度不好的,那么后续每次看到这个人都可能认错。CIFS就是确保系统从一个高质量、高可信度的"第一印象"开始追踪。

三、多样性驱动长期记忆:解决长时间视频追踪挑战

在手术环境中,视频通常持续时间长,伴随着动态场景变化和器械移动。然而,SAM2仅选择最近的帧作为记忆的贪婪策略阻碍了有效的长期追踪,导致冗余和潜在的视角过拟合,从而限制了其捕获解剖变化的能力。

想象你在看一部长篇电视剧,如果你只记得最近几集的内容,可能就无法理解当前情节与早期发展的联系。同样,只关注最近几帧的系统可能会"遗忘"目标物体的重要特征,导致追踪能力随时间下降。

为了克服这一挑战,研究团队提出了多样性驱动长期记忆(DLM)机制,通过战略性地从候选池中选择帧来增强SAM2的原始记忆库。这种机制通过使用候选池扩展时间覆盖范围并收集捕获多样空间-时间信息的帧,丰富了记忆库,减轻了视角过拟合。此外,它确保包含高置信度帧以最小化错误累积。

提出的DLM机制在推理过程中更新候选池:

P = P ∪ {ft | iout > γiou}

其中P是候选池,ft是第t帧,iout是其预测的IoU分数,γiou是置信度阈值。P中的每个元素由pi索引,其中pi指的是第i个候选。该机制选择高置信度帧作为记忆候选,以减轻错误传播。当候选池达到其容量Np时,系统根据其与最新长期记忆帧的余弦相似度存储最多样化的候选:

p* = argmin(pi∈P) (M(pi)·M(lk))/(|M(pi)||M(lk)|)

其中M(·)是记忆编码器,pi是第i个候选帧,lk是长期记忆库L中的最新帧,p*是选定的帧。选择后,池P被清空以扩展长期记忆的时间覆盖范围,更新后的记忆库用于第(t+1)帧的记忆注意力机制。为了提高效率,系统维护一个容量为Nl的长期记忆队列,将初始帧永久保留在长期记忆中。

通过将SAM2的原始短期记忆与使用DLM机制的长期记忆连接起来,ReSurgSAM2维护了一个可靠且多样化的记忆库,增强了一致的长期追踪能力。

简单来说,DLM就像一个聪明的笔记系统,不只记录最近发生的事情,而是战略性地保存各种重要且多样的"笔记",以便在长时间的手术过程中保持对目标物体的稳定认知和追踪能力。

四、实验结果:ReSurgSAM2的卓越表现

数据集与实施细节

实验使用了Ref-EndoVis17和Ref-EndoVis17,它们分别基于EndoVis17、EndoVis18数据集和RSVIS构建。EndoVis17包含10个序列中的3000帧,包括八个训练序列、八个来自相同场景的测试序列和两个额外的测试序列,带有器械标签。EndoVis18数据集包含15个序列,具有全面的场景分割标注。正如RSVIS中介绍的,两个数据集都用一致的实例特定标签重新标注,以便RVOS。

基于RSVIS,研究团队进行了细致的改进,解决了器械标签中的不一致和遗漏问题,否则会影响实验有效性。他们还通过纳入来自EndoVis18的组织特定标注(包括肾实质、覆盖的肾脏和小肠)丰富了数据集。对于Ref-EndoVis17,他们合并了来自相同场景的序列,以防止训练集和测试集之间的交叉污染,将序列2、5和6指定为测试集。按照RSVIS的做法,他们将序列2、5、9和15分配为Ref-EndoVis18的测试集。这种划分确保了训练和测试之间物体分布的平衡。

ReSurgSAM2采用了Hiera-small骨干网络,使用SAM2预训练权重初始化,输入大小为512。在训练过程中,按照SAM2的方法,通过加载三帧进行文本引导的目标检测,随后是七帧用于追踪,来进行提示分割。模型训练了30个周期,使用与SAM2相同的训练策略。对于推理,与RSVIS不同,他们在每个物体首次出现时生成文本表达式,以适应整个手术视频。超参数设置如下:δo = 0.9, δiou = 0.7, γiou = 0.95, Nw = 5, Np = 5和Nl = 4。

与使用挑战IoU的语义分割不同,RVOS在整个视频中追踪物体,包括当它被遮挡时。因此,对于评估指标,他们采用了J和F来衡量准确性,其中J评估区域准确性,F评估边界准确性,J&F代表它们的平均值,以及每秒帧数(FPS)衡量效率。所有指标都是越高越好。所有实验都在一个NVIDIA A6000 GPU上使用相同的训练数据进行。

与最先进方法的比较

为了验证ReSurgSAM2的有效性,研究团队进行了与最先进方法的全面比较,结果总结在表2中。比较方法包括离线方法(ReferFormer和MUTR)和在线方法(RSVIS、OnlineRefer和RefSAM)。离线方法通过在推理过程中同时处理64帧实现稳定性能,从而减少错误检测。相比之下,RSVIS仅依赖短期信息,导致长期追踪次优。虽然OnlineRefer和RefSAM通过查询传播展示了适度的长期追踪能力,但在Ref-EndoVis17的长时序列上性能仍然次优。相比之下,ReSurgSAM2在RVOS中显示出优越的跨模态和长期追踪能力,J&F显著提升:Ref-EndoVis17上提高14.17,Ref-EndoVis18工具上提高7.76,Ref-EndoVis18组织数据集上提高3.19。

与RSVIS和RefSAM的定性比较如图2所示。RSVIS在复杂场景中缺乏稳健的器械区分能力,导致分割不完整。RSVIS和RefSAM在物体快速移动和场景变化期间都表现出有限的追踪稳定性,这是由于它们有限的长期建模能力。相比之下,ReSurgSAM2配备了强大的初始化和多样化长期记忆,执行可靠且一致的追踪。

最重要的是,ReSurgSAM2不仅在准确性上超越了现有方法,还保持了实时性能,达到61.2 FPS,这对于手术场景中的实时应用至关重要。

消融研究

研究团队在Ref-EndoVis17上进行了全面的消融研究,以评估每个提出组件的有效性,结果如表3所示。对于消融,两阶段RVOS框架使用第一个检测到的满足iout > 0.7和sigmoid(ot) > 0.9条件的帧作为参考来激活第2阶段的追踪。这一设计有助于捕获短期时间依赖关系,导致J&F提高2.64。集成CSTMamba增强了空间-时间指示性分割,为追踪生成更可靠的参考,使J&F提高了4.77。此外,CIFS策略通过选择更可靠的参考作为记忆,进一步提高了J&F 6.14,减轻了错误累积。DLM通过维护多样化和长程记忆库,以长期时间建模进一步增强了原始记忆机制,使J&F提高了3.03。

为了验证DLM的有效性,研究团队探索了各种记忆库设计:基于原始记忆库的扩展短期记忆,以及每五帧间隔采样的长期记忆(每次存储三帧),如表4所示。通过集成所有提出的组件,ReSurgSAM2最终在J&F上达到了77.73,同时保持了61.2 FPS的实时性能。

这些结果清晰地表明,ReSurgSAM2的每个组件都对其整体性能做出了实质性贡献,形成了一个协同工作的强大系统,能够在手术视频中进行高效、准确的语言引导物体识别和追踪。

五、结论:为手术视频分析提供实用高效的解决方案

ReSurgSAM2代表了手术引用分割领域的重要进步。通过其两阶段框架和创新组件,它解决了现有方法在效率和长期追踪方面的限制。该系统不仅在性能上大幅超越了现有技术,而且保持了实时处理能力,这对于术中应用至关重要。

CSTMamba和CIFS的结合确保了可靠的初始帧识别,为后续追踪奠定了坚实基础,而DLM机制则通过维护多样化的记忆库增强了长期追踪能力。这些创新组件共同作用,创造了一个能够在复杂、长时间的手术视频中一致且准确地追踪目标物体的系统。

ReSurgSAM2的实际应用潜力非常广泛。在手术教育中,它可以帮助学生识别和学习特定的器械和组织;在术中,它可以为外科医生提供认知辅助,允许他们通过语音命令专注于特定区域;在术后分析中,它可以帮助快速定位和回顾关键手术步骤。随着未来研究的深入,这一技术有望进一步融入手术工作流程,提升手术质量和患者安全。

研究团队承诺开源其代码和数据集,这将促进该领域的进一步研究和应用发展。随着计算能力的提升和算法的改进,我们可以期待这类系统在未来手术室中的广泛应用,为精准医疗和智能手术带来新的可能性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-