微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 FEAT:北航团队推出全维高效注意力Transformer,让医疗视频生成更智能、更高效

FEAT:北航团队推出全维高效注意力Transformer,让医疗视频生成更智能、更高效

2025-06-10 09:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-10 09:25 科技行者

医疗视频的生成一直是人工智能领域的重要挑战。2025年6月,来自北京航空航天大学、清华大学、中国医学科学院肿瘤医院和字节跳动的研究团队联合发表了一篇创新性论文《FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation》,该论文提出了一种全新的医疗视频生成方法。这项研究由北航黄慧晗和杨志文共同第一作作者,徐岩教授担任通讯作者,发表于arXiv预印本平台(arXiv:2506.04956v1)。

想象一下,如果你曾经看过医生使用内窥镜检查的视频,你会发现这些视频不仅需要清晰的空间细节(就像普通照片一样),还需要流畅的时间连贯性(物体如何随时间移动)。生成这样的视频对人工智能来说是个不小的挑战,就像要求一个人不仅能画出一幅精美的静态画作,还要能创作出一段流畅的动画片。

现有的视频生成技术面临三个主要问题。首先,它们就像一个只关注画面构图和动作流畅度,却忽略了色彩协调的动画师——忽略了视频中不同通道(如颜色、纹理等)之间的相互作用。其次,这些技术使用的注意力机制计算量太大,就像一个需要同时记住画面中每个细节与其他所有细节关系的画家,效率极低。最后,它们只能粗略地适应不同程度的噪声,就像一个不管画布上污渍多少都只用同一种方式清洁的修复师。

研究团队提出的FEAT模型通过三项创新解决了这些问题。想象一个精通空间构图、时间流动和色彩平衡的全能动画师,FEAT建立了一个统一的框架,能够同时处理空间、时间和通道三个维度的依赖关系。它使用了线性复杂度的注意力机制,就像一个能够高效记忆关键点而不是所有细节的画家。此外,它还引入了一个残差值引导模块,能够根据具体内容和噪声情况提供精细的像素级指导,就像一个能够根据污渍性质调整清洁方法的专业修复师。

让我们深入了解FEAT如何改变医疗视频生成的游戏规则。

一、研究背景与挑战

近年来,扩散模型在医学影像人工智能生成内容(AIGC)领域取得了革命性进展,使得图像合成、跨模态转换和图像重建等应用成为可能。然而,虽然这些模型在生成具有空间信息的静态医学图像方面表现出色,但合成高保真的动态医学视频——需要同时建模额外的时间动态和一致性——仍然是一个重大挑战。

研究人员已经探索了各种编码空间-时间动态的方法,包括伪3D卷积、串行2D+1D(空间+时间)卷积和空间-时间自注意力机制。鉴于自注意力能够捕捉长距离依赖关系以及Transformer的可扩展性,最近的研究大多采用Transformer架构,使用级联的空间和时间自注意力机制。

然而,当前同时整合空间和时间自注意力的Transformer仍面临三个关键限制:

首先是通道间交互不足。尽管现有架构在处理空间和时间维度方面很复杂,但它们忽略了建立对模型特征组成至关重要的通道依赖关系。扩散模型的出色生成性能很大程度上依赖于去噪过程,而通道注意力机制已被广泛证明对去噪非常有效。忽略这一重要维度上的交互会阻碍模型性能。

其次是计算复杂度过高。用于建模空间和时间依赖关系的自注意力机制计算复杂度呈二次方增长,这严重限制了它们在高分辨率、多帧医疗视频中的实际应用。想象一下,如果你需要比较一个100×100像素、16帧视频中的每个点与其他所有点的关系,这将是一个天文数字的计算量!

第三是粗糙的去噪引导。在扩散模型中,模型需要适应不同时间步受不同噪声水平影响的输入。现有方法依赖时间步嵌入作为全局级别的引导,使用自适应层归一化(adaLN)来适应特定噪声水平。然而,这种方法过于粗糙,无法考虑噪声模式与视频内容之间的动态交互。虽然最近的工作使用来自DINO的注意力图来考虑内容信息,提供更细粒度的引导,但这种方法在训练期间引入了额外的大量计算开销。

因此,现有方法在实现高效且有效的医疗视频生成方面存在缺陷。

二、FEAT的创新设计:像一位全能的视频艺术家

为了解决上述挑战,研究团队提出了FEAT,一种全维度高效注意力Transformer,通过三项关键创新解决了这些问题:

首先是全维度依赖关系建模。想象一个艺术家在创作动画时,不仅要考虑每一帧画面的构图(空间维度),还要考虑不同帧之间的动作流畅度(时间维度),以及整体的色彩和光影协调(通道维度)。FEAT引入了一个统一的范式,采用顺序空间-时间-通道注意力机制,建立跨所有维度的全局依赖关系,实现医疗视频的整体特征建模。

其次是线性复杂度设计。传统的自注意力机制就像要求艺术家在创作每个细节时都考虑画面中的所有其他细节,这在数学上表现为二次方的计算复杂度,极其耗时。FEAT用两个计算效率更高的组件替代了传统的自注意力:(1)受RWKV启发的加权键值(WKV)注意力,用于建模空间和时间依赖关系;(2)全局通道注意力,用于建模通道依赖关系。这两个组件都能在各自维度内建立全局依赖关系,同时保持线性计算复杂度。

第三是残差值引导。想象一个修复师根据不同类型和程度的污渍调整清洁方法。FEAT引入了一个新颖的残差值引导模块(ResVGM),利用输入嵌入(同时编码视频内容和特定噪声模式)作为细粒度的像素级引导,使模型能够适应处理不同时间步的输入。ResVGM参数高效,计算开销可忽略不计,同时显著提高生成性能。

有了这三项创新,FEAT实现了高效且有效的医疗视频生成。实验表明,FEAT的小型版本(FEAT-S)仅使用最先进模型Endora参数的23%,就实现了可比甚至更优的性能。此外,更大版本的FEAT-L在不同数据集上优于所有比较方法。

三、FEAT的技术实现:高效注意力机制的艺术

FEAT的核心在于其创新的架构设计。想象一下,传统的Transformer模型像是一个需要同时关注所有细节的绘画大师,计算量巨大;而FEAT则像一个善于捕捉关键信息的高效艺术家,通过巧妙的结构设计大幅降低了计算复杂度。

扩散模型的基本原理是通过迭代去噪将随机噪声转换为高保真数据样本。正向扩散过程通过添加高斯噪声逐步破坏输入数据x0,定义为转移概率q(xt|xt-1),其中t时间步的边缘分布表示为q(xt|x0) = N(αtx0, σt?I)。αt和σt的系数设计使得xT在t→T时收敛到N(0, I)。在反向扩散过程中,噪声预测网络εθ(xt, t)参数化转移p(xt-1|xt),迭代地对xt进行去噪以恢复数据分布。

由于直接在高分辨率像素空间训练扩散模型计算成本高昂,研究团队采用了广泛使用的潜在扩散模型方法,在预训练自编码器编码的潜在空间中执行扩散过程。

FEAT的架构创新在于如何设计Transformer块以在三个维度上建立全局依赖关系,同时保持计算效率。对于空间和时间Transformer块,团队采用了如图2(a)和(b)所示的WKV注意力机制。为了更好地适应空间和时间维度,他们修改了原始的token-shift机制,该机制旨在增强局部性。对于空间Transformer块,引入了2D深度卷积(标记为"Shift S")以增强空间维度的局部性。类似地,对于时间Transformer块,应用了1D深度卷积(标记为"Shift T")以增强时间维度的局部性。对于通道Transformer块,直接采用了图2(c)所示的全局通道注意力机制。

这三个Transformer块按顺序级联,使FEAT能够高效地建立跨空间、时间和通道维度的全局依赖关系,实现医疗视频的整体特征建模。

四、残差值引导模块:精细调整的艺术

大多数现有的视频扩散模型使用时间步t作为全局引导,以适应去噪过程中的特定噪声水平。然而,这种方法相对粗糙,不足以进行内容依赖的去噪。

想象一位修复古画的艺术家,如果只根据画作的年代(对应时间步)来选择修复方法,而不考虑具体的损坏类型和画作内容,修复效果显然不会理想。为了克服这一限制,研究团队提出将输入嵌入作为额外的细粒度引导。在去噪过程中,输入嵌入(通过对输入或上一时间步去噪输出的卷积获得)同时编码了生成的视频内容和相关的噪声模式。这些组件为在特定噪声水平下实现内容依赖的去噪提供了关键引导。

如图3所示,研究团队将输入嵌入Z整合到所有Transformer块中作为细粒度引导。具体来说,对于第i个Transformer块,Z作为残差值添加,与注意力中的输入值Vi和输出隐藏层Hi交互,如下所示:

Hi = LinAttention(Qi, Ki, Vi + λ?c·Z) + λ?c·(Z - Vi)

其中,LinAttention(·)表示两种注意力机制——WKV注意力和全局通道注意力,它们都表现出线性计算复杂度。Qi、Ki和Vi分别表示查询、键和值。请注意,在WKV注意力中可以省略Qi。λ?c、λ?c ∈ R^C是两个可学习的权重参数。

这个过程确保模型中所有Transformer块的特征提取基于输入视频内容和噪声水平逐步细化。ResVGM引入的额外参数和计算开销可忽略不计,同时显著提高了性能。

五、实验结果:性能的艺术证明

研究团队在两个公开可用的医疗视频数据集上进行了实验评估:结肠镜检查数据集和Kvasir-Capsule数据集。遵循标准化视频处理协议,他们通过固定间隔采样从连续视频中均匀提取16帧序列。所有帧在模型训练期间调整为128×128像素分辨率,以确保维度一致性。

对于定量评估,团队采用了四个已建立的评估指标:Fréchet Inception Distance(FID)、Inception Score(IS)、Fréchet Video Distance(FVD)及其内容无偏变体CD-FVD。遵循StyleGAN-V的评估框架,他们通过对2048个视频样本的统计分析计算FVD分数,每个样本保持完整的16帧时间结构,以保留运动动态和时间连贯性。

如表1所示,FEAT-S实现了与Endora相当的性能,同时只需要后者参数的23%和更低的计算成本。同时,FEAT-L在性能上超过了所有比较方法。图4中的视觉定性比较结果也证明了FEAT可以生成更高质量和一致性的视频。

团队还探索了将生成的视频作为下游任务中的无标签数据进行半监督学习的效果,特别是在PolyDiag等基于视频的疾病诊断基准上利用FixMatch框架。在这个实验中,他们从PolyDiag训练集中随机选择40个标记视频,并使用从结肠镜检查数据集生成的200个视频作为无标签数据。如表2所示,FEAT生成的数据显著提升了下游任务的性能,相比仅监督学习基线和其他视频生成技术,这证实了FEAT作为可靠视频数据增强器的有效性。

最后,表3中的消融研究评估了FEAT-S模型的关键组件。研究从一个简单的空间-时间Transformer扩散模型基线开始,该基线未包含任何提出的策略。然后,他们逐步添加三个提出的设计策略:WKV注意力、通道注意力和ResVGM。结果清楚地表明,每个策略都为模型性能的渐进提升做出了贡献,突显了这些设计选择在增强医疗视频生成模型有效性方面的重要作用。

六、总结与未来展望

这项研究介绍了FEAT,一种创新的全维度高效注意力Transformer,显著提升了医疗视频生成技术。FEAT通过三项核心创新解决了三个关键挑战——有限的通道间交互、过高的计算成本和粗糙的去噪引导。

首先,统一的空间-时间-通道注意力范式实现了跨所有维度的整体特征建模。其次,线性复杂度的注意力设计使其能够高效扩展到高分辨率视频。第三,轻量级的残差值引导模块自适应地细化去噪过程,以微小的额外计算成本优化生成性能。

实验结果表明,FEAT在效率和有效性方面都优于现有方法,标志着医疗视频生成领域的重大进步。未来工作将扩展FEAT到更多成像模态,并进行更全面的评估。

对于医疗领域的专业人士和研究人员来说,FEAT提供了一种高效生成高质量医疗视频的新工具,可能在医学教育、模拟训练和数据增强方面带来重要应用。对于AI研究社区,FEAT展示了如何通过精心设计的注意力机制和引导策略,在保持计算效率的同时提高生成模型性能。

这项研究的代码已公开可用,感兴趣的读者可以通过论文中提供的链接获取。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-