这项由Meta公司FAIR团队的Marlène Careil、Yohann Benchetrit和Jean-Rémi King共同领导的研究于2025年5月21日发布,论文标题为《Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI》。有兴趣深入了解的读者可以通过https://github.com/facebookresearch/dynadiff访问完整代码。
想象一下,你能直接"读取"某人脑海中正在想的画面是什么样子。听起来像科幻电影情节,对吧?但科学家们正在让这成为现实。近年来,从大脑活动中重建人们看到的图像取得了令人瞩目的进展,特别是在过去两年中。这些突破主要归功于两个关键因素:一方面是大规模神经影像数据的出现,另一方面是强大图像生成模型的发展。
然而,目前从大脑活动中"读取"图像的方法面临两大挑战。首先,大多数技术依赖于复杂的多阶段处理流程,包括预处理步骤、特征提取、模型训练等多个独立环节,就像一个过于复杂的拼图游戏。其次,这些方法通常会完全忽略大脑活动的时间维度,这就像把一段精彩的电影压缩成单一的静态照片,丢失了大量信息。
Meta的研究团队决定解决这些问题,他们开发了一种名为Dynadiff(Dynamic Neural Activity Diffusion for Image Reconstruction,动态神经活动扩散图像重建)的全新方法。简单来说,Dynadiff就像是一个能直接理解大脑随时间变化的"翻译器",它可以将我们大脑中持续变化的活动直接转换成图像,而且只需要一个简单的训练阶段就能完成,不再需要复杂的多步骤流程。
这项研究有三大主要贡献:首先,Dynadiff极大地简化了从大脑活动到图像重建的过程,就像用一把简单的钥匙替代了之前需要的一大串复杂钥匙。其次,这种方法在还原图像的高级语义特征(比如识别图中是猫还是狗)方面表现出色,远超现有技术。第三,它能够精确描述大脑中图像表达如何随时间演变,就像是记录了思维形成的完整过程,而不仅仅是最终结果。
让我们一起深入了解这项研究如何帮助科学家更好地"读取"我们的思维,以及这项技术未来可能带来的影响。
一、从大脑到图像:神经解码的发展历程
从大脑活动中重建视觉体验的尝试可以追溯到21世纪初期。早在2001年,科学家Haxby等人就开始探索如何从大脑活动中识别人们看到的图像类别。随后的研究者如Carlson、Kamitani和Miyawaki继续推进这一领域。但在过去两年中,这一领域取得了突飞猛进的发展。
要理解这一突破,我们可以将其比作语言翻译的革命。早期的翻译系统需要手动输入词汇、语法规则,而现代AI翻译则可以直接理解和转换语言。同样,早期的大脑解码需要复杂的多步骤处理,而现在的方法则更加直接有效。
这一领域的研究催化剂是自然场景数据集(NSD)。这是迄今为止最大的大脑对自然图像反应数据集,包含8名志愿者在40个会话中观看7万张图像时的大脑活动记录。这些数据是使用7T超高场功能性磁共振成像(fMRI)收集的,就像是使用超高清相机拍摄大脑活动的实时照片。
传统的大脑到图像解码方法通常包括多个复杂步骤。首先,研究人员将参与者观看的图像输入到预训练的计算机视觉模型中,提取图像特征。第二步,训练深度神经网络将大脑反应转换为这些图像表示。第三步,使用预测出的表示来引导预训练的图像生成模型。最后,许多研究还会生成多个候选图像,并使用特定评分方法选择最佳图像。
这种方法最初基于主成分分析、自动编码器和生成对抗网络,现在主要依赖于扩散模型(如Stable Diffusion)。简单来说,就像是把复杂的翻译工作分解成多个独立的步骤:先理解单词,再组织语法,最后形成完整句子。
二、当前方法的两大挑战
现有的大脑解码技术面临两个主要挑战,就像是一个复杂且效率低下的翻译系统。
第一个挑战是时间信息的丢失。目前最好的大脑到图像重建是在自然场景数据集上通过解码"时间压缩的fMRI beta值"实现的。这些beta值是通过在时间维度上拟合广义线性模型(GLM)来提取大脑对每个图像的反应而得到的。想象一下,这就像是你看了一部两小时的电影,但只能描述一个静止的画面,丢失了所有情节发展和人物互动。
这种预处理方法带来两个问题:首先,它完全丢弃了fMRI数据的时间维度;其次,大多数研究还会平均同一图像多次呈现的beta值。这就像是把三次观看同一电影的体验压缩成一个模糊的总体印象。这种预处理严重限制了进行时间分辨率图像解码的能力。
第二个挑战是解码流程的复杂性。过去两年,解码流程的复杂性大幅增加。最先进的模型现在包含多达四个独立阶段,包括预训练的fMRI编码器、对比学习、扩散先验、自动图像描述、控制网络和候选后选择。想象一下,这就像要翻译一句简单的话,但需要查询五本不同的词典,使用三种不同的语法规则,再通过两个校对阶段。
许多这些步骤要么单独优化,要么联合优化多种损失函数,还辅以先进的数据增强技术。图1直观地展示了四个具有代表性的流程架构,体现了现代大脑到图像解码器的高复杂性以及这种复杂性随着时间的增加。例如,目前最先进的MindEye2流程需要预训练自定义图像生成模型(SDXL-UnCLIP),为其输出添加描述,并使用SDXL改进重建结果。即使是性能较低但号称简单的Brain-Diffuser,也需要两个独立的训练/推理阶段,分别用于低级和高级图像重建。
简而言之,深度学习承诺的简化特征工程步骤,在这里似乎没有实现。这就像是我们用一套更复杂的系统替代了另一套复杂系统,而没有真正简化整个过程。
三、Dynadiff:单阶段解码的革命性方法
面对这些挑战,Meta研究团队提出了Dynadiff,一种用于从动态变化的fMRI信号中重建图像的流程。与之前的复杂方法不同,Dynadiff就像是一个统一的翻译系统,能直接从大脑活动的"语言"转换到图像的"语言"。
要理解Dynadiff如何工作,我们首先需要明确问题定义。研究团队的目标是从连续变化的BOLD fMRI信号中重建图像,这些信号是在参与者观看自然图像时记录的。假设W(s, t, d)表示从图像刺激s开始后t秒开始的d秒时间窗口。由于fMRI以特定频率(f=1/TR,TR为重复时间)采集,这个时间窗口对应于T≈f·d个fMRI体素(每个包含C个体素)。给定固定的t和d,目标是根据这段脑活动X重建出原始图像s。
Dynadiff的核心思想是直接用fMRI信号微调预训练的图像生成扩散模型。具体来说,研究团队设计了一个"大脑模块",将X投射到扩散模型的条件嵌入空间。这个大脑模块与扩散模型一起训练,学习重建真实且一致的图像。
大脑模块的结构非常优雅(如图2所示)。首先是一个受试者特定的线性层,将每个fMRI体积(C个体素)投射到1,552个通道,同时保持相同数量的fMRI时间样本。这就像是将大脑活动从原始的"方言"翻译成一种标准化的"语言"。然后,时间步特定的线性层处理这些数据,为每个时间样本应用不同的权重组合。接着是层归一化、GELU激活和dropout(p=0.5)。随后,线性时间聚合层合并时间维度。最后,一个额外的线性层输出与图像生成模型条件嵌入形状相同的fMRI嵌入:257个patch和768个通道。整个大脑模块大约有4亿个参数。
为了简单起见,研究团队使用了与之前研究相同的预训练潜在扩散模型。这个条件图像生成模型基于U-Net架构,训练用于根据文本和图像合成图像。这些提示首先使用CLIP的文本和图像编码器投射到token嵌入。然后,这些嵌入通过交叉注意力层处理,这些层存在于U-Net的不同特征图尺度。为了使扩散模型以fMRI数据为条件,研究团队用大脑模块的输出替换了图像嵌入,并提供空文本嵌入。
单阶段训练是Dynadiff的关键创新之一。研究团队联合训练大脑模块和大脑条件扩散模型,从fMRI数据中重建看到的图像。大脑模块和扩散模型交叉注意力层的LoRA适配器从头开始训练,而生成模型的权重保持不变(约2500万参数)。他们使用标准扩散损失来优化模型权重,并使用双三次采样(更频繁地采样早期时间步)和偏移噪声。为了在推理时启用无分类器引导,在10%的训练迭代中移除大脑条件,并用常量学习嵌入替代。
在推理阶段,从一系列fMRI体积X重建图像I的过程非常直接。首先,将大脑模块应用于X获得fMRI嵌入Z。然后,采样初始随机高斯噪声ε,并向扩散模型的U-Net提供Z和ε开始去噪过程;使用DDIM调度器,20个去噪步骤和无分类器引导比例为3。这个过程产生去噪的潜在嵌入,然后通过扩散模型的自动编码器生成I的重建结果。
四、实验设置:严格的科学测试
为了验证Dynadiff的有效性,研究团队使用了自然场景数据集(NSD)进行实验。这个数据集包含8名健康志愿者(6名女性和2名男性,年龄在19至32岁之间)的fMRI数据。每位志愿者参与了30到40个fMRI会话,每个会话持续约一小时。与之前的研究一致,研究团队专注于完成全部40个记录会话的受试者(1、2、5和7号)。
每位参与者观看了来自MS-COCO数据集的10,000张唯一图像,每张唯一图像在40个会话中呈现了三次。其中9,000张图像用于训练,而所有受试者共同观看的1,000张图像保留用于测试。每张图像显示3秒,随后是1秒的空白间隔,然后显示下一张图像。
为了保持Dynadiff的时间分辨率兼容性,研究团队在训练和测试过程中都不对同一图像的重复进行平均。这导致每个受试者的训练数据集为27,000个试验(9,000×3),测试数据集为3,000个试验(1,000×3)。在评估指标时,随机选择每张唯一测试图像的一种测试呈现。
在fMRI预处理方面,研究团队使用了NSD作者提供的"标准分辨率"BOLD fMRI体积时间序列(TR=1.3秒,1.8毫米等距分辨率)。相比于之前研究中使用的"平均beta值"计算,这种预处理不会崩溃时间域。同样遵循之前的工作,他们将fMRI体积限制在后部皮层中手动勾勒的感兴趣区域"nsdgeneral"。然后,使用额外的去趋势步骤去除fMRI信号中的低频噪声:拟合余弦漂移线性模型到时间序列中的每个体素,并从原始信号中减去它。最后,每个体素时间序列都进行z分数归一化处理。
为了评估模型如何跨时间泛化,研究团队还在测试时使用了相对于图像开始时间偏移的时间窗口。具体来说,他们在测试时条件模型不是基于通常的训练时间窗口,而是基于偏移窗口W(s, t+δ, d),其中δ可以取正值或负值。请注意,即使窗口在图像开始之前开始(即t+δ为负),fMRI时间序列仍可能包含关于图像s的相关信息,取决于窗口持续时间d。
由于NSD交错训练和测试图像呈现,评估连续图像的解码性能需要重新定义训练/测试分割。为了直接报告连续图像的生成,研究团队为每个受试者单独创建了新的时间分辨率训练/测试分割,确保连续试验属于同一分割。具体来说,他们使用45个fMRI记录运行作为测试集,剩余的435个运行用于训练。这种分割产生了大约27,000个训练试验和3,000个测试试验(使其与原始NSD分割的大小一致)。
在评估指标方面,研究团队遵循之前的工作,使用多种指标评估低级图像相似性(PixCorr、SSIM、Alexnet(2/5))和高级相似性(CLIP、Inception、Efficient-Net、SwAV)。他们还补充了两个额外的试验级指标:DreamSim(利用在人类相似性判断数据集上训练的预训练主干的混合)和mIoU(通过语义分割掩码衡量语义一致性和可解释性)。所有指标都是在将图像调整为224×224像素后计算的。
研究团队将Dynadiff与几个基准方法进行了比较:(1) Brain-Diffuser,这是一个开创性的工作;(2) MindEye和MindEye 2,这些方法最初是为时间折叠的fMRI "beta值"设计的;(3) WAVE,它使用BOLD fMRI信号的时间序列作为输入。
五、研究结果:Dynadiff的突破性表现
Dynadiff在自然场景数据集上展现了令人印象深刻的性能。表1展示了Dynadiff与其他方法在四个NSD受试者上的定量比较结果。值得注意的是,所有这些方法都是在单试验条件下评估的,即使用单个而非平均的fMRI时间序列。
与最先进的MindEye2相比,Dynadiff在AlexNet(2)和AlexNet(5)上分别提高了1.67和0.86个点,表明它能更好地保留低级内容(如颜色和纹理)。更重要的是,在DreamSim上提高了3.76点,在CLIP-12上提高了3.25点,这突显了该模型正确解码对象语义和位置的能力。这就像是从模糊的轮廓素描升级到了清晰的彩色图画。
定性比较(图3)展示了Dynadiff的重建与其他方法相比更加准确。以第一行为例,Dynadiff重建的斑马在定位和大小上更接近原始刺激。在第二行中,模型准确地将猫放在门口,展示了改进的场景组合能力。这些定性结果证明了Dynadiff能够捕捉图像的精细细节和空间布局,而不仅仅是大致内容。
时间分辨率解码是Dynadiff的一个突出特点。研究团队使用前面定义的时间分辨率训练/测试分割评估模型在不同时间点解码图像的能力。他们考虑了两种评估设置:
在"通用"设置中,他们训练一个模型Mgen,使用固定时间窗口W(s, t, d),其中t=3秒,d=8秒(约6个TR)。在测试时,他们在偏移窗口W(s, t+δ, d)上评估Mgen,测试其对新时间步的泛化能力。图4展示了分别用δ=k·TR获得的七列重建刺激,其中k∈{-3, -2, ..., 3}。
在"专业化"设置中,他们为每个δ训练一个模型Mt+δ,使用时间窗口W(s, t+δ, d),固定d=8秒。
结果表明,对于"通用"模型Mgen,极端值δ=-3·TR和δ=3·TR精确对应于前一个和下一个刺激呈现的时间窗口W(·, t, d),模型有效地倾向于解码前一个和下一个图像。此外,Mgen能很好地泛化到训练时未见过的时间窗口:它能够很好地重建在时间步t呈现的刺激,即使使用的是足够接近t的偏移窗口W(s, t', d)。然而,在所有时间步中,使用在相对开始时间t'训练的"专业化"模型Mt'明显获得最佳性能。
图5进一步证实了这一点,显示了专业化模型Mt和通用模型Mgen的SSIM、AlexNet(2)、CLIP和mIoU的时间演变。研究发现,在向参与者展示刺激3秒后,模型开始能够解码图像刺激,这与血流动力学响应函数(HRF)的特性一致。即使在呈现后10秒开始的时间窗口,专业化模型仍能合理地解码刺激。
六、深入探讨:Dynadiff的设计选择
为了更好地理解Dynadiff的有效性,研究团队进行了详细的消融研究,评估了各个组件的贡献。
首先,研究团队对时间窗口持续时间d的影响进行了研究。具体来说,他们固定t=3秒,比较了持续时间d∈{1·TR, ..., 6·TR}。他们为这六个时间窗口中的每一个训练了一个模型,并通过计算低级指标(AlexNet2和AlexNet5)和高级指标(CLIP和Inception)进行定量评估。图6显示了这些分数如何随d变化。结果表明,使用持续时间为3·TR(3.9秒)的窗口就能获得几乎最佳的性能,而将持续时间延长到6·TR(7.8秒)可以略微提高性能。
其次,研究团队分析了大脑模块设计的特定组件的效果。表2的第一行显示,用单个在所有fMRI时间样本之间共享的线性层替换时间特定层会使性能降低2.95个CLIP-12点和1.33个AlexNet(2)点。这表明这些层对于允许模型独立利用编码在fMRI大脑体积中的信息很重要。表2的第二行显示,将时间聚合组件从大脑模块的输出层重新定位到输入层会降低性能。这种下降可能是因为模型在经过额外处理后更有效地捕捉fMRI数据的动态。
最后,研究团队探讨了扩散模型微调的不同方法(表3)。首先,考虑微调扩散模型的所有权重(约11亿参数),但这会导致迅速过拟合和性能不佳。其次,他们尝试微调扩散模型的所有线性层(约5亿参数)或所有交叉注意力线性层(约1亿参数)。这两种选择都导致次优结果。最后,保持整个扩散模型冻结(即,仅用扩散损失训练大脑模块)的性能也不如向扩散模型的交叉注意力层添加LoRA适配器。
这些消融研究确认了Dynadiff设计选择的有效性,突显了其在大脑到图像解码任务中的优势。
七、讨论与未来展望
Dynadiff在大脑到图像解码方面提供了三个主要贡献,开辟了时间分辨率大脑到图像解码的新途径。
首先,Dynadiff极大地简化了解码流程。与最近的提议相比,它不依赖于预训练的fMRI编码器、大脑和预训练嵌入之间的对齐阶段、图像生成的后选择和精炼,或独立的低级和高级重建。相反,Dynadiff在单一阶段中训练,使用单一的扩散损失,大大降低了复杂性。
其次,Dynadiff在连续变化的fMRI BOLD信号上获得了最先进的性能。特别是,本研究中使用的fMRI预处理与当前解码器形成对比,尤其是那些在NSD数据集上训练的,它们使用从去除fMRI记录时间维度的GLM预处理阶段获得的"beta值"。值得注意的是,尽管之前的一些研究使用保持时间动态的fMRI预处理,但其重建质量仍无法与使用beta值的方法相匹敌。
第三,超越其解码性能,当前方法使得对大脑活动中图像表示的时间分析成为可能。它揭示了一个出人意料的现象:在给定时间样本训练的解码器相对于图像开始时间,可以在相对较短的时间内解码图像。然而,在这个泛化窗口之外,仍然可以解码图像,但需要一个专门围绕这个时间点训练的解码器。图3中最清晰地展示了这一结果,其中可以使用专门的解码器解码当前图像,而通用解码器则重建前一个或下一个图像。
这一结果表明,代表fMRI中图像的神经模式会随着时间持续变化,并允许连续图像的同时解码。这种动态编码通常在电生理学或M/EEG中观察到,可能也适用于fMRI,尽管其时间分辨率众所周知地低。如果得到证实,这一结果将表明动态编码可能是表示图像序列的一般过程,同时避免它们的相互干扰。
尽管取得了这些进展,当前方法仍有三个限制:
首先,虽然NSD是个体对图像反应的最大fMRI数据集,但有人指出,向参与者呈现的图像分布往往遵循刻板印象集群。因此,验证当前方法对潜在偏差较小的数据集的有效性将很重要。
其次,Dynadiff是在预处理的fMRI数据上训练的,这一步骤用于去除运动和心脏伪影,对齐MRI段,选择相关体素。如果用大脑活动的基础模型替代,这一预处理步骤可能会得到改进。
第三,Dynadiff目前需要每个参与者大量数据。它不适合泛化解码到训练集中没有的参与者。是否可以可靠地从任何大脑重建图像仍然是一个开放性挑战。
这项研究的潜在应用和伦理考虑也值得讨论。解码大脑活动帮助各种脑损伤患者的潜力很有希望。然而,在这一领域的快速进展也带来了一些伦理担忧,特别是保护心理隐私的需要。
几项实证研究与这一问题相关。使用非侵入性记录在感知任务中实现的高解码性能,当个体被要求想象场景时,准确性显著下降。此外,当参与者执行破坏性任务(如倒数)时,解码性能受损。这表明,获取受试者的同意不仅是伦理必要的,也是大脑解码的技术必要条件。为了彻底解决这些问题,我们提倡开放和同行评审的研究标准。
最后,合成人脸的图像生成模型存在被滥用的风险,特别是如果它们复制训练数据中的人脸。为了解决这个问题,模型释放将自动模糊任何重建的人脸。
总的来说,Dynadiff为时间分辨率大脑到图像解码奠定了基础,开辟了从大脑活动中提取视觉体验的新途径。随着这一领域的继续发展,我们可以期待更先进的方法,不仅能解码静态图像,还能解码视频和更复杂的心理表示。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。