微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 脑部核磁共振正片加强!波尔多大学研发通过强化学习驱动大语言模型的神经退行性痴呆症可解释诊断框架

脑部核磁共振正片加强!波尔多大学研发通过强化学习驱动大语言模型的神经退行性痴呆症可解释诊断框架

2025-06-01 08:08
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 08:08 科技行者

在我们大脑运转的世界里,有些时候齿轮会提前开始松动。当神经退行性疾病如阿尔茨海默病(AD)或额颞叶痴呆(FTD)悄然而至时,早期精准诊断可以显著改善患者的生活质量。然而,这种诊断往往面临巨大挑战,因为不同类型的神经退行性疾病在症状表现和大脑核磁共振(MRI)影像上存在大量重叠。

今天要介绍的是法国波尔多大学LaBRI实验室的Andrew Zamai、Nathanael Fijalkow、Boris Mansencal、Laurent Simon、Eloi Navet和Pierrick Coupé团队的最新研究成果。他们在2025年5月26日发表于arXiv的预印本论文《通过强化优化的大语言模型推理实现神经退行性痴呆症的可解释诊断框架》(An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning),提出了一个革命性的诊断方法。

传统上,医生们需要查看大脑的3D核磁共振图像,并依靠自己的专业知识来辨别不同类型的神经退行性疾病。近年来,深度学习模型如卷积神经网络(CNN)和视觉Transformer(ViT)在自动分析这些图像方面取得了显著进步。然而,这些模型的一个主要局限是它们的"黑箱"性质——它们无法解释为什么做出特定诊断,这大大限制了它们在临床实践中的应用。

波尔多大学的研究团队决定从根本上改变这种情况。他们开发了一个创新框架,将大脑MRI转化为医学报告文本,然后让大语言模型(LLM)分析这些报告,提供详细的诊断推理过程。这就像是让一个经验丰富的神经科医生解释他们的诊断思路,而不是简单地告诉你"这是阿尔茨海默病"。

想象一下这个过程:就像一位侦探首先收集所有证据(大脑MRI图像),将它们整理成一份详细的案件档案(放射学报告),然后运用逻辑推理分析所有线索,最终得出谁是嫌疑人(疾病诊断)的结论,并解释为什么这个结论是合理的。

这个框架不仅能达到与最先进深度学习模型相当的诊断准确率,还能提供人类可理解的解释,让医生了解诊断背后的推理过程。研究团队的成果将在https://www.volbrain.net/ 网站上公开,以促进这一领域的进一步研究和应用。

一、将大脑MRI转化为放射学报告:打造侦探的线索档案

想象一下,你手里拿着一大堆混乱的照片和线索,要从中找出凶手是谁。第一步当然是要把这些线索整理成一份有条理的档案,方便后续分析。研究团队正是这样处理大脑MRI图像的。

他们开发的模块化流程分为四个主要步骤:

首先是大脑精细分割。研究团队使用了名为AssemblyNet的先进深度学习框架,它能将大脑3D图像精确分割成132多个解剖结构,特别关注大脑皮层、皮层下区域和叶区域—这些都是诊断神经退行性疾病的关键区域。这就像侦探将犯罪现场划分为不同区域进行详细检查。

第二步是计算体积比率。系统会测量每个解剖区域的绝对体积,然后除以患者的颅内总体积,得到相对体积比率。这样可以公平地比较不同脑容量大小的患者,就像侦探需要考虑不同犯罪现场的大小差异一样。

第三步是通过标准化建模估计萎缩程度。这是个关键步骤—系统将患者的大脑体积比率与健康人群的标准曲线进行比较。这些标准曲线基于对9个月至94岁的2,944名健康个体的高质量MRI扫描分析得出。对每个大脑结构,系统计算"结构偏差分数"(SDS)—即患者的测量值与同年龄同性别健康人群平均值的差异,以标准差为单位。负分表示体积小于预期(萎缩),正分表示体积大于预期(增大)。

最后一步是生成放射学报告。系统将标准化分数转换为临床上易于理解的质性描述,使用从"正常"到"严重"的七点严重程度量表,并对大脑不同区域的萎缩情况进行分类和描述。这份报告结构清晰,按解剖区域组织发现,并对双侧结构的整体和不对称体积变化进行评估,特别注明半球特异性萎缩(对于某些表现为偏侧化的综合征尤为相关)。

这样,原本复杂的3D MRI图像就被转化为结构化的文本报告,描述了各脑区的异常情况,为下一步的诊断分析做好了准备。

二、大语言模型的诊断推理:让侦探破解疾病之谜

有了整理好的线索档案(放射学报告),现在需要一位经验丰富的侦探(大语言模型)来分析这些线索并推理出最可能的凶手(疾病)。研究团队设计了一种提示策略,指导大语言模型基于神经影像学发现进行开放式、彻底的诊断推理。

具体来说,系统会指示模型扮演一位专门研究神经退行性疾病的神经科医生,负责解读T1加权MRI放射学报告。为了鼓励模型深入思考,提示明确要求模型在给出最终诊断前,先在特定标签内进行详尽思考。这个中间推理步骤促使模型详细检查报告中描述的区域性萎缩模式、不对称性和结构偏差。最终,输出被结构化为一个排序的鉴别诊断列表,这反映了临床推理过程—医生通常会考虑多种可能性,并根据它们与观察到的数据的吻合程度进行优先排序。

为了增强诊断稳定性并形成共识,团队采用了双重采样策略:首先,系统为每个大脑MRI生成多个措辞不同的放射学报告;其次,模型通过非确定性采样为每份报告生成多个诊断预测。这种方法捕捉了更广泛的解释范围,减少了对报告措辞的敏感性,并缓解了大语言模型推理的随机性。最终诊断通过对所有聚合样本中排名最高的鉴别诊断进行多数投票确定,并随机选择与共识一致的推理作为支持理由。

但是,让大语言模型产生高质量的医学推理并不是一件简单的事。研究团队面临一个挑战:没有标记好的推理轨迹用于监督训练。他们采用了一种名为"群组相对策略优化"(GRPO)的强化学习方法,这种方法最初由DeepSeek团队开发,能够在没有显式监督或从更大模型蒸馏的情况下培养出推理能力。

GRPO的工作原理如下:对于每个训练迭代,模型会为一个查询生成一组候选输出,每个输出包含诊断推理轨迹和排序的鉴别诊断列表。系统会为每个输出计算奖励分数,然后计算相对于组内平均值的优势。高于平均奖励的完成内容会获得放大的策略梯度更新,从而强化诸如连贯诊断推理和准确鉴别排名等理想行为。

研究团队设计的任务特定奖励函数包括两部分:一是格式奖励,评估输出结构的正确性;二是准确性奖励,比较模型的顶级诊断与真实标签。这种方法不需要复杂的人类反馈或大量标注数据,就能有效地指导模型学习诊断推理。

三、实验结果:侦探表现大揭秘

研究团队的实验首先评估了现有大语言模型的零样本(zero-shot)诊断能力—即不经过任何特殊训练,模型能在多大程度上理解和分析合成的放射学报告。这既是对各模型性能的比较基准,也是对他们合成报告生成管道的内在验证。

实验涉及615名参与者的数据,包括来自阿尔茨海默病神经影像学倡议(ADNI)和额颞叶变性神经影像学倡议(NIFD)的病例。这些病例包括行为变异型额颞叶痴呆(bvFTD)、非流利型原发性进行性失语症(nfvPPA)、语义变异型原发性进行性失语症(svPPA)、阿尔茨海默病(AD)和认知正常(CN)对照组。

在零样本评估中,GPT-4o展现了最强的整体表现,这证实了它是一流的通用模型。在开源70B模型中,DeepSeek-R1-Distill-Llama取得了最佳结果,突显了GRPO风格推理对临床任务的有效性。值得注意的是,尽管Llama3-OpenBioLLM是领域特化的,但其表现不如基础模型,这可能是因为它主要在与病理病例相关的放射学报告上进行微调,导致对痴呆预测产生偏见。在8B模型中,DeepSeek-R1-Distill-Llama和LLaMA-3.1-Instruct展示了强大的零样本表现,甚至超过了一些70B模型。

这些结果不仅提供了各模型诊断能力的比较基准,还为合成报告生成管道提供了内在验证,表明生成的报告有效捕捉了临床相关信息,并与现实世界放射学报告的分布特征一致。

接下来,研究团队通过GRPO对8B规模的模型进行了微调。结果令人瞩目:没有任何监督推理轨迹或从更大模型蒸馏,GRPO使得详细、基于证据的诊断推理能力自然涌现,并贡献于改善诊断准确性。特别是,LLaMA-3.1-Instruct-8B经GRPO微调后,在多数类别上取得了显著提升,其整体表现接近甚至超过了GPT-4o。

微调后的模型输出展示了几种关键的推理行为:首先,模型会进行明确的"假设检验",系统地评估每个候选诊断,权衡支持和反对的影像特征;其次,模型展示"非线性推理",随着考虑更多证据,经常重新审视和改进早期结论;第三,响应通常以反映不同信心程度的排序鉴别诊断列表结束,而非单一标签决策。推理表现出高度的解剖特异性,引用预期的神经解剖萎缩,并捕捉反映已知疾病特征的分布模式,包括严重程度和不对称性。

另一个有趣的观察是,输出长度和详细程度与病例复杂性相关。对于简单的病例(如认知正常扫描或具有标志性疾病特征的报告),模型会产生简洁的论证。相比之下,具有挑战性的病例会引发明显更长和更详细的推理—有时长达三倍。

最后,研究团队将他们的大语言模型诊断框架与现有的直接在大脑MRI上训练的深度学习分类方法进行了比较。结果表明,虽然基于视觉变换器(ViT)的模型和使用结构偏差分数(SDS)训练的支持向量机(SVM)分类器能够达到很高的准确率,但它们缺乏语义归因和临床语境化。虽然在ViT模型中使用的GradCAM后处理可视化提供了一定的解释性,但它们只能显示模型关注的图像区域,无法提供具体哪些解剖结构影响了诊断及其临床相关性的信息。

相比之下,研究团队的大语言模型框架在达到相当诊断表现的同时,还能产生透明、人类可读的理由,明确引用神经解剖结构并阐明它们与鉴别诊断的相关性。这种方法不是事后解释模型决策,而是在推理过程中生成诊断理由,提供因果接地的解释,形成和指导模型的决策过程。

四、总结与展望:侦探故事的未来篇章

这项研究的核心突破在于,它改变了我们看待医学人工智能的方式—从仅关注"预测什么"转向同时关注"为什么"和"如何"得出这些预测。

波尔多大学团队开发的框架将高分辨率MRI分析、合成放射学报告生成和大语言模型推理融为一体,创建了一个能够提供透明、可解释诊断的系统。通过强化学习优化轻量级大语言模型,他们证明了连贯诊断推理可以在没有监督推理轨迹的情况下实现。

这种方法打开了医学AI的新篇章。想象未来的神经科医生使用这样的系统:不仅能获得可能的诊断建议,还能看到系统是如何一步步推理得出这个结论的—就像一位经验丰富的同事解释他们的思考过程。这不仅能提高诊断准确性,还能促进医学教育和提升医患沟通。

对于神经退行性疾病患者来说,这意味着更早、更准确的诊断可能性,这对于疾病管理和生活质量至关重要。对于医学研究社区,这项工作展示了AI不仅可以作为黑箱预测工具,还可以成为真正的临床推理助手。

当然,这项研究也有局限和未来发展方向。进一步研究可能会整合更多形式的医学数据,如患者病史、功能性神经影像或基因信息,创建更全面的诊断支持系统。此外,临床验证和与医疗专业人员的合作将是下一步的关键。

归根结底,波尔多大学研究团队的工作不仅仅是技术创新,而是医学AI向更透明、更值得信赖、更以人为中心方向发展的重要一步。这种将数据驱动预测与结构化、透明推理相结合的方法,可能成为未来医疗AI系统的蓝图。

如果你对这项研究感兴趣,可以在https://www.volbrain.net/网站上了解更多信息,或直接通过arXiv:2505.19954v1访问完整论文。这项研究预示着我们正在进入一个医学AI不仅能告诉我们"是什么",还能解释"为什么"的新时代。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-