微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 HistAI:一个开创性的60,000张病理切片数据集,正在改变医学人工智能的未来

HistAI:一个开创性的60,000张病理切片数据集,正在改变医学人工智能的未来

2025-05-23 07:58
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:58 科技行者

**病理数字化的重大突破:HistAI团队发布全球最大开源病理切片数据集**

2025年5月,由Dmitry Nechaev、Alexey Pchelnikov和Ekaterina Ivanova组成的HistAI研究团队在arXiv平台上发布了一项具有里程碑意义的研究成果。这篇题为"HISTAI: AN OPEN-SOURCE, LARGE-SCALE WHOLE SLIDE IMAGE DATASET FOR COMPUTATIONAL PATHOLOGY"的论文(arXiv:2505.12120v1)介绍了一个包含超过60,000张全切片影像(WSI)的开源数据集,这一数据集有望彻底改变计算病理学的研究方向。有兴趣深入了解的读者可以通过GitHub链接(https://github.com/HistAI/HISTAI)访问完整数据集。

**一、数字病理与人工智能:为什么我们需要更好的数据集?**

想象一下,如果你是一名医生,需要通过显微镜观察组织样本来诊断疾病。现在,人工智能正在学习完成这项工作,但AI就像一个正在学习的医学生,需要看大量的样本才能准确识别疾病模式。

近年来,数字病理学(Digital Pathology,简称DP)领域发展迅猛,这很大程度上归功于人工智能技术的进步,特别是基础模型(Foundation Models)的出现。这些基础模型就像是非常聪明的学习者,它们通过研究数十亿张图像,学会了如何提取关键特征,从而在疾病分类、组织分割和诊断预测等任务上表现出色。

然而,人工智能模型的有效性和泛化能力受到一个关键因素的限制——训练数据的数量、多样性和可访问性。就像一位医学生需要接触各种不同类型的病例才能成为优秀的医生一样,AI模型也需要丰富多样的数据才能在实际应用中表现出色。

尽管全切片影像(WSI)在计算病理学中扮演着至关重要的角色,但与其他计算机视觉领域相比,公开可用的WSI数据集仍然稀少。现有的数据集虽然在设定基准和促进监督学习方面发挥了重要作用,但它们在规模、组织类型多样性、染色方法和临床注释方面往往存在局限性。此外,这些数据集通常狭隘地关注特定的诊断任务或癌症类型,从而限制了它们的广泛适用性和模型的稳健性。

就像医学院如果只教学生诊断一种疾病,那么这些学生在面对其他疾病时就会束手无策一样,只在单一疾病数据上训练的AI模型也难以应对临床实践中的多样化挑战。

**二、HISTAI数据集:一座病理图像的宝库**

HISTAI数据集如同一座巨大的医学图像宝库,它是由Dmitry Nechaev、Alexey Pchelnikov和Ekaterina Ivanova团队精心构建的。这个数据集不仅仅是一堆数字化的显微镜图像,它更像是一本详尽的医学图谱,每一页都附有丰富的临床信息和专业解读。

HISTAI数据集包含超过60,000张全切片影像(WSI),覆盖了多种组织类型。每个病例不仅有高质量的病理切片图像,还配有全面的临床元数据,包括诊断信息(如诊断结果和ICD-10编码)、患者人口统计学信息(如年龄和性别)、详细的病理学结论、鉴别诊断考虑因素,以及宏观和微观检查描述。

这就像每张医学图像都配有一份详尽的医学报告,不仅告诉你看到了什么,还解释了为什么,以及与其他可能疾病的区别。这种全面的信息对于训练人工智能模型至关重要,因为模型不仅需要学习识别图像中的模式,还需要理解这些模式与疾病诊断之间的关系。

数据集的组织结构也经过精心设计,便于研究人员根据需要访问相关病例。HISTAI数据集根据组织类型和病理学专业划分为专门的子集,每个子集都可以在Hugging Face平台上独立访问。每个病例内的幻灯片命名遵循一致的结构:

`<数据集名称>/case_<病例ID>/slide_<染色>_<幻灯片编号>.tiff`

或者对于非标准放大倍率的幻灯片:

`<数据集名称>/case_<病例ID>/slide_<放大倍率>_<染色>_<幻灯片编号>.tiff`

大多数幻灯片都是使用标准的20倍放大倍率进行数字化的,采用苏木精-伊红(H&E)染色方法,这是病理学中最常用的染色技术。少数使用40倍等其他放大倍率捕获的幻灯片在文件名中明确注明了放大倍率,确保下游任务的清晰度。大部分幻灯片都是使用徕卡Aperio GT450和AT2扫描仪进行数字化的,尽管有些是使用滨松或3DHISTECH系统扫描的。

**三、数据集的丰富内容与多样性**

HISTAI数据集的规模之大、内容之丰富令人印象深刻。目前,该数据集包含了8个专门的子集,涵盖了多种组织类型和病理学专业:

HISTAI-hematologic(血液学)子集包含214张幻灯片和214个病例,专注于血液系统疾病的病理学研究。

HISTAI-gastrointestinal(胃肠道)子集包含202张幻灯片和120个病例,涵盖了胃肠道疾病的病理学特征。

HISTAI-breast(乳腺)子集包含1,925张幻灯片和1,692个病例,为乳腺疾病的研究提供了丰富的数据资源。

HISTAI-thorax(胸部)子集包含829张幻灯片和657个病例,专注于肺部和胸腔相关疾病的病理学特征。

HISTAI-skin-b1和HISTAI-skin-b2(皮肤)子集分别包含7,710张幻灯片(1,778个病例)和43,757张幻灯片(20,621个病例),提供了皮肤病理学研究的丰富资源。

HISTAI-colorectal-b1和HISTAI-colorectal-b2(结直肠)子集分别包含5,379张幻灯片(998个病例)和94张幻灯片(62个病例),为结直肠疾病的病理学研究提供了有价值的数据。

总计,HISTAI数据集包含60,110张幻灯片和26,142个病例,这是一个庞大的数据集,为计算病理学研究提供了前所未有的资源。

数据集的统计数据进一步显示了其多样性:

在放大倍率方面,数据集包含57,647张20倍放大的幻灯片和2,463张40倍放大的幻灯片,满足不同研究需求的图像分辨率要求。

在染色协议方面,数据集包含58,282张使用H&E染色的幻灯片和1,828张使用其他染色方法的幻灯片,提供了不同染色技术的多样性。

这种多样性使HISTAI数据集成为研究人员的宝贵资源,无论他们是专注于特定的疾病类型还是探索跨疾病的模式,都能找到相关的数据。

**四、HISTAI与现有数据集的比较**

要理解HISTAI数据集的突破性意义,我们需要了解当前病理学领域已有的公开数据集及其局限性。就像比较不同的图书馆一样,我们需要看看每个"图书馆"收藏了什么样的"书籍",以及这些收藏有什么特点和不足。

TCGA(癌症基因组图谱)是由NIH和NCI发起的一项里程碑式计划,旨在绘制不同癌症类型的基因组改变图谱。作为该计划的一部分,约33,500张来自11,000名患者的H&E染色诊断性WSI被数字化,涵盖了33种肿瘤类型。这些幻灯片虽然主要是为了诊断记录而包含在内,但由于其广度和与转录组、基因组和生存数据的联系,成为了病理学深度学习的事实标准。

CAMELYON16是作为ISBI 2016 CAMELYON16挑战赛的一部分开发的,包括400张在两家荷兰机构收集的乳腺癌前哨淋巴结WSI。其目的是对检测淋巴结组织中转移瘤的算法进行基准测试。值得注意的是,129张幻灯片有像素级注释,概述了肿瘤转移,从而能够精确评估检测性能。

CAMELYON17是CAMELYON16的后续数据集,为MICCAI 2017 CAMELYON17挑战赛构建,旨在促进稳健的患者级预测。它包含来自5个中心的200名患者的1,000张H&E WSI,每张幻灯片都有幻灯片级和患者级转移标签(例如,孤立的肿瘤细胞,微转移或宏转移)。50张幻灯片带有详细的肿瘤分割蒙版,而完整集合支持在中心间变异性和领域转移下评估算法。

TUPAC16在MICCAI 2016 TUPAC16挑战赛期间发布,该数据集解决了乳腺癌肿瘤增殖的自动评估问题。它包括500张来自TCGA-BRCA的WSI,每张都标有从有丝分裂活动和mRNA表达衍生出的肿瘤增殖评分。与CAMELYON不同,这里的目标是幻灯片级回归/分类而非分割。单独的有丝分裂检测任务基于ROI补丁,使TUPAC成为首批将WSI级结果与分子生物标志物联系起来的数据集之一。

PANDA数据集是作为2020年Kaggle竞赛的一部分发布的,动机是临床上对前列腺活检中可伸缩的Gleason分级的需求。它包括来自Radboud UMC和Karolinska研究所的10,616张H&E染色的针芯活检幻灯片。每张幻灯片都标有Gleason分级组(0-5),可以直接进行监督学习。PANDA因其规模空前、跨中心多样性和真实世界诊断环境而引人注目,使其成为前列腺病理学的主导基准。

ACROBAT是为MICCAI 2022 ACROBAT挑战赛设计的,该数据集解决了H&E和IHC幻灯片配准的问题。它包括来自1,153名乳腺癌患者的4,212张WSI,每位患者最多有五种染色:H&E、ER、PR、HER2和Ki-67。每对幻灯片通过37,208个手动注释的地标对应点进行对齐。ACROBAT是少数几个支持多模态配准的资源之一,这是结合形态学和分子信息的关键任务。

虽然这些数据集奠定了基础,但关键的差距仍然存在。许多器官和癌症类型代表性不足,IHC和其他非H&E染色在规模上很少可用,而且很少有数据集提供适合泛化研究的多模态注释。HISTAI数据集旨在通过发布全面、多样化且注释丰富的WSI集合来解决这些限制中的几个问题。

**五、HISTAI的应用潜力与未来影响**

HISTAI数据集的广泛多样性和详细注释使其成为各种研究应用的理想平台。就像一把多功能工具一样,它可以被用于多种不同的研究目的。

首先,HISTAI数据集可以用于开发和基准测试诊断模型。研究人员可以使用数据集中的图像和相应的诊断信息来训练人工智能模型识别各种疾病模式,并评估这些模型的准确性和可靠性。这就像是为AI"医生"提供了一本详尽的病例集,让它学习如何准确诊断疾病。

其次,HISTAI数据集可以用于研究跨组织类型和临床背景的泛化能力。由于数据集包含来自多种组织类型的样本,研究人员可以探索模型在不同组织类型之间迁移知识的能力,就像一位在皮肤科工作的医生学习如何将他的知识应用于肺部疾病的诊断一样。

第三,HISTAI数据集可以支持整合临床元数据的多模态病理学模型的研究。研究人员可以探索如何结合图像数据和临床信息(如患者年龄、性别和临床病史)来提高诊断的准确性和个性化程度。这就像是让AI不仅仅看"图像",还能参考患者的"病历"。

最后,HISTAI数据集为研究领域适应和迁移学习提供了绝佳的平台。研究人员可以探索如何将在一个医疗机构或一组患者上训练的模型有效地适应到新的医疗机构或患者群体,解决真实世界中数据分布差异的挑战。

HISTAI数据集不仅是一个独立的资源,它还是更广泛研究生态系统的基础部分。值得注意的是,SPIDER数据集,一个补丁级别注释的病理学数据集集合,使用了来自HISTAI数据集的幻灯片。此外,Hibou基础模型已经在一个更大、更全面的数据集上进行了训练,HISTAI数据集是其中的一个子集。

通过发布HISTAI数据集,研究团队旨在显著贡献于正在进行的研究,增强可重复性,并鼓励开发稳健、临床适用的人工智能解决方案在数字病理学中的应用。这就像是为整个研究社区提供了一座桥梁,帮助他们跨越从实验室研究到临床应用的鸿沟。

**六、结论与展望**

HISTAI数据集代表了解决数字病理学中公开可用WSI数据集当前限制的重大进步。通过提供一个全面、多模态、注释丰富的超过60,000张幻灯片的集合,涵盖多种组织类型,HISTAI为计算病理学研究提供了广泛的机会。

这个数据集就像是为医学人工智能研究者们提供了一本详尽的"图像词典",让他们能够教会计算机"阅读"和"理解"病理学图像的语言。其开放可访问性和详细的元数据不仅促进了可重复性,还支持了更加稳健、可泛化和临床相关的AI解决方案的开发,最终推动了数字病理学更广泛领域的发展。

通过HISTAI数据集,研究人员可以探索新的算法,测试创新的方法,并推动计算病理学的前沿。这个数据集的发布标志着向更开放、更协作的医学AI研究方向迈出了重要一步,有望在未来几年加速诊断技术的进步,最终改善患者护理和医疗结果。

对于有兴趣深入探索HISTAI数据集的读者,可以通过GitHub链接(https://github.com/HistAI/HISTAI)访问完整数据集,并参与到这一令人兴奋的研究前沿。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-