微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南开大学团队打造"结肠镜AI医生":从看懂图像到临床推理的智能飞跃

南开大学团队打造"结肠镜AI医生":从看懂图像到临床推理的智能飞跃

2025-12-09 09:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-09 09:51 科技行者

这项由南开大学视觉计算与图像处理实验室的季葛鹏、刘静怡、范登平教授团队与澳大利亚国立大学计算学院的Nick Barnes教授合作开展的研究发表于2025年12月的arXiv预印本平台(论文编号:arXiv:2512.03667v1)。对这项研究感兴趣的读者可以通过该编号查询到完整论文。

结肠镜检查被誉为早期发现大肠癌的"金标准",但即使是经验丰富的医生也会因为疲劳或经验差异而漏掉一些重要病变。近年来,人工智能在医学影像领域展现出巨大潜力,但在结肠镜检查这个专业性极强的领域,AI系统往往只能完成简单的"看图识病"任务,无法像真正的医生那样进行复杂的临床推理。

南开大学的研究团队决心改变这种现状。他们提出了一个名为"COLON-X"的开源项目,这就像是为结肠镜检查量身定制的"AI医生培训计划"。这个项目不仅要让AI学会识别结肠镜图像中的各种病变,更重要的是要让它具备像真正医生那样的临床推理能力。

研究团队首先面临的挑战是数据匮乏。过去的结肠镜AI研究往往局限于小规模数据集,就像让学生只看几本书就参加高考一样,显然无法应对复杂的临床实际。为了解决这个问题,团队花费大量精力收集整理了32个公开的结肠镜数据集,最终构建出迄今为止最全面的结肠镜多模态数据库COLONVQA。这个数据库包含超过110万个视觉问答条目,涵盖76种临床发现和18种多模态任务,相当于拥有近5000万个文本标记的庞大知识库。

但仅仅拥有海量数据还不够。研究团队发现,目前最先进的多模态大语言模型在结肠镜诊断中的表现仍然不够稳定可靠。他们系统评估了22个不同的AI模型,发现这些"AI医生"存在两个严重问题:一是泛化能力不足,在面对不同类型的任务时表现差异巨大;二是可靠性有待提高,容易被图像中的文字信息误导,甚至会受到情绪化表达的影响而改变诊断结果。

为了解决这些问题,研究团队提出了一个革命性的想法:让AI不仅要会"看病",更要学会"推理"。他们开发了一个多专家辩论系统来生成高质量的临床推理数据。这个系统就像模拟了一个医院的多学科会诊过程——首先由两个AI专家分别给出初步诊断意见,然后让它们互相质疑和讨论,接着各自反思并调整观点,最后由一个"主治医生"角色综合各方意见得出最终结论。通过这种方式,团队创建了COLONREASON数据集,包含7484个带有详细推理过程的诊断案例。

在此基础上,研究团队开发了第一个专门针对结肠镜检查的推理式AI模型COLONR1。这个模型的训练过程就像培养一个真正的医生一样复杂精细。传统的AI训练往往采用简单的"对错判断"方式给模型打分,但COLONR1采用了任务自适应奖励机制,针对不同类型的诊断任务采用不同的评价标准。对于开放性问题,系统会根据答案的语义相似度给出连续分数;对于选择题,系统会区分完全正确、部分正确和完全错误三种情况。

训练过程中,研究团队还遇到了一个技术难题:当所有候选答案都正确或都错误时,模型无法从中学到有用信息,就像学生做练习题时如果题目过于简单或过于困难都无法有效提高一样。为了解决这个问题,他们设计了"负样本采样"机制,主动向简单题目中加入错误答案来保持学习的挑战性。对于那些特别困难的问题,他们还开发了"自进化提示"方法,让模型能够记住过去的错误经验,在遇到类似问题时进行自我纠正。

经过精心训练,COLONR1在仅使用约7500个训练样本的情况下,在综合评估中达到了56.61%的准确率,比传统的监督学习方法提高了25.22%。虽然这个数字看起来并不特别高,但要知道结肠镜诊断是一个极其复杂的任务,即使是经验丰富的医生之间也经常存在诊断分歧。更重要的是,COLONR1不仅能给出诊断结果,还能提供详细的推理过程,这对于临床实践具有重要意义。

研究团队特别设计了一系列"压力测试"来评估AI系统的可靠性。他们发现,当结肠镜图像中嵌入的文字信息被遮盖或替换为误导性文字时,许多先进的AI模型表现会显著下降。有些模型的准确率甚至从100%骤降到10%,暴露出过度依赖文字线索而忽视视觉证据的严重缺陷。这就像一个医生不看病人的实际症状,而是完全依赖病历上可能有误的文字记录一样危险。

更令人担忧的是,当研究人员在提问中加入情绪化表达(比如"病人非常焦虑,担心坏消息会影响女儿的婚礼")时,一些AI模型会受到这些非医学信息的影响,倾向于给出更乐观的诊断结果。这种现象表明,当前的AI系统在处理临床信息时缺乏必要的客观性和专业性。

为了验证不同AI模型的表现,研究团队对22个主流模型进行了全面比较。结果发现,闭源商业模型(如GPT系列、Gemini等)总体上表现更好,但在某些特定任务上,开源模型反而具有优势。特别有趣的是,一些专门为医学领域训练的"专科"模型的表现居然不如通用模型,这提醒我们在AI医学应用中需要更加审慎地平衡专业性和通用性。

研究团队还发现,具备推理能力的AI模型虽然能提供更详细的解释,但在最终诊断准确性上并不总是更好。这种"推理-决策"间的差距表明,如何让AI的思考过程与最终决策保持一致,仍然是一个需要深入研究的问题。

这项研究的意义远不止于技术突破。在医疗资源分布不均的现实背景下,一个能够进行可靠诊断和推理的AI系统可能帮助基层医院提高诊断水平,减少漏诊和误诊。患者也能从AI提供的详细推理过程中更好地理解自己的病情,增强对诊疗过程的信任。

当然,研究团队也坦承目前的工作还存在局限性。56.61%的准确率虽然已经是一个重要进步,但距离临床应用的要求仍有差距。如何进一步提高AI的推理能力,如何确保推理过程与最终决策的一致性,如何在更大规模的数据和模型上验证这些方法的有效性,都是未来需要解决的问题。

研究团队已经将所有数据和模型代码开源发布,希望能够推动整个领域的发展。他们相信,随着数据质量的提升、算法的优化和计算资源的增加,"数据驱动的智能化"将继续推动结肠镜AI技术向前发展,最终实现真正的智能化临床诊疗。

这项研究为我们展示了AI医学应用的一个重要发展方向:从简单的模式识别向复杂的临床推理转变。虽然现在的AI还无法完全替代医生,但它已经开始展现出成为医生可靠助手的潜力。未来,当我们坐在医院里等待检查结果时,也许会有一个既聪明又细心的AI"医生助手"正在帮助人类医生做出更准确、更可靠的诊断。

Q&A

Q1:COLON-X项目的COLONVQA数据库有多大规模?

A:COLONVQA是目前最全面的结肠镜多模态数据库,包含超过110万个视觉问答条目,涵盖76种临床发现和18种多模态任务,相当于拥有近5000万个文本标记。这个数据库整合了32个公开的结肠镜数据集,为AI训练提供了前所未有的丰富素材。

Q2:COLONR1模型的推理训练是如何实现的?

A:COLONR1采用多专家辩论系统来生成推理数据,模拟医院多学科会诊过程。两个AI专家先给出初步诊断,然后互相质疑讨论,各自反思调整观点,最后由主治医生角色综合得出结论。训练时使用任务自适应奖励机制,针对不同诊断任务采用不同评价标准,还设计了负样本采样和自进化提示来解决训练难题。

Q3:目前AI结肠镜诊断系统存在哪些可靠性问题?

A:研究发现AI系统主要存在两类可靠性问题:一是过度依赖图像中的文字信息,当文字被遮盖或替换时准确率会从100%骤降到10%;二是容易受情绪化表达影响,当提问中包含病人焦虑等情绪信息时,AI可能倾向于给出更乐观的诊断结果,缺乏医学诊断应有的客观性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-