▲ 人工智能可高速从数百万遗传变异里进行搜索,并确定引发罕见疾病的原因,还可以快速阅读和查阅现有医学文献
据统计,全球有4亿人患有罕见疾病。这个数字比美国总人口数字还大。此外,根据全球基因组织的相关资料显示,80%的罕见疾病由基因缺陷引起,而基因缺陷的准确诊断结果平均需要4.8年时间。这就是为什么30%的患有罕见疾病的儿童活不到五岁的重要原因之一。
此外,95%的罕见疾病并不存在获FDA批准的治疗。这也是件很无助的事情。好消息是,近年来兴起的人工智能和机器学习成了对抗罕见病的重要工具。
如今,业界已经有不少公司开发了各种平台,借助人工智能确认罕见疾病基因变异的根源,并提供给医学研究人员和业内人士使用。
其中一家公司是总部在以色列的Emdgene。Emdgene公司建的平台不仅可以扫描罕见疾病患者的DNA数据,还可以使用自然语言处理(NLP)阅读最新的医学文献。借此,该平台就能够找到病人遗传变异与病人目前状态之间相关的书面记录,进而加快病情诊断。Emdgene联合创始人兼CEO Einat Metzer解释说,假若没有这个平台,要做到这一点的话会是一个艰苦和耗时的过程。
他表示:“每个人的DNA都包含了数百万种无害的遗传变异,实验室里的遗传学家们必须从这么多变异中识别出导致某个疾病的一种变异。在不使用算法的情形下,他们通常是通过手动过滤这几百种基因变异。此外,他们还必须搜索现有的文献,以确保不会错过任何新发现的信息或其它证据。”
Metzer还表示,Emedgene机器学习算法可完成所有上述步骤,并自动识别致病的变异基因以及文献里和数据库里的支持证据。遗传学家所要做的,就只是审查产生的结果,而不是从头开始做整体分析。
另外,Emedgene上个月还推出了一种名为Pathorolo的新算法。这一算法可以计算一个具体的遗传病例可能得到解决的可能性,也可以用于重新评估过去未解决的病例——这样的病例占所有罕见遗传病例的60%之多。
Metzer 表示:“实验室一般会定期重新分析过去未解决的病例,希望新发布的信息或新生物信息学工具可以协助解决一些病例。这样的做法,通常可以将解决病例的百分比提高10%。但这个过程随着过去未解决病例的积累和不断增长而变得十分复杂,如果没有机器学习的帮助是不可持续的。而通过Pathorolo算法,我们就可以识别出那些过去未解决而今天有可能得到解决的病例,然后让实验室把时间和精力集中放在有望解决以及可定期再分析未解决的病例上。”
当然,除了Emdgene之外,也有不少公司正在将AI用于罕见遗传性疾病的诊断。比如,德国的初创公司Nostos基因组学。和Emedgene一样,Nostos基因组学也在利用机器学习处理病人的遗传变异及确定可能的原因。另一个有意思的例子是总部在美国波士顿的FDNA:今年一月FDNA在《自然医学》(Nature Medicine)杂志上发表了一篇论文(https://www.nature.com/articles/d41586-019-00027-x),论文详细介绍了FDNA打造的名为Face2Gene的智能手机应用程序,经过大量图像的训练,该应用程序可以识别出患有罕见遗传性疾病的人。
还有一些比较复杂的案例,比如Fabric Genomics公司。Fabric Genomics公司总部在美国旧金山,主打用AI进行各种遗传分析。据了解,Fabric Genomics拥有一些授权超过1000个临床实验室和学术机构使用的算法。其中,一些算法可用于筛选遗传变异体可能造成的罕见疾病,诊断成功率能达约50%,而业界的平均成功率则只有25%至30%。
Fabric Genomics的算法今年四月曾被美国圣迭戈的Rady儿童基因组医学研究所的研究人员采用,利用机器学习过程和临床自然语言处理(CNLP),研究所的罕见遗传性疾病诊断时长甚至创下了记录。具体来说,研究所通过使用整个系统协助诊断重症监护室的婴幼儿,在20小时内提供了基因组测序,共涉及95名患儿及97种遗传病,精确度达99%。
Rady儿童基因组医学研究所总裁兼CEO Stephen Kingsmore医生表示:“有些人称其为人工智能,我们称其为增强智能。病人护理自始至终都是医生的事。我们通过技术的力量可以迅速准确地确定遗传性疾病的根本原因,然后再迅速地将这一关键信息提供给重症监护室的医生,让他们能够专注地对那些艰难求生存的婴儿进行个性化护理。”
这些成功的案例表明,AI对罕见病诊断是一剂良方,对4亿患有罕见疾病的人来说更是如此。目前这些罕见疾病经常被医院忽视,医院也没有足够的资源来处理这些疾病。因此,AI和机器学习在这个领域的引入将让所有人受益。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。