谷歌旗下DeepMind团队最近发表一篇名为《乳腺癌筛查AI系统的国际评估》的论文,表示他们已经在人工智能的医学数据应用研究领域取得惊人进展。他们打造的系统能够评估乳房X光片以做出乳腺癌预测,且实际表现似乎已经超越人类放射科医生。与传统人工看片方法相比,这套系统不仅改善了癌症误诊率,同时也显著降低了乳腺癌病例的漏诊可能性。
▲ DeepMind技术有限公司首席执行官兼联合创始人Demis Hassabis在2016年11月15日(星期二)英国伦敦的谷歌Kings Cross办公室发表讲话。
DeepMind项目的患者数据来自英国与美国。在研究当中,六名人类放射科医生与基于计算机的AI方案共同对乳房X光片进行评估。DeepMind团队强调称,这套方案的目标在于让人工智能成为人类放射科医生的好帮手,而非将其彻底取代。这确实是一招妙棋,毕竟人们至少很难接受完全由计算机进行诊断——埃隆·马斯克的大脑芯片植入计划也面临着类似的困境。
为了将这项技术真正推向市场,DeepMind可能首先需要争取监管部门的支持,将其认定为医疗设备,而后再获取CE认证标识。看到这里,很多朋友可能要问:为什么要搞得这么麻烦?这套AI系统在本质上,不就是一种看图软件吗?事实上,乳腺癌筛查工具甚至是相关辅助工具,都会受到严格的监管。因为一旦发生误诊,病人可能会接受有创手术;如果出现漏诊,病人则可能错失接受治疗的最佳时机。
在欧洲,医疗设备的安全与质量标准相当严格,要求制造商进行大量临床试验,并对项目当中的设计、开发、配送甚至是安装流程进行全面质量控制。此外,内部与外部审计也必不可少,包括由外部审计师进行极为严苛的风险管理评估。
目前的问题在于,以往传统设备可以参考“同类产品”以证明自身的运行可靠性,但每套AI系统在一定程度上都可谓独一无二,因此只能从零开始接受全面验证。
谷歌当然不是唯一一家打算利用AI系统进军医疗保健市场的企业。在此之前,IBM就一直在努力通过Watson解决直接医学诊断问题,不虽然带来了不少令人振奋的个别成果与产出,但医学研究界目前普遍认为Watson演示中的“水分”过多,无法在日常临床应用中发挥同等作用。此外,也有不少学生以及业余爱好者从事医学数据AI应用方向的研究。但总体而言,将医疗类AI推向市场往往需要付出高昂的成本与努力,因此目前绝大部分相关工作仍局限于学术范畴之内。
除此之外,在将这一乳腺癌筛查技术推向市场的过程中,DeepMind还面对着另一项巨大挑战——这类自主医疗筛查系统可能被恶意人士所欺诈,并在误导之下做出错误判断。
哈佛医学院与麻省理工学院的一支联合团队发布了一篇振聋发聩的论文,这篇题为《针对医疗用深度学习系统的专业攻击》的文章提出多种可欺骗此类AI诊断系统的方法。研究人员们发现,即使不清楚AI系统的内部细节,恶意一方仍然能够成功欺骗目标系统。到目前为止,这种愚弄AI系统的能力可能正是迫使我们拒绝全面推广相关方案的主要原因。
我们在无人驾驶汽车领域也发现了类似的趋势,该技术最初承诺的是完全自动驾驶功能,但现实情况却只能带来自动跟车以及停车辅助系统等非常有限的自动化技术。而对于这些至关重要的应用领域当中,目前,我们还找不到快速摆脱困境的理想办法。
说了这么多,之前强调的还主要是监管与技术层面的挑战。但将这样一套系统真正推向市场,其他挑战同样所在多有。在单一付款人系统当中,医生没有向企业付款的积极性,因此企业一方只能将技术产品出售给政府机构,这就会极大延长产品的消化周期。除了报销难题之外,某些特定国家/地区还拥有自己的管理要求,例如数据隐私。本文开头探讨的是一种极具前景的概念验证型AI系统,主要用于改善乳腺癌的诊断效果;但除了ISO认证与CE认证之外,这套系统甚至还没有开始临床试验以及FDA审批流程。
总而言之,完成这一系列非常精细的测试与验证之前,患者们还无法体验到这项前沿技术。虽然DeepMind取得了至关重要且令人兴奋的技术成就,但必须强调的是,这些技术尚处于起步阶段。请暂且按捺兴奋的情绪,我们手头还有很多工作要做。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。