
这项由麻省理工学院(MIT)Critical Data团队领导,联合米兰理工大学、新加坡科技研究局(A\*STAR)量子创新中心、台湾大学医院、约翰斯·霍普金斯大学、波尔多大学等多家机构共同完成的研究,以预印本形式于2026年4月27日发布在物理学领域的知名学术预印本平台arXiv,编号为arXiv:2604.24597,研究方向涵盖量子机器学习与医学影像分析的交叉领域。有兴趣深入了解的读者可以通过上述编号查询完整论文,代码也已在GitHub公开。
一、一张X光片,藏着你的钱包信息?
胸部X光片,在大多数人眼中,不过是一张黑白的肺部影像,用来判断有没有肺炎或者其他病变。然而,最近几年有一个令人不安的发现正在医学AI领域悄然蔓延:这种看似中性的医学影像,居然可以被深度学习模型"读出"患者的种族、保险类型甚至社会经济地位——即便是临床上完全正常的片子也不例外。
这听起来像科幻小说,但背后的逻辑并不神秘。不同医院有不同的拍摄设备和操作习惯,不同地区的患者因为长期生活环境不同,身体也可能留下细微的痕迹。这些信号,人类医生几乎察觉不到,却被AI模型捕捉到了。这种现象被称为"虚假关联",即模型学到的不是疾病本身,而是和疾病没有直接因果关系的背景特征。
正是在这样的背景下,MIT领导的这支跨国研究团队选择了一个看似不寻常的任务:用量子计算机(的模拟器)来判断X光片患者的医疗保险类型——是政府兜底的Medicare/Medicaid,还是自费的私人保险。这个任务本身并没有临床部署的意义,但它是一块极好的"试金石":如果连量子方法都能在这种细微、分散且类别不均衡的信号上展现优势,那量子核方法的表达能力就真的值得认真对待了。
二、量子计算和"核方法",到底是什么关系?
要理解这篇研究,需要先弄清楚两个概念,但不用担心,用一个厨房里的比喻就能说明白。
经典的支持向量机(SVM)是一种分类器,可以理解为一个"划线高手"——它在数据空间里找到一条最优的分界线,把两类数据分开。如果数据本身就混在一块儿,这条线就很难画。于是人们发明了"核方法":把原始数据悄悄"搬运"到一个更高维度的空间里,在那里原本混在一起的数据点就可能自然分开,再画线就容易多了。这个"搬运"过程就是核函数(kernel)的作用。
量子核方法的想法是:用量子电路来完成这个"搬运"过程。量子电路天然能访问指数级庞大的"空间"(即希尔伯特空间),理论上比经典方法能找到更丰富的分界结构。具体来说,研究团队使用的是"量子支持向量机"(QSVM),它的核心操作是计算两个量子态之间的内积,也就是衡量两个数据点在量子空间里"有多像"。
继续用厨房比喻:经典线性核就像只有一个烤盘的小烤箱,食材太多就塞不下;量子核则像一个多层、多维度的蒸笼,能同时处理远超经典烤箱的食材复杂度。而本文的核心问题就是:在真实的医学数据上,量子这口"蒸笼"真的比经典"烤箱"更有用吗?
三、实验是怎么设计的?数据从哪里来?
研究团队使用了MIMIC-CXR数据集,这是来自波士顿Beth Israel Deaconess医疗中心的大型去标识化胸部X光数据库,包含约6.1万名患者的影像和临床记录。研究者从中筛选出满足特定预处理条件的2371张图像,将患者分为两类:Medicare/Medicaid患者(多数类,占69.6%)和私人保险患者(少数类,占30.4%)。这种近七三分的不均衡分布,意味着一个"偷懒"的模型只要把所有人都判成多数类,准确率就能达到约70%,但对少数类毫无帮助。因此,研究者选择"少数类F1分数"作为核心评估指标,它综合考量了精确率和召回率,能真实反映模型对少数类的识别能力,而不是被多数类的高准确率所掩盖。
为了把高维的X光图像信息转化为可以输入量子电路的数字,研究团队采用了三个冻结(即不再微调参数)的医学基础模型来提取图像嵌入(embedding)。第一个是MedSigLIP-448,这是一个专门为医学图像文本对齐训练的视觉模型,输出448维的特征向量;第二个是RAD-DINO,一个用自监督学习方式在放射影像上预训练的视觉模型,输出768维特征;第三个是ViT-patch32,一个通用视觉变换器,没有医学领域的专门训练,同样输出768维特征,作为对照基准。
这三个模型就像三位不同背景的"翻译官",把X光图像翻译成高维数字语言。然后,研究者通过主成分分析(PCA)把这些高维数字压缩到q维(q是量子比特数,范围从2到16),再经过标准化处理,送入量子电路。这个从原始图像到q维压缩特征的三步流水线(标准化→PCA→区间缩放到\[-1,1\]),保证了量子电路和经典分类器接收到完全相同的信息输入。
四、量子电路长什么样?核矩阵怎么算出来?
研究团队设计的量子电路采用了一种叫做"块稀疏参数化"(BSP)的结构,每个量子比特只接受一个参数:一次Ry旋转(即绕Y轴旋转量子态的操作),编码一个PCA压缩后的数值。电路结构是:先对第d个量子比特做Ry旋转,再用CNOT门(一种两量子比特的纠缠操作)把它和下一个量子比特连接起来,最后一个量子比特还会回头连接第一个,形成一个"环形纠缠"结构。整个编码块只执行一次(称为re-uploading深度reps=1),这是所有主实验的默认设置。
量子核的计算采用"计算-反计算"策略:对两个数据点x\_i和x\_j,先把x\_j的量子态制备好,再用x\_i的逆电路"解码",最后测量回到初始状态的概率——这个概率就是两个数据点之间的量子核值,数学上等于两个量子态内积的平方。把所有训练样本两两计算,就得到一个大的核矩阵,再把这个矩阵送给SVM求解器,就能训练出分类器。
为了让不同尺度的核矩阵可以比较,研究者对核矩阵做了"迹归一化"处理:把整个矩阵除以对角线元素之和(即迹),使矩阵的迹等于1。这一步操作看似简单,却在后续实验中被证明至关重要——用另一种归一化方式(Frobenius归一化)会让量子核分类器完全失效,少数类F1直接归零,与完全不识别少数类的经典分类器一样糟糕。
五、比较实验怎么保证公平?双层框架是什么意思?
量子方法的研究有一个常被诟病的问题:对比实验不公平,量子这边精心调参,经典那边随手一用。为了彻底堵住这个漏洞,研究团队设计了一个两层比较框架。
第一层称为"公平对决":量子SVM和经典线性SVM使用完全相同的超参数设置(C=1,即正则化强度相同),接收完全相同的PCA压缩特征,双方都不做任何调参。这是最严格的苹果对苹果比较,任何性能差异都只能来自核函数本身的性质差异。
第二层称为"超越调参对手":量子SVM依然保持C=1不调参,而经典对手换成了经过网格搜索调参的RBF核SVM(一种以高斯函数为核的经典非线性方法,通常表现比线性核好很多),在C的五个候选值(0.01、0.1、1、10、100)上交叉验证选最优。如果量子SVM在没有调参优势的情况下还能赢过调过参的经典方法,那才是真正令人信服的量子优势证据。
两层框架的每个配置都在10个不同的随机嵌入种子上重复实验,通过配对自举法(bootstrap)验证结果的统计显著性,共测试了18个第一层配置(三个基础模型×多个量子比特数)和7个第二层配置。
六、结果究竟如何?经典方法为何"晕倒了"?
第一层实验的结果堪称戏剧性。在所有18个配置中,QSVM在少数类F1上全部取胜,其中17个配置的统计显著性达到p<0.001,1个配置达到p<0.01。而经典线性SVM的表现则是令人震惊的"集体晕倒":在每一个量子比特数的设置下,经典线性核都在90%到100%的随机种子上完全崩溃,少数类F1归零——也就是说,它根本识别不出任何私人保险患者,只会把所有人都判成多数类。
表现最亮眼的配置是MedSigLIP-448基础模型搭配q=11量子比特:在10个种子上,QSVM的平均少数类F1为0.343±0.170,而经典线性SVM仅有0.050±0.159(差值+0.293,95%置信区间\[+0.190, +0.385\],p<0.001)。种子0单次运行中,QSVM达到F1=0.586,对应的混淆矩阵显示:在238个测试样本中,有39个私人保险患者被正确识别(召回率0.542,精确率0.639),这并非偶然的精确率-召回率取舍,而是真实的少数类检测能力。
在第二层实验中,QSVM同样赢下全部7个配置,平均F1优势为+0.068,最大单配置优势达+0.112(MedSigLIP-448,q=8),这意味着没有调参的量子分类器打败了精心调过参的经典非线性分类器。
至于经典线性核为什么会"晕倒",研究者给出了一个清晰的结构性解释。经过PCA压缩到q维之后,线性核矩阵最多只有q个非零特征值,有效秩恰好等于q。以q=4为例,一个拥有1896个训练样本的数据集,其线性核矩阵的有效秩仅为3.77——这意味着几乎所有1896个样本在核空间里都被"压缩"成了同样的点,分类器根本无法区分哪些是少数类。更关键的是,这种崩溃对正则化参数C完全免疫:无论C取0.01还是100,结果都一样,F1归零。这不是调参能解决的问题,而是结构性的维度缺陷。
而量子核的有效秩远超线性核。在q=4和q=6时,量子核的有效秩分别为6.86和13.94,是线性核(3.77和5.53)的1.82倍和2.52倍,而且这个比值随量子比特数增加还在持续扩大。到性能峰值q=11时,种子0的量子核有效秩达到43.04,10个种子的平均值更高达69.80。量子特征映射把q维输入映射到了2^q维的希尔伯特空间,那是一个指数级庞大的"蒸笼",自然能找到线性核在局促空间里找不到的分类边界。
七、三条实用设计法则:量子核流水线怎么调?
除了主要结论,研究者在消融实验中还得出了三条对量子核实践者有直接指导意义的设计法则。
第一条法则是关于归一化方式的选择。正如前文提到的,迹归一化是量子核流水线里不可缺少的一步,而Frobenius归一化会让F1直接归零,在所有三个基础模型上无一例外。其他两种方式(无归一化和余弦归一化)效果介于两者之间,但都不如迹归一化。研究者把迹归一化比作深度学习里的批归一化(Batch Normalization):它保证核矩阵在送入SVM求解器前处于良好的数值条件,是必须优先考虑的流水线超参数。
第二条法则是关于角度编码自由度的选择。研究者对比了两种编码方式:每个量子比特一个Ry旋转参数(1-DOF,共q个参数)和每个量子比特三个旋转参数(Rz-Ry-Rz,3-DOF,共3q个参数)。结果显示,3-DOF在所有三个基础模型上全面崩溃:准确率跌到0.33-0.39(接近随机猜测),F1只有0.19-0.39。1-DOF则稳定表现出0.735-0.756的准确率和0.388-0.543的F1。更多的参数不等于更好的量子核,过度参数化反而会破坏量子干涉结构,让核失去判别能力。
第三条法则是关于数据重上传深度(reps)的选择。把编码块重复执行两次(reps=2)并不能提升性能,反而让准确率从0.756下降到0.727。这说明在当前样本量(约2000个)下,瓶颈不是电路的表达能力,而是数据量本身。盲目加深电路只会带来过拟合风险,电路表达能力和样本量必须协同设计。
八、不同基础模型和量子比特数,表现差异有多大?
在跨越q=2到q=16的全量子比特数扫描中,三个基础模型展现出了明显不同的行为模式,这本身就是一个重要发现。
RAD-DINO和ViT-patch32的F1随量子比特数单调递增,从q=2时的微弱信号(RAD-DINO F1约0.176,ViT约0.104)一路攀升到q=16时的F1=0.524和0.520,中途没有明显的峰值和崩溃。这两个模型的嵌入空间对量子核来说"消化得很好",量子比特越多,表现越好。
MedSigLIP-448则呈现出非单调的"先升后降"模式。在种子0上,F1从q=4的0.488上升到q=11的峰值0.586,然后在q=16急剧跌落到0.173。但这并不意味着量子方法在q=16上失效——10个种子的平均F1仍有0.377,仍然是第一层的赢家。种子0上的q=16崩溃是种子特异性现象,而非普遍结构性失效。
这种模型特异性的量子比特-性能曲线,与量子核领域的"指数浓缩"(exponential concentration)理论高度吻合。简单来说,当量子比特数太多时,量子核矩阵的所有元素会趋向同一个值,样本之间的差异信息被稀释殆尽,分类器就失去了可用的判别信号。这种浓缩何时发生、发生得多快,取决于数据本身的分布结构和量子电路架构的共同作用,而不是单纯由量子比特数决定。MedSigLIP-448的嵌入空间恰好在q=16时触发了这种浓缩,而RAD-DINO和ViT-patch32则没有。
研究者还专门对q=16的MedSigLIP-448崩溃做了一个诊断实验,引入了"投影量子核"方法。这种方法不直接计算量子态之间的内积(保真度),而是先测量每个量子比特的期望值,然后在这个低维向量上建立经典RBF核。结果显示,投影量子核把种子0的F1从0.173恢复到了0.396,提升了0.223。这说明量子电路本身并没有丧失判别信息,瓶颈在于保真度测量在高量子比特数下的浓缩效应,而非电路的表达能力本身。不过,投影量子核的最终表现仍不及q=11时的保真度量子核峰值(F1=0.586),所以MedSigLIP-448的最佳量子优势窗口依然在q≤11。
九、特征选择方式会影响结论吗?PCA压缩是否偏袒量子方法?
有一个合理的质疑:所有实验都用PCA压缩特征,会不会PCA的几何特性天然有利于量子核,而不利于经典核?研究者通过替换降维方法直接验证了这一点。他们用互信息排名(MI ranking)和核PCA(kPCA)各选4个和6个特征,分别训练最优经典SVM。结果如下:MedSigLIP-448用MI/kPCA最优经典F1为0.404,RAD-DINO为0.186,ViT-patch32为0.267。而对应量子比特数下的QSVM F1,MedSigLIP-448在q=4时为0.488、q=6时为0.504;RAD-DINO分别为0.448和0.435;ViT-patch32分别为0.184和0.422。在所有三种降维方法的所有配置下,QSVM均优于最优经典方法。量子优势并非PCA几何特性的产物,而是量子核本身的特性。
十、这对医疗公平性意味着什么?
这篇研究在技术成果之外,还触碰了一个更深刻的社会问题:X光片里能编码保险信息这件事本身,就是一个令人警觉的信号。如果医疗AI系统在训练过程中学到了这些潜在的社会经济标记,它们在面对特定群体时就可能系统性地出错,而这种错误往往以不易察觉的方式向边缘群体集中。研究者引用了多项先前研究,表明胸部X光分类器确实会在医疗资源匮乏的人群中产生系统性漏诊偏差,这种偏差会通过AI系统被固化和放大。
量子核的高有效秩(即更强的判别能力)在这个语境下是一把双刃剑:它确实能更好地识别少数类,减少多数类崩溃带来的漏诊问题;但与此同时,一个判别能力更强的模型也更有可能学到并利用虚假的社会经济关联。研究者明确指出,这意味着在临床场景中部署量子核方法时,可解释性和审计应当作为第一优先级,而不是性能指标的附属品。未来的工作需要回答一个关键问题:量子特征映射在q=11时捕捉到的到底是什么信号,是真实的临床变异,还是被放大的人口学混杂因素?
十一、实验有哪些局限性?
研究者对实验的局限性坦诚相告,这值得特别说明。
所有量子实验都在无噪声模拟器上进行,而非真实量子硬件。真实量子计算机存在门错误、退相干和读取噪声,这些噪声会加剧量子核的浓缩效应,因此模拟实验的结论不能直接等同于真实硬件上的表现。
全部数据来自单一中心(波士顿Beth Israel Deaconess医疗中心),且美国马萨诸塞州的近全民覆盖医保环境决定了约七三的多数/少数类分布,在其他医保体系或地区,数据分布可能截然不同。
经典基线仅限于核SVM,而非核方法(如梯度提升树、逻辑回归、浅层神经网络)可能不会遭遇同样的线性核崩溃问题,有可能设置更高的经典天花板。
此外,DT9预处理层是在初步实验中因产生最强量子结果而被选定的,这构成了一定的后验选择偏误。非崩溃区间(q≥10)的量子优势目前仅在DT9层上得到验证,其他预处理配置的泛化性有待未来研究确认。
归根结底,这篇研究最重要的贡献并不是宣称量子计算已经在医疗AI中实用化,而是通过严格的双层比较框架和细致的机制分析,把一个清晰的答案摆在了桌面上:在高维嵌入被压缩到极低维度的特定条件下,量子核确实因其结构性优势而能跨越经典核的崩溃区间,这种优势不是调参的幸运,而是有核矩阵有效秩可以测量、有谱分析可以解释的可重复现象。
当量子硬件逐渐成熟,当更多临床数据集被纳入验证,当解释性工具能够剥离量子核捕捉到的到底是临床信号还是人口学噪声时,这种结构性优势的边界和条件才会真正清晰。现在的结论是:量子核的窗口是存在的,它的位置由嵌入空间结构和量子比特数共同决定,找到它需要仔细扫描量子比特数和多种子验证,而不是盲目堆砌量子比特。
Q&A
Q1:量子支持向量机(QSVM)为什么能避免经典线性SVM在医学图像分类中的崩溃问题?
A:经典线性SVM在PCA压缩到q维后,核矩阵的有效秩恰好等于q,几乎所有训练样本在核空间里被"压缩"成同样的点,导致无法区分少数类,F1归零且对调参完全免疫。量子SVM通过量子特征映射把q维输入映射到2^q维的希尔伯特空间,核矩阵的有效秩大幅提升(如q=11时平均达69.80),能在同样的低维PCA特征上找到经典方法找不到的分类边界,因此维持了非零的少数类识别能力。
Q2:迹归一化在量子核流水线中为什么如此关键?
A:迹归一化将核矩阵除以对角线元素之和,让矩阵迹等于1,保证核矩阵在传递给SVM求解器前处于良好的数值条件。相比之下,Frobenius归一化由对角线的大数值主导,会抑制所有非对角信息,使核矩阵近似单位矩阵,导致量子SVM和经典线性SVM一样完全失去对少数类的识别能力,F1在所有三个基础模型上全部归零。迹归一化类似深度学习里的批归一化,是量子核流水线必须优先确定的超参数。
Q3:量子比特数越多,量子核在医学图像分类上的表现越好吗?
A:并非如此,且结果高度依赖所用基础模型的嵌入空间结构。RAD-DINO和ViT-patch32的性能随量子比特数单调提升,从q=2一路改善到q=16。但MedSigLIP-448在q=11达到单次运行峰值F1=0.586后,于q=16出现部分种子崩溃(种子0的F1跌至0.173),不过10个种子的平均F1仍达0.377,依然优于经典方法。这种"先升后降"的模式源于量子核的指数浓缩效应,其发生时机由嵌入空间数据结构和电路架构共同决定,因此实践中需要通过多种子扫描量子比特数来定位最优窗口。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。