这项由爱尔兰都柏林大学国家人工智能中心(CeADAR)的Sebastián Andrés Cajas Ordónez领导的研究团队发表于2025年,合作机构包括哥伦比亚安蒂奥基亚大学、意大利都灵大学和哥伦比亚考卡大学航空航天公司。这项研究首次系统性地证明了量子计算机在机器学习任务中能够超越传统计算机,关键在于选择合适的数据表示方法。有兴趣深入了解的读者可以通过GitHub访问完整代码:https://github.com/sebasmos/QuantumVE。
想象一下,你正在教两个学生识别图片中的数字和服装。一个学生是传统的计算机(就像我们平时用的电脑),另一个学生是量子计算机(一种利用量子物理现象的超级计算机)。过去,人们一直认为量子计算机在这类任务上并没有明显优势,甚至可能表现更差。但这项研究发现了一个令人惊讶的秘密:关键不在于学生本身的能力,而在于你如何向他们展示信息。
研究团队发现,当使用Vision Transformer(一种模仿人类注意力机制的AI技术)来预处理图像信息时,量子计算机突然展现出了惊人的学习能力,在MNIST手写数字识别任务上比传统方法提高了4.42%的准确率,在Fashion-MNIST服装识别任务上更是提高了惊人的8.02%。这听起来可能不多,但在机器学习领域,即使1%的提升都是非常显著的成就。
更有趣的是,当研究人员使用传统的卷积神经网络(CNN)来预处理同样的图像时,量子计算机的表现反而变差了。这就像给不同的学生提供不同格式的教材,有些学生更适合图表式的解释,有些学生更适合文字描述,而量子计算机显然更"偏爱"Vision Transformer的表示方式。
这项研究的突破性在于它是第一个系统性证明量子核优势(量子计算机在特定任务上的优势)严重依赖于嵌入选择的研究。研究团队使用了16量子比特的张量网络模拟,通过NVIDIA的cuTensorNet技术实现了高性能的量子模拟,为实际的量子机器学习应用提供了可行的路径。
**一、传统机器学习遇到的困境**
在深入了解这项研究之前,我们需要理解传统机器学习面临的挑战。现代机器学习就像培训一个超级侦探,需要从海量的线索中找出规律。但随着数据变得越来越复杂,这个侦探需要处理的信息量呈指数级增长,传统计算机开始力不从心。
支持向量机(SVM)是机器学习中的经典算法,就像一个善于画分界线的专家。它的工作原理是在数据中找到一条最优的分界线,将不同类别的数据分开。比如,它能在一堆猫和狗的照片中画出一条无形的分界线,准确地区分哪些是猫,哪些是狗。但是,当数据维度变得非常高时,这条分界线变得极其复杂,传统计算机需要消耗巨大的计算资源。
量子计算机的出现为这个问题提供了新的思路。量子计算机利用量子叠加和量子纠缠等奇特的物理现象,能够同时处理多种可能性。这就像让侦探同时存在于多个平行宇宙中,在每个宇宙里都尝试不同的推理路径,最后将所有结果综合起来得出最佳答案。
然而,量子机器学习面临着巨大的实际挑战。当前的量子计算机容易受到噪声干扰,就像在嘈杂的环境中工作的侦探,很容易被干扰而做出错误判断。此外,量子计算机的量子比特数量有限,就像侦探的记忆容量有限,无法同时处理太多信息。
**二、嵌入技术:为量子计算机准备"食材"**
这项研究的核心创新在于发现了一个关键事实:量子计算机的表现很大程度上取决于我们如何为它准备数据。这就像烹饪一样,即使是最好的厨师,如果食材处理不当,也很难做出美味的菜肴。
研究团队使用了两种不同的"食材处理"方法。第一种是EfficientNet-B3,这是一种卷积神经网络,就像一个传统的食材切片机,按照固定的模式将图像切成小块进行处理。这种方法已经在传统机器学习中证明了其有效性,能够识别图像中的边缘、纹理和形状等特征。
第二种方法是Vision Transformer(ViT),这是一种完全不同的处理方式。如果说CNN像切片机,那么ViT更像一个有着敏锐洞察力的艺术评论家。它不是机械地切割图像,而是学会了像人类一样"注意"图像的不同部分。当人类看一张照片时,我们的注意力会自然地在重要的部分之间跳跃,ViT正是模仿了这种注意力机制。
更具体地说,ViT将图像分成许多小块(就像将一幅画分成许多拼图块),然后学习这些块之间的关系。它能够理解哪些块对于识别任务最重要,哪些块之间存在关联。这种处理方式产生的数据表示包含了丰富的语义信息,就像给量子计算机提供了一份详细的"菜谱"。
研究团队还使用了主成分分析(PCA)来进一步压缩这些表示,就像将复杂的菜谱简化成关键步骤,既保留了核心信息,又适应了量子计算机有限的处理能力。他们尝试了512、768和1536三种不同的维度设置,以找到准确性和计算效率之间的最佳平衡点。
**三、类平衡的数据精炼:化繁为简的艺术**
由于量子支持向量机的计算复杂度极高,研究团队采用了一种巧妙的数据精炼策略。这就像从一个巨大的图书馆中挑选出最具代表性的书籍,既要保持内容的丰富性,又要确保工作量可控。
传统的MNIST数据集包含70,000张手写数字图片,Fashion-MNIST数据集也有同样的规模。如果直接用量子计算机处理这些数据,计算复杂度将是惊人的O(70000?),这在当前的技术条件下几乎不可行。
研究团队使用了基于k-means聚类的类平衡数据精炼方法。这个过程就像组织一次大型聚会,你需要确保每个群体都有代表参加,同时控制总人数在合理范围内。具体来说,对于每个数字类别(0到9),研究团队使用k-means算法找到200个最具代表性的样本,确保每个类别的特征分布都能被很好地保留。
这种方法将总数据量从70,000个样本减少到2,000个样本(每类200个,共10类),其中1,600个用于训练,400个用于测试。这样,计算复杂度从O(70000?)降低到O(1600?),使得量子模拟变得可行,同时保持了数据的代表性和类别平衡。
更重要的是,这种精炼方法是可配置的。根据可用的计算资源和量子硬件的限制,可以调整k值和数据集大小,为不同的量子模拟能力提供适应性。这种灵活性使得该方法能够在从资源受限的环境到高性能量子模拟系统的各种场景下应用。
**四、量子核的奥秘:叠加态中的模式识别**
量子支持向量机的核心是量子核函数,这是一个听起来很抽象但实际上很巧妙的概念。传统的支持向量机就像在二维平面上画线来分离不同类别的数据点,但当数据变得复杂时,这条线可能需要变成复杂的曲线,甚至需要在更高维度的空间中才能找到合适的分界面。
量子核利用了量子计算机的独特能力:量子叠加。这就像让数据点同时存在于多个平行世界中,在每个世界里都尝试不同的分类方式,然后将所有可能性的信息综合起来。具体来说,量子核通过计算两个数据点对应的量子态之间的转换概率来衡量它们的相似性。
研究团队使用的量子电路采用了数据重上传和计算-反计算策略。数据重上传意味着同一份数据在量子电路中被多次使用,就像让侦探从多个角度反复审视同一条线索。计算-反计算策略则确保了量子核函数的正确计算,就像先正向推理再反向验证,确保结果的可靠性。
这个量子电路包含16个量子比特,每个量子比特都通过哈达玛门初始化到叠加态,然后通过参数化的旋转门编码输入数据,接着通过CNOT门创建量子比特之间的纠缠,最后再应用另一层旋转门。这个过程就像一个复杂的舞蹈,每个量子比特都在与其他量子比特协调配合,共同创造出一个高维的特征空间。
量子优势的关键在于这个特征空间的维度是指数级的。对于n个量子比特,量子特征空间的维度是2^n,这意味着16个量子比特能够创造出65,536维的特征空间。这个巨大的特征空间为复杂模式的识别提供了丰富的可能性,这是传统计算机难以高效达到的。
**五、张量网络模拟:在经典计算机上实现量子魔法**
由于真正的量子计算机仍然稀少且容易出错,研究团队使用了张量网络模拟技术来验证他们的理论。这就像在实验室中搭建一个精确的模型来测试新的飞机设计,虽然不是真正的飞行,但能够准确预测实际性能。
张量网络是一种数学工具,能够有效地表示和操作高维数据。对于量子系统来说,张量网络可以将复杂的量子态表示为许多较小张量的网络,这样就能在传统计算机上模拟量子计算的过程。这种方法的优势在于它能够利用量子系统的特殊结构来减少计算复杂度。
研究团队使用了NVIDIA的cuTensorNet库,这是一个专门为张量网络计算优化的GPU加速库。通过将量子电路转换为张量网络,然后使用自动调优的收缩路径算法来计算量子核矩阵,整个过程变得高效可行。这就像将复杂的机械装配过程分解为许多简单的步骤,每个步骤都经过优化,最终实现整体的高效运行。
为了进一步提高性能,研究团队对原始实现进行了多项优化。他们使用Python的缓存装饰器来避免重复计算三角函数和指数函数,预计算正弦和余弦值以避免重复表达式,使用列表推导式而不是迭代追加来生成操作数批次,以及预分配张量网络振幅的计算列表。这些优化就像调试一台精密机器,每个小的改进都能带来整体性能的显著提升。
**六、实验结果:Vision Transformer的量子优势**
实验结果令人震撼,清晰地展示了嵌入选择对量子机器学习性能的决定性影响。这就像发现了一把特殊的钥匙,只有它才能打开量子优势的大门。
在MNIST手写数字识别任务中,使用Vision Transformer嵌入的量子支持向量机表现出了显著优势。具体来说,ViT-B/32-512配置实现了99.0%的准确率,相比传统支持向量机的94.81%提高了4.42%。ViT-B/16-512配置甚至达到了99.5%的准确率,提升了4.25%。更令人印象深刻的是,即使是更大的模型ViT-L/14@336-768也保持了99.3%的高准确率,比传统方法提高了0.94%。
在更具挑战性的Fashion-MNIST服装识别任务中,量子优势更加明显。ViT-B/16-512配置实现了90.0%的准确率,相比传统支持向量机的83.32%提高了惊人的8.02%。ViT-B/32-512配置也达到了90.0%的准确率,提升了6.18%。这些结果表明,量子计算机在处理复杂视觉模式时具有特殊的优势。
然而,当使用传统的CNN特征(EfficientNet-B3)时,情况完全不同。量子支持向量机的表现反而比传统方法更差,在MNIST上降低了2.58%到3.55%,在Fashion-MNIST上降低了3.29%到4.26%。这个鲜明的对比揭示了一个重要事实:量子优势不是自动产生的,而是需要合适的数据表示才能实现。
更有趣的是,当使用原始像素数据时,量子支持向量机的表现也显著下降,在MNIST上降低了6.14%,在Fashion-MNIST上降低了6.71%。这进一步证实了特征表示的重要性,也解释了为什么之前的许多量子机器学习研究没有观察到明显的量子优势。
**七、交叉验证与稳定性分析:确保结果可靠性**
科学研究的可信度不仅来自于单次实验的结果,更重要的是结果的一致性和可重复性。研究团队通过5折交叉验证来确保他们的发现是稳定和可靠的,这就像让五个不同的评委独立评价同一个表演,只有当所有评委的评价都一致时,结果才是可信的。
交叉验证的结果显示了令人鼓舞的一致性。最佳表现的量子模型QSVM with ViT-L/14@336-768在MNIST上实现了97.6% ± 1.0%的准确率,在Fashion-MNIST上实现了84.1% ± 1.9%的准确率。这些相对较小的标准差表明结果是稳定的,不是偶然现象或数据分割的偶然结果。
更重要的是,所有使用Vision Transformer嵌入的量子模型都显示出了优秀的AUC分数,几乎达到了99.9%的完美水平。AUC(Area Under the Curve)是衡量分类器性能的重要指标,99.9%的AUC分数意味着模型几乎能够完美地区分不同类别,这在实际应用中具有重要意义。
小提琴图可视化进一步展示了不同模型的性能分布。使用ViT嵌入的量子模型不仅平均准确率更高,而且方差更小,这表明它们的性能更加稳定可预测。相比之下,基线模型和使用EfficientNet嵌入的模型显示出更大的变异性,特别是在更具挑战性的Fashion-MNIST任务上。
混淆矩阵分析显示,最佳量子模型在所有数字和服装类别上都表现出色,没有明显的偏向性。这种均衡的性能表明量子核确实捕获了有意义的特征表示,而不是简单地偏向某些容易识别的类别。
**八、计算效率与可扩展性:实用性考量**
虽然量子优势在准确性方面得到了证实,但计算效率同样是实际应用中需要考虑的重要因素。研究团队详细分析了不同配置的计算成本,为实际部署提供了重要参考。
大多数基于ViT的量子配置在大约3,800秒内完成训练和评估,峰值内存使用量约为43GB。虽然这个计算时间看起来很长,但考虑到这是在进行复杂的量子模拟,这个性能是可以接受的。更重要的是,这比传统的量子模拟方法有了显著改进,研究团队的优化使运行时间从4,492秒减少到3,812秒,节省了680秒。
在性能与效率的平衡方面,QSVM with ViT-B/16-512提供了最佳的折中方案,在实现97.3%准确率的同时,运行时间最短,仅为3,763秒。这使得它在资源受限的环境中具有特殊的价值。
研究团队实现的多项优化显著提升了系统性能。通过函数级缓存避免了重复的三角函数计算,预计算的正弦余弦值减少了冗余表达式,列表推导式替代迭代追加提高了内存效率,预分配张量网络振幅计算减少了垃圾回收压力。这些看似细微的改进累积起来产生了显著的性能提升。
更重要的是,该框架具有良好的可扩展性。数据精炼参数可以根据可用的计算资源进行调整,使得该方法能够适应从资源受限的环境到高性能量子模拟系统的各种场景。随着量子硬件的不断发展,这种适应性将变得越来越重要。
**九、理论解释:为什么Vision Transformer与量子计算机如此般配**
这项研究最引人深思的部分是它提出了一个根本性问题:为什么Vision Transformer嵌入能够与量子核产生如此强烈的协同效应,而CNN嵌入却不能?虽然研究团队承认完整的理论解释仍有待进一步研究,但他们提出了一些有趣的假设。
Vision Transformer的核心机制是自注意力,这种机制使得模型能够同时关注输入的所有部分,并学习它们之间的复杂关系。这种全局的、非局部的信息处理方式与量子系统的非局域性特征有着天然的相似性。量子纠缠允许量子比特之间存在即时的、超越空间限制的关联,这与自注意力机制在图像不同区域之间建立直接连接的方式非常相似。
相比之下,卷积神经网络采用的是局部处理方式,通过滑动窗口逐步提取特征。这种层次化、局部化的处理方式虽然在传统计算中非常有效,但可能无法充分利用量子系统的全局特性。量子核能够在指数级大的特征空间中进行全局优化,而CNN提取的局部特征可能限制了这种全局优化的效果。
另一个可能的解释与信息编码的方式有关。Vision Transformer产生的嵌入包含了丰富的语义信息和长程依赖关系,这些信息在量子态的复杂干涉模式中能够得到更好的表达。量子核通过计算不同量子态之间的内积来衡量相似性,而这种内积计算天然地适合处理高维、稀疏且具有复杂相关性的数据表示。
此外,Vision Transformer的位置编码机制可能也发挥了重要作用。位置编码为每个图像块添加了位置信息,创建了一种结构化的表示,这种结构可能与量子电路中的纠缠模式产生共振效应,从而增强了量子核的表达能力。
**十、实际应用前景:从实验室走向现实世界**
这项研究的意义远远超出了学术范畴,它为量子机器学习的实际应用开辟了新的道路。在许多对准确性要求极高的领域,即使几个百分点的提升也能带来巨大的价值。
在医疗诊断领域,高精度的图像识别能够挽救生命。医学影像分析,如X光片、CT扫描和MRI图像的自动诊断,都需要极高的准确性。8%的准确率提升可能意味着更多的早期癌症能够被及时发现,更多的误诊能够被避免。研究团队提到的嵌入感知量子分类器为医疗AI提供了新的可能性。
在安全关键系统中,如自动驾驶汽车的视觉感知系统,任何准确性的提升都直接关系到公共安全。量子增强的图像识别系统可能能够更好地识别道路标志、行人和其他车辆,减少交通事故的发生。
金融风险评估和欺诈检测是另一个潜在的应用领域。虽然这项研究专注于图像识别,但其核心思想——通过合适的特征表示来释放量子优势——同样适用于金融数据分析。量子核方法可能能够识别传统方法难以发现的复杂模式和异常。
更有趣的是,随着量子硬件的不断发展,这种嵌入感知的方法将变得越来越实用。当前的研究使用了16量子比特的模拟,但随着量子计算机量子比特数量的增加和错误率的降低,更大规模、更复杂的量子机器学习任务将成为可能。
研究团队设计的可配置数据精炼框架为这种扩展提供了良好的基础。用户可以根据可用的量子资源调整数据集大小和精炼参数,实现从小型概念验证到大规模生产部署的平滑过渡。
**十一、局限性与未来研究方向:诚实面对挑战**
尽管这项研究取得了令人兴奋的结果,研究团队也诚实地承认了其局限性,并为未来的研究指明了方向。这种科学诚实的态度本身就值得称赞。
首先,当前的评估主要集中在相对简单的视觉分类基准测试上,即MNIST和Fashion-MNIST。虽然这些数据集在机器学习社区中被广泛使用,但它们的复杂性与真实世界的应用仍有差距。未来需要在更复杂的数据集上验证这些发现,如CIFAR-10、医学影像数据或特定领域的应用数据。
其次,解释Vision Transformer与量子核之间协同效应的理论基础仍然不完整。虽然研究团队提出了一些有趣的假设,但需要更深入的理论分析来完全理解这种现象。这种理论理解对于指导未来的算法设计和优化至关重要。
第三,当前的实现依赖于张量网络模拟,而不是真正的量子硬件。虽然模拟结果提供了有价值的洞察,但真实的量子计算机会引入噪声、退相干和门错误等现实因素。未来需要在实际的量子设备上验证这些结果,并开发对噪声鲁棒的量子机器学习算法。
计算成本仍然是一个重要考虑因素。虽然研究团队的优化显著提升了性能,但3,800秒的训练时间对于许多实际应用来说仍然太长。未来的工作需要进一步优化算法和实现,或者开发更高效的量子模拟方法。
研究团队建议的未来研究方向包括自动化嵌入和核选择策略的开发,这将消除手动超参数调优的需要。探索PCA之外的更精妙的降维技术,以更好地保留语义信息。开发针对增强计算效率优化的量子电路设计。将实证验证扩展到医学影像和其他高维领域,以证明更广泛的实用性。
**十二、更广阔的影响:重新思考量子机器学习**
这项研究的影响远远超出了技术细节,它从根本上改变了我们对量子机器学习的理解。传统的观点认为,量子优势主要来自于量子算法本身的优越性。但这项研究表明,量子优势更多地取决于算法与数据表示之间的协同设计。
这种观点的转变具有深远的意义。它意味着实现量子优势不仅仅是量子计算机硬件的问题,也不仅仅是量子算法的问题,而是需要整个系统的协同优化。从数据预处理到特征提取,从算法设计到硬件实现,每个环节都需要考虑与其他环节的匹配性。
这种系统性思维对于量子机器学习的未来发展至关重要。随着量子硬件的不断改进,我们不应该仅仅期待硬件的进步自动带来性能提升,而应该同时投入精力来开发与量子系统特性相匹配的数据表示和算法设计。
研究还揭示了现代深度学习与量子计算之间意想不到的联系。Vision Transformer的成功表明,在深度学习中证明有效的注意力机制和自监督学习方法可能为量子机器学习提供灵感。这种跨领域的知识迁移可能会催生更多创新的量子机器学习方法。
从更宏观的角度来看,这项研究支持了一种混合计算范式,其中经典计算和量子计算各自发挥优势。经典神经网络负责特征提取和数据预处理,量子计算机负责核心的机器学习任务。这种分工可能是在量子硬件完全成熟之前实现量子优势的最现实路径。
归根结底,这项由爱尔兰都柏林大学团队领导的研究为我们展示了一个重要事实:量子计算的未来不在于简单地复制经典算法,而在于发现和利用量子系统的独特优势。通过将Vision Transformer的注意力机制与量子核的全局优化能力相结合,研究团队找到了一种真正发挥量子优势的方法。
这种发现提醒我们,科学突破往往来自于不同领域知识的巧妙结合。Vision Transformer原本是为了解决计算机视觉问题而设计的,量子核是为了利用量子计算优势而开发的,但当它们结合在一起时,却产生了意想不到的协同效应。这种跨领域的创新思维将继续推动量子机器学习的发展。
随着量子硬件的不断发展和算法的持续优化,我们有理由期待看到更多类似的突破。这项研究不仅为量子机器学习提供了一个实用的框架,更重要的是,它为我们指明了一个方向:真正的量子优势来自于对量子系统特性的深度理解和巧妙利用,而不是简单的硬件升级。这种洞察将继续指导我们在量子计算的征途上前行。
Q&A
Q1:Vision Transformer嵌入为什么能让量子计算机在图像识别上超越传统方法?
A:Vision Transformer采用自注意力机制,能同时关注图像的所有部分并学习它们之间的复杂关系,这种全局的、非局部的信息处理方式与量子系统的非局域性特征天然相似。量子纠缠允许量子比特之间存在即时关联,这与自注意力机制在图像不同区域间建立直接连接的方式非常匹配,从而释放了量子优势。
Q2:为什么使用CNN特征的量子支持向量机表现反而更差?
A:CNN采用局部处理方式,通过滑动窗口逐步提取特征,这种层次化、局部化的处理方式无法充分利用量子系统的全局特性。量子核能在指数级大的特征空间中进行全局优化,而CNN提取的局部特征限制了这种全局优化效果,导致量子计算机的独特优势无法发挥。
Q3:这项研究对普通人有什么实际意义?
A:这项研究为医疗诊断、自动驾驶、金融风控等对准确性要求极高的领域提供了新可能。8%的准确率提升意味着更多早期癌症能被及时发现,自动驾驶系统能更好识别道路状况,金融系统能更准确识别欺诈行为。随着量子硬件发展,这种技术将逐步走向实用化。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。