视觉是我们感知世界的重要方式,而计算机视觉则是让机器"看懂"世界的关键技术。随着深度学习的发展,视觉Transformer(ViT)模型已经成为计算机视觉领域的主流架构。这篇由浙江大学的陈银杰、香港大学的严子鹏和罗安德鲁以及南洋理工大学的周冲共同完成的研究论文《视觉Transformer的自蒸馏寄存器》(Vision Transformers with Self-Distilled Registers),发表于2025年5月27日的arXiv预印本平台(arXiv:2505.21501v1),为我们提供了一种新颖的方法来改进视觉Transformer的密集特征表示。
视觉Transformer就像是一双电子眼睛,它将图像分割成一系列小方块(称为"补丁"或"patches"),然后通过复杂的注意力机制来理解这些方块之间的关系。想象一下,如果你正在观察一幅画,你不仅会注意到画中的各个元素,还会理解它们之间的联系——这正是视觉Transformer的工作方式。
然而,这类模型存在一个有趣的问题:在处理图像时,有时会产生一些"异常令牌"(artifact tokens)。这些异常令牌就像是我们视野中偶尔出现的"飞蚊症",它们与图像的实际内容不符,干扰了模型对图像细节的准确理解。特别是在需要精确定位物体边界或理解结构的任务中,这些"噪点"会显著降低模型性能。
以往的研究发现,在ViT模型中添加"寄存器令牌"(register tokens)可以有效缓解这个问题。这些寄存器令牌就像是专门设计来吸收噪音的海绵,在训练过程中它们会自动"吸收"那些不协调的异常信息。但问题在于,这种方法需要从头开始训练整个模型,这对于现今越来越大的预训练模型来说几乎是不可行的——想象一下要重新烤一整个蛋糕,仅仅因为表面有一点不平整。
陈银杰和他的团队提出了一个巧妙的解决方案:后置寄存器(Post Hoc Registers,简称PH-Reg)。这是一种自蒸馏方法,能够在不需要额外标记数据和完全重新训练的情况下,为现有的视觉Transformer添加寄存器令牌。就像是在已经烤好的蛋糕上轻轻涂抹一层奶油,修复表面的不平整,而不需要重新烤制整个蛋糕。
这种方法的巧妙之处在于其简单性和有效性。研究团队从同一个预训练模型初始化了两个网络:一个作为"教师",保持冻结状态不变;另一个作为"学生",添加了随机初始化的寄存器令牌。教师模型通过测试时数据增强(如随机位移和水平翻转)生成无噪声的密集特征表示,这些特征随后被用来指导学生模型的训练。
实验结果令人印象深刻。在零样本和线性探测设置下,PH-Reg明显改善了视觉Transformer在语义分割和深度预测等任务上的性能。例如,在8个开放词汇语义分割基准测试中,PH-Reg CLIP的平均性能达到41.85%的mIoU(平均交并比),明显优于其他方法。这就像是原本戴着略微模糊眼镜的人突然换上了高清镜片,能够更准确地识别物体的边界和细节。
更重要的是,这种改进几乎不需要额外的计算成本,因为只有少量参数(主要是寄存器令牌本身)需要更新。对于那些已经在海量数据上训练好的庞大视觉模型来说,这种轻量级的后处理方法提供了一条实用的改进路径。
研究团队还进行了深入的消融研究,探索了不同数量的寄存器令牌以及不同解冻组件对性能的影响。结果表明,即使只有一个寄存器令牌也能带来显著改善,而16个寄存器令牌则能提供最佳效果。此外,研究还发现异常令牌并非总是高幅度的,在某些模型中它们实际上是低幅度的,这对理解这些异常的本质提供了新的视角。
这项研究的意义不仅限于技术层面。在现实应用中,更准确的密集特征表示意味着自动驾驶系统可以更精确地识别道路边界,医疗图像分析可以更准确地定位病变区域,甚至智能手机的增强现实应用也能更自然地将虚拟内容与真实世界融合。每一个需要精确理解图像空间结构的应用都可能从这项技术中受益。
总的来说,PH-Reg提供了一种高效且实用的方法来改进现有视觉Transformer的密集特征表示,而无需昂贵的重新训练过程。它就像是为高级相机镜头添加了一层特殊的滤镜,让机器"看"世界的视野更加清晰、准确。随着视觉AI应用的不断扩展,这种能够提升模型精确度而不显著增加计算负担的技术无疑将具有广泛的应用前景。
一、视觉Transformer和异常令牌问题
想象一下,你正在使用一台高端相机拍摄风景照,但相机镜头上有一些微小的灰尘。这些灰尘虽然很小,却会在照片上留下令人讨厌的斑点,影响整体画面质量。在视觉Transformer(ViT)世界中,这些"灰尘"就是所谓的"异常令牌"(artifact tokens)。
视觉Transformer已成为计算机视觉领域的主导架构。与传统的卷积神经网络不同,ViT将图像分割成一系列小方块或"补丁",然后使用自注意力机制处理这些补丁,使它们能够相互"交流",从而捕捉全局特征。这就像是一群人在讨论一幅画作,每个人负责描述画面的一小部分,然后通过交流来理解整幅画的含义。
然而,研究人员发现,在这个过程中会出现一些异常令牌。这些令牌与周围图像内容不协调,就像是那些讨论画作的人中突然有人开始描述一个完全不相关的物体。这些异常令牌会干扰模型对图像细节的准确理解,尤其是在需要精确定位或结构理解的任务中,如语义分割或深度估计。
陈银杰等研究者解释道,这些异常令牌之所以出现,部分原因是ViT缺乏强烈的内置空间先验,这导致密集表示的不一致性。简单来说,传统的卷积网络天生就对空间结构有很好的理解(就像人类自然会将靠近的物体联系起来),而ViT则需要从数据中学习这种理解,这个过程中可能会产生一些"噪音"。
那么,如何解决这个问题呢?一种有效的方法是向ViT添加"寄存器令牌"(register tokens)。这些寄存器令牌在训练过程中会自动"吸收"异常信息,就像是专门设计的海绵,吸收掉图像表示中的"杂质"。虽然这些寄存器令牌在训练过程中没有接受显式监督,但它们会自然地学习关注全局对象,从而提高模型性能。
然而,添加寄存器令牌意味着对模型架构进行根本性修改,这需要从头开始训练——一个耗时且计算密集的过程。考虑到现今的大型预训练视觉模型动辄需要数千GPU小时训练,这种方法在实际应用中面临严重限制。这就像是发现房子有一个小问题,但解决方案却是拆掉整栋房子重建一样不切实际。
这正是陈银杰和他的团队面临的挑战:如何在不需要完全重新训练的情况下,为现有的预训练ViT模型添加寄存器令牌的好处?他们的解决方案——后置寄存器(PH-Reg)——开创了一种全新的方法,既保留了预训练模型的强大性能,又有效减少了异常令牌的影响,就像是在不拆除房子的情况下修复问题。
二、PH-Reg:自蒸馏框架的创新设计
PH-Reg的核心理念可以用一个简单的比喻来理解:想象你有一位经验丰富的老师(预训练模型),他知识渊博但偶尔会口误。你想保留他的所有知识,但希望消除那些口误。你不能让老师重新学习所有知识(那太耗时了),所以你采取了一个巧妙的策略:让老师教授同一内容多次,记录下来,然后找出那些保持一致的部分(真知识)和那些每次都不同的部分(口误)。然后,你训练一位学生(添加了寄存器的模型)专注于那些一致的部分,同时学会忽略那些不一致的部分。
这正是PH-Reg框架的工作原理。在这个框架中,教师和学生网络都从同一组预训练权重初始化。区别在于,教师网络在训练过程中保持冻结不变,而学生网络添加了随机初始化的寄存器令牌,并且只有一小部分参数被允许更新。
具体来说,PH-Reg包含以下关键步骤:
首先,对于输入图像,研究团队应用了测试时增强(test-time augmentation)技术。这包括对图像进行随机偏移和水平翻转,生成多个略有不同的版本。通过这种方式,他们可以观察到哪些特征在不同变换下保持一致(这些是真正的图像特征),哪些特征随机变化(这些可能是异常令牌)。
研究者发现,异常令牌相对于图像内容并不是静态的。如果将图像偏移一定距离(用空白填充空隙),异常不会按相同距离偏移。这一观察为去噪过程提供了关键线索。
在教师模型中,这些增强后的图像被输入到冻结的预训练ViT中,生成相应的特征表示。然后,这些特征被映射回原始图像空间,并取平均值,得到一个"去噪"的密集特征表示。这个过程不需要梯度优化,因此非常高效,比传统的基于神经场的去噪方法快约两个数量级。
同时,学生模型接收原始(未增强)图像作为输入。学生模型添加了随机初始化的寄存器令牌,并且只有选定的参数(包括寄存器、位置嵌入、卷积补丁嵌入层和最终Transformer层)被允许更新。学生模型的目标是生成与教师模型去噪特征表示相匹配的输出。
训练过程使用了多目标蒸馏策略,结合余弦相似度和均方误差损失,以确保学生模型输出与教师目标在方向和幅度上都保持一致。具体的损失函数为:总损失 = 1 - 余弦相似度(目标, 预测) + 均方误差(目标, 预测)。
研究团队还进行了详细的消融研究,探索了不同数量的寄存器令牌和不同解冻组件的影响。结果表明,即使只有一个寄存器令牌也能带来显著改善,但16个寄存器令牌提供了最佳效果。此外,解冻位置嵌入和最后的注意力层也对性能有积极影响。
整个训练过程只需要一个适量的无标签图像集,计算开销相对较小。这使得PH-Reg成为一种实用的后处理方法,可以有效提升现有预训练模型的性能,而无需耗费大量计算资源进行完全重新训练。
PH-Reg的优势在于其简单性和高效性。它不需要额外的标记数据,不需要梯度优化的去噪过程,也不需要完全重新训练模型。它保留了预训练模型的大部分权重,仅添加少量参数(主要是寄存器令牌本身),同时显著提高了模型的密集特征表示质量。这就像是给高清相机添加了一个特殊的滤镜,能够自动去除图像中的噪点,让画面更加清晰、准确。
三、实验验证:PH-Reg在多种任务上的出色表现
为了验证PH-Reg的有效性,研究团队在多种密集预测任务上进行了全面评估,包括零样本开放词汇语义分割和基于线性探测的分割与深度预测。这些实验不仅展示了PH-Reg的性能优势,还深入探索了异常令牌的本质及其对模型性能的影响。
在开放词汇语义分割任务上,研究团队在八个广泛使用的基准数据集上进行了评估,包括PASCAL VOC 2012、PASCAL Context、COCO-Object、COCO-Stuff、Cityscape和ADE20K-150等。为确保公平比较,所有方法都使用相同的OpenAI CLIP ViT-B/16权重作为视觉编码器。
量化结果令人印象深刻。PH-Reg CLIP在8个测试数据集中的7个上取得了最佳性能,平均mIoU(平均交并比)达到41.85%,明显优于其他方法。特别是在VOC21(63.01%)和COCO Object(35.27%)数据集上,PH-Reg的表现尤为突出。相比之下,使用DVT(另一种去噪方法)增强的MaskCLIP和NACLIP效果有限,这可能是因为DVT中的残差估计器假设异常是静态的,而这一假设并不总是成立。
定性结果更加直观地展示了PH-Reg的优势。通过可视化不同方法生成的密集特征UMAP(一种降维可视化技术)和相应的热图,可以清晰看到PH-Reg生成的特征更加干净、连贯,热图也更准确地对应语义区域。在图像中,其他方法经常在热图中显示异常令牌,这些异常与局部图像语义不一致,而PH-Reg的结果则几乎没有这些问题。
在基于线性探测的评估中,研究团队在PASCAL VOC 2012和ADE20K-150语义分割数据集以及NYUv2深度数据集上进行了实验。在这些实验中,他们冻结预训练的ViT主干,只训练一个线性层作为解码头,用于预测像素级分割或深度。
结果同样令人鼓舞。PH-Reg在6个去噪ViT主干中的5个上取得了改进,在VOC21上的mIoU提高了+5.04%,在ADE20k上提高了+3.64%。特别值得注意的是,虽然DVT在DINOv2上表现良好,但在其他基于CLIP的模型上改进有限。相比之下,PH-Reg在各种不同的ViT主干上都能取得稳定的性能提升。
在深度估计任务上,PH-Reg同样展现了优势。它在预训练ViT主干上持续改进性能,其中DINOv2 + PH-Reg在深度估计的δ1准确率上达到了86.35%,优于DVT增强的DINOv2(85.23%)。
为了更深入理解异常令牌的本质,研究团队进行了详细的消融研究。他们发现,尽管先前研究指出DINOv2中的异常令牌具有较高幅度,但这并非普遍现象。在OpenAI的CLIP和OpenCLIP中,异常通常比周围补丁具有较低幅度,而在DFN-CLIP和DINOv2中则相反。这表明异常令牌的性质可能与训练动态有关,即使训练目标非常相似,异常令牌的特征也可能不同。
研究团队还探索了PH-Reg中各个组件的重要性。他们发现,增加寄存器令牌数量能持续提高性能,但从8个到16个的提升变得较小。解冻位置嵌入、卷积补丁嵌入层和最终注意力层对性能也有积极影响。此外,增加测试时增强的数量也能提高模型与目标特征的对齐度。
这些实验结果不仅验证了PH-Reg的有效性,还为理解和解决视觉Transformer中的异常令牌问题提供了新的视角。PH-Reg提供了一种实用、高效的解决方案,能够显著提升现有预训练模型的密集特征表示质量,而无需完全重新训练。
四、PH-Reg的工作原理深度解析
PH-Reg的成功关键在于其巧妙的自蒸馏框架设计,以及对视觉Transformer中异常令牌本质的深刻理解。让我们更深入地探索这一方法的工作原理及其技术细节。
首先,我们需要理解自蒸馏的概念。传统的知识蒸馏通常涉及一个较大的教师模型和一个较小的学生模型,教师模型指导学生模型学习。而在自蒸馏中,教师和学生基本上是同一个模型的两个版本。在PH-Reg中,这两个版本都从相同的预训练权重初始化,区别在于学生模型添加了寄存器令牌,并且只有特定参数被允许更新。
PH-Reg的核心创新在于如何利用测试时增强来获取去噪的密集特征表示。研究团队发现,异常令牌相对于图像内容不是静态的,这一发现为去噪过程提供了关键线索。具体来说,如果一个图像区域在不同增强版本中生成的特征保持一致,那么这很可能是真实的图像特征;而如果特征在不同增强中变化很大,那可能是异常令牌。
基于这一理解,研究团队设计了一个简单而有效的去噪过程:对同一输入图像应用多种增强(如随机偏移和水平翻转),将增强后的图像输入到冻结的教师模型中,然后将生成的特征映射回原始图像空间,并取平均值。这种方法不需要梯度优化,因此比基于神经场的传统去噪方法(如DVT)快约两个数量级。
值得注意的是,这种测试时增强的去噪方法在数学上等同于优化一个离散网格的表示以最小化均方误差,但不需要梯度计算。在论文的附录中,研究团队证明了取特征的样本均值确实是在均方误差损失下的最优解。
在学生模型方面,添加的寄存器令牌是随机初始化的,它们参与自注意力过程,类似于[CLS]令牌,但在输出时会被丢弃。这些寄存器令牌的作用是"吸收"异常项,使得其他令牌(即图像补丁令牌)能够产生更干净、更一致的特征表示。
研究团队通过消融研究发现,即使只有一个寄存器令牌也能带来显著改善。特别是,一个寄存器配置中特征余弦相似度的99百分位数超过了原始情况(无寄存器)的50百分位数(中位数)。这表明寄存器不仅改善了极端情况下的特征表示,还显著提高了整体特征质量。
另一个关键发现是,注意力层,特别是接近输出的那些层,在异常形成中起着重要作用。通过解冻最后的注意力层,学生模型能够学习更好地利用寄存器令牌来吸收异常,从而产生更干净的特征表示。
研究团队还发现,虽然先前研究指出位置嵌入与异常令牌的形成有关,但这不足以完全解释异常的存在。通过解冻位置嵌入,PH-Reg确实能够改善性能,但最大的提升来自于结合寄存器令牌、位置嵌入和最后注意力层的更新。
在实际应用中,PH-Reg的高效性尤为重要。整个训练过程只需要一个适量的无标签图像集,计算开销相对较小。与需要完全重新训练的方法相比,PH-Reg提供了一种实用的后处理解决方案,能够显著提升现有预训练模型的性能,同时保留其原有优势。
总的来说,PH-Reg的工作原理可以概括为:利用测试时增强揭示和去除异常令牌,然后通过自蒸馏框架教会添加了寄存器的学生模型产生更干净、更一致的特征表示。这一过程不需要额外的标记数据,不需要完全重新训练,也不对异常令牌的性质做强假设,因此适用于各种不同的预训练视觉Transformer模型。
五、PH-Reg的意义和未来展望
PH-Reg的提出和验证不仅解决了视觉Transformer中的一个具体技术问题,还为计算机视觉领域的发展带来了更广泛的启示和影响。在这一章节中,我们将探讨PH-Reg的实际意义、局限性以及未来研究方向。
首先,让我们理解PH-Reg在实际应用中的意义。随着视觉Transformer在各种计算机视觉任务中的广泛应用,提高其密集特征表示的质量变得越来越重要。在自动驾驶中,更准确的语义分割可以帮助车辆更好地理解道路环境;在医疗图像分析中,更精确的物体定位可以提高诊断准确性;在增强现实应用中,更好的深度估计可以实现更自然的虚拟内容集成。PH-Reg通过提供一种高效的后处理方法,使这些应用能够从更高质量的密集特征表示中受益,而无需重新训练庞大的预训练模型。
PH-Reg的另一个重要意义在于其对视觉Transformer中异常令牌本质的新见解。研究团队发现,异常令牌在不同模型中可能具有不同特征——在某些模型中是高幅度的,而在其他模型中则是低幅度的。这一发现挑战了先前关于异常令牌的某些假设,为理解视觉Transformer的内部工作机制提供了新的视角。这也提醒我们,不同的预训练目标和数据集可能导致模型内部表示的不同特性,需要相应地调整改进方法。
然而,PH-Reg也存在一些局限性。正如研究团队在论文的讨论部分指出的,虽然PH-Reg在大多数基于CLIP的模型上表现优于DVT,但在DINOv2上,DVT有时仍能取得更好的结果。这可能是因为DVT中的静态异常假设对某些模型(如DINOv2)更为适用。这表明,异常令牌的性质可能与模型架构和训练目标有关,不同模型可能需要不同的去噪策略。
未来研究可以从多个方向进一步发展PH-Reg:
首先,研究者可以探索如何自动确定最适合特定模型的去噪策略,而不需要强烈的固定假设。这可能涉及开发一种元学习框架,能够根据模型特性动态调整去噪方法。
其次,可以探索将PH-Reg与其他改进视觉Transformer的方法结合,如优化注意力机制或引入新的正则化技术。这种组合可能产生更强大的模型,能够在更广泛的任务和数据集上表现出色。
第三,研究者可以将PH-Reg的思想扩展到其他领域,如自然语言处理或多模态学习。异常表示问题可能不仅限于视觉Transformer,其他基于Transformer的模型也可能面临类似挑战。
最后,随着视觉Transformer模型规模的不断增长和应用范围的扩大,开发更高效的改进方法变得越来越重要。PH-Reg为这一方向提供了一个很好的起点,但仍有很大的探索空间。
总的来说,PH-Reg代表了一种实用、高效的解决方案,能够显著提升现有预训练视觉Transformer的性能,而无需完全重新训练。它不仅解决了实际问题,还为理解和改进深度学习模型的内部表示提供了新的见解。随着视觉AI应用的不断扩展,这种能够提升模型精确度而不显著增加计算负担的技术将具有广泛的应用前景。
六、PH-Reg技术实现细节
为了帮助读者更全面地理解PH-Reg,本章节将详细介绍其技术实现细节,包括模型架构、优化策略以及实验设置。这些信息对于希望复现研究结果或将PH-Reg应用到自己项目中的读者尤为重要。
在模型架构方面,PH-Reg的教师模型保持原始预训练ViT的结构不变。对于基于CLIP的模型,由于研究重点是零样本开放词汇分割,研究团队使用了NACLIP对最终层的修改。这种修改不会引入额外的权重,是一种无训练的处理方式。根据实证分析,NACLIP的邻域注意力机制能够改善特征一致性。对于DINOv2,研究团队直接使用最终输出层,不对教师网络进行任何修改。
学生模型的架构则是在原始预训练ViT的基础上添加了16个寄存器令牌。对于基于CLIP的学生模型,为确保表示对齐,直接使用输出层的v头(即MaskCLIP输出)。对于基于DINO的学生模型,则不应用这种修改。为适应输入图像,使用双三次插值调整位置嵌入大小。除此之外,其他层保持不变。
在优化策略方面,研究团队采用了几个关键设计:首先,对于每个输入图像,使用双三次插值将短边调整为特定大小(CLIP基模型为448,DINOv2为518),然后随机裁剪为相应大小的正方形。其次,对每个输入图像生成10个增强版本,包括随机偏移和水平翻转。水平方向和垂直方向的偏移从[-0.15, 0.15]范围内均匀采样,水平翻转以0.5的概率采样。为确保每个补丁都被覆盖,第一个图像不应用任何增强。所有增强后的图像被输入到教师模型,而原始图像则输入到学生模型。目标特征计算为10个增强版本的平均值。
训练框架使用PyTorch实现,通过PyTorch Accelerate管理分布式训练。训练在4个NVIDIA Ada 6000 GPU上进行,使用混合精度优化以平衡计算效率和数值稳定性。对于CLIP基模型,使用AdamW优化器,初始学习率为3e-4,最终学习率为1e-5,权重衰减为1e-2,批量大小为16,训练100个周期。对于DINOv2,使用相同的优化器,但初始学习率为1e-4,最终学习率为5e-6,批量大小为8。所有实验都使用指数学习率调度器。
在数据集选择方面,研究团队使用了8个广泛使用的语义分割数据集进行开放词汇分割评估,包括PASCAL VOC 2012、PASCAL Context、COCO-Object、COCO-Stuff、Cityscape和ADE20K-150等。为确保公平比较,所有方法都使用相同的评估设置,包括相同的分辨率、裁剪大小和步长。对于线性探测评估,研究团队在PASCAL VOC 2012和ADE20K-150进行语义分割实验,在NYUv2进行深度估计实验。这些实验遵循先前工作的设置,使用冻结的主干和训练的线性层作为解码头。
值得注意的是,研究团队还进行了皮尔逊相关系数分析,这提供了一种不依赖于类别先验知识的评估方法。在这种评估中,PH-Reg在7个数据集上取得了平均0.404的相关系数,明显优于其他方法。这再次证明了PH-Reg在提高密集特征表示质量方面的有效性。
最后,研究团队开源了他们的代码,可通过GitHub访问。这使得其他研究者能够轻松复现结果,并将PH-Reg应用到自己的项目中。代码实现清晰、模块化,包含了本章节描述的所有技术细节。
总的来说,PH-Reg的技术实现相对简单直接,但其效果却非常显著。这种简单性和有效性的结合使PH-Reg成为一种实用的解决方案,能够广泛应用于各种预训练视觉Transformer模型。无论是学术研究还是工业应用,都可以从这种高效的后处理方法中受益,提升模型在密集预测任务上的性能。
归根结底,PH-Reg代表了一种聪明的解决方案,它没有试图通过复杂的算法或庞大的计算资源来解决问题,而是通过深入理解问题本质,提出了一种简单而有效的方法。这种"少即是多"的设计理念在当今深度学习研究中尤为难得和可贵。它提醒我们,有时候最优雅的解决方案并不是最复杂的那个,而是能够抓住问题核心并以最小代价解决它的那个。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。