微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

釜山大学团队破解AI视觉模型的"记忆难题"：让机器更聪明地"遗忘"

人工智能视觉令牌剪枝自适应算法

釜山大学团队破解AI视觉模型的"记忆难题"：让机器更聪明地"遗忘"

作者：科技行者

2026-03-06 10:34

分享至：

釜山大学和LG电子联合团队通过深入研究AI视觉模型的"记忆负担"问题，发现了两种主流的视觉信息筛选策略各有优缺点，并揭示了图片复杂度对策略效果的决定性影响。基于这一洞察，研究团队开发了名为AgilePruner的自适应系统，能根据图片特点智能选择最佳处理策略，在9个基准测试中表现出色，不仅大幅提升了计算效率（减少89%计算量），还显著降低了AI幻觉问题，为智能视觉技术的广泛应用奠定了重要基础。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-06 10:34 • 科技行者

当你打开手机拍照时，是否想过手机是如何瞬间识别出画面中的人脸、物体和场景的？在这背后，有一种叫做大视觉语言模型的AI技术在默默工作，就像一个极其聪明的助手，能够同时"看懂"图片和"理解"文字。不过，这个助手有个小毛病——它的"记忆力"实在太好了，好到有些"负担过重"。

这项由釜山大学和LG电子联合开展的研究发表于2026年的国际学习表征会议（ICLR 2026），论文编号为arXiv:2603.01236v1。研究团队发现了一个有趣的现象：当前最先进的AI视觉模型在处理图像时，会产生成百上千个"视觉记忆片段"（专业术语叫视觉令牌），就像人脑在观察一张照片时会记住照片中的每个细节一样。然而，就如同人类大脑需要学会忽略无关信息来专注重点一样，AI模型也需要学会"遗忘"那些不重要的视觉信息，才能更高效地工作。

研究团队通过大量实验发现，目前业界广泛使用的两种"遗忘"策略各有优缺点，就像两种不同性格的人在整理房间时的不同方式。第一种叫"注意力导向"的方法，就像一个专注型的人，总是把注意力集中在最重要的物品上，收拾得很精准，但有时会错过房间角落里的有用东西。第二种叫"多样性导向"的方法，则像一个面面俱到的人，力求保留房间里各个角落的代表性物品，但有时会把一些不太重要的东西也保留下来，甚至偶尔会产生一些并不存在的"幻觉"。

更有趣的是，研究团队还发现了一个重要规律：面对简单的图片（比如白色背景上的一个苹果），专注型的"遗忘"方式效果更好；而面对复杂的图片（比如热闹的街市场景），面面俱到型的方式则更有优势。这就像在安静的图书馆里需要高度专注，而在繁忙的商场里则需要保持全方位的警觉。

基于这些发现，研究团队开发了一种"聪明的自适应遗忘"方法，能够根据图片的复杂程度自动调整策略。简单来说，就是让AI学会了"察言观色"——看到简单图片时采用专注模式，看到复杂图片时切换到全面模式。实验结果显示，这种方法在9个不同的测试场景中都表现优异，不仅提升了准确率，还显著减少了AI产生虚假信息的问题，同时大幅降低了计算成本。这项研究为未来开发更智能、更高效的AI视觉系统提供了重要指导。

一、AI视觉的"记忆负担"问题

当我们看到一张照片时，大脑会瞬间捕捉到无数信息——颜色、形状、物体、空间关系等等。有趣的是，现代AI视觉模型的工作方式与人脑有些相似，它们也会把一张图片分解成数百个小的"记忆单元"，每个单元记录着图片的一小部分信息。

这些记忆单元在专业术语中被称为"视觉令牌"。以目前广泛使用的LLaVA模型为例，它在处理一张普通照片时会产生576个这样的令牌，每个令牌都包含着4096个数字组成的特征描述。这就像是把一张照片撕成576个小纸片，每个纸片上都密密麻麻写着4096个描述性词汇。

问题在于，当AI需要理解这张照片并用文字描述它时，就必须同时处理所有这576个令牌。这个过程的计算复杂度会随着令牌数量的增加而呈指数级增长，就像同时思考576个不同话题会让人脑袋发胀一样。更糟糕的是，这些令牌中有许多包含的是重复或无关的信息，就像房间里堆满了重复的杂物一样。

研究团队发现，如果不解决这个"记忆负担"问题，AI视觉模型的运行速度会变得极其缓慢，耗电量巨大，这严重限制了它们在实际应用中的普及。因此，如何让AI学会"聪明地遗忘"成为了一个迫在眉睫的技术挑战。

为了量化这个问题的严重程度，研究团队进行了详细测试。他们发现，在标准配置下，处理一张图片需要消耗3.14万亿次浮点运算，每张图片的处理时间达到172毫秒，GPU内存占用13.6GB。这样的资源消耗对于普通用户来说几乎是不可接受的，也解释了为什么目前最先进的AI视觉功能主要还局限在大型科技公司的服务器上，而不是每个人的手机里。

二、两种"遗忘"哲学的较量

面对AI的"记忆负担"问题，研究界发展出了两种截然不同的解决思路，就像两种不同的人生哲学一样。

第一种思路被称为"注意力导向"方法，这种方法的核心理念是"抓重点"。它的工作原理类似于一个专注的摄影师，总是把镜头对准最重要的主体。在技术层面，这种方法会分析AI模型内部的"注意力分布"——也就是模型认为图片中哪些区域最重要，然后只保留那些获得最高注意力分数的视觉令牌，果断丢弃其他被认为不重要的部分。

这种方法的优点很明显：它能够确保最关键的视觉信息得到保留，就像经验丰富的编辑总能抓住新闻的核心要点一样。在处理简单场景时，这种方法表现尤其出色。比如当图片中只有一个明显的主体对象时，注意力导向的方法能够精准地锁定这个对象，生成准确而简洁的描述。

第二种思路叫"多样性导向"方法，它的哲学完全不同，更像是一个试图保持全面视野的观察者。这种方法不会简单地根据重要性排序来删除信息，而是努力确保保留下来的视觉令牌能够代表图片中的各种不同特征。就像一个博物馆策展人在策划展览时，不仅要选择最著名的作品，还要确保展品能够全面代表不同的艺术流派和风格。

多样性导向方法的工作原理是计算不同视觉令牌之间的相似度，然后通过一种叫"有效秩"的数学工具来衡量这些令牌的多样性水平。有效秩就像是一个"多样性温度计"——数值越高，说明保留的信息越丰富多样；数值越低，说明信息越集中单一。

有趣的是，研究团队通过大量实验发现，这两种方法在实际应用中都存在意想不到的问题。注意力导向的方法虽然能够抓住重点，但有时过于"专注"，可能会遗漏图片中的重要细节，特别是在处理复杂场景时表现不佳。而多样性导向的方法虽然能够保持信息的丰富性，但却有一个严重的副作用——它更容易让AI产生"幻觉"，也就是描述一些图片中并不存在的物体或场景。

研究团队通过一个叫CHAIR的专门测试发现，当使用多样性导向方法时，AI产生幻觉的频率明显高于注意力导向方法。具体来说，多样性方法的幻觉率达到了57.4%，而注意力方法只有45.4%。这个发现颠覆了许多人的直觉——原本以为保持信息多样性会让AI更准确，但结果恰恰相反。

三、图片复杂度决定最佳策略

在深入研究这两种方法的优缺点过程中，研究团队意外发现了一个重要规律：图片的复杂程度会显著影响不同"遗忘"策略的效果。这个发现就像发现了一把解锁谜题的钥匙。

研究团队开发了两个巧妙的测量工具来量化图片的复杂度。第一个工具叫"注意力熵"，它测量的是AI的注意力在图片中的分散程度，就像测量一个人在观察场景时目光的游移程度。如果一张图片的注意力熵很低，说明AI的注意力高度集中在少数几个区域，这通常意味着图片内容相对简单明确。相反，如果注意力熵很高，说明AI需要同时关注图片中的许多不同区域，这表明场景较为复杂。

第二个工具是前面提到的"有效秩"，它评估的是视觉令牌的多样性水平，可以理解为图片中信息的"丰富度温度计"。简单的图片（比如白色背景上的一个水果）通常有效秩较低，因为图片中的大部分区域都包含相似的信息。复杂的图片（比如繁忙的街道场景）则有效秩较高，因为画面中包含了各种不同的元素和细节。

通过在MME基准测试数据集上进行大规模实验，研究团队发现了一个清晰的规律。对于简单图片，比如那些用于文字识别、数学计算等任务的图片，它们通常具有较低的注意力熵（平均4.47）和有效秩（平均58），这时注意力导向的方法表现更好，能够达到69.51的准确率。而对于复杂图片，比如那些需要识别多个物体位置和相互关系的场景图片，它们的注意力熵（平均4.87）和有效秩（平均106）都更高，这时多样性导向的方法效果更好，准确率能达到86.0。

这个发现的实际意义非常重要。它解释了为什么之前的研究中两种方法的表现总是此消彼长，原来并不是某一种方法天生更好，而是不同的方法适合处理不同类型的图片。就像在安静的图书馆里需要专注阅读，而在热闹的市场里需要时刻保持全方位的警觉一样。

研究团队进一步分析发现，这种差异的根本原因在于信息分布的不同。简单图片中的关键信息往往集中在少数区域，这时候"抓重点"的策略最有效。复杂图片中的重要信息则分散在多个区域，需要"面面俱到"的策略才能避免遗漏。这个洞察为开发更智能的自适应系统提供了科学依据。

四、智能自适应"遗忘"方案的诞生

基于对图片复杂度规律的深刻理解，研究团队开发了一套创新的自适应解决方案。这套方案的核心思想是让AI学会"察言观色"——根据每张图片的特点自动选择最合适的"遗忘"策略。

这个自适应系统的工作原理可以用一个聪明的图书管理员来比喻。当面对一本内容简单的儿童绘本时，管理员知道只需要关注几个关键页面就能掌握全书要点。但当面对一本内容丰富的百科全书时，管理员会确保从各个章节都选取代表性内容，以保持信息的全面性。

在技术实现上，这套系统首先会快速分析输入图片的复杂度特征。它会计算图片的有效秩值，然后与一个通过大量训练数据统计得出的平均值进行比较。如果当前图片的有效秩低于平均值，系统就判断这是一张"简单图片"，随即启动注意力导向模式，重点保留那些获得最高注意力分数的视觉令牌。如果有效秩高于平均值，系统就认为这是一张"复杂图片"，转而采用多样性导向策略，确保保留的信息具有良好的代表性。

为了验证这套自适应方案的效果，研究团队进行了大规模的对比实验。他们首先测试了将这种自适应机制应用到现有混合方法上的效果。结果显示，无论是应用到VisPruner还是BAT这样的成熟系统上，自适应调整都带来了一致的性能提升。在128个令牌的配置下，改进幅度达到了1.11个百分点；在更严格的64个令牌配置下，提升幅度也有0.94个百分点。

更令人鼓舞的是，研究团队还开发了一个完全基于自适应原理的全新"遗忘"方法。这个方法采用了一种巧妙的"相似度阈值"技术，就像一个智能的内容筛选器。系统会按照注意力分数从高到低的顺序遍历所有视觉令牌，每选中一个令牌后，就会删除所有与它过于相似的其他令牌。关键的创新在于，这个"过于相似"的判断标准会根据图片复杂度自动调整。

对于简单图片，系统使用较严格的相似度阈值，这意味着只有非常相似的令牌才会被删除，从而保留更多细微差别的信息。对于复杂图片，系统使用较宽松的阈值，允许删除更多相似的令牌，以获得更高的多样性。这种动态调整机制确保了系统能够根据实际需求在"精度"和"广度"之间找到最佳平衡点。

五、显著的性能突破与广泛验证

研究团队在9个不同的多模态基准测试上对这套自适应系统进行了全面评估，结果令人印象深刻。这些测试涵盖了从基础视觉理解到复杂推理的各种任务，就像一套全方位的"智力测验"。

在资源消耗方面，新方法实现了显著的效率提升。以64个令牌的配置为例，相比原始的576个令牌，计算量减少了89%，从3.14万亿次浮点运算降低到只有0.48万亿次，处理延迟从172毫秒缩短到115毫秒，GPU内存占用保持在13.30GB的合理水平。这样的效率提升意味着这项技术有望在普通消费设备上得到广泛应用。

在准确性方面，自适应方法在保持高效率的同时还提升了性能。以TextVQA这个需要从图片中识别和理解文字的任务为例，新方法达到了56.0%的准确率，超过了其他所有对比方法。在涵盖各种视觉理解任务的综合评分中，新方法保持了原始模型96.76%的性能，这个数字远超其他令牌削减方法。

特别值得关注的是在幻觉控制方面的突破。通过CHAIR数据集的测试，研究团队发现自适应方法显著降低了AI产生虚假信息的倾向。具体来说，幻觉率从纯多样性方法的57.4%降低到了52.2%，同时保持了75.7%的召回率，这意味着系统在避免错误信息的同时还能识别更多真实存在的物体。

为了确保研究结果的可靠性和通用性，团队还在更大规模的模型上进行了验证实验。他们测试了LLaVA-1.5-13B、LLaVA-NeXT-7B和Qwen2.5-VL-7B等不同架构的模型，结果表明自适应原理在各种模型上都能带来一致的改进效果。这证明了所发现的规律具有广泛的适用性，不仅仅局限于特定的模型架构。

研究团队还进行了大量的细节分析实验。他们发现，当保留128个令牌时，自适应方法的平均性能达到98.04%，而当严格限制到只保留32个令牌时，仍能维持94.02%的性能。这种在极端资源限制下的稳健表现，为未来在移动设备和边缘计算场景中的应用奠定了基础。

六、深入洞察：为什么多样性会带来幻觉

研究过程中一个最令人意外的发现是，保持信息多样性竟然会增加AI产生幻觉的风险。这个结果与直觉相反，但经过深入分析，研究团队找到了合理的解释。

当AI采用多样性导向的策略时，它会努力从图片的各个区域选取代表性信息。这种做法确实能够获得更全面的视觉覆盖，就像一个尽职的新闻记者试图从事件的各个角度进行报道。但问题在于，为了保持多样性，系统有时会选择一些注意力分数相对较低的令牌，这些令牌可能包含模糊或不确定的视觉信息。

更深层的原因在于，多样性导向的方法在本质上是一种"探索性"策略，它倾向于保留更多可能性，即使这些可能性的可靠性并不高。这就像一个好奇心旺盛的人总是愿意尝试各种可能性，但有时会把想象当作现实。相比之下，注意力导向的方法更像是一个保守谨慎的观察者，只关注最确定的信息，虽然可能会错过一些细节，但很少会产生明显错误的判断。

研究团队通过详细的案例分析发现，多样性方法产生的幻觉通常有一定的"合理性"——它们并非完全随机的错误，而是基于图片中某些微弱信号的过度推断。例如，看到图片中有一些模糊的圆形区域时，多样性方法可能会推断这是"球"或"水果"，而实际上这只是背景中的光斑或阴影。

这个发现对于理解AI系统的工作机制具有重要意义。它提示我们，在设计AI系统时需要在"全面性"和"可靠性"之间找到适当的平衡。过分追求信息的全面性可能会降低系统的可信度，而这正是自适应方法试图解决的核心问题。

七、技术实现的巧思与创新

这套自适应系统的技术实现充满了巧思，其中最核心的创新是一个简洁而高效的动态阈值公式。研究团队将复杂的自适应逻辑浓缩成了一个优雅的数学表达式，就像将复杂的烹饪技巧总结成一个简单易懂的配方。

这个公式的核心思想是根据当前图片的复杂度与平均复杂度的比值来调整相似度阈值。当处理简单图片时，比值较小，系统会使用较严格的阈值，更多地保留细微的差异信息。当处理复杂图片时，比值较大，系统会使用较宽松的阈值，更积极地消除冗余信息。

为了确保系统的稳定性，研究团队还设计了一个统计学上界限制机制。这个机制防止阈值出现极端值，确保系统在面对异常复杂或异常简单的图片时仍能正常工作。这种设计体现了工程实践中"鲁棒性"的重要原则。

在计算效率方面，团队采用了一种巧妙的优化策略。他们发现，通过计算较小的协方差矩阵而不是直接进行大矩阵的奇异值分解，可以将有效秩的计算复杂度从原来的O(ND?)降低到O(N?D + N?)。在典型的配置下（N=576，D=4096），这种优化将计算时间从理论上的几百毫秒缩短到实际的3.4毫秒，只占整个推理时间的3.2%。

研究团队还开发了一套专门的评估框架来验证系统的自适应能力。这套框架能够系统性地测试不同复杂度图片下的性能变化，并自动生成详细的分析报告。通过这套工具，研究人员可以直观地观察到系统是如何根据图片特征调整策略的，这为后续的优化工作提供了重要依据。

八、广阔的应用前景与实际意义

这项研究的影响远远超出了学术层面，它为多个实际应用领域带来了新的可能性。在智能手机领域，这种高效的视觉理解技术可以让手机更快速地识别照片内容，同时减少电池消耗。用户在使用照片搜索功能时将体验到更快的响应速度，而手机也能在不影响准确性的前提下延长使用时间。

在自动驾驶汽车领域，这项技术的价值更加明显。自动驾驶系统需要实时处理大量的视觉信息，包括道路标志、其他车辆、行人等等。传统的方法要么处理速度太慢，无法满足实时性要求，要么为了提升速度而牺牲准确性，存在安全隐患。新的自适应方法能够根据道路场景的复杂程度自动调整处理策略：在简单的高速公路场景下专注于关键信息快速处理，在复杂的城市交叉路口则保持全面的感知能力。

在医疗影像分析领域，这种技术同样具有重要价值。医生在查看CT扫描或MRI图像时，有些图像的病变特征非常明显，有些则需要仔细观察多个细微特征才能做出判断。自适应系统能够帮助医疗AI根据图像的复杂程度调整分析策略，在保证诊断准确性的同时提高工作效率。

更广泛地看，这项研究为整个AI领域提供了一个重要启示：单一的处理策略往往无法适应所有场景，智能系统需要具备根据任务特点动态调整策略的能力。这种"因地制宜"的设计思路可以应用到语言理解、决策制定等其他AI任务中，推动整个领域向更加智能化和实用化的方向发展。

从产业发展的角度看，这项技术有助于降低AI应用的门槛。过去，先进的视觉AI功能往往需要昂贵的高性能服务器才能运行，现在有望在普通的消费级设备上实现。这将推动AI技术的民主化，让更多人能够享受到智能视觉技术带来的便利。

九、面向未来的思考与展望

这项研究不仅解决了当前AI视觉模型面临的实际问题，更重要的是它揭示了一个深层的设计原则：优秀的AI系统应该具备根据任务特点自适应调整行为的能力。这种"智能的智能"代表了AI发展的一个重要方向。

展望未来，研究团队认为这种自适应思路可以进一步扩展。除了图片复杂度，系统还可以考虑任务类型、用户偏好、设备性能等多个因素来动态调整处理策略。例如，当用户在移动设备上快速浏览照片时，系统可以优先考虑速度；而当用户需要详细分析图像内容时，系统可以自动切换到高精度模式。

从技术演进的角度看，这种自适应机制有望与其他前沿技术相结合，产生更大的协同效应。比如与强化学习结合，让系统通过与用户的交互不断优化自己的策略选择；与联邦学习结合，让系统能够从多个用户的使用模式中学习更好的适应策略。

这项研究也为AI系统的可解释性研究提供了新的思路。通过分析系统在不同场景下的策略选择，研究人员和用户可以更好地理解AI的决策过程，增强对系统的信任感。这种透明性对于AI技术在敏感领域的应用具有重要意义。

最终，这项来自釜山大学的研究提醒我们，AI技术的进步不仅体现在更复杂的算法和更大的模型上，也体现在更智能的系统设计和更深刻的问题洞察上。通过深入理解AI系统的工作机制，找出其局限性的根本原因，然后设计出巧妙的解决方案，这正是推动AI技术健康发展的正确路径。

Q&A

Q1：什么是视觉令牌，为什么它会成为AI的负担？

A：视觉令牌就像AI理解图片时产生的"记忆碎片"，一张普通照片会产生576个这样的碎片，每个都包含4096个特征数字。由于AI需要同时处理所有这些碎片，计算量会随着碎片数量呈指数级增长，就像同时思考576个话题会让人脑袋发胀一样，严重影响AI的运行速度和效率。

Q2：为什么保持信息多样性会让AI产生幻觉？

A：多样性导向的方法为了保持全面性，有时会选择一些可靠性不高的模糊信息，就像一个好奇心旺盛的人会把各种可能性都当作现实。比如看到图片中的光斑或阴影，AI可能会推断成"球"或"水果"。相比之下，注意力导向的方法更保守谨慎，只关注最确定的信息，虽然可能错过细节但很少出错。

Q3：AgilePruner的自适应机制具体是如何工作的？

A：AgilePruner就像一个聪明的图书管理员，会先判断图片的复杂程度。面对简单图片（如白背景上的苹果），它采用"专注模式"重点保留最重要的信息；面对复杂图片（如繁忙街道），它切换到"全面模式"确保各方面信息都有代表。这种"察言观色"的能力让它在9个测试场景中都表现优异，既提升了准确率又降低了计算成本。

人工智能视觉令牌剪枝自适应算法

分享至