
在人工智能飞速发展的今天,能够同时理解图片和文字的多模态大语言模型(MLLMs)正在改变我们与机器交流的方式。不过,这些先进模型有个让人头疼的问题——运行起来实在太"吃资源"了,特别是处理高清图片时更是如此。最近,来自英国赫瑞-瓦特大学的研究团队在《机器学习研究汇刊》2025年11月刊上发表了一项突破性研究,提出了名为"Script"的创新方法,可以让这些"贪吃"的模型变得更加高效。这项研究的主要作者包括杨仲宇、许丹农、庞伟和袁英芳等学者,他们开发的这套系统就像是给模型配备了一副"智能眼镜",能够精准识别出图像中哪些部分真正重要,哪些可以安全删除。
想要理解这项研究的意义,我们可以把多模态大模型比作一位非常博学但有些"强迫症"的图书管理员。当你问这位管理员一个问题时,比如"这张照片里有没有苹果?",他会把整张照片拆解成成千上万个小块(专业术语叫"视觉令牌"),然后逐一仔细检查每一块,哪怕是完全不相关的背景墙角或者模糊的阴影。这种"事无巨细"的工作方式虽然确保了准确性,但也导致了巨大的计算负担——就像用放大镜检查每一粒沙子来寻找钻石一样效率低下。
赫瑞-瓦特大学的研究团队发现,目前的视觉令牌修剪方法存在两个核心问题。第一个问题是现有方法往往忽略了用户具体问什么——就好比一个人无论你问什么问题,都用同样的方式整理房间,完全不考虑你到底在找什么东西。第二个问题是这些方法容易被"注意力陷阱"误导,可能会错误地认为某些显眼但不相关的东西很重要,而忽略了真正回答问题所需的关键信息。
为了解决这些问题,研究团队开发了Script方法,这个名字实际上是"Graph-Structured and QueRy-CondItioned Token Pruning"的缩写。Script的工作原理就像是一位经验丰富的图片编辑师,具备两项核心技能。
一、结构化图像分析:让冗余信息无处遁形
Script的第一个核心组件叫做"图结构修剪"(GSP),它的作用就像是一位擅长发现重复模式的侦探。当面对一张图片时,这位"侦探"不会盲目地检查每一个像素,而是会智能地构建一张"相似性地图",找出那些看起来几乎一模一样的区域。
比如说,当你拍摄一片蓝天时,天空中的大部分区域其实都是相似的蓝色,传统方法可能会把每一小块天空都当作独立的信息来处理,但Script会识别出这些区域的高度相似性。研究团队采用了一种巧妙的"二分图"结构来组织这些视觉信息,就像是将图片中的所有小块分成两个队伍,让它们互相"对话",通过计算相似度来判断哪些信息是多余的。
这种方法的聪明之处在于它不仅能发现局部的重复(比如连续的天空区域),还能识别远距离的相似模式(比如散布在画面不同角落的相似纹理)。通过这种方式,Script能够在保持图像重要信息的同时,大幅减少需要处理的数据量。在实际测试中,这种方法能够减少75%的计算成本,同时几乎不影响最终的识别准确性。
二、查询感知的智能筛选:精准定位关键信息
Script的第二个核心组件被称为"查询条件语义修剪"(QCSP),这就像是为模型配备了一位贴心的私人助理。当你问"这张照片里有没有猫?"时,这位助理不会浪费时间去分析天空或者墙壁,而是会专注于那些可能出现猫咪的区域。
这个系统的工作原理相当精巧。它首先会"理解"你的问题,把问题转换成一种数字化的"查询指纹"。然后,它会用这个指纹去"扫描"图片中的每一个区域,计算每个区域与你的问题的相关性得分。就像是用磁铁吸引铁屑一样,相关性高的区域会被强烈"吸引",而不相关的区域则会被忽略。
但这里有个巧妙的设计:系统不只是简单地挑选相关性最高的区域,而是会使用一种叫做"行列式点过程"(DPP)的数学方法,确保选出的区域既与问题相关,又互相之间具有足够的多样性。这就好比在选择一个均衡的饮食搭配时,你不仅要考虑营养价值,还要确保食物种类的多样性。这种设计防止了系统过度关注某个特定区域而遗漏其他重要信息的问题。
三、协同工作机制:两个系统的完美融合
Script最令人印象深刻的地方在于它如何巧妙地将这两个系统结合在一起。就像是在做菜时既要考虑营养搭配又要考虑色香味的平衡一样,Script需要在去除冗余信息和保留关键信息之间找到最佳平衡点。
具体来说,系统首先会使用图结构修剪来识别和移除那些明显冗余的视觉信息,这就像是先把菜品中明显的杂质挑出来。接着,查询条件语义修剪会根据用户的具体问题来精选最相关的视觉内容,就像是根据食客的口味偏好来调整最终的调料搭配。
这两个过程的结合产生了一种协同效应。图结构修剪确保了整体的效率,而查询条件修剪保证了精确性。更重要的是,当这两个系统选出的区域有重叠时,系统会优先保留这些"双重认可"的区域;而当重叠不够时,系统会智能地从查询相关的区域中补充,确保满足用户问题的回答需求。
四、实际效果验证:数字说话的时刻
研究团队在14个不同的图像和视频理解任务上测试了Script的效果,结果令人印象深刻。在使用LLaVA-NeXT-7B模型的测试中,Script能够实现高达6.8倍的预填充加速和10倍的浮点运算减少,同时仍然保持96.88%的原始性能。这就好比一辆汽车在减重一半的情况下,不仅跑得更快了,而且几乎没有损失动力性能。
更具体地说,当Script将视觉令牌数量减少88.9%时(相当于把1000个信息块减少到只有111个),整个系统的表现仍然能保持在原始水平的99.88%。这种效率提升不是通过牺牲准确性来实现的,而是通过更智能的信息筛选策略。
在与其他现有方法的比较中,Script始终表现出色。例如,在保留相同数量视觉令牌的情况下,Script在多个基准测试中的表现都超过了FastV、TRIM、VisionZip等竞争方法。特别值得注意的是,即使在极端的修剪条件下(保留97.3%的令牌被删除),Script仍能维持89.51%的准确率,而其他方法的准确率普遍降至80%以下。
五、技术细节与创新突破
Script方法的一个重要创新在于它采用了"免训练"的设计理念,这意味着用户可以直接将这套方法应用到现有的多模态大模型中,无需进行任何额外的训练或模型改造。这就像是一个即插即用的效率提升器,大大降低了实际应用的门槛。
在处理视觉冗余时,研究团队通过大量实验发现,图像中的相似性不仅存在于相邻的区域,长距离的区域之间也经常存在相似模式。基于这一发现,他们设计的二分图结构能够同时捕捉局部和全局的冗余信息。实验数据显示,与传统的相似性计算方法相比,这种方法能够在保持93%一致性的同时,将计算时间减少近3倍。
在查询感知机制方面,研究团队巧妙地利用了行列式点过程的数学特性。这种方法能够确保选择的视觉区域不仅与查询高度相关,而且彼此之间保持足够的多样性,避免了信息的过度集中。通过理论分析,研究人员证明了这种方法在数学上等价于最大化所选区域张成的几何体积,从而在保证相关性的同时实现了信息的最大化覆盖。
六、应用前景与实际影响
Script方法的推出对整个人工智能领域具有重要意义。首先,它显著降低了部署高性能多模态模型的硬件要求,这使得更多的中小型企业和研究机构能够负担得起这些先进技术的应用成本。就像是把原本只有大型超市才能承担的高端设备,变成了小商店也能使用的实用工具。
对于移动设备和边缘计算场景来说,这项技术的价值更是不言而喻。智能手机、平板电脑等设备的计算资源相对有限,传统的多模态大模型往往无法在这些设备上流畅运行。但有了Script,这些设备也能够提供接近桌面级别的智能图像理解服务,为普通用户带来更好的体验。
在实际应用中,Script已经展现出了广泛的适用性。无论是视觉问答、图像描述生成,还是视频内容分析,这套方法都能显著提升处理效率。特别是在需要实时处理大量视觉内容的场景中,比如智能监控、自动驾驶或者在线教育等领域,Script都能发挥重要作用。
研究团队还特别测试了Script在视频处理方面的效果。当处理包含64帧的视频时,Script能够将每帧的视觉令牌从169个减少到16个(减少90.5%),同时保持89.30%的准确率。这种效率提升对于视频分析应用来说意义重大,因为视频处理的计算需求通常比静态图像高出几个数量级。
七、技术局限与未来展望
尽管Script展现出了令人瞩目的效果,但研究团队也诚实地指出了当前方法的一些局限性。首先,这种方法需要直接访问模型的中间视觉特征,这意味着它主要适用于开源的多模态大模型,而无法直接应用于像ChatGPT、Gemini等封闭式商业模型。
另外,目前的评估主要集中在视觉-语言任务上,对于涉及音频、深度感知或其他传感器数据的多模态任务,Script的适用性还需要进一步验证和改进。研究团队认为,未来的工作将会扩展到这些更复杂的多模态场景。
研究团队还发现,一些最新的高级开源模型(如Qwen2.5-VL和InternVL3)对视觉令牌修剪比较敏感,这可能是因为这些模型已经内置了一些视觉压缩技术。如何针对这些已经优化过的模型进行进一步的效率提升,将是未来研究的重要方向。
在阈值选择方面,虽然研究显示Script在较宽的参数范围内都表现稳定,但目前仍需要手动设置相似性阈值。研究团队正在探索自动化或基于学习的阈值选择策略,这将进一步提升方法的实用性和通用性。
说到底,Script代表了多模态大模型优化领域的一个重要突破。它不仅解决了当前模型计算效率低下的实际问题,更重要的是提出了一种全新的思路——通过智能的信息筛选而非简单的模型缩减来实现效率提升。这种方法既保持了模型的强大能力,又大幅降低了使用成本,为人工智能技术的普及应用铺平了道路。
对于普通用户来说,这项技术的普及意味着未来我们能够在更多的设备和场景中享受到高质量的智能图像理解服务,而不需要为此承担高昂的计算成本。对于技术开发者来说,Script提供了一个即插即用的优化方案,能够让现有的应用系统获得显著的性能提升。这种技术进步的累积效应,最终将推动整个人工智能产业向着更加高效、普惠的方向发展。
有兴趣深入了解这项研究技术细节的读者,可以通过论文编号"arXiv:2512.01949v1 [cs.CV]"查找完整的研究论文,其中包含了详细的实验数据、技术实现和理论分析。
Q&A
Q1:Script方法是什么?
A:Script是由赫瑞-瓦特大学开发的一种智能图像压缩技术,专门用于优化多模态大语言模型的运行效率。它能够智能识别图像中的冗余信息并根据用户问题精准保留关键内容,在大幅减少计算量的同时几乎不影响模型准确性。
Q2:Script能带来多大的效率提升?
A:在测试中,Script可以实现高达10倍的计算量减少和6.8倍的处理速度提升,同时保持96.88%的原始性能。即使删除88.9%的视觉信息,系统准确率仍能保持在99.88%的水平。
Q3:普通用户能否使用Script技术?
A:目前Script主要适用于开源的多模态大模型,技术开发者可以直接集成使用,无需额外训练。对于普通用户,随着这项技术的推广,未来将能在手机、平板等设备上体验到更快速、更流畅的AI图像理解服务。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。