微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

威斯康星大学麦迪逊分校和艾伦人工智能研究所：视频理解的"剪枝神器"让AI看视频提速62%

视频理解令牌剪枝效率优化

威斯康星大学麦迪逊分校和艾伦人工智能研究所：视频理解的"剪枝神器"让AI看视频提速62%

作者：科技行者

2026-03-27 10:36

分享至：

威斯康星大学麦迪逊分校和艾伦人工智能研究所开发出STTS技术，让AI像人类一样智能筛选视频信息。该技术可丢弃50%冗余视觉数据，同时保持理解准确性，整体处理速度提升62%。通过模仿人类选择性注意机制，STTS为视频AI的效率瓶颈提供了突破性解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-27 10:36 • 科技行者

这项由威斯康星大学麦迪逊分校和艾伦人工智能研究所联合开展的研究发表于2026年3月的计算机视觉领域顶级期刊，论文编号为arXiv:2603.18004v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们观看一段视频时，其实有很多画面信息是重复的。比如一个人坐在椅子上讲话，背景的墙壁、桌子在整个视频中几乎没有变化，真正有价值的信息主要集中在讲话者的面部表情和手势动作上。人脑天然具备这种"选择性注意"的能力，能够自动忽略无关信息，专注于重要内容。但对于人工智能来说，它们却像一个极度认真的学生，会仔细分析视频中的每一个像素，包括那些毫无意义的重复背景。这种"一视同仁"的处理方式虽然确保了信息的完整性，但也带来了巨大的计算负担。

研究团队发现，现有的视频理解模型就像一个需要处理海量文件的办公室。每当一个新视频进来，模型都要把视频切分成无数个小块（专业上叫做"视觉令牌"），然后逐一分析每个小块。这个过程就好比要求一个人仔细阅读一本书中的每个字母，包括标点符号和空格，而不是直接理解词语和句子的含义。随着视频变长、画面变多，这种处理方式的计算量会急剧增长，就像雪球越滚越大，最终可能压垮整个系统。

为了解决这个问题，研究团队开发了一个名为"时空令牌评分"（STTS）的创新技术。这个技术的核心思想就像是给AI配备了一双"慧眼"，让它能够像人类一样识别出哪些视觉信息真正重要，哪些可以安全忽略。具体来说，STTS会为视频中的每一小块画面打分，就像老师批改试卷一样，给重要的内容打高分，给冗余的内容打低分，然后果断丢弃那些得分过低的部分。

这种评分机制非常聪明，它不是简单地比较相邻画面的相似度，而是结合了两种维度的智慧。第一种是"空间智慧"，它能识别同一画面中哪些区域更重要。比如在一个做饭视频中，厨师的手部动作和锅里的食物明显比背景的橱柜更值得关注。第二种是"时间智慧"，它能发现不同时间点之间的冗余信息。如果背景在连续几秒内都没有变化，那么保留一份就够了，其余的都可以删除。

整个系统的工作流程就像一条高效的生产线。首先，视频被送入视觉处理器（技术上称为视觉变换器），在处理的中途，STTS评分系统开始工作，为每个视觉块打分。接着，系统会保留高分的重要信息，丢弃低分的冗余内容。为了确保处理效率，研究团队还设计了一个巧妙的"打包算法"，将分散的有效信息重新组织成紧凑的格式，就像整理行李箱一样，让所有有用的物品都能合理摆放，不浪费任何空间。

最令人印象深刻的是实验结果。研究团队在13个不同的视频问答任务上测试了这项技术，发现STTS可以安全地丢弃50%的视觉信息，同时几乎不影响AI的理解能力。更重要的是，这种"减负"带来了显著的效率提升：整个系统的运行速度提高了62%，无论是训练新模型还是实际应用都能受益。这就好比原本需要2小时完成的工作，现在只需要45分钟就能搞定，而且质量几乎没有下降。

研究团队特别值得称道的是，他们的方法具有很强的通用性。不像以往的一些技术只能在特定环节发挥作用，STTS是一个"全流程优化"的解决方案。它从视频处理的早期阶段就开始工作，持续到最终的语言理解环节，实现了端到端的效率提升。这种设计哲学就像是对整个工厂的生产流程进行优化，而不是仅仅改进某一个工作站。

更有趣的是，研究团队还发现了一个"越长越划算"的现象。当处理更长的视频时，STTS的效率优势会变得更加明显。在处理256帧的长视频时，速度提升可以达到2.25倍。这个发现特别有意义，因为随着视频内容越来越丰富，人们对AI处理长视频的需求也在不断增长。STTS为这个趋势提供了技术保障。

为了验证技术的有效性，研究团队还进行了一系列对比实验。他们将STTS与简单的随机删除、基于相似度的启发式方法等进行比较，结果显示STTS在所有测试中都表现最佳。特别是在长视频理解任务中，STTS的优势更加突出，这证明了其时空结合评分机制的有效性。

研究团队还展示了一些直观的可视化结果。在一个类似超级马里奥的游戏视频中，STTS能够准确识别并保留游戏角色和移动平台等动态元素，同时果断丢弃静态的背景墙壁。在真实生活场景中，STTS会优先保留人物面部表情和手势动作，而忽略无关的背景信息。这种"智能筛选"的能力正是人类视觉注意力机制的体现。

这项技术的实际应用前景非常广阔。对于视频内容平台来说，STTS可以大大降低视频分析的计算成本，让AI能够更快地理解和处理海量视频内容。对于教育领域，这意味着AI可以更高效地分析教学视频，提供个性化的学习建议。对于安防监控，STTS可以帮助系统快速识别关键事件，而不被大量的背景信息干扰。

从技术发展的角度来看，STTS代表了视频AI技术的一个重要突破。它不是通过增加计算资源来提高性能，而是通过更聪明的信息处理方式来实现效率和效果的双重提升。这种"巧干"而非"苦干"的思路，为AI技术的可持续发展提供了新的方向。

特别值得一提的是，STTS还具有很好的扩展性。研究团队发现，在测试阶段增加处理的视频帧数，可以进一步提升长视频理解的准确性。这种"测试时扩展"的策略让AI能够在计算资源允许的情况下，通过处理更多视觉信息来获得更好的理解效果，实现了灵活性和性能的平衡。

说到底，这项研究解决的是AI视频理解中的一个核心矛盾：如何在保持理解准确性的同时，大幅提升处理效率。STTS通过模仿人类的选择性注意机制，为这个问题提供了一个优雅的解决方案。它不仅在技术上具有创新性，更重要的是为视频AI技术的普及应用扫清了效率障碍。

归根结底，这项技术让AI在观看视频时变得更加"聪明"，不再是眉毛胡子一把抓，而是像人类一样能够抓住重点。这种进步不仅意味着更快的处理速度和更低的计算成本，也为未来更复杂、更智能的视频理解应用奠定了基础。随着技术的进一步发展和完善，我们有理由相信，AI将在视频理解方面达到前所未有的效率和准确性平衡。

Q&A

Q1：什么是STTS时空令牌评分技术？

A：STTS是一种让AI更聪明地处理视频的技术，它能像人类一样识别视频中的重要信息和冗余内容。通过给视频的每个小块画面打分，保留重要部分，丢弃无用信息，从而大幅提升处理速度。