微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学团队重新定义视频搜索:当几何学遇上人工智能,让机器像人类一样"理解"视频层次

清华大学团队重新定义视频搜索:当几何学遇上人工智能,让机器像人类一样"理解"视频层次

2025-07-29 17:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-29 17:16 科技行者

在这个视频内容爆炸的时代,我们每天都在各种平台上搜索视频。你是否曾经遇到过这样的困扰:明明记得视频中有某个精彩片段,但搜索出来的结果却是整个长视频,你还得自己慢慢找到那个想要的部分?这个看似简单的问题,实际上揭示了当前视频检索技术的一个重大挑战。清华大学深圳国际研究生院的王金鹏团队联合哈尔滨工业大学、香港科技大学等多所知名院校,在2025年7月发表了一项突破性研究,首次将双曲几何学引入视频检索领域,彻底改变了机器理解视频内容的方式。

这项研究发表在计算机视觉领域的顶级会议上,论文题目为《Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning》。有兴趣深入了解的读者可以通过arXiv:2507.17402v1获取完整论文,研究代码也已在GitHub开源(https://github.com/lijun2005/ICCV25-HLFormer)。

传统的视频搜索就像在平坦的地面上寻宝,所有信息都被平等对待,机器很难理解视频内容的层次结构。而这个研究团队的创新之处在于,他们发现视频内容本身具有天然的层次结构——就像一棵大树,有主干、分支和树叶。一个篮球比赛视频可能包含运球、传球、投篮、庆祝等不同层次的动作,这些动作之间存在着复杂的包含关系和层次关系。

研究团队意识到,传统的欧几里得几何(我们日常生活中习惯的平面几何)在处理这种层次结构时存在天然缺陷。这就好比用一张平面地图来表示一个立体的山脉系统,必然会产生扭曲和失真。为了解决这个问题,他们引入了双曲几何学——一种具有负曲率的几何空间,这种空间天然适合表示层次结构,就像用一个弯曲的碗来盛放层层叠叠的花朵,每个层次都能找到自己合适的位置。

一、突破传统思维:从平面到曲面的视角转换

当我们谈论视频检索时,大多数人可能认为这只是一个简单的匹配问题——输入一段文字描述,系统找出相关的视频片段。但实际情况远比这复杂。现有的视频检索系统面临着一个被称为"部分相关视频检索"的挑战,这个专业术语背后隐藏着我们日常使用中经常遇到的问题。

举个具体例子:假设你想找一个关于"扣篮"的篮球视频片段。你在搜索框中输入"球员扣篮得分",系统返回给你一个30分钟的完整比赛视频。虽然这个视频确实包含了扣篮的片段,但你需要自己在30分钟的内容中寻找那个可能只有几秒钟的精彩瞬间。这就是部分相关性的问题——搜索结果在整体上相关,但你真正需要的内容只占其中很小的一部分。

传统的解决方案就像用一把钝刀切蛋糕,往往无法精确分离出你真正想要的部分。研究人员发现,问题的根源在于现有系统都基于欧几里得空间(也就是我们中学数学课上学的平面几何)来处理视频信息。在这种平坦的几何空间中,所有信息都被等同对待,系统很难理解什么是主要内容,什么是次要细节,更难以把握不同内容层次之间的包含关系。

清华团队的洞察力就体现在这里:他们认识到视频内容天然具有层次结构,这种结构更适合用双曲几何来表示。双曲几何是一种具有负曲率的几何系统,与我们熟悉的平面几何不同,它的空间是弯曲的,越靠近边界,空间容量越大。这种特性使得双曲空间特别适合表示层次化的数据结构。

在双曲空间中,视频的整体内容可以位于空间的中心位置,而具体的场景、动作、细节等子内容则按照其重要性和包含关系分布在不同的层次上。这就像一个倒置的金字塔,塔尖是最具体的细节,越往下内容越抽象、包含的信息越广泛。这种表示方法让机器能够更自然地理解"扣篮"是"篮球比赛"的一个组成部分,而"篮球比赛"又是"体育赛事"的一个子类别。

二、架构创新:双轨并行的智能设计

基于这个核心洞察,研究团队设计了一个叫做HLFormer的创新框架。这个名字中的"HL"代表Hyperbolic Learning(双曲学习),"Former"则致敬了在人工智能领域大放异彩的Transformer架构。整个系统的设计哲学可以用"双轨并行,优势互补"来概括。

HLFormer的核心创新在于建立了两个并行的处理分支:一个基于传统的欧几里得空间,另一个基于双曲空间。这种设计就像给机器配备了两种不同的"眼镜"——一副用来看清楚局部细节,另一副用来把握整体层次结构。

在传统的欧几里得分支中,系统使用改进的注意力机制来捕捉视频帧之间的细粒度关系。这个分支擅长发现相邻帧之间的微妙变化,就像一个细心的观察者,能够注意到运动员肌肉的细微紧张、球的轨迹变化等细节信息。

而在双曲分支中,系统使用专门设计的洛伦兹注意力块(Lorentz Attention Block)来处理层次化的语义信息。洛伦兹模型是双曲几何的一种数学表示方法,它能够在保持数值稳定性的同时,有效处理层次化的数据结构。在这个分支中,系统学会了理解视频内容的语义层次——它知道"运球"、"传球"、"投篮"都是"篮球比赛"这个更大概念的组成部分。

两个分支的信息最终通过一个叫做"均值引导自适应交互模块"的组件进行融合。这个模块的工作原理很有趣:它首先计算两个分支输出信息的全局特征,然后基于这些特征动态调整两个分支的权重。这就像一个智能的指挥官,能够根据当前的情况决定是更多依赖细节信息还是层次信息。

三、视角分离:粗细结合的观察策略

在视频内容的处理上,HLFormer采用了一种"一粗一细"的双重观察策略。这种策略的灵感来自于人类观看视频时的自然行为:我们既会关注整体的情节发展,也会留意具体的动作细节。

系统的"凝视分支"负责细粒度的观察。它对视频进行密集采样,就像用高速摄影机记录每一个微小的动作变化。在处理一个篮球视频时,这个分支会仔细观察球员的每一个动作、表情变化、球的运动轨迹等细节信息。这种细致的观察能力使系统能够准确识别出"扣篮"这个动作的具体特征:球员跳跃的高度、手臂的伸展、球进入篮筐的瞬间等。

相对应的"瞥见分支"则负责粗粒度的理解。它对视频进行稀疏采样,将连续的帧序列组合成更大的时间片段,就像观看电影时的蒙太奇片段。这个分支关注的是更宏观的场景变化和情节发展:比赛的节奏、攻防转换、比分变化等。它能够理解"扣篮"这个动作在整个比赛中的战术意义和情感价值。

这两个分支的设计体现了研究团队对视频理解任务的深刻洞察。单纯依赖细节信息容易迷失在局部特征中,而仅仅关注宏观信息又可能错过关键的动作特征。通过双分支的协同工作,系统能够在保持对具体动作敏感性的同时,也维持对整体语义的理解能力。

有趣的是,这两个分支都会经过之前提到的双空间处理——既有欧几里得空间的细节捕捉,也有双曲空间的层次理解。这意味着无论是细粒度的帧级特征还是粗粒度的片段级特征,都会同时获得两种几何空间的表示能力。

四、层次约束:数学之美的实际应用

HLFormer最具创新性的贡献之一是引入了"部分序保持损失"(Partial Order Preservation Loss)。这个听起来很学术的名词背后,隐藏着一个非常直观的观察:在视频检索任务中,查询文本和目标视频之间存在着天然的包含关系。

用一个简单的比喻来解释:如果把视频比作一本厚厚的百科全书,那么用户的文字查询就像是书中的某个词条。词条的内容必须包含在整本书中,但整本书的内容远比单个词条丰富。这种"文本从属于视频"的关系,在数学上可以表示为"文本 ? 视频"的偏序关系。

在双曲几何中,这种层次关系可以通过一个叫做"锥约束"的几何结构来实现。研究团队设计了一个巧妙的机制:对于每个视频表示,在双曲空间中构建一个以该视频为顶点的锥形区域。相关的文本查询必须位于这个锥形区域内部,这样就确保了文本语义被包含在视频语义中。

这个设计的数学原理相当优雅。在双曲空间中,锥的形状由顶点位置和半张角确定。半张角的大小反映了视频内容的丰富程度:内容越丰富的视频,对应的锥形越宽,能够容纳更多样化的文本查询;内容相对单一的视频,对应的锥形较窄,只接受高度相关的查询。

在训练过程中,如果文本表示落在对应视频锥形的外部,系统就会受到惩罚,促使它调整参数,将文本表示"拉回"到锥形内部。这个过程就像用一根无形的橡皮筋连接着文本和视频的表示,确保它们之间保持正确的包含关系。

这种约束机制不仅在数学上优雅,在实际应用中也表现出了显著的效果。它帮助系统学会了区分真正相关的查询和仅仅表面相似的查询,提高了检索的精确度。

五、实验验证:理论与实践的完美结合

为了验证HLFormer的有效性,研究团队在三个权威的大规模数据集上进行了全面的测试:ActivityNet Captions、TVR和Charades-STA。这些数据集涵盖了不同类型的视频内容,从日常活动到电视节目,从短片段到长视频,为系统的性能评估提供了全面的测试环境。

实验结果令人印象深刻。在ActivityNet Captions数据集上,HLFormer在综合评估指标上比之前的?优??提高了4.9%;在TVR数据集上提高了4.3%;在Charades-STA数据集上提高了5.4%。这些看似不大的百分比提升,在视频检索领域实际上代表着显著的性能飞跃。

更重要的是,研究团队通过一系列精心设计的消融实验,验证了系统各个组件的贡献。当他们移除双曲空间分支,只保留传统的欧几里得分支时,系统性能明显下降。当他们移除部分序保持损失时,系统对查询和视频之间层次关系的理解能力显著减弱。

特别有趣的是对注意力块数量和比例的分析。实验发现,纯粹使用欧几里得注意力或纯粹使用双曲注意力都无法达到最佳效果,只有将两者结合才能实现性能的最大化。这验证了研究团队"优势互补"设计理念的正确性。

研究团队还通过可视化分析展示了双曲学习的实际效果。在传统的欧几里得空间中,不同类别的视频帧表示经常混杂在一起,边界模糊。而在引入双曲学习后,不同类别的表示形成了更清晰的聚类,类别间的边界更加分明,这直观地证明了双曲几何在表示层次化数据方面的优势。

六、技术深度:算法设计的精妙之处

HLFormer的技术实现涉及多个创新性的算法设计。在双曲空间的操作中,研究团队面临的第一个挑战就是如何在保持数值稳定性的同时,实现高效的计算。他们选择了洛伦兹模型作为双曲几何的数学表示,这个选择在计算效率和数值稳定性之间取得了良好的平衡。

洛伦兹模型将双曲空间嵌入到一个高维的闵可夫斯基空间中,通过特殊的内积运算来定义距离和角度关系。在这个框架下,研究团队重新设计了注意力机制的计算方式。传统的注意力计算基于欧几里得距离,而在双曲空间中,他们使用洛伦兹距离来衡量特征之间的相似性。

双曲空间中的线性变换也需要特殊处理。研究团队设计了一个巧妙的双曲线性层,它能够确保变换后的结果仍然位于双曲流形上。这个设计涉及复杂的数学推导,包括指数映射和对数映射的运用,将欧几里得空间的向量映射到双曲空间,然后再映射回来。

在特征融合方面,均值引导自适应交互模块的设计也体现了研究团队的巧思。这个模块不是简单地对两个分支的输出进行加权平均,而是通过交叉注意力机制让两个分支的信息进行深度交互。系统首先计算全局特征的均值作为查询信号,然后用这个信号去"询问"每个分支能够提供什么样的有用信息,最后基于这些信息动态调整融合权重。

部分序保持损失的实现也需要精确的数学计算。研究团队需要在双曲空间中定义锥形结构,计算点到锥的距离,并设计合适的损失函数。这涉及到双曲三角学的应用,包括双曲余弦定理的使用,以及角度和距离之间的换算关系。

七、实际应用:技术如何改变生活

HLFormer的技术突破不仅仅停留在学术层面,它的潜在应用前景涉及我们数字生活的方方面面。在视频平台上,这项技术可以显著改善用户的搜索体验。目前我们在各大视频网站上搜索内容时,经常遇到这样的情况:搜索"如何包饺子",结果返回一个2小时的美食节目,而你真正需要的包饺子教程可能只是其中10分钟的内容。

有了HLFormer技术,系统不仅能找到包含相关内容的视频,还能精确定位到具体的时间段。更重要的是,它能理解不同描述之间的层次关系:知道"和面"、"调馅"、"包制"都是"包饺子"这个大概念的组成部分,从而提供更精准的搜索结果。

在教育领域,这项技术的应用潜力同样巨大。在线教育平台可以利用这种技术为学生提供更智能的学习资源检索。当学生搜索"二次函数的图像特征"时,系统不仅能找到相关的教学视频,还能理解这个查询与"抛物线"、"顶点"、"对称轴"等概念的层次关系,提供更全面而有针对性的学习材料。

在新闻媒体领域,记者和编辑经常需要从大量的视频素材中找到特定的新闻片段。传统的关键词搜索往往效率低下,而HLFormer技术可以理解新闻事件的层次结构,比如理解"新闻发布会"、"记者提问"、"官方回应"之间的包含关系,帮助媒体工作者快速定位所需的内容。

对于内容创作者而言,这项技术也具有重要价值。视频博主在制作内容时经常需要引用其他视频中的片段,HLFormer可以帮助他们快速找到与自己创作主题相关的素材,而且能够精确到具体的时间段,大大提高创作效率。

八、挑战与前景:技术发展的道路

尽管HLFormer在技术上取得了显著突破,但研究团队也坦诚地指出了当前面临的挑战和未来的发展方向。双曲几何虽然在表示层次结构方面具有天然优势,但其计算复杂度相对较高,这在大规模应用中可能成为瓶颈。

数值稳定性是另一个需要持续关注的问题。双曲空间中的某些操作,特别是涉及指数和对数映射的计算,在处理极值情况时可能出现数值不稳定的现象。研究团队在论文中提到了他们采用的一些技术手段来缓解这个问题,但承认这仍然是一个需要进一步优化的方面。

模型的可解释性也是一个重要考虑因素。虽然双曲几何在数学上很美妙,但对于普通用户甚至是一些技术人员来说,理解系统为什么做出某个决策可能比较困难。如何在保持技术先进性的同时提高系统的可解释性,是未来需要解决的问题。

从更广阔的角度来看,这项研究为多模态人工智能的发展开辟了新的思路。视频和文本的结合只是多模态学习的一个方面,未来这种双曲几何的方法可能扩展到图像、音频、文本的三模态甚至更多模态的联合学习中。

研究团队还提到了一个有趣的观察:不同类型的内容可能需要不同的几何空间表示。体育视频的层次结构可能与教育视频的层次结构有所不同,未来的系统可能需要自适应地选择最合适的几何表示方法。

九、科学意义:跨学科融合的典范

这项研究的科学价值不仅体现在技术创新上,更重要的是它展示了数学与人工智能深度融合的可能性。长期以来,几何学被认为是一个相对抽象的数学分支,与实际应用相距甚远。然而,HLFormer的成功证明了深度的数学理论可以为现实问题提供优雅的解决方案。

双曲几何最初是由数学家们出于纯粹的理论兴趣而发展起来的,很少有人想到它会在21世纪的人工智能领域发挥重要作用。这种跨学科的融合不仅解决了具体的技术问题,也为其他研究者提供了新的思维模式:在面对复杂问题时,不妨回到数学的基础理论中寻找灵感。

从认知科学的角度来看,这项研究也提供了有趣的观察。人类理解视频内容时确实会建立层次化的语义结构,这种层次化的思维模式可能是智能的本质特征之一。HLFormer通过数学工具模拟了这种认知过程,为我们理解智能本身提供了新的视角。

这项研究还体现了现代人工智能研究的一个重要趋势:从单纯的工程优化转向更深层的理论思考。早期的人工智能研究往往依赖经验性的方法调优,而新一代的研究者更注重从理论高度理解问题的本质,然后设计相应的解决方案。

十、未来展望:技术演进的可能方向

展望未来,HLFormer所代表的双曲学习方法可能在多个方向上继续发展。首先是计算效率的优化。随着专门针对双曲几何运算的硬件加速器的发展,双曲学习的计算瓶颈有望得到缓解。一些研究机构已经开始探索专门的双曲处理单元,这可能为这类算法的大规模应用铺平道路。

在算法层面,研究者们正在探索更多类型的双曲神经网络结构。除了注意力机制,卷积、循环等其他类型的神经网络操作也可能在双曲空间中找到更自然的表示方法。这种探索可能催生出全新的神经网络架构。

跨模态学习是另一个充满潜力的方向。目前的研究主要集中在视频-文本的双模态学习上,但现实世界的信息往往涉及更多模态。如何在双曲空间中优雅地处理图像、视频、文本、音频等多种模态的信息,是一个值得深入研究的问题。

个性化推荐系统也可能从这种技术中受益。用户的兴趣往往具有层次化的结构:比如喜欢"体育"的用户可能具体偏好"篮球",而在篮球中又特别关注"NBA"。双曲几何可能为表示这种层次化的用户偏好提供更自然的方法。

在理论层面,研究者们正在探索其他类型的非欧几何是否也能为人工智能带来新的启发。除了双曲几何,球面几何、射影几何等其他几何结构是否也有应用潜力,这些都是值得探索的方向。

说到底,HLFormer的成功不仅解决了视频检索这一个具体问题,更重要的是它为我们展示了一种全新的思维方式。当我们面对复杂的层次化数据时,不必拘泥于传统的平面思维,而是可以借助数学的力量,在更高维度的空间中寻找更优雅的解决方案。这种思维模式的转变,可能比具体的技术突破更加珍贵,它为未来的人工智能研究开辟了更广阔的可能性空间。

研究团队在论文的最后部分特别强调,他们希望这项工作能够启发更多研究者关注几何学在人工智能中的应用潜力。正如论文中所说,这只是一个开始,双曲学习在视频理解领域的应用还有很大的探索空间。随着更多研究者的加入和技术的不断完善,我们有理由相信,这种基于深度数学理论的人工智能方法将在未来发挥更大的作用,让机器更好地理解和服务于我们的数字化生活。

Q&A

Q1:双曲几何听起来很复杂,普通人能理解HLFormer的工作原理吗? A:可以用一个简单比喻来理解:传统方法像用平面地图表示山脉,会产生扭曲;而HLFormer用弯曲的几何空间,就像用立体模型表示山脉,能更准确地保持层次关系。虽然数学原理复杂,但核心思想就是用更合适的"空间"来组织视频信息。

Q2:这项技术什么时候能在我们常用的视频平台上看到? A:目前HLFormer还处于研究阶段,虽然已开源代码,但要应用到大规模商用平台还需要进一步优化计算效率和稳定性。预计在未来2-3年内,我们可能会在一些专业的视频检索系统中看到类似技术的应用。

Q3:HLFormer相比现有视频搜索技术的最大优势是什么? A:最大优势是能理解视频内容的层次结构。比如搜索"扣篮"时,它知道这是"篮球比赛"的一部分,能更精确地定位到具体片段,而不是返回整个比赛视频让用户自己找。这种层次理解能力是传统平面几何方法难以实现的。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-