微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

PATS技术：博尔扎诺自由大学研究团队开创的运动技能评估新方法，让AI更懂专业运动员的动作质量

人工智能视频分析体育技能评估

PATS技术：博尔扎诺自由大学研究团队开创的运动技能评估新方法，让AI更懂专业运动员的动作质量

作者：科技行者

2025-06-09 16:56

分享至：

博尔扎诺自由大学研究团队开发的PATS技术通过保留完整运动片段代替随机抽取视频帧，显著提升了AI评估体育技能的能力。该方法在EgoExo4D基准测试中表现出色，攀岩评估准确率提高26.22%，音乐提高2.39%，篮球提高1.13%。PATS能根据不同运动类型自动调整采样策略，为体育训练和人才发展提供了更准确的自动评估技术。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 16:56 • 科技行者

**运动技能自动评估的突破：博尔扎诺自由大学的创新研究**

在体育训练、教练指导和人才发展领域，如何客观评估运动员技能水平一直是个挑战。2025年6月，意大利博尔扎诺自由大学工程学院的Edoardo Bianchi和Antonio Liotta教授在arXiv上发表了一项创新研究，题为"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment"（技能感知时序采样法：用于多视角运动技能评估），为解决这一问题提供了新思路。这项研究已作为预印本发布在arXiv:2506.04996v1，感兴趣的读者可以通过arXiv网站查阅完整论文。

**为什么运动技能评估如此重要又如此困难？**

想象一下，当你观看一场篮球比赛时，你能轻松分辨出专业球员和业余爱好者的区别。专业球员的运球节奏更加流畅，传球时机把握得更准确，投篮动作更加一气呵成。这些微妙的差异构成了技能水平的本质，但让计算机理解这些差异却非常困难。

与简单地识别"这是篮球运球"不同，技能评估需要计算机理解"这个运球做得有多好"。这就像区分"会做饭"和"是米其林大厨"的差距——不是识别行为本身，而是评判行为的质量。

研究团队发现，目前的视频分析方法存在一个根本性缺陷：它们通常是从视频中随机或均匀地抽取帧进行分析，这就像看电影时随机跳过大段情节一样，破坏了动作的连贯性。想象你试图评价一位芭蕾舞者的表演，但只能看到随机几个静止画面，这显然无法真实评估其舞蹈水平。

**PATS方法：让AI像专业教练一样观察运动员**

博尔扎诺自由大学的研究团队提出的PATS（Proficiency-Aware Temporal Sampling，技能感知时序采样）方法，本质上是教会AI像专业教练那样观察运动员的完整动作序列，而不是碎片化的瞬间。

想象一位体操教练观察运动员的表现。教练不会只看几个随机瞬间，而是会关注完整的动作组合——从起跑、腾空到落地的整个过程。PATS方法正是模拟了这种观察方式：它从视频中提取完整、连续的时间片段，确保每个片段都包含至少一个完整的基础动作，然后在多个这样的片段中进行分析，从而全面评估运动员的技能水平。

**PATS如何工作？像剪辑电影一样提取关键片段**

PATS方法的工作原理可以类比为一位精明的电影剪辑师，需要从一部长电影中剪出几个关键片段来展示演员的表演能力。

这位"剪辑师"由三个关键参数指导工作： 1. 需要提取的总帧数（相当于总时长） 2. 要分割的时间段数量（相当于要剪出几个片段） 3. 每个时间段的理想持续时间（每个片段多长）

假设我们有一段3分钟的篮球运球视频，PATS会根据设置提取例如2个各15秒的连续片段，而不是随机抽取30个散乱的画面。这确保了AI可以观察到完整的运球节奏和连贯性，就像真正的篮球教练会做的那样。

PATS还会根据视频的总长度智能调整片段的分布，确保它们均匀分布在整个表演过程中，捕捉到从开始到结束的不同阶段。它还能处理各种边界情况，比如视频过短或过长的情况，确保即使在不理想的条件下也能获得最佳效果。

**验证PATS效果：在EgoExo4D数据集上的出色表现**

研究团队将PATS集成到一个名为SkillFormer的现有技能评估系统中进行测试。SkillFormer是一个专门用于评估运动技能的AI系统，能够同时处理第一人称视角（想象运动员头戴相机拍摄的画面）和第三人称视角（想象教练从旁边拍摄的画面）的视频。

测试使用了EgoExo4D数据集，这是一个包含1,200多小时视频、来自740名参与者的大型数据集，涵盖了烹饪、音乐、篮球、攀岩、足球和舞蹈六个领域，每个视频都标注了四个技能等级：新手、初级专家、中级专家和高级专家。

结果令人印象深刻：在所有视角配置下，PATS都提高了系统的准确率：第一人称视角提高了3.05%，第三人称视角提高了0.65%，组合视角提高了1.05%。

特别值得一提的是，在某些特定领域，PATS带来了更显著的提升：攀岩技能评估准确率提高了惊人的26.22%，音乐表演评估提高了2.39%，篮球技能评估提高了1.13%。

**为不同活动定制的最佳观察策略**

研究团队通过系统分析发现，不同类型的活动需要不同的观察策略，这与人类专业教练的行为非常相似。

对于篮球这类动态活动，高频率采样（每秒4-5.33帧）加上较少的时间段（2个）效果最好，因为这能保持游戏流的连贯性。篮球在使用这种策略时达到了所有活动中最高的绝对准确率：78.76%。

而对于音乐演奏这类结构化的顺序活动，低频率采样（每秒0.89帧）配合更多的时间段（12个）效果最佳，因为这能捕捉到演奏中的精细变化。音乐表演使用这种策略达到了74.14%的准确率。

烹饪活动则在使用第三人称视角、高频率采样（每秒4帧）和中等数量时间段（8个）时表现最佳，达到60.53%的准确率，这可能是因为烹饪技巧需要从外部清晰观察操作细节。

攀岩则更依赖第一人称视角的快速采样（每秒5.33帧，2个时间段），专注于攀登者自身的体感反馈，使用这种策略达到42.31%的准确率。

**PATS的实际应用前景**

这项研究的应用前景令人期待。想象一下以下场景：

- 运动训练应用可以分析业余运动员的视频，提供专业级的技术改进建议，就像随身携带一位私人教练。 - 体育赛事直播可以实时评估运动员的技术动作质量，为观众提供更深入的比赛分析。 - 运动天赋识别系统可以通过分析年轻运动员的视频，发现那些具有专业潜力的人才。 - 康复中心可以更准确地评估患者的运动恢复进度，制定更精准的康复计划。

更值得注意的是，PATS的设计非常实用——它作为一个预处理步骤工作，不需要改变现有AI系统的架构，也不增加计算负担，这意味着它可以相对容易地集成到现有的视频分析系统中。

**PATS的局限性与未来研究方向**

尽管PATS取得了显著成果，研究团队也坦诚承认它的一些局限性。在舞蹈等主观性较强的领域，基础方法有时表现更好，这表明PATS可能未能充分捕捉舞蹈中的节奏和美学成分。在足球领域，PATS在第一人称视角的表现有所下降，表明该采样策略可能不适合某些特定的活动-视角组合。

研究团队建议未来研究应关注自动配置选择机制、增强节奏活动的时序建模，以及整合音频和触觉反馈等多模态信息。他们还提出使用元学习方法实现跨领域的快速适应，进一步提高系统在新领域的泛化能力。

**结语：迈向更智能的运动技能评估**

博尔扎诺自由大学研究团队的PATS方法代表了运动技能自动评估领域的重要进步。通过模拟专业教练的观察方式，PATS让AI系统能够像人类专家一样连贯地观察和评估运动表现，为体育训练、教练指导和人才发展提供了更准确、更可靠的技术支持。

正如研究团队所展示的，不同运动活动需要不同的观察策略，这一发现不仅提高了技能评估的准确性，也加深了我们对专业技能本质的理解。未来，随着这项技术的进一步发展和应用，我们可能会看到更加个性化、精准的运动技能评估系统，让每个人都能获得专业级的技术指导，无论是专业运动员还是周末爱好者。

如果你对这项研究感兴趣，可以在arXiv网站上搜索"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment"，或者直接访问arXiv:2506.04996v1查阅完整论文。

人工智能视频分析体育技能评估

分享至