微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

PATS技术:博尔扎诺自由大学研究团队开创的运动技能评估新方法,让AI更懂专业运动员的动作质量

2025-06-09 16:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-09 16:56 科技行者

**运动技能自动评估的突破:博尔扎诺自由大学的创新研究**

在体育训练、教练指导和人才发展领域,如何客观评估运动员技能水平一直是个挑战。2025年6月,意大利博尔扎诺自由大学工程学院的Edoardo Bianchi和Antonio Liotta教授在arXiv上发表了一项创新研究,题为"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment"(技能感知时序采样法:用于多视角运动技能评估),为解决这一问题提供了新思路。这项研究已作为预印本发布在arXiv:2506.04996v1,感兴趣的读者可以通过arXiv网站查阅完整论文。

**为什么运动技能评估如此重要又如此困难?**

想象一下,当你观看一场篮球比赛时,你能轻松分辨出专业球员和业余爱好者的区别。专业球员的运球节奏更加流畅,传球时机把握得更准确,投篮动作更加一气呵成。这些微妙的差异构成了技能水平的本质,但让计算机理解这些差异却非常困难。

与简单地识别"这是篮球运球"不同,技能评估需要计算机理解"这个运球做得有多好"。这就像区分"会做饭"和"是米其林大厨"的差距——不是识别行为本身,而是评判行为的质量。

研究团队发现,目前的视频分析方法存在一个根本性缺陷:它们通常是从视频中随机或均匀地抽取帧进行分析,这就像看电影时随机跳过大段情节一样,破坏了动作的连贯性。想象你试图评价一位芭蕾舞者的表演,但只能看到随机几个静止画面,这显然无法真实评估其舞蹈水平。

**PATS方法:让AI像专业教练一样观察运动员**

博尔扎诺自由大学的研究团队提出的PATS(Proficiency-Aware Temporal Sampling,技能感知时序采样)方法,本质上是教会AI像专业教练那样观察运动员的完整动作序列,而不是碎片化的瞬间。

想象一位体操教练观察运动员的表现。教练不会只看几个随机瞬间,而是会关注完整的动作组合——从起跑、腾空到落地的整个过程。PATS方法正是模拟了这种观察方式:它从视频中提取完整、连续的时间片段,确保每个片段都包含至少一个完整的基础动作,然后在多个这样的片段中进行分析,从而全面评估运动员的技能水平。

**PATS如何工作?像剪辑电影一样提取关键片段**

PATS方法的工作原理可以类比为一位精明的电影剪辑师,需要从一部长电影中剪出几个关键片段来展示演员的表演能力。

这位"剪辑师"由三个关键参数指导工作: 1. 需要提取的总帧数(相当于总时长) 2. 要分割的时间段数量(相当于要剪出几个片段) 3. 每个时间段的理想持续时间(每个片段多长)

假设我们有一段3分钟的篮球运球视频,PATS会根据设置提取例如2个各15秒的连续片段,而不是随机抽取30个散乱的画面。这确保了AI可以观察到完整的运球节奏和连贯性,就像真正的篮球教练会做的那样。

PATS还会根据视频的总长度智能调整片段的分布,确保它们均匀分布在整个表演过程中,捕捉到从开始到结束的不同阶段。它还能处理各种边界情况,比如视频过短或过长的情况,确保即使在不理想的条件下也能获得最佳效果。

**验证PATS效果:在EgoExo4D数据集上的出色表现**

研究团队将PATS集成到一个名为SkillFormer的现有技能评估系统中进行测试。SkillFormer是一个专门用于评估运动技能的AI系统,能够同时处理第一人称视角(想象运动员头戴相机拍摄的画面)和第三人称视角(想象教练从旁边拍摄的画面)的视频。

测试使用了EgoExo4D数据集,这是一个包含1,200多小时视频、来自740名参与者的大型数据集,涵盖了烹饪、音乐、篮球、攀岩、足球和舞蹈六个领域,每个视频都标注了四个技能等级:新手、初级专家、中级专家和高级专家。

结果令人印象深刻:在所有视角配置下,PATS都提高了系统的准确率:第一人称视角提高了3.05%,第三人称视角提高了0.65%,组合视角提高了1.05%。

特别值得一提的是,在某些特定领域,PATS带来了更显著的提升:攀岩技能评估准确率提高了惊人的26.22%,音乐表演评估提高了2.39%,篮球技能评估提高了1.13%。

**为不同活动定制的最佳观察策略**

研究团队通过系统分析发现,不同类型的活动需要不同的观察策略,这与人类专业教练的行为非常相似。

对于篮球这类动态活动,高频率采样(每秒4-5.33帧)加上较少的时间段(2个)效果最好,因为这能保持游戏流的连贯性。篮球在使用这种策略时达到了所有活动中最高的绝对准确率:78.76%。

而对于音乐演奏这类结构化的顺序活动,低频率采样(每秒0.89帧)配合更多的时间段(12个)效果最佳,因为这能捕捉到演奏中的精细变化。音乐表演使用这种策略达到了74.14%的准确率。

烹饪活动则在使用第三人称视角、高频率采样(每秒4帧)和中等数量时间段(8个)时表现最佳,达到60.53%的准确率,这可能是因为烹饪技巧需要从外部清晰观察操作细节。

攀岩则更依赖第一人称视角的快速采样(每秒5.33帧,2个时间段),专注于攀登者自身的体感反馈,使用这种策略达到42.31%的准确率。

**PATS的实际应用前景**

这项研究的应用前景令人期待。想象一下以下场景:

- 运动训练应用可以分析业余运动员的视频,提供专业级的技术改进建议,就像随身携带一位私人教练。 - 体育赛事直播可以实时评估运动员的技术动作质量,为观众提供更深入的比赛分析。 - 运动天赋识别系统可以通过分析年轻运动员的视频,发现那些具有专业潜力的人才。 - 康复中心可以更准确地评估患者的运动恢复进度,制定更精准的康复计划。

更值得注意的是,PATS的设计非常实用——它作为一个预处理步骤工作,不需要改变现有AI系统的架构,也不增加计算负担,这意味着它可以相对容易地集成到现有的视频分析系统中。

**PATS的局限性与未来研究方向**

尽管PATS取得了显著成果,研究团队也坦诚承认它的一些局限性。在舞蹈等主观性较强的领域,基础方法有时表现更好,这表明PATS可能未能充分捕捉舞蹈中的节奏和美学成分。在足球领域,PATS在第一人称视角的表现有所下降,表明该采样策略可能不适合某些特定的活动-视角组合。

研究团队建议未来研究应关注自动配置选择机制、增强节奏活动的时序建模,以及整合音频和触觉反馈等多模态信息。他们还提出使用元学习方法实现跨领域的快速适应,进一步提高系统在新领域的泛化能力。

**结语:迈向更智能的运动技能评估**

博尔扎诺自由大学研究团队的PATS方法代表了运动技能自动评估领域的重要进步。通过模拟专业教练的观察方式,PATS让AI系统能够像人类专家一样连贯地观察和评估运动表现,为体育训练、教练指导和人才发展提供了更准确、更可靠的技术支持。

正如研究团队所展示的,不同运动活动需要不同的观察策略,这一发现不仅提高了技能评估的准确性,也加深了我们对专业技能本质的理解。未来,随着这项技术的进一步发展和应用,我们可能会看到更加个性化、精准的运动技能评估系统,让每个人都能获得专业级的技术指导,无论是专业运动员还是周末爱好者。

如果你对这项研究感兴趣,可以在arXiv网站上搜索"PATS: Proficiency-Aware Temporal Sampling for Multi-View Sports Skill Assessment",或者直接访问arXiv:2506.04996v1查阅完整论文。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-