近日,一篇来自华盛顿大学和加州大学伯克利的有趣研究《当你不在时,动物们是如何跳舞的》(How Animals Dance (When You're Not Looking))在arXiv(arXiv:2505.23738v1)上发表。这项研究由华盛顿大学的Xiaojuan Wang、Steven M. Seitz、Brian Curless、Ira Kemelmacher-Shlizerman以及加州大学伯克利的Aleksander Holynski共同完成。研究团队开发了一种全新的框架,用于生成与音乐同步、遵循特定编舞模式的动物舞蹈视频。有兴趣深入了解的读者可访问项目主页:how-animals-dance.github.io。
一、动物也会跳舞?研究背景与灵感
"宇宙中的一切都有节奏;一切都在跳舞。"——玛雅·安杰洛(Maya Angelou)的这句名言,成为了研究团队的灵感来源。
想象一下,在生日派对上看到一个蹒跚学步的孩子随着音乐欢快地跳跃。人类天生就会随着音乐自发地跳舞,而动物也不例外!研究者提到了一只名叫"雪球"的葵花凤头鹦鹉,它能够根据不同的音乐提示表演多达14种不同的舞蹈动作。研究团队幽默地假设,当我们不在场时,我们的动物朋友可能一直都在跳舞。
现有的生成式模型在创建舞蹈视频方面面临几个主要挑战:大多数模型只能生成几秒钟的短片,不能生成音频与视频同步的内容,且缺乏对长时间动作的直观控制。目前大多数视频生成控制方法都是细粒度的,只能一次操作一帧,比如身体姿势、相机位置或动作笔刷等。
而本研究团队提出了一种全新的视频生成控制方式——"编舞模式"(choreography patterns)。用户可以指定一个结构化的舞蹈动作序列或"节拍",例如A-B-A-B-C-D-A,其中每个字母对应一个特定的动作,并约束视频中的动作遵循该编舞模式。更棒的是,研究团队展示了如何从现有的(人类)舞蹈视频中自动提取这些编舞模式。
二、如何让动物翩翩起舞?研究方法与技术创新
一支优秀的舞蹈遵循基本的编舞规则,这些规则使动作与伴奏音乐的节奏流动相协调,并且通常涉及镜像和重复等重复模式,以帮助强化音乐结构。研究团队利用舞蹈的这种内在结构使生成任务更加可行。
想象一下拼图游戏。研究团队首先生成几张关键帧图像(就像拼图的主要块),每个关键帧代表一个独特的姿势。然后,他们将舞蹈合成表述为一个图优化问题:找到通过这些关键帧的最佳路径,以满足指定的编舞模式。每个在路径中选择的关键帧都与音乐节拍对齐。最终,通过使用生成式视频模型合成关键帧之间的中间帧,产生完整的舞蹈视频。
这项研究做出了几个关键技术贡献:首先,他们引入了从人类舞蹈视频(如YouTube和TikTok上的视频)中推断编舞模式的技术;其次,他们将满足这些约束条件表述为图优化问题并解决它;最后,他们展示了一种在图像领域进行姿势镜像的方法,同时保留前景和背景特征中的不对称性。
### 关键帧生成与镜像姿势创建
研究开始于生成一小组关键帧。研究人员使用文本到图像提示或GPT-4o生成这些关键帧,每个关键帧展示动物的不同姿势,同时保持一致的背景和静态相机视角。
舞蹈中的镜像动作是一个重要组成部分。想象一下,当舞者向左迈步,然后对称地向右迈步。为了捕捉这种对称性,研究团队开发了一种生成镜像姿势图像的方法。他们首先在输入关键帧集上微调预训练的文本到图像模型,使其捕捉特定主体实例和背景的外观。为了提供结构指导,他们使用ControlNet,以从输入图像中提取的canny边缘图作为条件输入。
对于每个关键帧,他们提取主体的边缘图并水平翻转它,创建一个镜像主体边缘图。这个翻转的边缘图与共享的背景边缘图合成,生成完整的镜像边缘图,然后用作微调模型的输入,生成相应的镜像图像。为确保视觉一致性,他们还使用相同的模型和共享背景边缘图重新生成原始关键帧。
### 编舞模式提取与图优化
编舞与音乐的节奏结构密切相关。在音乐理论中,一个拍子是基本的时间单位,而一个小节(或小节)将固定数量的拍子分组。在这项研究中,团队专注于4/4拍音乐——每个小节包含四个四分音符拍——这是流行音乐中最常见的结构。
给定一个4/4拍的音乐曲目和同步的舞蹈视频,研究团队首先检测拍子时间,然后构建一系列动作片段,每个片段从一个拍子跨越到下一个拍子。"编舞模式"标记任务输出一个标签序列,例如A-A'-B-C-D-D,其中每个标签对应一个动作片段。不同的动作接收不同的标签,相同的动作共享相同的标签,而镜像动作则用带有撇号的对应标签表示(例如,A和A')。
为了对动作片段进行分类,研究人员将其表述为一个量化问题:聚类相似的动作片段并将每个群集ID作为其标签分配。他们使用从视频中恢复的SMPL-X姿势序列表示每个片段,并利用动态时间规整(DTW)来计算片段之间的距离,考虑到拍子之间可能存在的轻微时间偏移。
在量化阶段之后,他们通过两个步骤识别镜像动作片段:首先,他们寻找镜像姿势聚类,通过反射关节旋转并进行左右关节交换;其次,对于没有镜像对应项的聚类,他们检查它们是否可以在内部划分为两个方向上镜像的组,提取每个动作片段的整体运动方向,并利用二分匹配寻找镜像对。
### 基于编舞模式的舞蹈合成
有了增强的关键帧集和编舞模式标签序列,目标是找到通过关键帧集的最佳路径,使每个关键帧与对应的拍子对齐。由于每个标签对应两个关键帧之间的动作片段,研究团队将路径规划表述为图优化,其中每个节点代表一个候选关键帧对。编舞标签序列指定了分配约束:相同标签映射到相同的对,不同标签映射到不同的对,镜像标签映射到镜像对。
研究团队构建了一个有向图,其中每个节点代表从增强关键帧集中选择的一个有序关键帧对。为确保表达性动作和合成可行性,他们基于两个关键帧之间的平均每像素流量大小过滤节点。流动太小(动作不足)或太大(合成挑战)的节点被丢弃。他们将两个节点之间的边缘成本定义为第一个节点的结束关键帧与下一个节点的开始关键帧之间的流量大小,并剪枝高成本的转换。
最终,研究团队通过应用视频扩散模型来合成沿着优化关键帧路径的中间帧,生成最终的舞蹈视频。为了与音乐同步,他们扭曲视频时间线,使路径中每个关键帧的时机与音频中相应的拍子时间对齐。遵循"视觉节奏"策略,他们加速拍点的扭曲率,并在拍点前后减速,以保持拍子显著性,同时确保时间平滑性。
三、动物们跳舞啦!实验结果与应用
研究团队展示了他们方法的有效性,生成了长达30秒的舞蹈视频,涵盖约25个动物实例和10个物种——包括土拨鼠、海獭、刺猬和猫——搭配各种歌曲。这些视频代表了这些动物表演如此复杂的音乐舞蹈例程的首次记录,无疑会被几代动物学家研究(当然,这是研究团队的幽默说法)。
由于没有真实的动物舞蹈视频或现有方法可以直接比较,研究团队进行了用户研究来评估他们的方法。他们使用6种不同歌曲的40个生成舞蹈视频,邀请31名参与者参加。每位参与者被随机展示8个舞蹈视频,并被要求在0到5的尺度上评价以下方面:
1. 拍子准确性——动物的动作是否看起来与音乐拍子同步? 2. 舞蹈感知——你有多确信这是一支舞蹈而不是随机动作? 3. 解剖学合理性——动物的外观是否符合其解剖结构? 4. 视觉连贯性——视频在视觉上是否连贯?
生成的舞蹈视频在这些因素上获得了令人印象深刻的平均分数:拍子准确性4.37,舞蹈感知4.35,解剖学合理性4.11,视觉连贯性3.70。
研究团队还展示了他们方法的多样控制能力。用户可以使用姿势网格模板来指导输入关键帧姿势,控制图中允许的动作范围,并在图优化过程中定义自定义约束。例如,给定关键帧姿势网格作为模板,他们提示GPT-4o生成一个新网格,其中另一种动物"模仿"原始网格中的每个姿势,尽管姿势不必完全相同,因为不同动物有不同的解剖结构。这提供了一种指导或定制输入姿势的方式,允许生成不同动物以相似方式跳舞的视频。
四、局限性与未来展望
研究团队也坦率地指出了当前方法的局限性。在关键帧图中,他们使用两个关键帧之间的平均每像素流量大小作为动作强度的代理。然而,在某些情况下,这个度量变得不可靠,特别是当两个关键帧代表镜像侧视图时,流量大小无法反映姿势之间的真实动作复杂性。
他们还使用离线视频扩散模型生成关键帧之间的短动作片段,例如120 BPM歌曲的0.5秒。虽然结果通常在视觉上连贯,但动作有时可能看起来不真实;动物可能看起来在姿势之间滑动或变形,而不是以物理上合理的方式移动。这反映了视频扩散模型在为铰接主体生成自然动作方面的当前局限性。
展望未来,研究团队提出了两个方向可以探索生成更高级和音乐对齐的舞蹈:首先是舞蹈动作真实性,视频扩散模型生成的动作可能并不总是反映合理或富有表现力的舞蹈动作,因此可以考虑加入能优先考虑自然、舞蹈般动作的先验知识。其次是风格兼容性,尽管他们的方法遵循编舞模式,但它没有考虑音乐风格,建模特定流派的动作特征可以增强生成舞蹈的风格连贯性。
五、结语:当动物翩翩起舞
这项研究开创了一种新颖的基于关键帧的范式,用于生成与音乐同步、具有编舞意识的动物舞蹈视频。它不仅为娱乐和社交媒体中的跳舞动物应用开辟了令人兴奋的机会,也展示了如何以一种创新的方式控制视频生成。
想象一下,当你下次看到一只土拨鼠在野外,或者一只企鹅在南极冰面上,或者你家的猫咪独自在家时,它们可能正在跳一支你从未见过的舞蹈。正如研究团队幽默地指出的,这些视频代表了这些动物表演如此复杂的音乐舞蹈例程的首次记录,开启了一个全新的研究领域。
虽然这项研究带有明显的幽默和创意色彩,但它也展示了视频生成技术的进步,特别是在长时间、结构化内容生成方面。随着大规模视频扩散模型的持续进步,我们可以期待在未来看到更加自然、富有表现力的动物舞蹈视频。
如果你对跳舞的动物感兴趣,或者想要了解更多关于这项研究的信息,可以访问研究团队的项目主页:how-animals-dance.github.io,查看更多精彩的动物舞蹈视频。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。