微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

瑞士联邦理工学院VITA实验室攻克"视频人物越跑越崩"难题，分钟级人物动画来了

人工智能视频生成长视频稳定性

瑞士联邦理工学院VITA实验室攻克"视频人物越跑越崩"难题，分钟级人物动画来了

作者：科技行者

2026-06-02 11:34

分享至：

EPFL团队提出EverAnimate，通过潜在空间直接传递记忆、训练模型主动纠正生成偏差，将AI人物动画稳定生成时长大幅延伸至分钟级。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 11:34 • 科技行者

这项由瑞士联邦理工学院（EPFL）VITA实验室主导的研究于2026年5月以预印本形式发布，论文编号为arXiv:2605.15042，题为《EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration》。有兴趣深入了解的读者可通过该编号查阅完整论文。

你有没有看过那种AI生成的舞蹈视频，刚开始还挺像那么回事，跳着跳着脸就变形了、背景开始模糊甚至全乱了？这不是偶然的bug，而是当前所有人物动画技术面临的一个根深蒂固的难题。来自EPFL的研究团队用一套名为**EverAnimate**的新方法，让AI生成的人物动画可以流畅、稳定地跑满整整90秒乃至更长时间，人物面孔不走样，背景不崩坏，这在以前几乎是不可能完成的任务。

要理解这件事有多难，得先从头说起。

一、视频里的"记忆失灵"问题：为什么AI跳着跳着就忘了自己长什么样

现代AI生成视频的方式，有点像在玩一个接力游戏。AI无法一口气生成一分钟的视频，它只能先生成一小段（称为"chunk"，可以理解为一个短片段），然后把这段视频的最后一帧交给下一轮，让AI继续接着往下生成。这样一段接一段，最终拼成完整的长视频。

问题就出在这个"接力"环节。每次把视频的最后一帧传给下一段时，AI需要先把它从压缩的内部数字格式（称为"潜在编码"，可以理解为AI大脑里的压缩草图）解压成真实的图像，再重新压缩成内部格式，交给下一段使用。这个压缩-解压的过程就像反复复印一张纸，每复印一次，清晰度就会损失一点点。十次、二十次之后，原本清晰的背景墙开始出现颗粒感，人物的脸开始模糊，颜色开始偏移——这就是所谓的"低层次质量漂移"。

与此同时，还有另一个问题：人物的身份特征开始"忘记"。AI在生成每一段时，需要参照参考图片来保持人物外貌一致。但随着生成段数越来越多，AI对"这个人到底长什么样"的记忆越来越淡，衣服的颜色悄悄变了，脸型微妙地偏移了，这就是"高层次语义漂移"。

研究团队形象地把这两种问题概括为：一个是"画质腐蚀"，另一个是"忘了自己是谁"。而且这两种问题会互相叠加，时间越长，崩溃越严重。正如图1所示，现有方法在0秒时还一切正常，到了60秒、90秒，人脸已经面目全非，背景已经变成一片混乱的噪点。

业界为了解决这个问题，已经尝试了几种常见手段。其中一种叫"注意力锚点"（attention sink），简单说就是在每一段生成时，都把原始参考图片也塞进去，让AI时刻"看着"原版照片，提醒自己别忘记人物长相。另一种叫"滑动窗口"，就是让相邻两段有一定的重叠区域，保持连贯性。还有一种叫"误差回收"，尝试在生成时纠正累积的错误。

然而，EPFL团队通过仔细分析发现，这些方法都只是治标不治本。注意力锚点确实有帮助，但它只是告诉AI"你应该长成这样"，却无法告诉AI"你现在偏了多少，该怎么纠回来"。更糟糕的是，他们发现：即使AI的"注意力"已经高度集中在参考图片上，生成出来的视频依然在长时间后持续劣化——说明问题的根源根本不在于AI"没看参考图片"，而在于信息传递的方式本身存在根本性缺陷。

二、关键诊断：复印机的错和镜子的局限

为了找出问题根源，研究团队做了一个非常直接的实验。他们设想一种"理想情况"：假设AI在生成时完全没有出错，对于视频里静止不动的背景区域，AI每次都生成完全一样的内容。在这种理想条件下，如果视频还是崩了，那问题就只能出在"接力传递"这个环节本身。

实验结果令人警醒：即便在这种理想条件下，随着接力次数的增加，背景依然在肉眼可见地劣化——颜色失真、细节丢失、出现模糊。这意味着，仅仅是反复"解压-重压"这个操作本身，就足以毁掉视频质量，跟AI有没有犯错完全无关。

这个发现确立了第一条原则：**绝对不能用"把上一段解压成图像再重新压缩"的方式来传递信息**。信息的传递必须完全在AI的内部压缩格式（潜在空间）里进行，不能经过任何图像解压的环节，就像传递一个密封的文件夹，而不是把里面的文件全部打印出来再重新扫描进去。

第二个发现来自对"注意力锚点"机制的深入分析。研究团队发现，注意力锚点的失效来自三个原因：第一，一张正面照无法提供人物转身时、侧面时、低头时的外貌信息，信息本身就不够全面；第二，在处理长片段时，AI需要同时处理大量的图像信息，一张参考图片的"声音"很容易被淹没在众多信息的嘈杂中；第三，最关键的一点——锚点机制是被动的，它只是说"应该这样"，却没有能力发现"现在已经偏了"并主动纠正。这就好比告诉一个走钢丝的演员"你应该保持平衡"，却不给他平衡杆，也不告诉他身体正在往哪边倾斜。

这两条发现共同指向了一个解决方向：传递信息要在AI内部的压缩格式里直接进行，同时要给AI装上一套"主动纠偏"的能力，让它能发现自己在生成过程中偏离了正确轨道，并自动把轨迹拉回来。

三、EverAnimate的双管齐下：记忆锁与轨道守卫

基于上述诊断，研究团队设计了EverAnimate，其核心由两个互补的机制组成。

第一个机制叫做"持久潜在传播"（Persistent Latent Propagation，简称PLP）。这个机制的核心思想是：完全放弃"解压-重压"的接力方式，改为在AI的内部压缩格式里直接传递信息。具体来说，它维护两种记忆。

一种是"短期动作记忆"，用来保持相邻两段视频之间的动作连贯性。每当一段视频生成完毕，研究团队不会解压它，而是直接截取最后一小部分的内部压缩数据，作为下一段生成的起点。这就像接力赛跑，前一位选手不是把跑到终点后的状态"翻译"成文字再传给下一位，而是直接把真实的运动状态传递过去。

另一种是"长期身份记忆"，专门用来记住人物长什么样。研究团队会从视频的第一段里随机挑选若干帧（通常是4帧），把它们的内部压缩数据保存下来，作为贯穿全程的身份参考。这些参考帧会经过轻微的空间变换（随机平移和缩放），这个处理看起来微小，却解决了一个隐藏的问题：如果每次都用完全相同位置的参考图，AI会学会一种"空间捷径"——它会在固定位置复制参考图的内容，而不是真正理解人物的外貌。加入随机空间变换后，AI不得不真正理解"这是这个人的脸"，而不是"这是这个位置的像素"。

第二个机制叫做"恢复性流匹配"（Restorative Flow Matching，简称RFM）。这个机制相对更底层，需要稍微解释一下AI生成视频的基本工作方式。

AI生成视频的过程可以用"雕刻"来类比：最开始，AI面对的是一团纯粹的随机噪声（就像一块未经处理的石头），然后AI通过反复运算，一步步把噪声变成清晰的视频（就像雕刻家一步步把石头变成雕塑）。这个从噪声到清晰视频的"旅程"，在数学上被描述为一条"轨迹"，每一步的运算方向被称为"速度向量"。

在正常训练中，AI学会的是：从一个纯噪声出发，沿着正确的路径走到清晰的视频。但在长视频生成中，由于误差累积，AI面对的起点并不总是纯净的，而是一个有些"偏斜"的状态。普通的训练方式没有教AI处理这种偏斜的起点，所以AI只会按照学到的惯性继续前进，无法把偏斜纠正过来。

RFM的解决方案是：在训练时，故意给目标视频加入轻微扰动（比如轻微的颜色偏移、清晰度变化），然后要求AI不仅要"从噪声走到视频"，还要在发现自己偏离轨道时，主动调整方向，把轨迹拉回到清晰视频的终点。这个调整在数学上体现为一个额外的"恢复速度项"，它的作用就是感知偏差、计算修正、施加拉力。

然而，研究团队在实践中发现，这个恢复速度项存在一个数值稳定性的问题：越靠近生成的终点（即视频快成型时），理论上的修正力度会趋向无穷大，导致训练崩溃。为此，他们设计了一个"钟形调度"函数来控制修正力度随时间的变化：在生成的中段，修正力度最强；在起点（全是噪声时）和终点（视频快成型时），修正力度都自动减弱。这个设计符合直觉——当视频还是一团噪声时，根本看不出偏了多少，修正没有意义；当视频快成型时，大部分偏差已经在中间环节被纠正，无需再大力拉拽，以免破坏已有的成果。

值得一提的是，RFM与现有方法的一个重要区别在于"在哪里施加扰动"。有些方法（如SVI、Helios等）选择扰动"输入条件"，也就是污染传入下一段的参考帧。EverAnimate选择扰动"生成目标"，也就是污染当前段要生成的视频内容本身，同时保持传入的记忆信息干净完整。研究团队认为，污染参考帧会在跨段传递时引入更多不稳定因素，而污染生成目标则更精准地模拟了"当前段内部出现偏差"的情况，同时不影响跨段的记忆质量。

四、实际效果：从10秒到90秒，数字说明一切

EverAnimate在实验中展现出相当明显的改进效果，而且改进幅度随着视频长度的增加而愈发突出——这正说明它在解决长视频漂移问题上的针对性。

研究团队在Champ、UBC、Seedance等公开数据集以及自行收集的约2000条YouTube分钟级视频上进行训练，评测则在10秒、30秒、60秒、90秒四个不同长度上分别进行。评测指标涵盖多个维度：帧级画质用PSNR（信噪比）和SSIM（结构相似度）衡量，感知相似度用LPIPS（感知损失）衡量，整体视觉分布质量用FID衡量，视频语义质量用V-MAE（基于视频理解模型的特征距离）衡量，人脸区域单独用F-PSNR衡量以评估身份一致性。

与对比性能最强的Wan-Animate相比，EverAnimate在10秒时的PSNR提升约8%，LPIPS降低约22%，FID降低约11%。到了90秒时，优势进一步扩大：PSNR提升约15%，LPIPS降低约32%，FID降低约27%。换句话说，视频越长，EverAnimate的优势越明显，这与其针对长视频漂移的设计目标完全一致。

在对比的五个方法中，One-to-All、SCAIL、SteadyDancer、UniAnimate-DiT和Wan-Animate都在视频超过30秒后出现明显的画质下滑，其中SCAIL和SteadyDancer在60秒时的LPIPS已经超过0.4，相当于感知上已经"面目全非"；而EverAnimate在90秒时LPIPS仍维持在0.22，接近Wan-Animate在10秒时的水平——换言之，EverAnimate在90秒处的质量，相当于其他方法在10秒处的水平。

消融实验（即逐一拆除某个组件来测试它的贡献）进一步证实了两个组件各自的价值。在60秒的测试中，基础模型（不加任何改进）的PSNR只有18.47；只加入PLP（不加RFM）时，PSNR提升到21.84，主要体现在跨段连贯性的改善；只加入RFM（不加PLP）时，PSNR提升到22.32，主要体现在帧内视觉质量的改善；两者同时使用的完整模型，PSNR达到23.86，SSIM从0.543大幅提升到0.855，LPIPS从0.386降低到0.194。两个组件之间存在明显的协同效应，缺少任何一个都会导致显著的性能下降。

五、工程实现：轻量、灵活、可落地

EverAnimate并非从头训练一个全新的模型，而是在已有的Wan-2.2-Animate模型基础上进行"后训练"（post-training）。这种方式的优势在于：一方面继承了原模型强大的视频生成能力，另一方面只需要训练少量的额外参数，计算成本大幅降低。

具体来说，研究团队采用了一种名为LoRA的轻量化微调技术。LoRA的原理可以用"给一本厚厚的百科全书贴便利贴"来理解：不需要重写整本书，只需要在关键位置贴上修正信息，就能改变书的内容。在EverAnimate中，LoRA的秩（rank）和缩放系数都设为128，这是一个相对较大的配置，但与全参数微调相比，训练成本依然远低得多。

训练分两个阶段进行。第一阶段是"记忆适应"，持续4000步，使用8块GPU，让模型学会如何利用短期动作记忆和长期身份记忆来生成视频。第二阶段是"抗漂移适应"，持续1000步，在第一阶段的基础上加入恢复性流匹配训练，让模型获得主动纠偏的能力。

在使用方式上，EverAnimate提供了相当的灵活性。用户可以提供1到4张参考图片来描述人物外貌，图片数量不限于一张。如果只有一张参考图，系统会先用这张图生成第一段视频，然后从第一段里随机采样额外的关键帧来补全身份记忆——这样既满足了身份记忆需要多视角的需求，又不强迫用户一定要事先准备多张图片。推理时使用20步采样，不需要分类器引导（CFG），进一步提升了推理效率。

说到底，EverAnimate解决的不是"AI能不能生成好看的视频"这个问题，而是"AI能不能持续稳定地生成好看的视频"这个更难的问题。前者已经被许多方法解决得相当不错，后者才是真正横亘在分钟级人物动画面前的拦路虎。通过把跨段信息传递从"图像解压重压"改为"潜在空间直传"，再加上让模型学会在生成过程中感知偏差并主动修正，EverAnimate在90秒长度上的质量达到了其他方法在10秒时的水平，这意味着一个量级上的跨越。

当然，研究本身也存在一些值得关注的局限。论文中使用的自收集数据来自YouTube，数据质量和场景分布可能存在一定偏差。评测使用的PSNR、SSIM等指标在摄像机运动与地面真实视频不一致时可靠性会下降，论文中也直接指出了这一点。此外，目前的方案基于Wan-2.2-Animate这一特定底座模型，其他架构上的适用性还需要进一步验证。

对于普通用户而言，EverAnimate所代表的技术方向意味着：未来想让AI帮你生成一段一分钟的舞蹈视频，或者让虚拟主播播报一段新闻，人物不再会在30秒之后开始"变脸"或者背景开始"融化"。这项技术距离真正的消费级产品还有一段距离，但它清楚地指明了解决方向，也展示了在现有硬件条件下可行的工程路径。至于下一个令人期待的突破会是什么——也许是更长时间的稳定生成，也许是更自然的多人场景，也许是实时生成的能力——这些都已经不再是遥不可及的科幻，而是在一个可预见的技术路线上稳步推进的工程目标。

---

Q&A

Q1：EverAnimate和普通的人物动画AI有什么区别？

A：普通人物动画AI通常只能稳定生成几秒到十几秒的视频，时间一长就会出现人脸变形、背景崩坏等问题。EverAnimate通过两个核心机制解决了这个问题：一是在AI内部直接传递压缩信息而不反复解压重压，避免每次"复印"带来的质量损失；二是训练AI在生成过程中能主动感知并修正偏差。这使得它在90秒长视频上仍能保持其他方法在10秒时的画质水平。

Q2：EverAnimate需要提供多少张参考图才能生成效果好的视频？

A：EverAnimate设计上支持1到4张参考图。如果只提供1张，系统会先用这张图生成第一段视频，然后自动从第一段里采样额外的关键帧来补全身份记忆，不强迫用户额外准备多角度照片。提供更多参考图（如正面、侧面等多角度）通常能进一步提升长视频中人物外貌的一致性。

Q3：EverAnimate是完全重新训练的新模型吗？

A：不是。EverAnimate是在已有的Wan-2.2-Animate模型上进行轻量化"后训练"，采用了一种叫LoRA的技术，只额外训练少量参数，不需要重新训练整个模型。整个训练过程分两个阶段，总计约5000步，使用8块GPU完成，计算成本远低于从头训练一个新模型。

人工智能视频生成长视频稳定性

分享至