
这项由瑞士联邦理工学院(EPFL)VITA实验室主导的研究于2026年5月以预印本形式发布,论文编号为arXiv:2605.15042,题为《EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration》。有兴趣深入了解的读者可通过该编号查阅完整论文。
你有没有看过那种AI生成的舞蹈视频,刚开始还挺像那么回事,跳着跳着脸就变形了、背景开始模糊甚至全乱了?这不是偶然的bug,而是当前所有人物动画技术面临的一个根深蒂固的难题。来自EPFL的研究团队用一套名为**EverAnimate**的新方法,让AI生成的人物动画可以流畅、稳定地跑满整整90秒乃至更长时间,人物面孔不走样,背景不崩坏,这在以前几乎是不可能完成的任务。
要理解这件事有多难,得先从头说起。
一、视频里的"记忆失灵"问题:为什么AI跳着跳着就忘了自己长什么样
现代AI生成视频的方式,有点像在玩一个接力游戏。AI无法一口气生成一分钟的视频,它只能先生成一小段(称为"chunk",可以理解为一个短片段),然后把这段视频的最后一帧交给下一轮,让AI继续接着往下生成。这样一段接一段,最终拼成完整的长视频。
问题就出在这个"接力"环节。每次把视频的最后一帧传给下一段时,AI需要先把它从压缩的内部数字格式(称为"潜在编码",可以理解为AI大脑里的压缩草图)解压成真实的图像,再重新压缩成内部格式,交给下一段使用。这个压缩-解压的过程就像反复复印一张纸,每复印一次,清晰度就会损失一点点。十次、二十次之后,原本清晰的背景墙开始出现颗粒感,人物的脸开始模糊,颜色开始偏移——这就是所谓的"低层次质量漂移"。
与此同时,还有另一个问题:人物的身份特征开始"忘记"。AI在生成每一段时,需要参照参考图片来保持人物外貌一致。但随着生成段数越来越多,AI对"这个人到底长什么样"的记忆越来越淡,衣服的颜色悄悄变了,脸型微妙地偏移了,这就是"高层次语义漂移"。
研究团队形象地把这两种问题概括为:一个是"画质腐蚀",另一个是"忘了自己是谁"。而且这两种问题会互相叠加,时间越长,崩溃越严重。正如图1所示,现有方法在0秒时还一切正常,到了60秒、90秒,人脸已经面目全非,背景已经变成一片混乱的噪点。
业界为了解决这个问题,已经尝试了几种常见手段。其中一种叫"注意力锚点"(attention sink),简单说就是在每一段生成时,都把原始参考图片也塞进去,让AI时刻"看着"原版照片,提醒自己别忘记人物长相。另一种叫"滑动窗口",就是让相邻两段有一定的重叠区域,保持连贯性。还有一种叫"误差回收",尝试在生成时纠正累积的错误。
然而,EPFL团队通过仔细分析发现,这些方法都只是治标不治本。注意力锚点确实有帮助,但它只是告诉AI"你应该长成这样",却无法告诉AI"你现在偏了多少,该怎么纠回来"。更糟糕的是,他们发现:即使AI的"注意力"已经高度集中在参考图片上,生成出来的视频依然在长时间后持续劣化——说明问题的根源根本不在于AI"没看参考图片",而在于信息传递的方式本身存在根本性缺陷。
二、关键诊断:复印机的错和镜子的局限
为了找出问题根源,研究团队做了一个非常直接的实验。他们设想一种"理想情况":假设AI在生成时完全没有出错,对于视频里静止不动的背景区域,AI每次都生成完全一样的内容。在这种理想条件下,如果视频还是崩了,那问题就只能出在"接力传递"这个环节本身。
实验结果令人警醒:即便在这种理想条件下,随着接力次数的增加,背景依然在肉眼可见地劣化——颜色失真、细节丢失、出现模糊。这意味着,仅仅是反复"解压-重压"这个操作本身,就足以毁掉视频质量,跟AI有没有犯错完全无关。
这个发现确立了第一条原则:**绝对不能用"把上一段解压成图像再重新压缩"的方式来传递信息**。信息的传递必须完全在AI的内部压缩格式(潜在空间)里进行,不能经过任何图像解压的环节,就像传递一个密封的文件夹,而不是把里面的文件全部打印出来再重新扫描进去。
第二个发现来自对"注意力锚点"机制的深入分析。研究团队发现,注意力锚点的失效来自三个原因:第一,一张正面照无法提供人物转身时、侧面时、低头时的外貌信息,信息本身就不够全面;第二,在处理长片段时,AI需要同时处理大量的图像信息,一张参考图片的"声音"很容易被淹没在众多信息的嘈杂中;第三,最关键的一点——锚点机制是被动的,它只是说"应该这样",却没有能力发现"现在已经偏了"并主动纠正。这就好比告诉一个走钢丝的演员"你应该保持平衡",却不给他平衡杆,也不告诉他身体正在往哪边倾斜。
这两条发现共同指向了一个解决方向:传递信息要在AI内部的压缩格式里直接进行,同时要给AI装上一套"主动纠偏"的能力,让它能发现自己在生成过程中偏离了正确轨道,并自动把轨迹拉回来。
三、EverAnimate的双管齐下:记忆锁与轨道守卫
基于上述诊断,研究团队设计了EverAnimate,其核心由两个互补的机制组成。
第一个机制叫做"持久潜在传播"(Persistent Latent Propagation,简称PLP)。这个机制的核心思想是:完全放弃"解压-重压"的接力方式,改为在AI的内部压缩格式里直接传递信息。具体来说,它维护两种记忆。
一种是"短期动作记忆",用来保持相邻两段视频之间的动作连贯性。每当一段视频生成完毕,研究团队不会解压它,而是直接截取最后一小部分的内部压缩数据,作为下一段生成的起点。这就像接力赛跑,前一位选手不是把跑到终点后的状态"翻译"成文字再传给下一位,而是直接把真实的运动状态传递过去。
另一种是"长期身份记忆",专门用来记住人物长什么样。研究团队会从视频的第一段里随机挑选若干帧(通常是4帧),把它们的内部压缩数据保存下来,作为贯穿全程的身份参考。这些参考帧会经过轻微的空间变换(随机平移和缩放),这个处理看起来微小,却解决了一个隐藏的问题:如果每次都用完全相同位置的参考图,AI会学会一种"空间捷径"——它会在固定位置复制参考图的内容,而不是真正理解人物的外貌。加入随机空间变换后,AI不得不真正理解"这是这个人的脸",而不是"这是这个位置的像素"。
第二个机制叫做"恢复性流匹配"(Restorative Flow Matching,简称RFM)。这个机制相对更底层,需要稍微解释一下AI生成视频的基本工作方式。
AI生成视频的过程可以用"雕刻"来类比:最开始,AI面对的是一团纯粹的随机噪声(就像一块未经处理的石头),然后AI通过反复运算,一步步把噪声变成清晰的视频(就像雕刻家一步步把石头变成雕塑)。这个从噪声到清晰视频的"旅程",在数学上被描述为一条"轨迹",每一步的运算方向被称为"速度向量"。
在正常训练中,AI学会的是:从一个纯噪声出发,沿着正确的路径走到清晰的视频。但在长视频生成中,由于误差累积,AI面对的起点并不总是纯净的,而是一个有些"偏斜"的状态。普通的训练方式没有教AI处理这种偏斜的起点,所以AI只会按照学到的惯性继续前进,无法把偏斜纠正过来。
RFM的解决方案是:在训练时,故意给目标视频加入轻微扰动(比如轻微的颜色偏移、清晰度变化),然后要求AI不仅要"从噪声走到视频",还要在发现自己偏离轨道时,主动调整方向,把轨迹拉回到清晰视频的终点。这个调整在数学上体现为一个额外的"恢复速度项",它的作用就是感知偏差、计算修正、施加拉力。
然而,研究团队在实践中发现,这个恢复速度项存在一个数值稳定性的问题:越靠近生成的终点(即视频快成型时),理论上的修正力度会趋向无穷大,导致训练崩溃。为此,他们设计了一个"钟形调度"函数来控制修正力度随时间的变化:在生成的中段,修正力度最强;在起点(全是噪声时)和终点(视频快成型时),修正力度都自动减弱。这个设计符合直觉——当视频还是一团噪声时,根本看不出偏了多少,修正没有意义;当视频快成型时,大部分偏差已经在中间环节被纠正,无需再大力拉拽,以免破坏已有的成果。
值得一提的是,RFM与现有方法的一个重要区别在于"在哪里施加扰动"。有些方法(如SVI、Helios等)选择扰动"输入条件",也就是污染传入下一段的参考帧。EverAnimate选择扰动"生成目标",也就是污染当前段要生成的视频内容本身,同时保持传入的记忆信息干净完整。研究团队认为,污染参考帧会在跨段传递时引入更多不稳定因素,而污染生成目标则更精准地模拟了"当前段内部出现偏差"的情况,同时不影响跨段的记忆质量。
四、实际效果:从10秒到90秒,数字说明一切
EverAnimate在实验中展现出相当明显的改进效果,而且改进幅度随着视频长度的增加而愈发突出——这正说明它在解决长视频漂移问题上的针对性。
研究团队在Champ、UBC、Seedance等公开数据集以及自行收集的约2000条YouTube分钟级视频上进行训练,评测则在10秒、30秒、60秒、90秒四个不同长度上分别进行。评测指标涵盖多个维度:帧级画质用PSNR(信噪比)和SSIM(结构相似度)衡量,感知相似度用LPIPS(感知损失)衡量,整体视觉分布质量用FID衡量,视频语义质量用V-MAE(基于视频理解模型的特征距离)衡量,人脸区域单独用F-PSNR衡量以评估身份一致性。
与对比性能最强的Wan-Animate相比,EverAnimate在10秒时的PSNR提升约8%,LPIPS降低约22%,FID降低约11%。到了90秒时,优势进一步扩大:PSNR提升约15%,LPIPS降低约32%,FID降低约27%。换句话说,视频越长,EverAnimate的优势越明显,这与其针对长视频漂移的设计目标完全一致。
在对比的五个方法中,One-to-All、SCAIL、SteadyDancer、UniAnimate-DiT和Wan-Animate都在视频超过30秒后出现明显的画质下滑,其中SCAIL和SteadyDancer在60秒时的LPIPS已经超过0.4,相当于感知上已经"面目全非";而EverAnimate在90秒时LPIPS仍维持在0.22,接近Wan-Animate在10秒时的水平——换言之,EverAnimate在90秒处的质量,相当于其他方法在10秒处的水平。
消融实验(即逐一拆除某个组件来测试它的贡献)进一步证实了两个组件各自的价值。在60秒的测试中,基础模型(不加任何改进)的PSNR只有18.47;只加入PLP(不加RFM)时,PSNR提升到21.84,主要体现在跨段连贯性的改善;只加入RFM(不加PLP)时,PSNR提升到22.32,主要体现在帧内视觉质量的改善;两者同时使用的完整模型,PSNR达到23.86,SSIM从0.543大幅提升到0.855,LPIPS从0.386降低到0.194。两个组件之间存在明显的协同效应,缺少任何一个都会导致显著的性能下降。
五、工程实现:轻量、灵活、可落地
EverAnimate并非从头训练一个全新的模型,而是在已有的Wan-2.2-Animate模型基础上进行"后训练"(post-training)。这种方式的优势在于:一方面继承了原模型强大的视频生成能力,另一方面只需要训练少量的额外参数,计算成本大幅降低。
具体来说,研究团队采用了一种名为LoRA的轻量化微调技术。LoRA的原理可以用"给一本厚厚的百科全书贴便利贴"来理解:不需要重写整本书,只需要在关键位置贴上修正信息,就能改变书的内容。在EverAnimate中,LoRA的秩(rank)和缩放系数都设为128,这是一个相对较大的配置,但与全参数微调相比,训练成本依然远低得多。
训练分两个阶段进行。第一阶段是"记忆适应",持续4000步,使用8块GPU,让模型学会如何利用短期动作记忆和长期身份记忆来生成视频。第二阶段是"抗漂移适应",持续1000步,在第一阶段的基础上加入恢复性流匹配训练,让模型获得主动纠偏的能力。
在使用方式上,EverAnimate提供了相当的灵活性。用户可以提供1到4张参考图片来描述人物外貌,图片数量不限于一张。如果只有一张参考图,系统会先用这张图生成第一段视频,然后从第一段里随机采样额外的关键帧来补全身份记忆——这样既满足了身份记忆需要多视角的需求,又不强迫用户一定要事先准备多张图片。推理时使用20步采样,不需要分类器引导(CFG),进一步提升了推理效率。
说到底,EverAnimate解决的不是"AI能不能生成好看的视频"这个问题,而是"AI能不能持续稳定地生成好看的视频"这个更难的问题。前者已经被许多方法解决得相当不错,后者才是真正横亘在分钟级人物动画面前的拦路虎。通过把跨段信息传递从"图像解压重压"改为"潜在空间直传",再加上让模型学会在生成过程中感知偏差并主动修正,EverAnimate在90秒长度上的质量达到了其他方法在10秒时的水平,这意味着一个量级上的跨越。
当然,研究本身也存在一些值得关注的局限。论文中使用的自收集数据来自YouTube,数据质量和场景分布可能存在一定偏差。评测使用的PSNR、SSIM等指标在摄像机运动与地面真实视频不一致时可靠性会下降,论文中也直接指出了这一点。此外,目前的方案基于Wan-2.2-Animate这一特定底座模型,其他架构上的适用性还需要进一步验证。
对于普通用户而言,EverAnimate所代表的技术方向意味着:未来想让AI帮你生成一段一分钟的舞蹈视频,或者让虚拟主播播报一段新闻,人物不再会在30秒之后开始"变脸"或者背景开始"融化"。这项技术距离真正的消费级产品还有一段距离,但它清楚地指明了解决方向,也展示了在现有硬件条件下可行的工程路径。至于下一个令人期待的突破会是什么——也许是更长时间的稳定生成,也许是更自然的多人场景,也许是实时生成的能力——这些都已经不再是遥不可及的科幻,而是在一个可预见的技术路线上稳步推进的工程目标。
---
Q&A
Q1:EverAnimate和普通的人物动画AI有什么区别?
A:普通人物动画AI通常只能稳定生成几秒到十几秒的视频,时间一长就会出现人脸变形、背景崩坏等问题。EverAnimate通过两个核心机制解决了这个问题:一是在AI内部直接传递压缩信息而不反复解压重压,避免每次"复印"带来的质量损失;二是训练AI在生成过程中能主动感知并修正偏差。这使得它在90秒长视频上仍能保持其他方法在10秒时的画质水平。
Q2:EverAnimate需要提供多少张参考图才能生成效果好的视频?
A:EverAnimate设计上支持1到4张参考图。如果只提供1张,系统会先用这张图生成第一段视频,然后自动从第一段里采样额外的关键帧来补全身份记忆,不强迫用户额外准备多角度照片。提供更多参考图(如正面、侧面等多角度)通常能进一步提升长视频中人物外貌的一致性。
Q3:EverAnimate是完全重新训练的新模型吗?
A:不是。EverAnimate是在已有的Wan-2.2-Animate模型上进行轻量化"后训练",采用了一种叫LoRA的技术,只额外训练少量参数,不需要重新训练整个模型。整个训练过程分两个阶段,总计约5000步,使用8块GPU完成,计算成本远低于从头训练一个新模型。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。