微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港中文大学（深圳）研究人员找到了一种新思路：先把"照片拍好"，再让照片动起来

人工智能视频生成图像优先框架

香港中文大学（深圳）研究人员找到了一种新思路：先把"照片拍好"，再让照片动起来

作者：科技行者

2026-05-04 10:35

分享至：

这项来自香港中文大学（深圳）的研究提出了一种名为ReImagine的人体视频生成新框架。与传统方法直接训练视频模型不同，ReImagine将任务拆分为两个阶段：先用预训练图像生成模型（FLUX Kontext）根据SMPL-X三维人体参数和正背面参考照片逐帧生成高质量图像，再用预训练视频扩散模型（Wan）通过低噪声重去噪和3D FFT频率滤波进行时序平滑，无需额外视频训练数据即可生成时序一致、视角可控的人体视频，在多项指标上全面超越同期方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 10:35 • 科技行者

这项由香港中文大学（深圳）理工学院及未来智联网络研究院联合开展的研究，以预印本形式于2026年4月21日发布在arXiv平台，论文编号为arXiv:2604.19720。有兴趣深入阅读原文的读者可以通过该编号直接检索完整论文，或访问研究团队公开的代码与数据仓库获取更多技术细节。

一、一个让人头疼的老问题：怎么让电脑画出"会动的人"？

电影特效师在制作动作大片时，需要同时关注三件事：演员长什么样、他在做什么动作、镜头从哪个角度拍。这三件事任何一件出了差错，画面就会显得奇怪。让电脑自动完成这件事，就是"人体视频生成"这个研究领域的核心挑战。

近年来，人工智能生成内容的技术突飞猛进，生成一张逼真的人物照片已经不难，但要生成一段连贯、自然、还能随意控制角度和动作的人物视频，依然是一道难关。难点在哪里？关键就在于需要同时控制三个维度：人物的外貌（穿什么衣服、长什么脸）、动作姿势（手臂抬多高、腿怎么弯）以及拍摄视角（从正面看还是从背后看、镜头离人多远）。

现有的方法大多只能解决其中一两个维度。有些方法专门控制姿势，拍出来的视频人物动作很准确，但换个角度就"不认识自己了"；有些方法能保持人物外貌，却没办法自由切换拍摄视角；还有一些方法干脆绕开视角控制，只做简单的正面动作生成。更根本的问题在于，要训练一个什么都能控制的模型，需要大量"同一个人从各个角度、做各种动作"的视频素材，而这种素材在现实中极其稀缺，哪怕是目前最大的多视角人体数据集，数量也远远不够支撑高质量视频生成。

香港中文大学（深圳）的研究团队正是从这个困境出发，提出了一套全新的解题思路，他们把这套方法命名为"ReImagine"。

二、换个角度想问题：先把照片做好，再让它动起来

ReImagine的核心思想可以用一个摄影师工作室的比喻来理解。假设你想要一段视频，展示一个人从正面走到侧面再转到背面。传统方法就像是请一个摄影师带着摄像机跟着这个人转圈拍，难度很高，对拍摄条件要求极严苛。而ReImagine的做法是：先请一个顶级摄影师，只拍这个人站在那里的最漂亮的正面和背面照片，把外貌记录到极致；然后再请一个专门的动画师，把这两张照片"活化"，让照片里的人按照你指定的动作和角度动起来。

这个"先拍照再动画"的分工思路，就是论文所说的"图像优先"（Image-First）框架。具体来说，整个流程分为两大阶段。第一个阶段叫做"姿势与视角引导的图像合成"，负责根据输入的外貌参考图和动作指令，生成每一帧画面——就像摄影师根据动作指令，一张一张地拍出不同姿势下的人物照片。第二个阶段叫做"无需训练的时序一致性处理"，负责把这些单独的照片串联成流畅的视频，消除帧与帧之间细微的抖动和不一致——就像后期剪辑师用专业软件把照片处理成顺滑的动画。

这种分工的妙处在于：第一阶段可以充分借助现有的顶级图像生成模型的能力，而这些模型是在海量高质量图片上训练的，生成效果极好；第二阶段则借助现有视频生成模型的时序处理能力，不需要额外收集大量专门的数据来重新训练。两个阶段各司其职，整体效果反而超过了"从零开始训练一个统包所有功能的视频模型"。

三、第一阶段：如何让AI学会"换角度看人"

第一阶段的技术核心是一个叫做"姿势与视角引导生成模块"的系统。要理解它，可以把它想象成一个接受多种指令的智能摄影师助手。

这个助手需要接收三类信息才能完成工作。第一类是"人体姿势描述"——研究团队采用了一种叫做SMPL-X的三维人体参数模型，你可以把它理解为一个精确的虚拟人体骨架，能够描述人体每个关节的角度、身体的胖瘦高矮。有了这个骨架，系统就能知道"这个人现在手臂抬到45度角，腿微微弯曲"之类的精确信息。更重要的是，这个骨架可以从任意角度渲染成"法线图"（一种特殊的彩色示意图，不同颜色代表身体表面朝向不同方向的部位），把姿势信息和视角信息同时编码进去。

第二类信息是"人物外貌参考"——系统同时接收这个人的正面全身照和背面全身照。为什么要同时提供正面和背面两张照片？因为只有正面照，当视角转到背后时，模型就不知道背面长什么样，只能"脑补"，容易出错；有了两张照片，视角无论怎么转，模型都有据可查。第三类信息就是要生成的目标画面的噪声起点，这是扩散模型（一种常见的图像生成技术）的标准输入方式，可以把它理解为一张空白画布。

这三类信息需要被整合在一起才能让模型处理。研究团队选择了一种叫做DiT（扩散变换器）的架构作为核心引擎，并设计了一套"条件感知位置编码"的方案。用更简单的话说：模型需要同时理解"这个信息来自正面照片的哪个位置"和"这个信息来自背面照片的哪个位置"以及"这个信息是描述姿势的全局指令"，所以每一块信息都被贴上了特殊的标签，告诉模型"你现在处理的是什么类型的信息"。这套标签系统采用了一种叫做RoPE（旋转位置编码）的技术，就像给信封贴上不同颜色的标签来区分信件类型，让模型在处理大量混合信息时不会混淆。

在训练这个模块时，团队使用的是FLUX Kontext这个强大的预训练图像生成模型作为基础，通过一种叫做LoRA的轻量级微调方法（类似于给一位经验丰富的老师额外上几堂专业培训课，而不是从头培养一个新手），在多视角人体数据集上进行针对性训练。训练在4块英伟达A100 GPU上进行，跑了10个完整轮次，批次大小为32，学习率设为万分之一。控制姿势的法线图部分，则借助了另一个已有的ControlNet模型来提取特征，这个模块在训练过程中保持冻结，不做改动。

四、第二阶段：如何把一堆照片变成流畅的视频

第一阶段虽然能够生成每一帧的高质量画面，但毕竟是逐帧独立生成的，就像让一千个不同的摄影师各自拍一张照片，然后把这些照片拼成视频——难免会有细微差异。也许第50帧衬衫上的褶皱和第51帧略有不同，或者手指的细节在两帧之间轻微抖动。这种帧间不一致性在静止图片上看不出来，但一旦播放视频就会产生闪烁感，让人觉得画面不自然。

第二阶段专门解决这个问题，而且有一个特别的亮点：它完全不需要额外训练，只借助已有的视频生成模型Wan（一个开源的大型视频扩散模型）在推理时进行处理。

这个阶段的工作分两步。第一步叫做"低噪声重去噪"。第一阶段生成的帧被编码成潜在表示（可以理解为图像信息的压缩存档），然后人为地加入少量随机噪声——注意是"少量"，不是把图像完全打乱。接着，Wan视频模型从这个"轻微扰动"的起点开始去噪，凭借它在大量真实视频上学到的时序规律，把帧间的细微不一致抹平，同时保留原有的内容和结构。这就好像给一段轻微抖动的手持拍摄视频做防抖处理，用软件的算法补偿掉手抖造成的细微位移，而不是重新拍一遍。

第二步叫做"动态时空正则化"，只在重去噪过程的前35%步骤中生效。这一步在频率域（可以理解为对信号进行频道分解，就像音响均衡器把声音分成高音、中音、低音来分别调节）上对视频潜在表示进行处理。具体而言，系统对视频的时间维度和空间维度同时做三维傅里叶变换，然后用一个高斯滤波器压低高频成分——时间方向上滤波更强（参数τt设为0.06），空间方向上略弱（参数τs设为0.12），这样既能平滑帧间抖动，又不会让每帧图像本身变得模糊。处理完后再转换回正常的图像表示形式，继续下一步去噪。另外，为了防止人物外貌在处理过程中漂移，第一帧的信息被固定下来作为"锚点"，不参与滤波，确保整段视频始终以第一帧为基准保持一致性。

五、拿什么来训练？研究团队自己建了数据集

现有的多视角人体视频数据集中，MVHumanNet++是目前规模和质量都比较靠前的一个。研究团队从中选取了5000个不同身份的人物，每人提供4个视角的视频（正面偏前、背面、左侧、右侧），用于训练第一阶段的图像生成模块。

为了验证模型的泛化能力，团队还在DNA-Rendering数据集上进行了零样本测试——模型完全没有见过这个数据集中的任何人，直接在15个新身份上测试，看看效果好不好。零样本测试更能反映模型的真实泛化能力，因为在训练集上表现好不代表换了新面孔也行。

六、和同行比一比：ReImagine到底强在哪里？

研究团队选取了四个当时最先进的对比方法来评估ReImagine的表现。Qwen-Image-Edit是阿里巴巴开发的多模态指令编辑模型，能够按照文字描述对图像进行精确修改；Wan-Animate专门做身份保持的人物动画；Wan-Fun-Control擅长根据各种控制信号引导视频内容；Human4DiT是一个利用扩散变换器做360度人体视频生成的前沿框架。

在MVHumanNet++数据集上的正面视角测试中，各个方法都能生成视觉上还过得去的结果。但当摄像机角度开始偏转、姿势变化加大时，差距就明显拉开了。ReImagine的外貌保持能力和姿势准确度都是最稳定的，而Wan-Animate和Qwen在角度偏转时开始出现局部扭曲，Human4DiT在较复杂的场景下表现尤为不稳定。

在DNA-Rendering的零样本测试中，结果更加直观地说明了问题。ReImagine的PSNR（峰值信噪比，衡量像素级还原精度）达到22.98，SSIM（结构相似度）为0.847，LPIPS（感知相似度，越低越好）为0.191，FID（图像分布质量，越低越好）为57.79，FVD（视频时序质量，越低越好）为0.561。相比之下，Human4DiT的PSNR仅为16.83，Qwen虽然SSIM较高（0.831），但FVD高达1.517，说明它能生成单帧质量不错的图像，却无法保持帧间的时序一致性——就像一本绘本，每页画得都很精美，但连续翻页时人物却像是换了一个人。

在MVHumanNet的测试中，ReImagine同样拿下了最好的PSNR（23.99）、最低的LPIPS（0.165）、最低的FID（36.23）和最低的FVD（0.275），全面领先于其他方法。值得一提的是，FVD这个指标专门衡量视频的时序流畅度和动作真实感，ReImagine的0.275相比Wan-Animate的0.403有相当显著的提升，说明"图像优先"框架在时序质量上并没有输给专门做视频的方法，反而更好。

七、深挖细节：每个设计选择都经过了验证

研究团队对时序一致性模块的不同方案做了系统对比，包括四种策略：只做第一阶段图像生成不加任何时序处理、在图像生成后只做低噪声重去噪、重去噪加中值滤波（一种常见的视频平滑方法）、以及完整的重去噪加3D FFT频率滤波（也就是ReImagine的完整方案）。

在单帧图像质量上，没有时序处理的纯图像生成反而得分最高，这合乎逻辑，因为每帧都是独立优化的，没有受到时序约束的影响。但在时序流畅度（用光流误差衡量）上，完整的3D FFT方案以0.481的光流误差远低于其他方案，其中没有时序处理的方案误差高达0.552，而单纯重去噪方案的误差反而上升到0.616（说明光有重去噪还不够），中值滤波方案为0.619（过度平滑导致帧间对齐更差）。视觉质量评分（使用VBench框架）方面，完整方案也以0.5346的审美分数略胜一筹。

另一个消融实验验证了背面照片输入的重要性。当把背面照片替换为一张全白的空白图像时，模型仍然能够生成视觉上说得过去的结果，说明它能从正面照片和姿势信息中推断出一部分背面外貌。但当视角真正转到背后时，模型往往会把正面的图案"搬"到背面，比如正面衣服上的图案莫名出现在背面，这显然不对。这个实验证明了正面和背面同时提供的双视角输入设计是必要的。

八、"图像优先"vs"视频优先"：一次直接的正面较量

为了更公平地验证"图像优先"框架的价值，研究团队还专门构建了一个"视频优先"的对比基线：用同样的输入（正面背面参考图和SMPL-X姿势序列）、同样的训练数据（MVHumanNet++），基于Wan视频模型和Uni-Animate DiT架构直接训练一个视频生成模型，条件完全对齐，只有生成策略不同。

结果非常清晰。视频优先方案的PSNR为19.05，而ReImagine为23.99；SSIM上视频优先为0.814，ReImagine为0.827；LPIPS上视频优先为0.219，ReImagine为0.165；FID上视频优先为55.61，ReImagine为36.23；FVD上视频优先为0.614，ReImagine为0.275。在所有指标上，ReImagine全面胜出。从生成的图像来看，视频优先方案的结果更模糊，面部细节和服装纹理都更难分辨，而ReImagine的结果更清晰，颜色还原也更准确。

研究团队对此给出了合理的解释：在有限的多视角人体视频数据上直接训练视频模型，模型的视觉质量上限被数据集的质量锁死了——数据集里的视频是什么质量，生成出来的视频大概也就是那个质量。而ReImagine在第一阶段借助了在数十亿张高质量图片上训练的FLUX Kontext模型，图像质量的上限远高于此；第二阶段的时序处理只是在已有高质量帧的基础上做小幅修正，不需要从有限数据中学习完整的视频生成能力。

九、一个实用的扩展：从"准备好的照片"到"随手拼出来的人物"

研究团队还注意到，要求用户提供标准的正面和背面全身照，在现实中并不总是方便的。为了让系统更易用，他们额外构建了一套"规范资产数据集"，并训练了一个端到端模型，能够从更散碎的输入信息来生成完整的人物图像。

数据构建过程本身也很有意思，展示了如何利用现有AI工具批量生产训练数据。团队从MVHumanNet原始数据集中提取人物的A字形标准站姿帧（A-Pose，就是人物双臂张开、身体正立的标准姿势），用超分辨率模型HYPIR增强图像质量，再用GPT-4o进行重新打光（去除绿幕反光、统一光照环境）得到标准化的人物图像。接着用YOLO-World目标检测模型定位人物身上各个部位的位置，用SAM（分割一切模型）精确分割出脸部、上衣、裤子、鞋子等各个部件，再次用GPT-4o对这些部件进行标准化处理：让脸正对镜头、去除衣服背景只保留衣物本身、把鞋子摆成标准的展示角度。经过大规模数据增强和人工筛选，最终得到了约1600个身份的完整规范数据集，每个身份都有分离好的脸部、上衣、下装、鞋子等独立图像。

基于这个数据集，团队用第一阶段的同款图像生成模块重新训练，只不过把"正面照+背面照"的输入替换成了"脸部图像+上衣图像+鞋子图像"等拆散的部件输入，每个部件都有自己的条件编码索引，让模型知道"这是脸"、"这是衣服"、"这是鞋"。这样训练出来的模型，可以自由组合不同的脸和衣服生成新的人物——比如把某个明星的脸和你喜欢的一件外套组合成一个全新的人物形象，然后再驱动这个人物做各种动作、切换各种角度。从定量结果来看，这个端到端的拆分输入版本（PSNR为22.74）和完整的图像输入版本（PSNR为23.99）相比略有下降，这是合理的，因为从拆散的部件推断完整人物比从完整照片推断更难，但整体质量依然相当可观。

十、用户怎么看：真实人类的主观评价

除了各种数学指标，研究团队还邀请了30名参与者进行主观评价，对比ReImagine和Qwen、Wan-Animate、Wan-Fun、Human4DiT四个方法。参与者既包括计算机视觉和图形学领域的研究人员，也包括没有技术背景的普通用户。

评价方式是两两对比：每次呈现两个不同方法生成的视频，参与者根据两个维度选择更好的那个——视角一致性（换了视角之后人还是不是同一个人）和时序流畅度（动作是不是顺滑，有没有闪烁或跳变）。每位参与者为每个维度随机评价20对视频，结果汇总为偏好率。

ReImagine在视角一致性上获得了41.8%的偏好率，在时序流畅度上获得了34.7%的偏好率，均排名第一。Wan-Fun以26.8%/26.8%排名第二，Wan-Animate以24.1%/24.5%排名第三，Qwen以15.6%/16.2%排名第四，Human4DiT以11.7%/21.3%排名最低。这一结果表明，即便在没有数学指标的纯视觉主观判断中，普通人也能感知到ReImagine在视角切换和动作流畅度上的优势。

说到底，ReImagine这项研究证明了一个看起来有些违反直觉的结论：在训练数据有限的情况下，与其硬着头皮直接训练一个"全功能视频生成器"，不如把任务分解，先让擅长生成漂亮图片的模型把每一帧做好，再让擅长处理时序的模型把这些帧串联起来。这种分而治之的策略，让两个各自在海量数据上积累了丰富经验的预训练模型都能充分发挥所长，结果反而比"从头再来"强得多。

这个思路对整个领域都有一定的启示意义。在很多垂直场景（医疗、工业、时装等）中，高质量的多视角视频数据本就稀缺，硬要端对端地训练视频模型往往力不从心。把任务分解成"静态外观建模"和"时序动态建模"两个独立环节，分别借助不同领域的预训练大模型，可能是一条在数据受限条件下仍能保持高质量输出的可行路径。

当然，这套方法目前还需要提供人物的正面和背面参考照片，以及SMPL-X三维人体参数，这对普通用户来说仍然有一定门槛。团队通过构建规范资产数据集做出了一定简化，但距离"随手上传一张自拍就能生成任意动作任意角度视频"的理想状态还有距离。随着数据积累和技术迭代，这个门槛有望进一步降低。

对这项研究感兴趣的读者，可以通过arXiv编号2604.19720找到完整论文，研究团队也在GitHub上开放了代码、模型权重和数据集，方便研究者直接复现和扩展。

Q&A

Q1：ReImagine生成人体视频需要提供哪些输入信息？

A：ReImagine主要需要三类输入：第一是人物的正面和背面全身照（用于描述外貌）；第二是SMPL-X三维人体参数序列（用于描述每帧的动作姿势和拍摄角度）；第三是目标摄像机视角参数。如果使用端到端扩展版本，也可以用脸部照片、上衣图片、鞋子图片等分离的部件图像来代替完整的正背面全身照，灵活性更高。

Q2：ReImagine和其他视频生成方法相比，最核心的区别是什么？

A：最核心的区别在于生成策略：其他方法通常直接训练一个视频生成模型，一次性生成整段视频；ReImagine则把任务拆成两步，先用图像生成模型逐帧生成高质量画面，再用视频模型做时序平滑。这种分工让系统能同时享受顶级图像生成模型的画质优势和视频模型的时序处理能力，在数据有限的情况下效果反而更好。

Q3：ReImagine的时序一致性模块为什么选择3D FFT而不是更简单的中值滤波？

A：中值滤波虽然计算简单，但它会对每帧做均匀的时间平均，容易把正常的运动模糊掉，导致帧间对齐变差（实验中光流误差反而升高到0.619）。3D FFT则是在频率域对时间和空间方向分别控制平滑强度，时间方向用更强的滤波压制帧间抖动，空间方向用较弱的滤波保留图像细节，这种精细控制让最终的光流误差降到0.481，明显优于中值滤波方案。

人工智能视频生成图像优先框架

分享至