微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

弗吉尼亚理工大学的研究者如何让AI生成的视频"活"起来——自适应状态锚点的突破

视频生成自回归扩散模型自适应状态锚点

弗吉尼亚理工大学的研究者如何让AI生成的视频"活"起来——自适应状态锚点的突破

作者：科技行者

2026-06-03 13:04

分享至：

AdaState由弗吉尼亚理工大学提出，用自适应隐藏状态替换视频生成AI的静态锚点，无需架构改动，同时提升视频动态性与场景一致性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-03 13:04 • 科技行者

这项由弗吉尼亚理工大学研究团队完成的研究以预印本形式发表于2026年5月，论文编号为arXiv:2605.30349，有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有注意过，有些AI生成的视频看起来总是"动而不动"——画面中的人物或许在走，背景却像被钉在墙上一样纹丝不动？又或者相反，视频越往后播放越像是坏掉了，颜色乱跑，画面崩塌，完全认不出最初的场景？这两种毛病，正是当下所有流媒体视频生成AI共同的顽疾。弗吉尼亚理工大学的研究团队为此提出了一个叫做AdaState（自适应状态锚点）的解决方案，并在实验中证明，它能同时解决这两个看似互相矛盾的问题。

说到底，这篇论文解决的是一个关于"记忆"的问题。当AI逐帧生成视频时，它需要时刻记住"这个视频讲的是什么"，否则画面就会漂移失控。但现有的记忆方式，就像把一张旧照片钉在眼前——AI始终盯着第一帧，导致整个视频被"冻结"在起点，无法自然演进。AdaState的做法是，让AI在每一步都为自己重新生成一张"记忆快照"，这张快照会随着视频内容的发展而更新，既不丢失过去，又不被过去所束缚。

一、视频生成AI的"原罪"：被第一帧绑架

要理解这个问题，可以把AI生成视频的过程类比成一位蒙眼画家接力创作一幅长卷。每次画家揭开眼罩，只能看到一小段已经画好的内容，然后继续往后画，再蒙眼，再揭开……如此循环。为了保持整幅画的风格统一，画家需要一个参考点。现有的做法是：把第一段画好的内容固定在桌角，让画家每次都先瞟一眼这个"初稿"，再动笔。

这个初稿就是所谓的"静态锚点"——视频第一帧的关键信息被永久保存在AI的记忆系统（专业上叫KV缓存）里，作为整个生成过程的基准参考。这种设计背后有一个自然现象支撑：在AI的注意力分配机制中，最早出现的内容天然会获得最多的关注，就像老师提问时，坐在第一排的学生总是最先被看到。研究团队专门测量了这种注意力分配，发现在所有缓存帧中，位置0的第一帧和最新一帧会持续占据注意力的主导地位，其余大约70%的缓存内容只能平分剩余的关注。

问题就出在这里。这个"初稿"太干净、太完美——它是从零开始生成的第一帧，没有任何误差积累。AI越往后生成，就越依赖这个完美的初稿来纠正自己，结果就是：无论视频内容应该如何发展变化，AI总是被拉回到第一帧的构图和风格上，就像蒙眼画家永远画出差不多一样的东西，只是复制粘贴，场景无法真正演进。与此同时，由于误差都被这个干净的参考点"吸走"了，AI在训练时也没机会练习如何应对积累的错误，导致视频一旦超过训练长度就容易崩溃。

围绕这个问题，学术界已经出现了几种补丁式的修复方案。有的方法把第一帧的记忆永久钉在那里（更加强化这个问题）；有的方法把历史内容做平均化处理，但平均的结果往往是一片模糊，细节全失；还有的方法按照某种规则定期替换锚点内容，但本质上还是把旧画面搬来搬去，AI容易陷入复制过去而非创造未来的模式。这些方法都没有触及根本：锚点本身是静态的，无论如何修修补补，它都不能真正随着场景的演变而演变。

二、AdaState的核心创意：让记忆也参与"创作"

AdaState的思路转变在于一个看似简单的问题：既然第一帧是被生成出来的，为什么锚点本身不能也被生成出来？

研究团队的答案是引入一种叫做"自适应状态"的隐藏帧。每当AI生成一段视频内容时，它同时还会生成一个从不展示给观众的"幕后摘要帧"——这就是自适应状态。这个摘要帧在同样的噪声起点出发，经过同样的去噪过程，和内容帧一起被生产出来，但它不会变成视频里的任何一帧，而是悄悄地存入记忆系统的位置0，成为下一段视频生成时的新锚点。

这就好比那位蒙眼画家不再盯着初稿，而是在每次揭开眼罩之前，自己先画一张当前进度的缩略图，用这张新鲜的缩略图来指导接下来的创作。缩略图会随着长卷的推进而不断更新，既保留了整幅画的核心风格，又反映了最新的画面状态。

这个设计在技术层面有三个精妙之处。第一，自适应状态和视频内容使用完全相同的生成机制去噪，不需要任何额外的模块或网络结构，整个系统零改造。第二，位置编码从绝对时间改为相对时间——无论视频已经生成到第几秒，每个生成步骤看到的位置结构都是一样的，就像每次换班的厨师接手的都是同一份食谱，而不是积压了一叠修改记录的混乱文档，这让AI在理论上可以无限延伸生成长度。第三，这个设计自然形成了一种类似于循环神经网络的递归结构：自适应状态是一个隐藏变量，由模型自身的去噪过程更新，通过KV缓存传递，不直接展示但持续影响输出——和LSTM这类经典记忆模型的工作原理如出一辙，区别在于更新函数不是额外训练的，就是视频生成本身。

三、信息如何在新框架中流动

在AdaState的架构中，每个生成步骤的输入窗口由四部分组成：上一步产生的状态缓存（占据位置0）、当前正在去噪的新状态、若干最近生成的内容帧缓存，以及当前正在去噪的新内容帧。这个窗口中所有已缓存的部分噪声水平为零（即干净的），所有正在处理的部分处于当前步骤的噪声水平，整体保持一致，不会让AI感到"奇怪"。

每次去噪过程中，内容帧的查询会去读取状态缓存，获取那些已经滚出短期窗口的场景信息；与此同时，新状态帧的查询会去读取当前内容，把最新的场景进展吸收进来。两个方向的信息流相互补充：内容从状态中获得历史上下文，状态从内容中吸收当下变化。

当视频刚开始生成时（前几帧还没滚出窗口），状态槽位处于休眠状态，模型行为和原来一模一样，不会带来任何干扰。只有当内容开始被推出短期窗口之后，状态才开始接管锚点职能，过渡非常平滑。第一个状态的初始值直接取自视频第一帧的干净表示，作为整个递归链条的起点。

四、"晚到的帧"也值得被认真对待——水平加权训练

光有好的架构还不够，训练策略同样关键。研究团队发现了一个微妙但重要的问题：在一段视频的生成过程中，越靠后的帧越难生成——前面的错误已经积累，原始场景内容已经滚出窗口，完全依赖状态锚点来维持一致性。这些帧是最考验AdaState能力的地方，也是最需要训练信号的地方。

然而在标准的均匀损失函数下，早期帧（条件好、误差小）和晚期帧（条件差、误差大）被一视同仁，早期帧因为本身就容易生成好，会在平均损失中占更大比重，导致优化器把精力集中在"容易拿分"的部分，而真正需要锻炼的晚期帧被轻描淡写地带过。

研究团队提出了"水平加权DMD"训练方法来解决这个问题：对每一帧的损失乘以一个与帧序号成正比的权重，越晚的帧损失权重越高。这就像考试改卷时，把后面难题的分值提高，强迫学生必须认真对待压轴题，而不是只靠前面简单题的分数混过去。

具体来说，权重公式是：第i帧的权重等于（1加上α乘以i除以总帧数减一），其中α是一个可调节的斜率参数。状态本身没有独立的损失函数，训练信号完全通过内容帧对状态的注意力反向传播过来——因为水平加权把最多的梯度集中在最依赖状态的晚期帧上，训练信号自然引导状态学会在关键时刻提供最有用的场景上下文。

研究团队还发现，α的取值需要根据生成长度来调整：在训练长度（5秒）内评估时，α=2的效果最好，动态度最高；而在生成30秒的超长视频时，α=4效果更稳定，因为更高的权重让AI在训练时更充分地准备好应对遥远未来的帧。这催生了一种双模式训练策略：针对短期使用一套参数，针对长期使用另一套，各司其职。

五、实验验证：数字与画面共同说话

研究团队基于阿里巴巴的Wan2.1-T2V-1.3B视频生成模型，通过自我强迫（Self-Forcing）框架进行蒸馏训练，构建了实验基础。每次生成一段包含3个潜空间帧的视频块，同时处理1个自适应状态帧，使用3个缓存的历史内容帧提供短期上下文，去噪步数为4步。从Self-Forcing的已有检查点出发，在两张H200 GPU上微调1000次迭代，有效批次大小为4，学习率为每次二百万分之一。

对比方法覆盖了当前所有主要的锚点机制流派：没有持久锚点的方法包括Self-Forcing、CausVid和Causal Forcing；采用静态锚点的方法包括LongLive、Rolling Forcing和Infinity-RoPE；使用指数移动平均或启发式更新锚点的方法包括Reward Forcing、MemRoPE和Rolling Sink；此外还有一个非自回归的Wan 2.1-1.3B作为画质上限参考。评估使用128条来自MovieGenBench的提示词，分别在5秒（21帧，训练范围内）和30秒（120帧，训练长度的六倍）两个长度上进行测试，采用VBench多维评估体系和VisionReward人类偏好评分。

定量结果中，最核心的发现是一条"一致性-动态性权衡对角线"。在5秒评估中，静态锚点方法（LongLive、Rolling Forcing）聚集在高一致性、低动态度的一端——视频稳定但僵硬，动态度得分只有0.367至0.393；无锚点方法（Self-Forcing、Causal Forcing）则在对角线的另一端，动态度较高但一致性较低；EMA和启发式更新方法落在对角线中段，仍然无法逃脱这个权衡框架。AdaState是唯一偏离对角线的方法，动态度达到0.828，同时主体一致性保持在0.961，VBench总分0.860和VisionReward评分0.868均为所有方法最高。

30秒的超长生成更能说明问题。绝大多数对比方法在这个长度下出现了两极分化：Rolling Forcing的动态度跌至0.042，CausVid跌至0.096，几乎完全静止；Causal Forcing虽然动态度高达0.933，但主体一致性从5秒时的0.974跌至0.944，视频内容开始偏离提示词。AdaState在30秒时动态度为0.922，主体一致性为0.959，文本-视频对齐得分0.259是所有方法中最高的，VBench总分0.865同样排名第一。更关键的是，AdaState的动态度从5秒到30秒不降反升（从0.828升至0.922），这说明水平加权训练确实让模型在长序列生成中越来越好，而不是越来越差。

定性比较同样清晰。在一段12秒的人物街景视频中，Self-Forcing到后期出现明显的颜色漂移；MemRoPE和Infinity-RoPE画面稳定但场景几乎一成不变，就像把同一帧复制了好几遍；AdaState的画面中，人物持续行走，摄像机跟随移动，街道景色自然推进。在一段30秒的海岸无人机航拍中，Causal Forcing画面崩塌成无法辨认的色块，Rolling Forcing和Reward Forcing画面稳定但海岸线始终是同一段；AdaState的摄像机沿着海岸线持续飞行，每个时间节点都展示了新的地形，始终在金色的阳光下。

消融实验揭示了一个有趣的设计规律：动态度取决于状态在整个缓存窗口中的相对占比，而非绝对容量。当状态帧数Fs固定为1，把内容窗口从9帧压缩到6帧时，动态度从0.581大幅提升到0.734，因为状态在更紧凑的窗口中占据了更突出的位置。反过来，把状态帧数扩展到3同时保持较大的内容窗口，动态度反而没有提升，因为多个状态槽稀释了单一锚点位置的注意力集中效应。这个"单一递归位置"的设计原则是系统有效工作的关键。

消融实验还验证了一个重要结论：如果在AdaState的基础上保留原来的静态第一帧锚点，动态度会立刻下降。模型会抄近路，直接依赖那个干净的静态参考，完全忽略自适应状态的存在。这证明，去除静态锚点是AdaState能够正常工作的必要前提，二者不能共存。

六、人类眼睛怎么说——用户研究结果

研究团队还通过Prolific平台招募了40位普通评测者进行盲测评估。每位评测者观看20段视频（10段5秒、10段30秒），用5分制对每段视频的"场景连贯推进度"和"提示词符合度"打分，视频来自AdaState和四个代表性对比方法，评测者不知道哪个视频来自哪个方法。

结果与自动评估高度一致。无锚点类方法（Causal Forcing和Self-Forcing）得分最低，其中Causal Forcing的连贯推进评分约为2.55，Self-Forcing约为2.56；静态锚点的Infinity-RoPE约为3.29；EMA锚点的MemRoPE约为3.43；AdaState在连贯推进和提示词符合两项上分别获得3.71和3.79，均为最高。评测者反馈中，超长视频的画面崩塌和场景冻结是被批评最多的问题，而AdaState的视频被认为"像是真实摄像机在持续拍摄"。

归根结底，AdaState做的事情说起来并不复杂：它把一个会老化的静态参考换成了一个会成长的动态参考。就像一个旅行者不再死死盯着出发地的地图，而是在每到一个新地方时，随手画一张当前位置的草图，既记住了来时的路，又能看清眼前的风景。这个换法不需要任何额外的硬件，不需要改造任何网络结构，只需要1000步微调，在两张GPU上几小时就能完成。

这项研究告诉我们，AI视频生成领域长期以来的一个"常识"——动态性和一致性之间必须做取舍——并非铁律，而是特定架构选择的产物。当你改变了AI"记住场景"的方式，这个取舍就自然消失了。对于普通用户来说，这意味着未来AI生成的长视频将不再是一遍遍重复起点场景的无聊循环，而是真正能讲述一个有头有尾、场景不断发展的故事。对于研究者来说，论文还提出了一个更宏大的启发：注意力集中在固定历史位置的现象在所有自回归生成模型（包括音频、3D内容，甚至长文本生成）中都存在，自适应状态这个思路也许在那些领域同样适用。有兴趣探究这个问题的读者，可以通过arXiv编号2605.30349找到完整论文，自行验证这个判断。

Q&A

Q1：AdaState和普通视频生成AI相比，解决了什么具体问题？

A：普通的流媒体视频生成AI通常把第一帧作为永久参考，导致视频场景无法自然演进，越往后越像在复制起点画面。AdaState用一个会随场景更新的"隐藏摘要帧"替换了这个静态参考，让AI在每个生成步骤都重新生成自己的场景记忆，使视频在保持人物和风格一致的前提下实现真正的场景推进和摄像机运动。

Q2：AdaState能生成多长的视频，训练成本高不高？

A：AdaState的训练长度是21帧（约5秒），但实验证明它能稳定生成120帧（30秒）的视频，是训练长度的六倍，且动态度不降反升。训练成本很低，只需在已有的Self-Forcing检查点基础上微调1000步，使用两张H200 GPU，不需要任何架构改动。

Q3：水平加权DMD训练是做什么用的，不用它行不行？

A：水平加权DMD是AdaState训练中的损失函数改进，它给视频后期帧分配更高的训练权重，强迫模型认真学习如何处理误差积累后的生成。不用它时（消融实验中α=0），动态度明显下降；用了它之后，模型在超出训练长度的30秒生成中表现更好，动态度从训练范围内到超长范围内保持稳定甚至提升。

视频生成自回归扩散模型自适应状态锚点

分享至