微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌工程师打造的"AI副导演"：让普通人也能用AI制作出专业级视频广告

人工智能视频生成多智能体协作

谷歌工程师打造的"AI副导演"：让普通人也能用AI制作出专业级视频广告

作者：科技行者

2026-05-06 10:49

分享至：

谷歌团队提出Co-Director多智能体视频叙事框架，通过多臂老虎机算法在顶层统一创意方向，结合局部自我修正机制，解决AI生成视频时常见的人物身份漂移和场景不连贯问题。同时推出GenAd-Bench评测基准，使用400个虚构品牌场景评估端到端视频故事创作能力，实验结果显示Co-Director在视觉资产保真度、人群定向准确度、营销吸引力和视觉质量四项指标上全面超越现有商业平台和开源多智能体系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-06 10:49 • 科技行者

这项由谷歌公司研发团队主导完成的研究，发表于2026年4月，论文编号为arXiv:2604.24842，有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

---

一、一个让无数创作者头疼的问题

假设你是一位刚刚创业的小企业主，手里只有一款产品、一个简短的广告语和几张产品图。你希望制作一段像样的视频广告，但专业制作团队的报价让你望而却步，AI工具生成的视频又总是前言不搭后语——明明第一个镜头里的主角还是个棕发年轻女性，到了第二个镜头却突然变成了银发老人；或者故事讲到一半，整个场景莫名其妙地从海滩跳到了办公室。这种"人格分裂"式的视频，不仅无法用于商业推广，还让人哭笑不得。

这正是当前AI视频生成技术面临的核心困境。现有的视频扩散模型（可以把它理解为一种能"凭空画出视频"的AI技术）虽然能生成画质惊人的单段视频，但一旦需要把多个镜头拼成一个有完整故事的视频，各种不一致问题就会接踵而来：人物身份前后不符、场景之间毫无逻辑关联、整体叙事支离破碎。更糟糕的是，现有的"多智能体流水线"方案——也就是让多个AI模块依次接力完成各自的工作——虽然试图解决这个问题，但由于每个模块都各自为政，早期出现的错误会像多米诺骨牌一样，沿着整条流水线一路放大，最终导致灾难性的输出结果。

谷歌的研究团队为此构建了一套名为**Co-Director**（联合导演）的系统，这套系统的设计哲学，是把视频创作的全过程视为一个需要统一协调的全局优化问题，而不是各自独立的子任务的简单拼接。

---

二、一位真正懂全局的"总导演"

要理解Co-Director的核心思路，可以把整个视频制作过程比作拍摄一部商业短片。传统的AI流水线就像是一个没有总导演的剧组：编剧写完剧本就走人，摄影师拿到剧本自顾自拍摄，后期剪辑师从未见过原始素材就开始拼接。每个人都在做自己的事，但没有人关心整体效果是否协调。

Co-Director的做法截然不同。它在整个制作流程的最顶端，设置了一个"总指挥"——称为**编排智能体**（Orchestrator Agent）。这位"总指挥"不仅负责统筹全局，还承担了一项独特的创意决策职责：在每一轮视频生成开始之前，它会像一位资深导演一样，率先确定整部广告的创意方向，然后把这个统一的方向层层传达给所有下属模块，确保从剧本到画面、从镜头运动到背景音乐，每一个环节都朝着同一个目标努力。

这套系统在架构上共分为三个主要层级，依次对应影视制作中的前期制作、拍摄制作和后期制作三个阶段。

**前期制作智能体**是整个故事的"策划组"。它拿到用户提供的简短产品描述和几张参考图片之后，会依次完成四项工作：首先进行"深度研究"，把产品信息和目标人群的文化背景、生活方式融合起来，形成一份详细的创意简报；然后根据这份简报，一场景一场景地写出完整剧情；接着针对剧本里出现的每一个人物、道具和场景，生成相应的视觉素材（如果用户没有提供的话）；最后把剧情展开成一份详细的分镜表，规定每个镜头的视角、运动方式、时间长度，以及背景音乐的节奏和情绪。

**制作智能体**是把分镜表变成真实影像的"拍摄组"。它内部又分成三个专属小组：关键帧小组负责为每个场景生成第一帧画面，相当于在正式拍摄前先拍一张"定妆照"，用来锁定人物外貌和场景风格，防止后续视频生成时人物"变脸"；视频小组以这些"定妆照"为起点，驱动视频扩散模型生成每个场景的完整动态画面；音频小组则根据分镜表里的音乐指令，生成统一的旁白和背景音乐，合并成一轨完整的音频。

**后期制作智能体**是最终的"剪辑组"，负责把所有视频片段按照分镜表规定的时序拼接起来，再把音频精准对齐到视频上，输出最终成品。

---

三、两套"纠错机制"：既治标又治本

光有这套流水线还不够。即便每个模块都在努力工作，局部错误依然有可能溜进来。Co-Director为此设计了两套相互配合的纠错机制，一套负责在局部及时发现并修复问题，另一套负责在全局层面找到最优的创意方向。

**局部自我修正**的逻辑，像是给流水线上的每道工序都配备了一位质检员。这位质检员会在产品交付到下一道工序之前，先对当前成果打分，如果分数不达标，就提供具体的改进意见，让当前模块重新生成，直到质量过关或者达到尝试次数上限为止。

在剧本环节，AI会扮演资深创意总监的角色，从开场吸引力、叙事连贯性、产品融合度、情感共鸣度和对原始要求的贴合度五个维度对剧本打分。一旦发现剧本把某款电脑机箱错误地描述成了电动升降桌（这种"张冠李戴"的幻觉在AI生成文本中并不罕见），质检员就会发出明确的纠错指令，要求重新生成一版聚焦正确产品的剧本。

在关键帧环节，质检员换成了一个能同时看图的AI，它不会单独审查每一张画面，而是把所有场景的画面放在一起统一审视，专门检查那些跨场景的连贯性问题：主角的发色在第一个场景和第四个场景是否一致？产品的颜色和外形从始至终有没有变化？背景从豪华住宅区突然跳到无菌实验室有没有逻辑支撑？如果发现问题，质检员会精准指出哪几张图需要重新生成，而不是推倒重来，这样就保留了已经合格的画面，只修复真正有问题的部分。

---

四、用"老虎机"找到最佳创意配方

局部纠错解决的是执行层面的问题，但还有一个更根本的问题没有解决：即便每个场景都执行得无懈可击，整体的创意方向选得对不对？毕竟，同一款运动饮料，既可以拍成励志的健身故事，也可以拍成清新的生活方式短片，还可以拍成硬核的产品性能对比。哪种方向最能打动目标消费者？

Co-Director用一种叫做**多臂老虎机**的决策算法来回答这个问题。这个算法的名字来自赌场里那种有多个拉杆的老虎机——你不知道哪个拉杆的中奖概率最高，于是你需要在"多试几个不同拉杆积累信息"和"反复拉已知中奖率最高的拉杆"之间找到平衡。

在Co-Director里，每一个"拉杆"对应一种具体的创意配置，由三个维度共同定义。第一个维度是**创意策略**，决定广告的核心诉求是什么：是理性地强调产品功能（信息型策略），还是感性地渲染生活方式和心理认同（变革型策略），还是通过与竞品对比来突显优势（比较型策略）。第二个维度是**叙事模式**，决定故事怎么讲：是逻辑分析式的直接陈述（无情节弧线），是几个氛围各异的生活片段的拼接（片段式），还是有起承转合的完整角色故事（叙事戏剧式）。第三个维度是**美学风格**，决定视频的整体视觉感受：是高亮度、快剪辑、高节奏的活力感；是强光影对比、慢运镜、古典配乐的电影质感；是纯净背景、微观特写、ASMR音效的极简风；还是低调光、手持镜头、电子合成音效的粗粝真实感。

三个维度分别有若干选项，组合起来总共有36种不同的创意配置。系统不会穷举每一种组合，而是通过多臂老虎机算法，在几轮迭代中找到效果最好的配置。每一轮生成完成之后，AI评分员会从创意策略、叙事模式、美学风格三个维度分别打分，把这三个独立的分数反馈给老虎机算法，帮助它判断哪些维度的选择有效、哪些需要调整。这种分维度打分的设计非常关键——如果只给一个总分，系统就无法知道是策略选错了还是风格选错了，只能整体放弃重来；而分维度打分，则让系统能精准地识别出每个决策轴上的好坏，大幅提升了学习效率。

为了避免在最初几轮就把时间浪费在明显不合适的方向上，系统还加入了一个"暖机启动"机制：在第一轮生成开始之前，先让一个通用AI分析产品特性和目标人群，对各种创意配置的潜在效果做出初步预判，以此作为算法的起点，把早期探索引导到相对合理的方向上。

---

五、一个专门为"新品牌"设计的测试场

研究团队不仅构建了Co-Director这套系统，还为评估它的表现设计了一套全新的测试基准，命名为**GenAd-Bench**。

这套测试集之所以值得单独介绍，是因为它解决了一个评估AI视频生成系统时普遍存在的"作弊"问题。现有的评测数据集大多使用真实品牌的产品，比如让AI生成一段可口可乐或者耐克的广告。问题在于，这些品牌的视觉风格、品牌故事和广告范式在AI的训练数据中大量存在，模型很可能只是在"背答案"——它不是真的在理解需求并创作，而是在复现训练时见过的内容。

GenAd-Bench的解决方案是：全部使用虚构品牌和虚构产品。研究团队用AI生成了50个完全不存在的品牌，每个品牌配有4款产品，产品类型跨度极大，从小型消费品到重型工业设备一应俱全。每款产品都配备了一套AI生成的品牌标志和产品参考图，生成后经过人工审核（约15%的图片因为各种问题被重新生成），以确保这些视觉素材足够独特，不会与现实中的任何品牌产生混淆。

在场景设计上，每款产品都对应两种截然不同的目标人群设定：一种是"符合刻板印象的"典型用户（比如给老年人推销保健品），另一种是"打破刻板印象的"非典型用户（比如给18岁的滑板少年推销同款保健品）。这种配对设计专门用来测试AI系统能不能摆脱对"典型用户"的固有认知，灵活地为各种意想不到的目标群体创作合适的广告。

最终，这套测试集共涵盖400个独立场景，对应183个全球地理位置，在年龄、性别、地域上都保持了均衡分布。欧洲和亚洲的场景数量最多，但具体涵盖的地点从北欧小镇到东南亚海滨城市，从中东集市到南美山区，刻意避免了以西方视角为中心的文化偏向。

评估时，研究团队使用一个能同时处理视频画面和音频的多模态AI担任评分员，从四个维度对生成视频打分：视觉资产保真度（生成视频中的品牌标志和产品图像与原始参考图的相似程度）、人群定向准确度（视频的人物选角、场景环境和叙事基调是否精准对应目标人群的性别、年龄、地域和兴趣爱好）、营销吸引力（广告能否抓住注意力、清晰传递价值主张、激发情感共鸣）、视觉质量（画面是否存在AI特有的变形、闪烁、物理规律违反等问题）。

为了验证AI评分员的可靠性，研究团队还专门组织了一项人工评估实验，邀请5位独立评分者对50个场景的视频进行人工打分，然后把人工打分结果和AI打分结果进行对比。结果显示，AI评分员在叙事质量类指标（人群定向准确度和营销吸引力）上与人类评分者的判断高度吻合，但在视觉质量指标上略有差异——人类评分者在实时观看视频时，对短暂出现的画面异常往往没那么敏感；而AI评分员逐帧分析，对任何细微的画面瑕疵都毫不宽容。

---

六、数字说话：Co-Director到底强在哪里

研究团队把Co-Director与市场上形形色色的视频生成系统放在一起进行了系统比较，涵盖了专有商业平台（包括Creatify、HeyGen两款专门面向广告制作的商业产品，以及Kling 3.0 Omni、Veo 3.1、Wan 2.6三款通用视频生成模型）和开源多智能体系统（AniMaker、MovieAgent以及Co-Director自身的简化版本）。

在100分满分的评分体系下，两款专门做广告的商业平台表现反而垫底——Creatify平均得分仅22.1分，HeyGen也只有46.7分。这并不奇怪，因为这类平台依赖的是"说话头像配静态图片"的拼接方式，面对需要动态叙事的复杂广告任务时，先天存在结构性局限。通用视频模型的表现明显好得多，Wan 2.6以65.0分领先于同类，Veo 3.1拿到了63.6分。开源多智能体系统AniMaker得到62.2分，MovieAgent稍好为65.3分。

Co-Director仅使用基础架构（不开启任何优化机制）时就达到了68.5分，证明了它的核心流程设计本身就优于现有多智能体方案。开启4轮随机搜索（每轮随机选择一种创意配置）后，得分跃升至75.7分——这说明多次尝试、择优选用的策略本身是有价值的，但随机搜索的效率不高。最终完整版的Co-Director（启用多臂老虎机优化和暖机启动）在4轮迭代中就达到了81.4分，显著超过了随机搜索在相同轮次下的表现。

特别值得一提的是视觉质量这个维度。这是一个与提示词内容无关的纯粹技术质量指标，Co-Director在这里得到了70.2分，而它所使用的底层视频生成模型Veo 3.1单独使用时只有50.5分。换句话说，Co-Director的优化机制不只是在故事层面起作用，还实实在在地提升了底层生成模型的输出稳定性——通过关键帧质检和多轮优化，系统会主动淘汰掉那些物理规律失真或者画面跳变严重的视频片段，只把真正质量过关的成品交付出去。

人工评分（MOS）实验的结果与自动评分高度一致：Co-Director在5位真实人类评分者眼中的综合得分为3.96分（满分5分），超过了Veo 3.1的3.71分，大幅领先于AniMaker的3.07分和MovieAgent的3.22分，并且在四个单项维度上全面领先。

消融实验（也就是逐一"拆掉"某个功能模块，观察对总体表现的影响）进一步验证了每个设计决策的必要性。去掉关键帧质检环节，视觉资产保真度分数暴跌9.8分，说明这一环节对于保持产品形象一致性至关重要。去掉剧本质检环节，营销吸引力和人群定向准确度明显下滑，说明故事质量直接决定了广告的说服力。把多维度奖励信号压缩成单一总分，视觉资产保真度下降5分，证明分维度打分的设计确实让算法的学习更加精准。把暖机启动换成冷启动，系统在前几轮的探索方向更加随机，收敛效率下降。把整个优化机制全部关闭（只保留基础流水线），综合得分降至67.2分，比完整版低了整整17.6%。

---

七、不只是广告：向通用视频叙事的延伸

研究团队还进一步验证了Co-Director的核心能力能否推广到广告以外的视频叙事场景。他们选取了ViStoryBench这个专门评估视频故事可视化的学术基准进行测试。由于这个基准的输入是详细的分镜脚本和角色参考图，输出是静态图像序列而非视频，研究团队对Co-Director进行了相应的简化：跳过剧本生成模块，只保留关键帧生成、局部自我修正和全局优化三个核心机制。

在这个相对陌生的测试场景下，Co-Director在风格一致性（跨场景风格得分0.499，单场景内部一致性0.743）和角色一致性（跨场景得分0.499）两个维度上依然领先于所有对比系统，在对分镜描述的执行准确度上也达到了最高的平均分3.166分。这说明Co-Director维持视觉连贯性和精准执行创意方向的能力，确实来自系统架构本身，而不只是对广告场景的过度定制。

在那些测试中有一个有趣的观察：Co-Director有时会为"热闹的城市街道"场景自动补充一些路人背景角色，这让画面看起来更有生活气息，却也因此在"场景中实际出现的角色数量是否与脚本完全匹配"这一指标上失分——因为脚本里没有专门写这些路人。这个小插曲恰好说明了Co-Director的创作逻辑：它不是在机械地把文字翻译成画面，而是在理解叙事意图的基础上，主动作出有利于视觉效果的创作判断。

---

八、结语

归根结底，Co-Director做的事情，是把原本只有大型制作团队才能完成的"统一创意方向、层层传达、全程把关"这套工作流，压缩进了一套可以由单个用户在几轮迭代内完成的自动化系统。以往，这种协调工作需要导演、编剧、美术指导、后期督导之间反复沟通才能实现，而Co-Director通过多臂老虎机算法在顶层统一决策，通过层层注入的创意指令在各模块间保持一致，通过局部质检在执行层面及时纠偏，用算法模拟了这套协作机制。

当然，这套系统目前还有明显的局限性。每完成一轮视频生成需要消耗相当可观的计算资源，4轮迭代在实际场景中意味着可观的时间和成本开销。生成的视频固定为12秒4个镜头，无法满足更长叙事的需求。底层视频生成模型偶尔仍会产生细微的物理规律违反（比如短暂出现的手部变形），这些问题无法通过上层优化完全消除。

不过，这项研究真正有价值的地方，或许不只是那些具体的评分数字，而是它提供了一个思考框架：当我们希望AI能够完成复杂的创意性任务时，与其反复堆叠更多独立的AI模块，不如认真设计各模块之间的协调机制，把全局一致性作为首要设计目标。

对于有兴趣进一步了解技术细节的读者，可以在arXiv上通过论文编号2604.24842找到完整论文，研究团队也已承诺开源Co-Director的实现代码和GenAd-Bench数据集，届时可通过论文中提供的项目主页获取。

---

Q&A

Q1：Co-Director和普通的AI视频生成工具有什么区别？

A：Co-Director的根本区别在于它把整个视频创作过程当成一个需要统一协调的整体来处理，而不是把多个独立AI模块简单串联。它顶层有一个"总指挥"智能体，负责先确定创意方向，再把这个统一方向传达给所有下属模块，确保剧本、画面、音乐都朝同一个目标走，从而避免了普通多模块系统中常见的"人物变脸"和"场景乱跳"问题。

Q2：多臂老虎机算法是怎么帮Co-Director找到最好的广告创意方向的？

A：多臂老虎机算法的核心是在"探索新方向"和"利用已知最好方向"之间找平衡。Co-Director每完成一轮视频生成，就让AI评分员从创意策略、叙事模式、视觉风格三个维度分别打分，这三个分数分别反馈给算法，让它能精准判断哪个维度的选择有效、哪个需要调整。同时系统在第一轮之前就用通用AI预判哪些方向可能更适合当前产品，避免早期浪费在明显不合适的方向上。

Q3：GenAd-Bench为什么要用虚构品牌而不是真实品牌来测试？

A：使用真实品牌测试AI系统存在一个根本问题：这些品牌在AI的训练数据里大量出现过，模型很可能只是在"背答案"而不是真正在创作。用完全虚构的品牌和产品，可以确保模型无法依赖记忆中的已有信息，必须真正理解需求并从头创作，这样测出来的成绩才是真实能力的体现，而不是记忆检索的结果。

人工智能视频生成多智能体协作

分享至