在当今人工智能蓬勃发展的时代,一个令人着迷的研究领域正悄然兴起——故事可视化。这项由上海科技大学、StepFun、AIGC Research和西湖大学AGI实验室联合推出的研究成果于2025年5月发表,主要由Cailin Zhuang、Ailin Huang、Wei Cheng等多位研究者共同完成,由Zhewei Huang、Gang Yu和Chi Zhang担任通讯作者。
想象一下,你给AI讲了一个关于小兔子不肯睡觉的故事,还给它看了小兔子和大兔子的照片。神奇的是,AI能根据你的故事和这些参考图片,生成一系列连贯的画面,展现小兔子抓着大兔子耳朵不放的可爱场景。这就是故事可视化的魅力所在——将文字叙述转化为视觉连贯的图像序列,让故事更加生动、形象。
然而,评价故事可视化的质量并不像评价单张图片那样简单。这就好比评价一部电影不能只看某个镜头是否精彩,还要看整个故事是否连贯、角色是否一致、情节是否合理。正是看到了这一挑战,研究团队推出了名为"ViStoryBench"的评估基准,专门用于全面评估故事可视化模型的性能。
这个评估基准就像是一个严格而公正的评委,它不仅看重生成图像的美观度和多样性,还特别关注角色的一致性——毕竟,如果故事中的小公主突然变成了小王子,那可就糟糕了。ViStoryBench收集了各种类型的故事和艺术风格,包括喜剧、恐怖、动漫和3D渲染等,确保评估的全面性。此外,它还囊括了单一主角和多主角的故事,测试模型保持角色一致性的能力,以及处理复杂情节和世界观构建的能力。
研究团队不仅提供了多维度的评估指标,还对市场上超过20种方法进行了广泛测试,包括18种主要方法及其变体。他们分析了用户研究与自动评估指标之间的一致性,揭示了不同模型的特点和局限。
如果你对故事可视化感兴趣,这个研究可以帮助你更好地理解这一领域的发展现状和挑战。接下来,让我们一起深入探索ViStoryBench的世界,看看它如何评判AI讲故事的能力。
一、故事可视化:让AI变身故事画家
在我们开始探索ViStoryBench之前,先来了解一下什么是故事可视化。想象你是一位童话作家,写了一个关于小红帽的故事。现在,你希望为这个故事配上插图,但你并不擅长绘画。这时,故事可视化技术就派上用场了——你只需要提供故事文本和对小红帽、大灰狼等角色的描述和参考图片,AI就能为你生成一系列连贯的插图,展现故事的发展过程。
近年来,随着生成模型的进步,故事可视化技术取得了显著发展。研究者们开发了各种方法来提高图像序列的视觉一致性和跨模态序列的连贯性。比如UNO结合了渐进式跨模态对齐和旋转位置编码,实现了高一致性的多主体图像合成;SeedStory利用多模态大语言模型和SDXL进行故事续写;StoryGen采用自回归条件对历史图像/文本进行建模。还有一些无需训练的方法,如StoryDiffusion(一致的自注意力)和Story-Adapter(迭代细化)改进了长程连贯性。TheaterGen则使用大语言模型进行角色状态跟踪。
除了图像生成,一些研究还延伸到了视频生成和3D领域。例如,MovieAgent使用多智能体推理同步生成叙事、音频和字幕;AnimDirector通过大语言模型将提示扩展为故事序列;MM-StoryAgent整合角色库实现多场景视频生成;DreamRunner通过检索增强的动作适应创建长形式、多动作、多场景故事视频。
商业平台如Morphic Studio、MOKI和豆包也开始加速故事可视化从研究到实际应用的转变。不过,当前研究仍面临多图像连贯性维护、长程依赖建模、精细控制能力和与复杂文本提示对齐等挑战。
二、ViStoryBench:全方位评估故事可视化的"裁判"
想象一下,如果你是一位评审员,需要评判不同厨师制作的一道复杂菜肴。你不仅要看成品的外观和色彩,还要品尝味道、评价食材的新鲜度、考量制作过程的复杂性等多个方面。同样,评估故事可视化系统也需要一个全面的标准,这就是ViStoryBench的意义所在。
ViStoryBench实际上是一个包含多种工具和数据的综合评估系统。它首先明确定义了故事可视化任务:给定一个故事脚本,以及n个角色的外观描述T1, T2, ..., Tn和对应的图像S1, S2, ..., Sn,再加上m个镜头描述(包含场景描述、情节对应、镜头构图设计、出场角色和静态镜头描述),系统需要生成一系列图像I1...Im,忠实地表现这些镜头描述,并与提供的角色信息保持一致。
为了构建这个评估基准,研究团队收集了80个故事片段,涵盖从电影和电视剧剧本到文学杰作、世界各地传说、小说和图画书等多种来源。对于过长的故事,他们使用大语言模型辅助人类进行总结,使每个故事都保持在数百字的长度。然后,他们将故事转换为包含角色描述和分镜头脚本的剧本。
角色参考图像方面,研究团队为每个角色手动收集了与描述一致的图像。他们确保同一故事中的角色图像风格保持一致。在总共344个角色中,一小部分角色的参考图像是使用SDXL生成的。总体来说,数据集包含344个角色和509张角色参考图像。
评估指标是ViStoryBench的核心部分,包括以下几个方面:
首先是跨相似性和自相似性评估。这就像检查一个人的多张照片,既要确认照片中的人确实是本人(跨相似性,与参考图像的相似度),又要确保不同照片中的人看起来一致(自相似性,生成图像之间的一致性)。研究团队使用了多种技术工具,如Grounding DINO(一种开放集目标检测器)和ArcFace或CLIP进行特征提取,计算生成图像中角色与参考图像的相似度,以及生成图像序列中角色的一致性。
其次是提示一致性评估。这就像检查一个故事的插图是否忠实反映了文字描述。研究团队使用GPT-4.1来评估生成图像与分镜头描述的一致性,包括角色交互动作、拍摄方法、静态镜头描述和单个角色动作四个方面。此外,他们还专门计算了出场角色数量匹配得分,因为许多模型在生成正确的角色集合方面存在困难。
第三是复制粘贴检测。一些生成模型可能会简单地复制粘贴参考图像中的角色,而不是创造性地生成与情境相符的角色图像。研究团队设计了一个"复制粘贴程度"指标来衡量这种现象。
最后是图像质量评估。研究团队计算了所有生成结果的美学质量得分和多样性得分(使用Inception Score)。
除了自动评估指标,研究团队还进行了用户研究,邀请参与者从环境一致性、角色识别一致性和主观美学三个维度评估生成结果。这就像让普通观众评价一部电影,看它在视觉效果、角色塑造和整体艺术性上的表现如何。
三、实验设置:公平比较不同方法的"竞技场"
为了确保评估的全面性和公正性,研究团队设计了一个周密的实验环境,就像一个公平的竞技场,让不同的故事可视化方法在相同条件下展示各自的能力。
ViStoryBench分为两个版本:完整版和精简版(ViStoryBench-lite)。精简版是完整版的四分之一子集,通过手动策划,确保文本风格和角色参考图像风格的分布与原版相似。具体来说,精简版包含20个故事,角色参考包括36个动画角色、41个真实人物和4个非人类实体。各类角色的比例与完整集合相似。
在主要实验中,研究团队评估了多种图像和视频生成方法。他们开发了一个简单的复制粘贴基线方法,即自动将每个镜头的出场角色参考图像粘贴到1080p画布上。对于图像生成,他们评估了StoryDiffusion、Story-Adapter、StoryGen、UNO、TheaterGen和SEED-Story等方法。对于视频生成,他们测试了Vlogger、MovieAgent、Anim-Director和MM-StoryAgent等方法。
在故事生成领域,许多封闭源代码的商业软件能提供相当不错的结果。但由于资源和其他原因限制,研究团队只能在ViStoryBench-lite基准上报告这些软件的结果。他们也包括了一些开源方法作为基线。所报告的结果来自这些软件在2025年5月的版本,未来的结果可能会有所不同。
由于不同方法或软件在问题定义上存在差异,研究团队讨论了详细的适应过程。对于那些不生成图像作为中间结果的视频生成方法,他们选择了每个镜头相关视频的第一帧。大多数方法或软件被要求生成1080p分辨率的结果,尽管也有例外,如Gemini,其图像大小不完全可控。
此外,研究团队提供了一个持续维护的排行榜网页,鼓励社区内强有力的竞争。表中的最终排名是通过平均每个指标的排名索引确定的,确保对所有指标的平衡考虑。一些商业软件测试的结果标有星号。由于内容政策限制,某些故事无法正常生成结果。因此,他们只考虑了成功生成结果的数据的平均值,这引入了一些差异。
为了评估生成图像的一致性和美学质量,研究团队还进行了用户研究,参与者从三个维度评估了结果:环境一致性(关注相同环境描述下的场景是否视觉上连贯)、角色识别一致性(评估主要角色在整个故事中的可识别性和连贯性)以及主观美学(评估可视化的整体艺术吸引力、细节丰富度和讲故事效果)。
四、评估结果:谁是故事可视化的"冠军"?
经过全面评估,不同的故事可视化方法展现出各自的优势和局限。就像体育比赛中的选手各有所长,有些在速度上领先,有些在技巧上出众,有些则在耐力上表现突出。
首先,研究团队发现,在故事可视化任务中,全面的评估指标极其重要。举个例子,简单的复制粘贴基线在许多指标上取得了最佳结果,但其对齐得分明显较低。虽然Inception Score通常可以衡量图像生成的质量和多样性,但仅通过检查Inception Score指标很难比较不同模型。当只使用文本作为输入时,StoryDiffusion和Story-Adapter在Inception Score和美学质量方面表现出色。然而,仅依靠文本输入显然无法生成与角色参考图像的特征和风格相似的结果。
近期发布的UNO在开源方法中取得了全面领先的位置。它在用户评价的所有三个类别中都获得了良好的好评度。它在每个量化指标中都取得了相对领先的地位。
商业软件展现出优秀的综合能力。其中,豆包和GPT-4o在提示一致性能力(对齐得分)方面表现突出。这可能归因于它们集成了拥有大量参数的大语言模型。此外,GPT-4o在选择出场角色集合方面表现出最高的准确性。AIbrm非常擅长利用角色参考图像,将描绘的角色特征纳入其生成结果中。在这方面,表现最好的开源项目是UNO,但AIbrm明显优于它。
使用自动评估指标,可以很容易地理解模型的改进空间或找到好的/差的例子。例如,早期工作StoryGen在生成图像的多样性和质量方面面临问题。由扩散模型引入的图像先验提升了后续方法在Inception Score和美学质量方面的表现。AIbrm是一个针对故事可视化场景定制的应用,与通用应用如GPT-4o相比,它提供了更准确的角色特征生成。然而,AIbrm理解文本指令的能力仍需改进。通过自动评估指标,研究团队可以轻松识别一些好的/差的生成结果。
研究团队的量化指标与定性观察表现出一致性。对于Story-Adapter,自动评估指标和人类评估之间的评分一致性特别明显:在文本模式下(其原生设置),整体质量评分(scale=5)系统地超过了基线(scale=0),这与理论预期一致;当使用图像参考时,scale=0在CIDS和CSD的跨相似性上比scale=5取得更高分数,但在自相似性上表现较差。
五、ViStoryBench如何构建:打造全面评估体系的幕后故事
ViStoryBench的构建过程就像精心设计一场综合测试,需要考虑各种不同的场景和挑战。研究团队首先明确了故事可视化任务的定义,然后围绕这一定义收集和整理了丰富多样的数据。
在故事和剧本方面,研究团队追求多样性。他们手动收集了80个故事片段,涵盖电影和电视剧剧本、文学杰作、世界各地的传说、小说和图画书等多种来源。对于过长的故事,他们让大语言模型辅助人类进行总结,使每个故事都保持在数百字的长度。然后,他们将故事转换为包含角色描述和分镜头脚本的剧本,在这个过程中也使用了大语言模型的帮助。
这些故事包括13个民间故事、10个爱情故事、4个悬疑犯罪故事、3个恐怖故事、6个历史故事、10个奇幻故事、7个科幻故事、3个战争故事、10个关于社会生活的故事、3个冒险生存故事和11个童话故事。整个数据集包含1317个镜头,每个故事包含4到30个镜头,平均每个故事16.5个镜头。为了评估更广泛的方法,数据集中所有与测试相关的文本都提供了英文和中文版本。对于仅支持中文或在中文输入下表现明显更好的方法,研究团队使用中文作为输入,而对于其他方法则使用英文作为输入。
每个单独的镜头包括以下描述:场景描述、情节对应、出场角色、静态镜头描述和镜头构图设计。
在角色参考图像方面,对于大多数知名故事,角色参考图像来自相关的视觉作品。对于其余的故事,研究团队要么从具有类似设置的电影或电视剧中检索截图(16个故事),要么让SDXL生成动画角色图像(7个故事)。数据集包含总共344个角色,其中包括190个真实人类、135个虚拟人类和19个非人类。其中,有210个男性、108个女性和26个无性别或非二元性别的角色。每个角色有1到10张图像,其中89个角色有多于一张图像。整个数据集由509张参考图像组成。
研究团队将所有80个故事根据主要角色的图像类别分为两类:真实故事和非真实故事。其中有39个真实故事和41个非真实故事。这种分类用于随后评估不同工作之间结果的差异。
在评估指标的计算过程中,研究团队简要介绍了使用的模型和工具。Grounding DINO是一个开放集对象检测器,可以根据文本描述检测图像中的对象。研究团队利用Grounding DINO裁剪出与特定描述匹配的角色边界框。对于裁剪出的角色图像,如果内容是真实角色,他们使用ArcFace进行特征提取;否则,使用CLIP进行特征提取。这两种特征提取方法都为每个角色生成一个512维的特征向量。在提取整个图像的风格特征时,他们使用CSD提供的模型,这是一个在大型风格图像数据集上微调的CLIP模型。
此外,研究团队利用Inception Score(IS)和Aesthetic Predictor V2.5来评估多样性和美学质量。IS根据清晰度和多样性评估一批生成的图像。Aesthetic Predictor V2.5是一个基于SigLIP的预测器,在1到10的量表上评估图像的美学。它倾向于给模糊、嘈杂或被认为不太具有视觉吸引力的图像较低的分数。得分为5.5或更高的图像被认为具有出色的质量。
六、研究局限性与社会影响:故事可视化的"双刃剑"
尽管ViStoryBench提供了全面的评估框架,但研究团队也坦诚认识到了它的一些局限性和潜在的社会影响。
首先,数据集中的一些图像来自流行电影、电视剧、动画等。因此,某些指标可能会过拟合到这些特定数据,潜在导致这些指标的操纵或"黑客攻击"。其次,数据集包括中文和英文版本。虽然研究团队为每种方法或软件选择了适当的语言,但由于指令语言的差异,生成结果的质量可能会有所不同。研究团队没有考虑语言差异导致的生成质量差异。第三,由于缺乏准确的面板分割方法,该工作无法评估涉及在单个图像中生成多个面板的漫画生成/漫画生成任务的结果。此外,研究中没有讨论每种方法的推理速度。对于故事视频生成方法,仍有一些视频相关的问题需要关注,如帧一致性或质量。研究团队没有专门为这方面设计测试。
从社会影响角度看,研究团队希望故事可视化模型能成为更强大的教育和创意工具,并有助于文化遗产的保存和推广。在收集故事时,他们努力选择来自各种文化和地区的叙事。尽管有这些努力,生成模型仍面临克服刻板印象和数据偏见的挑战。至关重要的是,生成模型不应被用作创建虚假内容的工具,这需要政策制定者和技术专家之间的合作。
七、结论:开启故事可视化评估的新篇章
ViStoryBench就像是为故事可视化领域打造的一把"尺子",它不仅能测量不同方法的表现,还能指明未来研究的方向。通过提供多样化的故事类型、角色参考和全面的评估指标,ViStoryBench使研究者能够严格评估和比较各种故事可视化模型。
这个基准测试的独特之处在于它的全面性和多维度评估。它不仅关注生成图像的质量和多样性,还特别重视角色一致性、提示遵循度和视觉连贯性等关键方面。这就像评价一部电影不仅看特效华丽程度,还要看故事是否连贯、角色是否立体、情节是否合理。
通过对多种方法的测试,研究团队发现了一些有趣的模式。例如,商业软件通常在提示遵循方面表现出色,可能是因为它们集成了参数量庞大的大语言模型。而最新的开源方法UNO则展现出全面领先的能力,在多个指标上表现突出。这些发现不仅帮助我们了解当前技术的现状,也为未来的研究提供了方向。
更重要的是,ViStoryBench的开放性使得研究社区能够持续评估和改进故事可视化技术。研究团队发布了整个基准测试、数据构建流程中使用的提示详情、每个模型的自动和手动评估结果,以及复现自动评估结果所需的代码。这种开放态度将促进该领域的协作和创新。
展望未来,故事可视化技术有望在娱乐、教育和文化遗产保护等领域发挥重要作用。通过更准确、一致地将文字故事转化为视觉内容,AI将帮助人类更生动地讲述和传播故事,促进跨文化交流和理解。
ViStoryBench的出现,就像是为这个领域提供了一个共同的语言和标准,使研究者能够更清晰地交流和比较他们的工作。它不仅推动了技术的进步,也有助于我们更深入地思考AI如何辅助人类创造力的表达。正如故事本身连接了人类的过去、现在和未来,故事可视化技术也将连接人类的想象和AI的创造力,开启讲故事艺术的新篇章。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。