微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北京大学与阿里巴巴联合出品：让AI同时"说话"又"画画"，角色扮演终于有了全新玩法

多模态角色扮演强化学习角色一致性生成

北京大学与阿里巴巴联合出品：让AI同时"说话"又"画画"，角色扮演终于有了全新玩法

作者：科技行者

2026-06-01 11:15

分享至：

北京大学、阿里巴巴与浙江大学联合提出UniCharacter框架，通过两阶段训练让AI同时掌握角色对话风格与视觉形象生成能力，仅需10张图片即可完成角色定制。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 11:15 • 科技行者

这项由北京大学、阿里巴巴集团与浙江大学联合开展的研究，以预印本形式于2026年5月发布，论文编号为arXiv:2605.08129，感兴趣的读者可通过该编号检索完整论文。

你有没有幻想过，有一天能和自己最喜欢的动漫角色真正对话——不只是收到一段冷冰冰的文字回复，而是同时看到那个角色带着符合当下情绪的神情和姿态出现在你面前？或者，作为一个《命运》系列的粉丝，你问远坂凛"你有没有想过放弃魔术师的身份"，她不仅用独特的傲娇口吻回答你，还同时生成了一张她皱眉沉思的画面？这种体验，正是这篇论文所追求的目标。

然而在这项研究出现之前，这种体验几乎是不可能的。要么你得到的是一个能聊天的AI，但它完全不知道角色长什么样，更不会画出任何图像；要么你能找到一个生成图像的系统，它能把远坂凛画出来，但它既不懂这个角色的性格，也无法跟你对话。这两件事从来没有被同时做好过。

研究团队把这个新问题命名为"定制化多模态角色扮演"（CMRP），并为此搭建了一套叫做UniCharacter的系统框架。这个系统的核心野心是：只需要给它10张角色图片加上一批对话示例，它就能"学会"这个角色，然后既能用这个角色的语气和性格跟你聊天，又能在聊天的同时生成符合当下情境的角色图像。整个训练过程大约消耗100个GPU小时，对于研究层面而言相当高效。

一、为什么现有的AI角色扮演系统都"缺了一半"

要理解这项研究解决了什么问题，可以把现有的AI系统比作两种不同的演员。第一种是专注于台词的舞台剧演员，他们能把角色的内心世界通过语言表达得淋漓尽致，但从不露面，你永远看不到他们的表情和动作。第二种是只负责造型的模特，他们能完美还原角色的外貌和服装，但一句话都说不了。而真实的角色扮演体验，需要的是能同时说话又能展示自己形象的完整演员。

从技术角度来看，现有的文字角色扮演系统（比如CharacterLLM）经过训练后能模仿特定角色的说话风格，但它根本不具备生成图像的能力。而图像生成领域的经典工具DreamBooth，能够学习一个角色的视觉外貌并生成高质量图片，却完全不参与对话。还有一些多模态系统，比如Yo'LLaVA或UniCTokens，虽然尝试把图像理解和生成结合在一起，但它们的重点只是回答关于图像的问题，或者生成图像，并没有真正的"角色扮演"能力——也就是说，它们不会用角色的性格和口吻与你互动，更不会在角色扮演过程中同时生成反映角色情绪状态的画面。

这种"缺了一半"的状态，使得构建真正沉浸式的虚拟角色互动几乎不可能。研究团队的论文里有一张对比表格，清楚地显示了现有各方法在五种能力上的覆盖情况：文字角色扮演、多模态角色扮演、文字生成图像、知识问答和视觉问答。只有UniCharacter在这五个维度上全部打了勾，其他所有方法都存在至少一个明显的短板。

二、打造一个专属数据集：RoleScape-20

研究团队首先面临的挑战，是根本没有适合这项任务的数据集。现有的角色相关数据集要么只有文字对话，要么只有图片，要么图片和对话都有但彼此孤立——图片里的角色做着某件事，对话里的角色聊着另一件事，两者之间毫无关联。

于是团队从零开始构建了一个叫做RoleScape-20的数据集，包含20个多样化角色，涵盖三大类别：九位真实世界的人物（主要来自影视剧），七位动漫和游戏角色，以及四只动物角色。这种多样性的设计是经过考虑的，因为不同类型的角色在视觉风格、语言习惯和性格特征上差异极大，只有在各种类型上都能表现良好，才能证明方法的普适性。

每个角色的构建都相当系统化。团队为每个角色收集了5到15张参考图片，这些图片来自真实照片、影视截图、游戏和动漫画面。与此同时，团队还为每个角色整理了性格描述和背景介绍，这部分内容对于真实人物来自维基百科等权威来源，对于虚构角色则由大语言模型基于已有设定生成。

然而图片和简单的背景描述还远远不够，因为角色扮演的核心是对话，而且这个数据集需要让模型学会在回应对话时同时生成图像。团队为每个角色构建了150到250条对话样本，并为对话中出现的每个场景进行了深入的多模态标注。

这里最关键的创新在于两种特殊标注的引入。第一种叫做"思考过程"，它解释了为什么这张图片适合对应这段对话——比如，当远坂凛说出"失去与他们的联系是不可接受的"这句台词时，思考过程会分析她的表情应该如何体现出震惊和强硬，她的姿态和画面构图应该如何配合这种情绪。第二种叫做"生成指令"，这是一段精炼的图像生成提示词，直接指导模型画出对应的图像。

除了多模态角色扮演数据，数据集还包含专门的知识问答数据——大约每个角色100道问答题，测试模型是否真正了解角色的背景知识——以及视觉问答数据，每张图片约20道问题，测试模型能否准确描述图片中角色的外貌细节和表情姿态。

整个数据构建过程是半自动的。对话扩展部分使用Qwen3大语言模型来生成，多模态标注使用GPT-4o来完成，知识问答和视觉问答则分别使用Qwen3和Qwen3-VL来生成，所有生成内容都经过人工审核和筛选，确保质量。

与之前的相关数据集相比，RoleScape-20填补了一个显著的空白。像CharacterLLM和ChatHaruhi这样的纯文字角色扮演数据集有丰富的对话但没有图片；DreamBooth有图片但没有对话；Yo'LLaVA、MyVLM和UnifyBench有图片也有一些问答，但缺少深入的角色扮演对话，也没有思考过程这类精细化标注，更没有把图片和对话配对成真正的多模态角色扮演场景。

三、UniCharacter的训练逻辑：两阶段的"先打基础再精进"

有了数据集之后，研究团队设计了一套两阶段的训练方法。可以把这个过程想象成培训一位演员：第一阶段是在学校里系统学习表演基础，第二阶段是进入剧组磨练，通过不断的试镜和调整来找到最佳状态。

第一阶段叫做统一监督微调（Unified-SFT）。在这个阶段，模型要同时学习多项能力。在文字生成方面，模型要学会四种相互补充的能力：第一是角色扮演聊天，也就是用角色特有的语气、风格和情感来回应用户输入；第二是思考任务，即学习生成上面提到的"思考过程"，这个过程帮助模型在生成图像之前先理清思路；第三是视觉问答，即根据角色图片回答关于外貌的具体问题；第四是知识问答，即从角色背景资料中提取和回答知识性问题。这四种文字任务使用标准的交叉熵损失函数来训练，简单来说就是让模型的输出尽量接近人工标注的标准答案。

在图像生成方面，模型采用的是一种叫做"整流流"（Rectified Flow）的技术，这是一种通过预测图像中"噪声到清晰图像的变化方向"来生成图像的方法。在SFT阶段，图像生成的训练目标是让生成结果尽量接近数据集里的真实图片，使用均方误差损失函数来衡量偏差。

然而，仅靠第一阶段的训练存在一个问题：图像生成部分容易"过度记忆"训练数据。换句话说，模型学来学去只会复制训练集里的那几张图，生成结果缺乏多样性——就像一个演员只会照搬在学校学的固定台词，遇到新场景就不知所措了。

四、Character-GRPO：用强化学习打破图像的"记忆牢笼"

这个问题催生了第二阶段的训练方法：Character-GRPO。这个名字来自"组相对策略优化"（Group Relative Policy Optimization），是DeepSeek-R1这类大语言模型训练中使用的强化学习技术的改良版本，但这里被应用到了图像生成领域。

强化学习的核心思想可以用训练宠物来理解：当宠物做了你期待的行为，你就给它零食作为奖励；当它做了你不希望的行为，就不给奖励甚至给予惩戒。通过反复试错和奖惩，宠物最终学会了正确的行为模式。Character-GRPO对图像生成模型做的，正是类似的事。

在这个阶段，模型不再依赖固定的"标准答案"图片，而是为每一个文字提示词同时生成一组（具体设定为8张）不同的图片，然后通过多维度的奖励函数来评价这8张图片的质量，最终用这些评价信号来优化模型。

奖励函数由两大部分组成，分别针对两个目标。第一部分是文字-图像对齐奖励，确保生成的图片真的符合提示词的要求。这部分又细分为两个子指标：CLIP相似度奖励衡量的是图片与提示词之间的语义匹配程度，使用CLIP模型（一种能同时理解图片和文字的神经网络）来计算两者在同一语义空间内的余弦相似度；视觉问答一致性奖励则更细致，它会针对图片内容提出具体问题（比如"图中的角色是否在午睡？""场景中是否有舒适的篮子？"），然后检查模型对这些问题的回答是否与预期一致，每答对一题加1分。

第二部分是多样性奖励，防止模型生成千篇一律的图片。这部分同样包含两个子指标：感知多样性奖励使用LPIPS算法（一种模拟人类视觉感知差异的指标）来计算同一批8张图片之间的视觉差异度，差异越大分数越高；训练集相似度惩罚则是一个双边约束，它计算生成图片与训练集中所有图片的最大相似度（使用DINO特征，这是一种提取图像深层语义特征的方法），如果相似度太高（超过0.9），说明模型在照抄训练集，扣分；如果相似度太低（低于0.5），说明生成的图片根本不像这个角色了，同样扣分。这个双边惩罚机制设计得相当精妙，它要求模型在"保持角色特征"和"不照搬原图"之间找到平衡点。

最终的综合奖励是四个分项的加权求和：CLIP相似度权重0.45，视觉问答一致性权重0.3，感知多样性权重0.1，训练集相似度惩罚权重0.15。这些权重是研究团队经过实验调优得到的默认值。

在整个Character-GRPO训练阶段，模型的图像理解部分（包括视觉编码器ViT）保持冻结不更新，只有负责生成图像的部分参与训练。这个设计是为了在优化图像生成多样性的同时，不破坏模型已经学好的图像理解能力。

值得一提的是，Character-GRPO还带来了一个额外的好处：因为它不需要真实图片作为训练目标，只需要文字提示词，所以可以使用比SFT阶段多得多的场景来训练，本质上起到了扩充训练数据的效果。

五、在推理时，思考过程如何让图像生成更准确

在实际使用时，UniCharacter的生成流程是这样的：当用户输入一段对话（比如"凛，我们失去了和Saber与Archer的联系！"），模型首先以角色的身份生成文字回应，同时内部生成一段"思考过程"，分析当前情境下角色应该表现出怎样的情绪、姿态和表情，以及画面构图应该如何安排。这段思考过程随后被转化为一段图像生成指令，最终生成对应的角色图像。

这种"先思考再生成"的设计在实验中被证明是有效的，但有一个有趣的前提条件：思考过程对图像质量的提升，只在经过Character-GRPO训练的模型上才能稳定体现。对于只经过SFT训练的模型，在推理时加入思考过程反而略微降低了图像质量，并且让生成图片更接近训练集（过拟合加重）。这说明Character-GRPO不仅提升了图像多样性，还让模型具备了更好地利用语义推理信息的能力。

六、实验结果：与其他方法的正面对比

研究团队在RoleScape-20数据集上进行了系统性的对比实验，选择了三个基线系统作为比较对象。第一个是DreamBooth，代表纯图像生成定制化的最佳水平；第二个是Qwen2.5-VL加文字提示词，代表通过提供角色介绍和示例对话来引导大型视觉语言模型进行角色扮演的方法；第三个是UniCTokens，是目前最接近UniCharacter研究目标的统一多模态定制化方法。

在图像生成质量方面，评测使用了三个指标：CLIP-I（生成图片与角色参考图片的视觉相似度）、CLIP-T（生成图片与提示词的语义匹配度）和DINO（基于DINO特征的深层视觉相似度）。UniCharacter在T2I生成任务上的CLIP-I达到0.88，CLIP-T为0.33，DINO为0.91，均优于DreamBooth（CLIP-I 0.86，CLIP-T 0.30，DINO 0.88）。在多模态角色扮演任务（同时生成文字和图像）上，UniCharacter同样以0.86/0.33/0.89的分数领先，而UniCTokens在这个任务上的表现为0.51/0.17/0.70，差距相当明显。

在文字角色扮演方面，评测使用"大模型作为评委"的方式，由Qwen3模型对每个系统的回答在三个维度上打分，满分7分：记忆力（能否准确回忆角色的背景信息）、个性（是否体现出角色独特的说话风格和性格特征）、多样性（回答是否丰富多变而非千篇一律）。UniCharacter在记忆力、个性、多样性上分别获得5.45、6.55、6.10分，全面超越Qwen2.5-VL加文字提示的5.13、5.17、5.60分，更是大幅领先UniCTokens的2.43、2.54、2.30分。

在知识问答和视觉问答任务上，评测使用多选题准确率作为指标。UniCharacter的知识问答准确率为0.77，视觉问答准确率为0.84，而Qwen2.5-VL（一个专门为视觉理解设计的强大模型）在这两项上分别为0.75和0.81，UniCharacter略胜一筹，这说明针对性的角色定制训练没有损害模型原有的理解能力，反而有所提升。UniCTokens在这两项上仅为0.08和0.21，表现相当有限。

定性展示的例子进一步说明了差异所在。以Chandler（《老友记》中的角色）为例，当用户说"你怎么摆出那副表情"时，UniCharacter回答："这叫做'轻微兴趣'。我不过就是坐着、坐着、再坐着……就像在公园里的一条狗。"这个回答精准捕捉了Chandler自嘲式幽默和不经意间的讽刺口吻，同时生成了一张他身戴圣诞帽的图片，画面与对话情境高度契合。相比之下，Qwen2.5-VL的回答冗长且破坏了角色感，大段解释Chandler的内心想法，完全不像这个角色的说话方式。

七、消融实验：每一个设计决策的价值

研究团队通过多组消融实验，验证了每个设计选择的必要性。消融实验的思路很直接：把一个完整系统的某个部件拆掉，看性能下降了多少，就能知道这个部件贡献了多少价值。

第一组实验对比了加入Character-GRPO与不加入的区别。结果显示，有GRPO的版本在图像质量（CLIP-I 0.88 vs 0.85，DINO 0.91 vs 0.88）和训练集相似度（CLIP-I从0.89降至0.86，DINO从0.92降至0.90）上均优于无GRPO版本，证明GRPO阶段同时提升了图像质量和多样性。

第二组实验评估了GRPO奖励函数中每个组件的作用。去掉CLIP-T奖励后，生成图片的文字对齐度下降（CLIP-T从0.31降至0.29），同时训练集相似度异常升高，说明没有文字对齐约束时模型更容易陷入复制训练图片的模式。去掉视觉问答一致性奖励的影响更为显著，CLIP-I和DINO都明显下降，说明细粒度的视觉问答验证对于维持角色特征至关重要。去掉多样性奖励或训练集相似度惩罚，都导致生成结果更接近训练集，多样性降低。总体上，四个奖励组件各有侧重，共同协作才能达到最佳效果。

第三组实验探究了训练数据组成的影响。从只使用原始数据，到加入扩展对话数据，再到加入思考过程数据，每个步骤都有明显的改变。只加扩展对话数据时，文字角色扮演的记忆力（从4.41升至5.49）、个性（从5.18升至6.71）和多样性（从2.67升至6.32）大幅提升，但图像相关指标略有下降，原因是文字数据比例增大打破了与图像数据的训练平衡。加入思考过程数据后，个性和多样性保持在高水平，图像质量也随之回升，弥补了前一步骤带来的图像性能损失，证明思考过程数据是连接文字理解与图像生成的重要桥梁。

用户研究同样支持了这些结论。研究团队邀请用户对四种方法（DreamBooth、Qwen2.5-VL、UniCTokens、UniCharacter）在三个任务上的表现进行主观评价。在文字生成图像任务上，56.9%的用户选择UniCharacter为最佳，DreamBooth获得23.1%，Qwen2.5-VL获得12.8%，UniCTokens几乎没有获选。在多模态角色扮演任务上，100%的用户选择UniCharacter为最佳，其他方法在这个任务上根本无法与之竞争。在文字角色扮演任务上，UniCharacter获得56.9%，Qwen2.5-VL获得40.0%。

八、这项研究的局限性与未来方向

研究团队在论文中坦诚地列举了当前系统的几个局限性。第一个局限是，目前的任务只涉及文字和图像两种模态，而不包含视频。要让角色出现在连续的视频画面中，不仅需要每一帧的图像质量，还需要跨帧的时间一致性，确保角色的外貌和动作在帧与帧之间保持连贯，这是一个更高难度的挑战。

第二个局限是，当前的CMRP任务只针对单轮对话，也就是每次用户发一条消息，模型回应一次，然后结束。在多轮长对话场景中，如何让模型维持稳定的角色特征而不"走样"，需要更强的长期记忆机制，目前还没有在这个框架内得到验证。

第三个方向是实际部署层面的考量：如何让这个系统能够实时运行（目前每个角色的训练就需要100个GPU小时），如何增加安全性控制（防止被滥用生成不当内容），以及如何让普通用户能够参与到角色定制过程中（所谓的"用户在环"定制），这些都是从研究原型走向实际产品所必须面对的问题。

从更宏观的角度看，这项研究实际上展示了一种将强化学习技术（原本主要用于提升语言模型的推理能力）迁移到图像生成领域的可行路径。把GRPO应用在基于整流流的图像生成分支上，用精心设计的奖励函数来同时约束图像质量、语义对齐和多样性，这个思路本身就具有超出角色扮演任务本身的方法论价值。

说到底，这项研究做了一件听起来简单却长期无人攻克的事：让一个AI系统同时掌握"说话像某人"和"画出某人"这两件事，而且这两件事要保持高度一致。从结果来看，给它一个角色的10张照片和一批对话样本，它能学会用这个角色的方式跟你聊天，并且在聊天的同时画出这个角色在那个情境中应有的样子。这件事在两三年前还属于两个完全独立的技术领域，而这篇论文通过构建专属数据集和创新训练方法，把它们整合进了一个统一的框架。

对于普通用户来说，这项研究的潜在影响不难想象。数字人陪伴、IP授权的互动娱乐、影视游戏的角色对话系统，乃至教育领域中历史人物或文学角色的沉浸式对话学习，都是可以预见的应用场景。当然，从论文中的实验系统到真正可用的产品，还有相当长的路要走，尤其是在计算效率、安全控制和用户体验优化方面。但这篇论文至少证明了一件事：让AI真正"活"成一个角色，在技术上已经不再是遥不可及的目标。有兴趣深入探究技术细节的读者，可以通过arXiv编号2605.08129找到完整的论文和代码资源。

Q&A

Q1：UniCharacter训练一个角色需要多少数据和时间？

A：UniCharacter只需要10张角色图片加上对应的对话示例就能完成角色定制，整个训练过程大约消耗100个GPU小时。数据量非常有限，研究团队为此专门设计了两阶段训练框架，用少量数据就能让模型同时掌握角色的语言风格和视觉外貌。

Q2：Character-GRPO和普通的监督微调有什么区别？

A：普通监督微调让模型直接模仿训练集里的标准图片，容易导致生成结果过度复制训练数据，缺乏多样性。Character-GRPO则不需要标准答案图片，而是让模型每次生成一批图片，然后通过奖励函数评价这批图片的质量和多样性，引导模型在保持角色特征的同时探索更多样的生成方式，本质上是一种通过试错来学习的机制。

Q3：RoleScape-20数据集里包含哪些类型的角色？

A：RoleScape-20数据集包含20个角色，分为三类：九位真实世界人物（主要来自影视剧，如《老友记》中的Chandler和Joey）、七位动漫和游戏角色（如《原神》的芙宁娜、《雀魂》的一姬和远坂凛、《宝可梦》的皮卡丘）以及四只动物角色。每个角色配备了5到15张参考图片和150到250条对话样本。

多模态角色扮演强化学习角色一致性生成

分享至