微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 CrEval:首个跨领域文本创造力评估方案——人大、北师大、快手联合推出创造力评估数据集与评估模型

CrEval:首个跨领域文本创造力评估方案——人大、北师大、快手联合推出创造力评估数据集与评估模型

2025-06-03 13:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 13:35 科技行者

想象一下,如何判断一首诗、一段故事或一则广告文案的创意水平?这个在人类看来自然而然的判断,对人工智能来说却是个巨大挑战。随着ChatGPT等大型语言模型(LLM)能力的飞速提升,它们在创造性写作方面表现出惊人才华,但如何客观评估这些AI生成内容的创造力,却一直是学术界和产业界的难题。

2025年5月,来自中国人民大学、北京师范大学和快手科技的研究团队在论文《Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator》中提出了一个创新的解决方案。这支由曹茜、王熙婷、袁玉卓、刘亚辉、罗方和宋瑞华领导的团队,首次构建了一个可以跨领域评估文本创造力的数据集和评估模型。

在我们的日常生活中,创造力无处不在:一个巧妙的广告语、一首感人的诗歌、一段令人深思的散文。当AI开始尝试创作这些内容时,如何评判它是否真正具有"创造力"?传统方法通常需要人工评估,费时费力且主观性强。而现有的自动评估方法往往只能应用于特定领域,无法泛化到其他文本类型。

这个研究团队别出心裁地提出了一种全新评估框架——通过成对比较的方式,在相同背景下评估不同文本的创造力。就像评委判断两道菜肴谁更美味一样,这种方法既直观又有效。研究者还构建了一个名为"CreataSet"的大规模数据集,包含超过10万条人类水平的创意文本和100多万条合成文本,涵盖了从文学到艺术、从教育到日常生活等87个不同领域。

基于这个数据集,团队训练出了名为"CrEval"的评估模型,这个模型能像专业评审一样判断文本的创造力水平。在与人类评判的一致性测试中,CrEval模型表现出色,甚至超越了包括GPT-4o在内的多个顶尖AI模型。

更令人兴奋的是,研究者发现CrEval不仅能评估创造力,还能帮助AI模型生成更有创意的内容。这就像一个富有创造力的导师,不仅能识别什么是好的创意,还能指导他人如何更有创意。

让我们一起深入了解这项开创性研究,看看它如何为AI创造力的评估和提升开辟新天地。

一、创造力评估的挑战:为什么这么难?

想象你是一位艺术评论家,需要评判两幅画哪一幅更具创意。这个任务对人类来说也并不容易,因为创造力本身就是一个主观且复杂的概念。现在,把这个任务交给AI,难度就更上一层楼了。

研究者们将创造力定义为"新颖、令人惊讶且有价值的想法或创作"。这个定义源自知名学者Margaret A. Boden的研究,她认为创造力是人类智能的核心特征,也是现代文明进步的驱动力。随着大型语言模型(LLM)如GPT-4、Claude等的出现,它们展现出在创意写作、文学创作等领域的惊人能力。评估这些AI模型的创造力水平,不仅能帮助我们了解它们在创意领域的应用潜力,还能揭示AI与人类能力之间的差距,为未来的改进提供方向。

然而,现有的创造力评估方法面临三大挑战:

首先是跨领域适用性问题。现有的评估方法大多针对单一领域,比如创意问题解决、幽默生成或比喻创作等。这些方法往往将创造力评估与其他概念(如问题解决能力)混在一起,难以将纯粹的创造力概念提取出来并推广到其他领域,比如文学创作。

其次是评估粒度问题。大多数现有方法评估的是模型或个体层面的创造力,而非具体文本响应的创造力。这种粗粒度评估虽然可以比较不同模型的整体创造力,但难以判断针对同一提示的两个回答哪个更有创意,无法提供精细的反馈。

第三是自动化评估的有效性问题。自动化跨领域的创造力评估对减少人工评估成本、实现迭代改进非常重要。虽然LLM在帮助性和连贯性等方面已经表现出作为自动评估者的能力,但在创造力评估领域仍相对未开发。早期尝试通过提示工程让GPT-4等模型评估创造力,但这些方法往往面临可靠性不足、一致性差和成本高等问题。

研究团队发现,这些挑战的关键在于:如何构建一个框架,能够客观地评估不同领域、不同类型文本的创造力?他们的灵光一现是——上下文感知的成对比较方法。

通过实验,研究者发现,当评估者需要在没有共享上下文的情况下比较两个文本的创造力时,评估者之间的一致性较低(ICC=0.59)。但当提供共享的指令作为上下文时,评估者之间的一致性显著提高(ICC=0.75)。这意味着,评估创造力需要在特定上下文中进行,而不是凭空比较。

比如,当单独评估"你邻居的闹钟"和"投资未来"这两句话哪个更有创意时,评估者可能感到困惑。但如果告诉他们这两句话都是回答"除了闹钟外,还有什么能让你醒来?"这个问题时,评估者就能更一致地判断哪个回答更有创意了。

基于这一发现,研究团队提出了一个新颖的评估框架:在共享上下文中进行文本创造力的成对比较。这就像烹饪比赛中,评委不是凭空比较两道菜的创意,而是在知道主题是"用南瓜制作甜点"的前提下进行评判,使得评判更加客观和一致。

二、创造力评估的解决方案:CreataSet数据集的构建

要训练一个能判断文本创造力的AI评估模型,首先需要大量带有创造力标签的数据。然而,现有的创造力评估数据集要么规模小,要么仅限于特定领域,无法满足跨领域评估的需求。研究团队决定从零开始构建一个全新的大规模创造力评估数据集——CreataSet。

创建CreataSet的过程可以想象成建造一座多功能图书馆,需要收集各种类型的创意文本,并按照统一的格式整理归类。这个过程分为三个主要步骤:

第一步是跨领域创意数据集初始化。研究团队首先从八个不同来源收集了具有不同创造力水平的初始数据:

一部分来自现有的创意数据集,如幽默领域的Oogiri-GO和Ruozhiba,这些数据集本身就包含创意问答对。就像从专业喜剧作家的笔记本中收集段子一样,这些数据天然具有创意性。

另一部分来自富含创意的文本语料库,如诗歌、歌词和散文。研究者还专门收集了一个称为"短文本"的子数据集,包含鼓舞人心和发人深思的句子。这些往往是独立的文本,没有明确的输入提示,就像从名家散文集中摘录的精彩段落。

此外,研究团队还利用现有的指令调优数据集如Infinity-Instruct,这些数据集包含了覆盖广泛领域的高质量问答对。这相当于从各种百科全书和教材中收集实用知识。

由于这些数据来源格式各异,研究团队需要将它们统一为一致的"指令-回答"格式。对于那些没有明确指令的独立文本,研究者训练了一个指令生成器,通过反转指令调优数据集的方式,学习如何基于回答生成相应的指令。这就像为每个精彩的文学片段创造一个适合的写作主题。

为了确保生成的指令质量,研究团队进行了多步质量控制,包括长度过滤、重复短语消除,以及移除包含回答作为子字符串的指令。他们还对跨所有来源的200个数据样本进行注释,评估指令是否与对应的回答对齐,最终获得了96.5%的准确率,证明生成的指令质量很高。

收集完"指令-回答"对后,研究团队使用GPT-4o-mini对每对数据的创造力进行评分(1-6分),作为质量指标,只保留得分超过4分的数据对。最终,研究团队收集了超过11万条高质量创意"指令-回答"对,形成了CreataSet-Base数据集。

通过域分类,他们发现这些数据涵盖了17个核心领域和87个不同的子领域,从文学(占38.3%)到艺术(16.2%)、教育与职业(8.2%)、人文学科(7.2%)等,几乎覆盖了人类创意活动的所有主要领域。

第二步是上下文感知的回答增强。为了训练评估器,研究团队需要为每个指令构建多个具有不同创造力水平的回答,以便形成成对比较的数据。

想象一个厨师需要比较不同菜肴的创意水平,首先要确保这些菜肴都是用相同的主题食材(如南瓜)制作的。同样,研究团队需要确保比较的文本回答都是针对同一个指令的。

为了高效构建这样的数据,研究团队使用了不同能力水平的开源模型(如Qwen2.5-14B-Instruct和MiniCPM-2B-SFT)来生成针对CreataSet-Base中指令的回答。对于每个模型,他们使用两种提示模式来引导不同创造力水平的输出:

一种是普通提示(Prompto),产生普通的回答; 另一种是创造力导向的提示(Promptc),鼓励更具想象力的输出。

通过使用不同模型和不同提示,研究团队为每个指令生成了多个具有不同创造力水平的合成回答。此外,对于Type C数据(普通指令-回答对),他们还使用GPT-4o生成更具创造力的回答,进一步丰富数据集。

最终,研究团队构建了一个包含"(指令, 回答1, ..., 回答k)"形式的扩展数据集CreataSet-Ext,为后续的评估器训练提供了丰富的训练材料。

第三步是使用混合策略构建标签。为了训练评估器,研究团队需要将回答组合成对,并为每对回答分配创造力比较的标签。

对于测试基准的构建,研究团队采用了高质量的人工标注。他们从CreataSet中的每个数据源抽样50个实例,共400个初始样本,并使用GPT-4o-mini的两种提示进一步增强分布差异。他们招募了30名合格的标注者,使用4分制Likert量表对回答的创造力进行评分,每个回答的创造力得分计算为所有评分的平均值。

这些标注展现出很高的评分者间一致性(ICC(2k)=0.92)。最终,研究团队构建了一个包含3000对"(指令, 回答1, 回答2, 标签)"格式数据的测试集,其中分数差异>0.3的对标记为可区分的,差异<0.1的对标记为可比的(平局)。

对于训练集的构建,为了实现大规模标签构建,研究团队采用了弱监督的伪标签方法。他们基于两个关键假设:

更强大的模型往往比较弱的模型产生更具创造力的回答; 创造力导向的提示会引导出比普通提示更具创造力的输出。

为了验证这些假设,研究团队抽样了50对不同模型/提示组合的回答对,并招募了3名标注者比较它们的创造力。结果显示,基于假设(1)的创造力区分达到了90.4%的准确率,基于假设(2)的区分达到了87%,证实了这两种启发式方法的可靠性。

对于创造力可比的样本(平局情况),研究团队随机配对了使用相同模型和Prompto生成的回答。使用这些假设,研究团队为CreataSet-Ext中的回答对分配了标签,形成了"(指令, 回答1, 回答2, 标签)"格式的训练数据。

通过这三个步骤,研究团队成功构建了CreataSet,一个包含超过10万条人类水平创意文本和100多万条合成文本的大规模数据集,涵盖了87个不同领域。与现有创造力相关数据集相比,CreataSet规模更大、领域更广、回答长度分布更丰富,为训练强大的创造力评估模型奠定了坚实基础。

三、CrEval:基于大型语言模型的创造力评估器

有了CreataSet数据集,研究团队接下来的任务是训练一个能够自动评估文本创造力的模型——CrEval。这就像培养一位艺术鉴赏家,能够判断不同作品的创意水平。

CrEval的训练过程可以分为三个关键步骤:

首先,研究团队使用CreataSet-Ext中的三元组(指令, 回答1, 回答2)作为输入,训练模型预测哪个回答更有创造力。这类似于让模型参与一场创意评判比赛,通过不断学习,逐渐掌握评判的标准和技巧。

训练目标是最小化分类损失: L = -∑(指令,回答1,回答2)∈D log P(y|指令, 回答1, 回答2)

其中P(y|指令, 回答1, 回答2)表示给定三元组(指令, 回答1, 回答2)时标签y的概率。

为了减轻位置偏差(模型可能会偏好特定位置的回答),研究团队采用了数据增强策略,交换回答1和回答2在输入中的位置,并相应调整标签。这就像让评判者从不同角度观察作品,确保评判不受作品展示顺序的影响。

此外,研究团队还应用了负采样技术,随机选择一个回答作为最不具创造力的回答,进一步增强模型对指令上下文的感知能力。这相当于给评判者提供一些明显缺乏创意的作品作为参考,帮助建立评判的基准线。

在推理阶段,模型可以预测回答1是否比回答2更有创造力,反之亦然,或者它们在创造力上可比。此外,一个参考回答(由人类或模型生成)可以作为比较其他回答创造力的基准。

经过训练,CrEval成为了首个能够跨多个领域进行成对创造力评估的评估器。实验结果表明,CrEval在与人类判断的一致性方面显著优于强大的专有模型,例如比GPT-4o高出18.7%,并展示了强大的领域泛化能力。

研究团队还发现,CrEval可以增强LLM的创造力,为改进生成式AI提供了一种可行的方法。具体来说,他们将CrEval整合到一个生成模型的训练过程中,使用直接偏好优化(DPO)方法,以低创造力的回答作为拒绝样本。

通过CrEval进行创造力比较和数据选择,模型生成更有创意内容的能力显著提高。特别是,使用30%的难样本作为拒绝样本的DPO-70E30H模型取得了最高的胜率,这表明在正样本和负样本之间保持适当的差距可以帮助模型更好地学习创造力。

在实验评估中,研究团队将CrEval与多种基线方法进行了比较,包括传统指标(如困惑度PPL和发散语义整合DSI)、评估导向模型(如G-Eval、PandaLM、Prometheus等)以及通用大型语言模型(如LLaMA3.1、Gemma、Qwen2.5等)。

结果显示,CrEval在所有总体指标上一致优于所有基线方法。CrEval-14B(最佳性能版本)在F1得分、Kappa得分和一致率方面分别取得了73.5%、61.3%和76.2%的成绩,比强大的基线DeepSeek-V3高出2.9%、9.7%和12.6%,证明了该方法在模拟人类评估方面的有效性。

此外,研究团队还进行了一致性分析,评估不同方法在交换回答顺序时的稳定性。CrEval取得了最高的一致性率94.4%,表明它在评估创造力方面比其他方法更一致可靠。

为了深入了解数据对CrEval的影响,研究团队进行了消融研究,分析了不同数据组成和规模的影响:

数据组成方面,原始人类创建的回答贡献最大,它们提供了多样化、高质量的信息,更好地与人类偏好对齐;合成数据在帮助模型掌握创意回答特征方面发挥了关键作用;负样本则提供了额外信息,提高了模型测量回答与指令相关性的能力。

数据规模方面,F1得分、Kappa得分和一致率随着数据规模增加而提高,但在超过10万后趋于平稳,表明虽然更多的数据有益于CrEval,但在更高规模下收益递减。

为了评估领域泛化能力,研究团队使用了来自先前工作的创意写作数据集进行分布外(O.O.D.)实验。结果显示,CrEval在O.O.D.测试中优于同规模的所有基线和大多数专有模型,展示了其强大的泛化能力。

最后,研究团队探讨了如何使用CrEval增强模型创造力,发现通过DPO方法,模型生成更有创意内容的能力显著提高,特别是当使用适当比例的难样本作为拒绝样本时。

总之,CrEval作为首个能够跨多个领域进行文本创造力评估的模型,在与人类判断的一致性、领域泛化能力和增强LLM创造力方面展现出了卓越的性能,为创造力评估和提升开辟了新的研究方向。

四、关键发现与未来展望

通过构建CreataSet数据集和训练CrEval评估器,研究团队获得了一系列重要发现,这些发现不仅推进了创造力评估的研究,还为未来的工作提供了有价值的启示。

首先,研究证实了上下文感知的成对比较方法在评估文本创造力方面的有效性。当评估者在共享的指令上下文中比较两个回答时,他们的判断一致性显著提高(ICC从0.59上升到0.75)。这表明,创造力不是一个绝对的概念,而是与特定上下文相关的,评估创造力需要考虑文本产生的背景。

其次,研究发现即使是最先进的LLM在创造力评估方面仍然落后于人类。在CreataSet测试集上,即使是GPT-4o等顶级模型也只能达到70.3%的F1得分和51.9%的Kappa得分,远低于人类评判者之间的一致性。这揭示了AI在理解和评估创造力方面仍然存在的明显差距。

第三,研究证明了综合使用人类创建的数据和合成数据对训练有效创造力评估器的重要性。消融研究显示,仅使用人类数据或仅使用合成数据都会导致性能下降,而结合两者可以取得最佳效果。这表明,高质量的人类创意样本提供了"真实"创造力的基准,而大量的合成数据则帮助模型理解创造力的多样性和边界情况。

第四,研究展示了创造力评估器在提升LLM创造力方面的实用价值。通过将CrEval整合到生成模型的训练过程中,研究团队成功提高了模型生成创意内容的能力。特别是,使用30%的难样本和70%的容易样本作为拒绝样本的方法取得了最佳效果,这为如何优化LLM的创造力提供了实用指南。

第五,研究发现在训练创造力评估器时,数据规模达到一定水平后(约10万样本),继续增加数据量的收益会递减。这一发现有助于优化资源分配,在保证性能的同时避免不必要的数据收集和训练成本。

这些发现为未来的研究指明了几个有潜力的方向:

首先,进一步探索创造力的本质及其评估标准。虽然研究提出了一个有效的评估框架,但创造力仍然是一个复杂的概念,涉及新颖性、惊奇性和价值等多个维度。未来的研究可以深入这些维度,开发更细粒度的评估方法。

其次,扩展CreataSet数据集,纳入更多创造力表现形式。当前的数据集虽然已经涵盖了87个领域,但仍可以进一步扩展到更多特定领域的创造力表现,如音乐创作、产品设计等。

第三,优化CrEval的架构和训练方法。当前的CrEval主要基于已有的LLM架构,未来的研究可以探索专门为创造力评估设计的模型架构或训练策略,进一步提高评估性能。

第四,将CrEval应用于更广泛的场景。除了评估和提升LLM的创造力外,CrEval还可以应用于教育(评估学生的创意作品)、内容平台(推荐创意内容)等领域,拓展其实用价值。

第五,探索CrEval与其他评估维度的结合。创造力只是文本质量的一个方面,未来的研究可以探索将创造力评估与准确性、连贯性等其他维度结合,开发更全面的文本质量评估框架。

总的来说,这项研究在创造力评估领域迈出了重要一步,为自动评估和提升AI系统的创造力提供了新的方法和工具。随着CreataSet和CrEval的开放共享,研究团队希望能够促进创造力评估领域的进一步发展,推动更具创造力的AI系统的出现。

正如研究团队在论文结尾所强调的:"我们相信CreataSet和CrEval将成为研究社区的宝贵资产,推动创造力评估的更准确和可扩展发展。"

这项研究不仅是技术上的突破,也是人类理解创造力本质的一次探索。当我们教会机器评判创造力时,我们也在重新思考:什么是真正的创造力?这种思考本身,或许正是人类最具创造性的行为之一。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-