这篇由Midjourney公司的John Joon Young Chung等研究人员撰写的论文发表于2025年3月,展示了如何让大型语言模型在创意写作方面变得更加多样化和有趣。研究团队还包括来自纽约大学的Vishakh Padmakumar,对创意写作领域有着深入理解的读者可以通过GitHub项目页面(https://github.com/mj-storytelling/DiversityTuning)获取完整的技术代码和实现细节。
一、为什么AI写作变得千篇一律了
当你让ChatGPT或其他AI助手写故事时,有没有发现它们的创作风格越来越相似?这不是你的错觉。研究团队发现了一个有趣的现象:虽然现在的AI在写作质量上已经相当不错,但它们的创作内容却变得越来越单调乏味,就像是同一个作者在反复创作相似的故事。
这个问题的根源在于AI的训练方式。目前主流的AI训练方法就像是一个严格的写作老师,它会告诉AI什么是"好"的写作,什么是"坏"的写作。AI为了讨好这位老师,逐渐学会了写出"标准答案"式的内容。虽然这些内容质量不错,但缺乏创新和个性,就像是工厂流水线上生产出来的产品一样标准化。
研究团队通过大量实验发现,这种训练方式确实能提高AI写作的整体质量,但同时也扼杀了创作的多样性。当AI总是选择最"安全"的写作路径时,它们就失去了探索不同创作可能性的勇气。这对创意写作来说是个严重问题,因为创意的本质就是要有多种不同的思路和表达方式。
想象一下,如果所有人都用同样的方式讲同一个故事,那这个世界会变得多么无聊。比如给AI一个关于"月球上的狗"的故事提示,理想情况下应该能得到各种各样的故事:有的讲狗狗的冒险经历,有的讲它在月球上的孤独生活,有的讲它如何适应外太空环境。但现实中,大多数AI都会选择最"安全"的故事情节,导致生成的故事大同小异。
这个问题不仅影响AI的创作表现,也会影响使用AI进行创作的人类作者。当作家们依赖AI助手进行创作时,如果AI总是提供相似的建议和思路,那么人类的作品也会趋向同质化。这种现象已经在一些研究中得到了证实,使用同样AI工具的作者确实会产生风格相似的作品。
研究团队意识到,要解决这个问题,不能简单地调整AI的生成参数,比如增加随机性或改变温度设置。这些方法虽然能在一定程度上增加输出的变化,但往往是以牺牲质量为代价的。真正需要的是从根本上改变AI的学习方式,让它不仅能学会写好的内容,还能学会写有趣的、不同寻常的内容。
二、挖掘那些被忽视的优秀创意
研究团队提出了一个巧妙的解决方案,就像是在茫茫人海中寻找那些被忽视的天才一样。他们的核心思想是:在训练数据中,那些质量高但又与众不同的内容往往被传统训练方法忽视了,而这些内容恰恰是创意的宝藏。
为了更好地理解这个概念,可以把训练数据想象成一个巨大的创作比赛。在这个比赛中,有大量的参赛作品。传统的AI训练方法就像是只关注那些获得最高分的"标准优秀作品",而忽视了那些可能分数不是最高,但创意独特、风格新颖的作品。这些被忽视的作品虽然可能在某些评判标准上略逊一筹,但它们却代表了创作的多样性和可能性。
研究团队引入了一个叫做"偏差度"的概念来衡量每个训练样本的独特性。这个偏差度就像是一个"与众不同指数",它能够计算出某个创作样本与同类其他样本的差异程度。差异越大,偏差度就越高,说明这个样本越独特。
具体来说,他们使用了两种不同的测量方式来计算偏差度。第一种是语义偏差,主要看内容的意思和主题是否独特。比如在写"月球上的狗"这个主题时,大部分故事可能都围绕狗狗的冒险展开,但如果有一个故事是从狗狗的心理角度探讨孤独和思乡之情,那这个故事的语义偏差度就会比较高。
第二种是风格偏差,主要看写作风格和表达方式是否独特。即使是同样的故事主题,不同的叙述方式、语言风格、文体结构都会产生不同的阅读体验。有些作者喜欢用对话推进情节,有些喜欢用大量的环境描写营造氛围,有些则倾向于简洁明快的叙述。这些风格差异就构成了风格偏差度的基础。
研究团队的创新之处在于,他们在训练过程中给这些高偏差度的优质样本更多的关注。就像是一个开明的评委,不仅要欣赏那些传统意义上的佳作,更要发掘那些风格独特、创意新颖的作品。这种方法能够让AI学会欣赏和模仿多样化的创作风格,而不是只会重复那些"标准答案"。
这个方法的巧妙之处在于它不是简单地追求不同,而是在保证质量的前提下追求多样性。那些偏差度高的样本仍然需要是高质量的作品,只是它们在风格或内容上与主流作品有所不同。这样既能保证AI学到的都是好的创作技巧,又能让它掌握各种不同的创作风格和思路。
通过这种方式,AI就像是一个见多识广的作家,它不仅掌握了各种经典的写作技巧,还了解各种新颖的创作手法。当它进行创作时,就能根据不同的需求和情境,选择最合适的风格和内容,而不是千篇一律地重复同一种模式。
三、两种新的训练方法让AI更有创意
研究团队基于偏差度概念,开发了两种新的AI训练方法,分别改进了目前最流行的两种训练技术:DPO(直接偏好优化)和ORPO(比值偏好优化)。这就像是给原本只会做标准菜品的厨师传授了制作创意料理的秘诀。
第一种方法叫做多样化DPO,简称DDPO。原本的DPO训练方法就像是让AI在两道菜之间做选择:哪道更好吃?AI会学习选择更好的那道菜。但DDPO不仅要求AI选择更好的菜,还要求它特别关注那些好吃且独特的菜品。具体操作方式是,当训练数据中出现一个质量高且风格独特的样本时,系统会给这个样本更多的"学习权重",让AI更仔细地研究和学习这种独特的创作方式。
第二种方法叫做多样化ORPO,简称DORPO。ORPO的工作原理稍有不同,它不需要预先训练的参考模型,而是直接通过比较不同样本的概率来学习。DORPO在这个基础上增加了对独特样本的特殊关注,就像是一个美食评论家不仅要品尝食物的美味,还要特别留意那些有创新元素的菜品。
这两种方法的核心思想都是在保持训练质量的同时,让AI更多地学习那些与众不同的优秀创作。这就像是在培养一个全面发展的艺术家,既要掌握扎实的基本功,又要培养独特的创作风格和创新思维。
研究团队还考虑到了不同类型的多样性需求。有时候我们希望AI在内容主题上更加多样化,有时候希望它在写作风格上更加丰富。因此,他们提供了三种不同的配置选项:只关注语义多样性、只关注风格多样性,或者同时关注两种多样性。这就像是给厨师提供了不同的菜谱选择:有时候创新在于食材搭配,有时候创新在于烹饪技法,有时候则需要两者兼而有之。
在实际实现过程中,研究团队还需要解决一个技术难题:如何确保偏差度的计算是公平和准确的。他们使用了先进的文本嵌入技术来计算不同样本之间的相似度,就像是用精密的仪器来测量不同食材的味道差异。通过这种方式,系统能够准确地识别出哪些样本是真正独特的,哪些只是表面上看起来不同。
为了防止系统过度偏向某些特殊样本,研究团队还设计了一套平衡机制。这个机制确保每个提示词对应的所有训练样本的权重总和保持恒定,就像是在保证总体营养平衡的前提下调整不同食材的比例。这样既能突出独特样本的重要性,又不会破坏整体的训练平衡。
四、实验结果证明新方法确实有效
为了验证这两种新方法的效果,研究团队进行了大规模的实验。他们选择了Reddit上的创意写作社区作为数据源,这个社区汇集了大量真实的创意写作作品,每个写作提示都有多个不同作者的回应,而且社区用户会对这些作品进行评分,这为研究提供了理想的实验环境。
整个实验设计就像是一场大型的创作比赛。研究团队收集了超过40万个写作样本,涵盖了各种不同的创作提示和风格。他们用这些数据训练了多个不同版本的AI模型,然后让这些模型参与同样的创作任务,最后比较它们的表现。
实验结果令人振奋。使用新方法训练的AI模型在保持写作质量的同时,显著提高了创作的多样性。具体来说,新方法训练的最佳模型(基于Llama-3.1-8B的DDPO模型)在写作质量上与GPT-4o和DeepSeek-R1等顶级AI模型不相上下,但在创作多样性方面却远远超越了它们,甚至接近了人类创作者的多样性水平。
这个成果的意义就像是培养出了一个既有深厚功底又有独特风格的作家。传统的AI模型虽然写作水平很高,但就像是一个只会写标准作文的学生,作品质量不错但缺乏个性。而新方法训练的模型则像是一个真正的创作者,既能保证作品质量,又能展现出丰富的创作风格和想象力。
研究团队还进行了详细的对比分析。他们发现,当给AI相同的写作提示时,传统方法训练的模型往往会生成非常相似的故事情节和叙述方式,而新方法训练的模型则能产生各种不同的创作思路。比如面对"月球上的狗"这个提示,传统模型可能都会写关于狗狗太空冒险的故事,而新模型则可能写出关于孤独、关于思乡、关于适应新环境等各种不同主题的故事。
在风格多样性方面,改进效果同样明显。新方法训练的模型能够采用不同的叙述视角、语言风格和文体结构。有时它会用第一人称的内心独白,有时用第三人称的全知视角,有时采用对话体,有时则用散文诗的形式。这种风格的丰富性让生成的内容更加有趣和引人入胜。
研究团队还测试了不同配置选项的效果。结果显示,专门针对语义多样性优化的模型在故事主题和情节方面更加丰富,而专门针对风格多样性优化的模型在表达方式和文体风格方面更加多元。同时关注两种多样性的模型则在各个方面都表现出色,成为了最全面的创作助手。
特别值得一提的是,研究团队还与人类评估者进行了对比实验。结果显示,人类评估者普遍认为新方法生成的内容不仅更加多样化,在有趣程度和创意水平方面也超越了传统方法。这说明多样性的提升不仅仅是技术指标上的改进,更是真正提升了内容的吸引力和价值。
五、深入分析发现了更多有趣的规律
研究团队没有满足于初步的成功,而是进一步深入分析了影响新方法效果的各种因素。他们发现了一个重要规律:训练数据的丰富程度对新方法的效果有决定性影响。
当每个写作提示对应的训练样本足够多时,新方法能够发挥出最佳效果。这就像是一个厨师需要足够多的食材才能创作出丰富多样的菜品。如果食材种类太少,即使有再好的烹饪技巧也难以做出令人惊艳的创意料理。具体来说,当每个提示至少有6-8个不同的高质量样本时,新方法就能显著提升创作多样性。
但是,当训练样本过少时(比如每个提示只有4个样本),新方法可能会出现质量下降的问题。研究团队深入分析后发现,这是因为样本太少时,偏差度的计算变得不够准确,系统可能会过度关注一些并非真正优秀的特殊样本。这就像是在食材有限的情况下,厨师可能会选择一些看起来特别但实际上并不美味的搭配。
针对这个问题,研究团队提出了两种解决方案。第一种是设置偏差度的最小阈值,确保系统不会过度偏向那些偏差度接近零的样本。第二种是在样本较少的情况下,优先选择那些质量最高的样本进行训练,而不是过分追求多样性。这两种方法都能有效缓解样本不足时的质量问题。
研究团队还与另一种现有的多样化训练方法DivPO进行了详细比较。DivPO的工作原理是预先筛选训练数据,只保留那些高质量且多样化的样本。虽然这种方法也能在一定程度上提升多样性,但它需要舍弃大量的训练数据,而且在多样性提升方面的效果不如新方法显著。
更重要的是,新方法能够充分利用所有可用的训练数据,而不需要预先筛选和舍弃任何样本。这对于数据资源有限的情况特别有价值。就像是一个优秀的厨师能够充分利用所有可用的食材,而不是只挑选其中的一小部分。
在不同类型的多样性指标上,新方法也表现出了不同的特点。研究团队测试了包括语义多样性、风格多样性在内的多种评估指标,发现新方法在各个方面都有显著提升。特别是在一些表面特征指标(如文本压缩率、重复度等)上,改进效果也很明显,这说明新方法不仅能提升深层次的创意多样性,也能改善文本的表面表现。
六、人工评估进一步验证了研究成果
为了确保研究结果的可靠性,研究团队还进行了大规模的人工评估实验。他们邀请了多名专业评估者,让他们在不知道具体训练方法的情况下,对不同模型生成的内容进行质量和多样性评估。
评估过程就像是一场盲品比赛。评估者会看到同一个写作提示对应的多组创作内容,然后判断哪一组质量更高、哪一组更加多样化。为了确保评估的准确性,研究团队对每组内容都提供了摘要版本,避免评估者因为阅读长文而产生疲劳。
评估结果与自动化测试完全一致。评估者普遍认为,新方法训练的模型生成的内容不仅在多样性方面明显超越了传统方法,在质量方面也不逊色甚至略有优势。特别是与GPT-4o的对比中,评估者认为新方法生成的内容在68%的情况下质量更高,在100%的情况下多样性更好。
这个结果特别有说服力,因为它表明新方法的改进不仅仅是技术指标上的提升,更是真正得到了人类用户的认可。评估者们表示,新方法生成的故事更加有趣、更有创意,阅读起来不会有千篇一律的感觉。
评估者之间的一致性也相当高,特别是在多样性判断方面,几乎所有评估者都能明显感受到新方法的优势。这说明多样性的改进是显而易见的,不是某种微妙的技术改进,而是真正能被普通读者感知到的质量提升。
研究团队还分析了评估者的具体反馈意见。他们发现,评估者特别欣赏新方法在故事情节创新和叙述风格变化方面的表现。许多评估者提到,新方法生成的故事"更有意思"、"更有想象力"、"不会让人觉得无聊"。
七、方法的局限性和未来改进方向
尽管新方法取得了显著成果,研究团队也诚实地讨论了当前方法的局限性和需要改进的地方。这种科学严谨的态度让研究更加可信和有价值。
最主要的局限性是对训练数据规模的依赖。新方法需要每个写作提示都有足够多的不同样本才能发挥最佳效果。在现实应用中,很多专业领域或特定主题的写作可能没有足够丰富的训练数据,这会限制新方法的适用范围。这就像是某些珍贵食材只有少量样本,厨师难以从中学会各种不同的烹饪方法。
另一个局限是当前研究主要集中在创意写作领域,对于其他类型的文本生成任务(如技术文档、新闻报道等)的效果还需要进一步验证。不同类型的写作任务对多样性的需求可能不同,新方法是否在所有情况下都有效还需要更多实验来证明。
研究团队还发现,新方法在计算成本方面会有一定增加。因为需要计算每个样本的偏差度,并且在训练过程中给不同样本分配不同的权重,这会增加计算的复杂度。虽然这种增加在可接受范围内,但对于资源有限的研究机构或个人开发者来说可能是个考虑因素。
在技术实现方面,偏差度的准确计算依赖于高质量的文本嵌入模型。如果嵌入模型本身存在偏见或局限性,可能会影响偏差度计算的准确性,进而影响最终的训练效果。这需要研究者在选择嵌入模型时特别谨慎。
研究团队提出了几个未来的改进方向。首先是探索如何在数据稀缺的情况下仍然能够有效应用新方法,比如通过数据增强或迁移学习等技术来扩充训练样本。其次是研究如何将新方法扩展到其他类型的文本生成任务,验证其通用性。
另一个重要的研究方向是探索在线学习场景下的应用。目前的研究主要基于离线训练,但在实际应用中,很多AI系统需要能够持续学习和改进。如何在在线学习过程中应用多样化训练方法,是一个值得深入研究的问题。
研究团队还提到了个性化的可能性。未来的系统可能需要根据不同用户的偏好来调整多样性的程度和类型。有些用户可能更喜欢风格多样的内容,有些可能更看重主题的丰富性,如何让系统根据用户需求灵活调整是个有趣的挑战。
八、这项研究对未来的深远影响
这项研究的影响远远超出了技术层面的改进。它为整个AI创作领域指出了一个新的发展方向,可能会改变我们对AI创造力的理解和期待。
从技术发展的角度来看,这项研究证明了AI不仅能够生成高质量的内容,还能展现出真正的创意多样性。这打破了人们对AI创作的一些固有印象,即AI只能产生标准化、缺乏个性的内容。新方法展示了AI在创意领域的巨大潜力,为人工智能的创造性应用开辟了新的可能性。
对于创意产业而言,这项研究提供了强有力的工具。作家、编剧、广告创意人员等专业创作者可以利用这种技术获得更加丰富多样的创意灵感。与传统的AI写作助手相比,基于新方法的系统能够提供更多不落俗套的创意思路,帮助创作者突破思维定势。
教育领域也将从这项研究中受益。在创意写作教学中,教师可以使用这种技术为学生展示各种不同的写作风格和叙述方法。学生们可以看到同一个主题可以有多少种不同的处理方式,这有助于培养他们的创意思维和表达能力。
从更广泛的社会影响来看,这项研究有助于促进文化多样性。如果AI能够学习和模仿各种不同的创作风格,它就能更好地理解和传承不同文化背景下的表达方式。这对于保护和传播文化多样性具有重要意义。
研究还提出了一些深层次的思考。什么是真正的创造力?AI是否能够具备真正的创意能力?这项研究虽然不能完全回答这些哲学问题,但它确实展示了AI在创造性任务上的巨大进步。它让我们重新思考创造力的本质,以及人工智能在创意领域的角色定位。
对于AI安全和伦理方面,这项研究也有积极意义。多样化的AI输出有助于减少算法偏见,避免AI系统产生单一化、刻板化的内容。当AI能够生成更加多元化的内容时,它就不太可能强化某种特定的观点或偏见。
从商业应用的角度来看,这项技术有着广阔的市场前景。内容创作、游戏开发、广告营销等众多行业都需要大量的创意内容,而传统的AI工具往往无法满足多样性需求。新方法提供的技术有望开创全新的商业模式和应用场景。
研究团队的开源态度也值得赞赏。他们将代码和数据公开分享,让更多研究者和开发者能够在此基础上继续改进和创新。这种开放的科研态度有助于加速整个领域的发展,让更多人能够从这项技术中受益。
这项研究最重要的启示可能在于它展示了一种新的思维方式:在追求质量的同时,我们不应该忽视多样性的价值。无论是在AI训练还是在其他领域,单纯追求"最优解"可能会导致创新的缺失。只有在保证质量的基础上拥抱多样性,我们才能真正释放创造力的潜能。
说到底,这项研究为我们描绘了一个更加丰富多彩的AI未来。在这个未来中,AI不再是冷冰冰的标准化工具,而是充满创意和个性的创作伙伴。它能够理解和欣赏各种不同的表达方式,能够为人类提供源源不断的创意灵感。虽然我们还不能说AI已经具备了真正的创造力,但至少在多样性和创意性方面,它已经向前迈出了重要的一步。
对于普通人来说,这意味着我们将拥有更加有趣、更加个性化的AI助手。无论是写作、学习还是娱乐,AI都能提供更加丰富多样的体验。这不仅会改变我们与AI的互动方式,也可能会激发我们自己的创造力和想象力。毕竟,当我们接触到更多不同的思维方式和表达方法时,我们自己的创作能力也会得到提升。
对于有兴趣深入了解技术细节的读者,可以通过研究团队提供的GitHub项目页面(https://github.com/mj-storytelling/DiversityTuning)获取完整的实现代码和实验数据,这为进一步的研究和应用开发提供了宝贵的资源。
Q&A
Q1:这种新的AI训练方法会不会让生成的内容质量下降? A:研究结果显示不会。新方法在提升多样性的同时能够保持甚至略微提升内容质量。最佳模型的写作质量与GPT-4o等顶级AI相当,但多样性远超传统方法。只有在训练样本过少(少于4个)时才可能出现质量问题,但研究团队已经提供了解决方案。
Q2:普通用户什么时候能用上这种更有创意的AI写作工具? A:研究团队已经将代码开源,技术上已经可以实现。但要成为普通用户能直接使用的产品,还需要进一步的工程化开发和优化。预计在不久的将来,会有基于这种技术的创意写作工具面向公众发布。
Q3:这种方法除了创意写作还能用在其他地方吗? A:目前研究主要集中在创意写作领域,但研究团队认为这种方法有潜力应用到其他需要多样性的文本生成任务中,比如广告文案、产品描述、教育内容等。不过具体效果还需要进一步的研究验证。
好文章,需要你的鼓励
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。
这份由新加坡国立大学等顶尖学府研究团队发布的调研报告,系统梳理了多模态思维链推理这一前沿AI技术的发展现状。该技术让AI具备了同时处理文字、图像、音频等多种信息并进行逐步推理的能力,在医疗诊断、自动驾驶、智能机器人等领域展现出巨大应用潜力,代表了AI从简单工具向真正智能伙伴进化的重要一步。