你是否曾想过人工智能能否写出比人类更精彩的小说?随着GPT-4o和DeepSeek-R1等大型语言模型(LLM)的出现,这个问题变得越来越值得探讨。但评估AI在这个开放式领域的表现一直是个难题。南洋理工大学的Leon Lin与中山大学的Jun Zheng和Haidong Wang联合推出的最新研究成果"WebNovelBench: Placing LLM Novelists on the Web Novel Distribution"正是为解决这个问题而生,该研究发表于2025年5月,可通过GitHub和Huggingface平台获取相关资源。
想象一下文学界的一场别开生面的竞赛:在一个巨大的舞台上,既有茅盾文学奖获奖作家这样的文学大师,又有拥有万千读者的网络小说写手,以及各种尖端的AI写作模型。它们都拿到同样的故事提纲,然后开始创作。谁能赢得读者的青睐?WebNovelBench就像是这场比赛的公正裁判,它能精确地告诉我们每位参赛选手在文学作品分布中的排名位置。
与以往针对小说生成的评估框架不同,WebNovelBench别出心裁地利用了4000多部中国网络小说作为基准数据集,这些作品各自拥有超过10000名读者,代表了真实世界中受欢迎的人类创作。研究团队设计了一个"摘要转小说"的任务:给定故事的主要角色、关键情节和重要场景,让模型据此扩展创作出完整的小说章节。
评估过程也非常巧妙,研究人员提出了八个叙事质量维度,涵盖从修辞手法到场景衔接等多个方面。这些维度通过"LLM作为评判者"的方式进行自动评估,得分通过主成分分析(PCA)进行汇总,并映射到与人类作品相比的百分位排名上。验证过程中,茅盾文学奖小说在此框架下得分很高,证明了评估系统与人类审美判断的一致性。
研究团队对24个最先进的大语言模型进行了全面测试,结果令人惊讶:Qwen3-235B-A22B、DeepSeek-R1和Gemini 2.5 Pro等顶尖模型已经能够生成接近高质量人类创作的小说内容,它们的表现甚至超过了许多网络小说写手。与此同时,一些较小的开源模型如GLM-4-9B和LLaMA-3-8B仍有很大的提升空间,特别是在文学修辞和角色对话方面表现欠佳。
有趣的是,研究发现顶级封闭源模型(如Claude-3-7-Sonnet和GPT-4.1)与领先开源模型(如Qwen系列和DeepSeek模型)之间的性能差距正在迅速缩小,表明开源社区正在快速追赶专有模型的优势。
从实用角度看,WebNovelBench为AI写作能力提供了一个可靠、客观的评估标准,不仅能比较不同模型之间的差异,还能将它们与人类作品进行直接对比。这对于研究人员改进AI写作能力,以及作家、出版商理解AI在创意写作领域的潜力都具有重要意义。
接下来,让我们深入了解这项研究的详细内容,看看研究团队是如何构建这个全新的评估框架,以及它为我们揭示了哪些关于AI写作能力的有趣发现。
一、为什么我们需要一个AI小说写作的"奥林匹克"?
想象一下,如果没有奥运会这样的平台,我们如何判断谁是世界上最快的短跑运动员?同样,在AI小说创作领域,我们也需要一个公平、全面的评估体系。过去的研究虽然也探索过故事生成评估,但都面临着数据集规模小、故事多样性不足等问题,难以形成广泛认可的标准。
与代码生成和数学推理领域不同,后者已经有了如CodeForces Rating和美国数学邀请赛(AIME 2024)这样的权威基准测试,创意写作领域一直缺乏类似的评估标准。这就像体育界如果没有统一的计时系统和比赛规则,我们就无法客观地比较不同选手的表现。
研究团队提出的WebNovelBench就像是为AI小说创作搭建的"奥林匹克"赛场,它遵循三个核心原则:广泛的数据基础、代表性任务设计和自动化客观评估。这个框架不仅能测试AI的创作能力,还能将AI与人类作家放在同一个评分分布上进行直接比较。
在实际操作中,研究人员从超过10,000部中国网络小说中精选出4,000多部作品,每部小说都有超过10,000名读者,这确保了数据集的受欢迎度和多样性。从武侠奇幻到现实主义,从历史题材到科幻悬疑,这些小说涵盖了丰富的文学类型和写作风格。
想象这些网络小说就像是文学世界的"职业联赛"选手,他们可能不是文学奖项的常客,但他们的作品确实吸引了大量读者。通过分析这些作品的质量分布,研究人员建立了一个基准线,而茅盾文学奖作品(相当于文学界的"国家队选手")则作为高质量参照点,验证了评估框架的有效性。
就像体育比赛需要明确的规则和评分标准一样,WebNovelBench定义了八个评估维度,包括修辞手法、感官描述丰富度、角色平衡度等。这些维度通过经过验证的"LLM作为评判者"机制进行评分,就像是训练有素的裁判团队,确保评估的客观性和一致性。
最终,WebNovelBench不仅是一个测试平台,更是一个将AI创作能力置于人类创作光谱中的分析工具。通过这个框架,我们可以清晰地看到当前AI模型在创意写作领域的真实水平,以及它们与不同层次人类作家之间的差距或超越。
二、如何搭建一个公平的小说评测擂台?
搭建WebNovelBench就像是设计一个完美的烹饪比赛:需要优质的食材(数据集)、合理的比赛规则(评估方法)和公正的评委团(评分机制)。研究团队在这三个方面都做了精心设计。
首先,在数据集的准备上,研究人员面临的挑战就像是从杂乱无章的市场中挑选最优质的食材。他们从超过10,000部中文网络小说中,通过一系列预处理步骤筛选出最终的4,000部作品。这个过程包括去除重复内容(即使标题不同,内容高度相似的小说只保留一部)、章节解析(确保每部小说至少有10个章节,满足"长篇"定义)以及尾部作者剔除(排除作品数量最少的作者,保留活跃作者的作品)。
这样精心挑选的数据集就像是一个包含各种菜系的丰富食材库,涵盖东方奇幻(1281部)、现实主义(1255部)、西方奇幻(670部)、历史题材(234部)等多种类型,还有科幻、悬疑和爱情等不同子题材。这种多样性确保了评测框架能够覆盖不同的写作风格和复杂度。
对于"摘要转小说"任务,研究团队使用Doubao-pro-32k模型为每部小说的10个连续章节生成"摘要"(包括主要角色、关键情节点和重要场景)。这就像是给参赛厨师提供相同的食谱概要,然后让他们发挥创意完成一道精美菜肴。最终,每部小说生成10个"章节内容-摘要"对,形成评测数据集。
在评估指标方面,研究人员精心设计了八个叙事质量维度,就像烹饪比赛中评判菜肴的不同方面(如味道、外观、创意等)。这些维度包括:修辞手法(隐喻、象征等的使用)、感官描述丰富度(视觉、听觉等描写)、角色平衡度(角色出现频率和对话比例)、角色对白独特性(对话是否反映个性)、角色一致性(语言和行为是否符合身份)、意境匹配度(场景是否支持整体氛围)、语境适配度(环境细节是否符合时代/地域背景)以及跨场景衔接度(场景过渡是否自然)。
最巧妙的部分是评分方法,研究团队结合了主成分分析(PCA)和经验累积分布函数(ECDF)。想象一下,如果烹饪比赛中有八个评分项目,但裁判发现某些项目比其他项目更能反映菜肴的整体质量。PCA就像是找出这种"权重",确定每个评分项目的相对重要性。研究发现,"角色一致性"在所有维度中权重最高(13.77%),这表明角色塑造的连贯性是评判故事质量的关键因素。
然后,ECDF就像是将所有参赛者排名,确定每位选手在整体分布中的位置。给定一个新的AI生成样本,系统会计算其综合得分,并确定它在整个参考数据集分布中的百分位排名。这个百分位数直观地表示了AI模型的写作能力与人类作家的相对水平。
通过这种设计,WebNovelBench不仅能够评估单个AI模型的创作能力,还能够直观地展示它们在人类创作光谱中的位置,为AI创意写作的进步提供了一个客观、可量化的参考标准。
三、谁是AI小说界的"文学大师"?
如果将AI模型视为文学比赛的参赛选手,那么谁会获得冠军?研究团队对24个最先进的大语言模型进行了全面测试,结果令人瞩目。
由于资源限制,评估数据集使用了100部网络小说(从4000部分布中每个百分位选取一部),每部小说有10个摘要到故事的测试样本,总共1000个测试样例。每个模型的整体排名是其在这100部小说上的平均百分位得分。
测试的模型包括13个开源模型和11个闭源模型,涵盖了当前最先进的AI技术。所有模型都使用标准化的系统提示和相同的生成设置(最大4096个标记,温度0.6),输出由DeepSeek-V3使用一致的评估提示进行评分。
研究结果显示,模型的表现可以大致分为三个梯队:
顶级模型——文学大师级:Qwen3-235B-A22B、DeepSeek-R1和Gemini 2.5 Pro表现最为出色,它们在各个叙事维度上得分都很高(3.5-4.6分),综合得分达到5.21(Qwen3-235B-A22B),表明它们的创作能力已经接近高质量人类写作。这些模型就像是已经掌握了小说创作的各个方面,能够生成流畅、有深度、情感丰富的故事。
中级模型——职业作家级:GPT-4o、DeepSeek-V3等模型表现各异(得分在2.5-3.8之间),在感官描述和修辞手法等方面仍有提升空间。这些模型可以比作有一定经验的职业作家,能够创作出结构完整、情节合理的故事,但在某些细节处理和文学技巧上还不够精湛。
低级模型——业余爱好者级:GLM-4-9B-chat、LLaMA-3-8B等较小模型表现较差(标准分低于2.0),特别是在修辞手法和角色对话方面存在明显不足。这些模型就像是文学爱好者,基本的故事框架能够构建,但在人物塑造、场景描写和文学技巧上还有很大的提升空间。
一个有趣的发现是,顶级闭源模型(如Claude-3-7-Sonnet和GPT-4.1)与领先开源模型(Qwen系列和DeepSeek模型)之间的性能差距正在迅速缩小。这就像是独立作家开始挑战传统出版机构的局面,表明开源社区正在快速追赶专有技术的优势。
在具体的叙事维度上,不同模型也展现出各自的特点。例如,一些模型在角色一致性上表现出色,但在修辞手法上相对薄弱;而另一些模型则在感官描述方面更为擅长。这就像不同作家有各自的风格和强项:有的善于人物塑造,有的长于场景描写,有的则擅长情节构建。
通过WebNovelBench的排名,我们不仅能看到当前AI模型在创意写作领域的整体水平,还能了解它们在不同写作方面的优势和不足。这对于研究人员改进模型,以及使用者选择适合特定创作需求的模型都提供了宝贵参考。
更重要的是,这个基准测试揭示了AI创意写作的发展趋势:顶级模型已经能够生成接近高质量人类创作的内容,而技术的快速迭代可能会进一步缩小甚至超越这个差距。对于作家、出版商和内容创作者来说,这既是挑战也是机遇,促使我们重新思考AI在创意写作中的角色和潜力。
四、这个评测系统真的公平可靠吗?
任何评测系统都面临一个关键问题:它是否真的公正、准确和可靠?就像体育比赛需要精确的计时系统和公正的裁判一样,WebNovelBench的可靠性也需要严格验证。研究团队通过多种方法确保了评估框架的合理性和稳健性。
首先,研究人员对八个评估维度进行了详细的统计分析,结合主成分分析(PCA)和分布可视化。想象一下,如果我们要评价一道菜的好坏,可能会考虑味道、外观、创意等多个方面,但这些方面之间可能存在某种内在联系。PCA分析显示,第一个主成分解释了75.6%的方差(前三个主成分合计超过90%),这表明这八个评估维度虽然各自独立,但确实捕捉到了一个主导的质量因素。
各维度的权重分布相对均衡(11.5%-13.8%),其中"角色一致性"权重最高,反映了它在区分故事质量方面的重要作用。这就像是在评价一部电影时,演员表演的连贯性和角色的可信度通常是影响观众整体感受的关键因素。
研究团队还分析了每个评估维度的概率密度分布。大多数维度(如感官描述丰富度、角色平衡度等)展现出接近高斯分布的特性,表明评分分布平滑且符合正态分布预期。一些维度如修辞手法和语境适配度则表现出轻微的偏态或多模态特性,这可能反映了内容子群的存在,例如人类作者和AI生成文本在风格密度上的差异,或者不同类型作品在背景设定详细程度上的差异。重要的是,所有维度的平均得分呈现出与高斯分布高度一致的聚合分布,进一步验证了评估框架的内部一致性。
为了验证评估框架能否准确识别公认的高质量文学作品,研究团队测试了25部茅盾文学奖获奖小说(每部取前10章)。结果显示,这些公认的文学经典在WebNovelBench中一致地获得了高分,位于高质量区间,证实了评估框架能够捕捉到公认的文学价值。这就像是一个音乐评分系统能够正确识别出贝多芬的交响曲是杰作,增强了我们对该系统判断能力的信心。
在实施"LLM作为评判者"方面,研究团队采用了DeepSeek-V3作为评估器,这是当前最先进的中文语言模型之一。基于直觉和经验观察,研究人员发现没有显式链式思考推理的模型在这类评分任务上表现更高效有效。为了减轻位置偏差和上下文长度偏差(这些问题被证明会显著影响成对比较方法),研究采用了直接评分方法,让LLM独立评估每个生成输出。这种方法不仅减少了系统偏差,还增强了灵活性和可扩展性。
为了证明"LLM作为评判者"方法的稳健性,研究团队对一组经典作品进行了11次独立评估,使用相同的DeepSeek-V3配置。结果显示评估结果高度一致,四分位范围(IQR)低于0.05,得分方差在0.001范围内,证实了模型和评估提示设计的稳定性。这就像是确保裁判在不同比赛中能够一致地应用评分标准,增强了评估结果的可靠性和可信度。
研究团队还分析了模型生成输出的长度,以避免引入偏差。结果表明,大多数模型生成的输出长度在800到1200词之间,符合请求的长度或上下文窗口限制。值得注意的是,Claude 3.7 Sonnet和Gemini 2.5 Pro等模型倾向于生成明显更长的文本,而LLaMA 3.3和GLM-4-9B-chat则倾向于生成较短的内容。总体而言,输出长度在4096标记的约束下相对稳定,并未成为主要的区分因素。
这些全面的验证分析证明,WebNovelBench是一个稳健、可靠的评估框架,能够客观地评估AI模型的创意写作能力,并将它们与人类作品进行有意义的比较。这种可靠性对于研究人员、开发者和内容创作者来说至关重要,因为它提供了一个可信的基准,指导AI写作技术的未来发展方向。
五、这项研究告诉我们什么?AI写作的未来走向
WebNovelBench研究不仅为我们提供了一个评估AI写作能力的新工具,还揭示了一些关于AI创意写作现状和未来的深刻洞察。
首先,顶级AI模型已经能够生成接近高质量人类写作的小说内容。这就像是AI已经从"学徒"阶段进入了"职业作家"阶段,能够创作出结构完整、情节连贯、人物立体的故事。特别是在某些技术方面,如场景描写的连贯性和语境适配性上,顶级模型表现出色。这表明AI在处理叙事的技术层面已经取得了显著进步。
然而,研究也揭示了当前AI写作的局限性。即使是顶级模型,在修辞手法的创新性和角色对话的独特性方面仍有提升空间。这就像是AI掌握了写作的"技巧",但在创作的"灵魂"——那些真正打动人心的独特表达和深刻洞察方面,还有一定差距。这提醒我们,虽然AI可以成为强大的写作助手,但完全取代人类创作者的个性和视角仍然是个挑战。
研究还发现开源模型与闭源模型之间的性能差距正在迅速缩小,这对AI技术的民主化和普及具有积极意义。想象一下,如果高质量的写作辅助工具变得广泛可用,它可能会降低创作的技术门槛,让更多人能够表达自己的想法和故事。
从实用角度看,WebNovelBench为我们提供了一个客观评估AI写作能力的标准,这对于研究人员改进模型、开发者选择适合特定任务的工具,以及内容创作者了解AI辅助写作的潜力都具有重要价值。就像一个明确的评分标准能够帮助学生了解自己的学习进度,WebNovelBench也能够帮助我们了解AI写作技术的发展水平和改进方向。
对于普通读者和作家来说,这项研究也带来了一些有趣的思考:AI是否会改变我们阅读和创作的方式?当AI能够生成接近人类水平的小说,我们如何定义和珍视原创性?AI是否会成为作家的合作伙伴,帮助处理创作中的技术性工作,让人类作者能够更专注于创意和情感表达?
尽管这项研究主要聚焦于中文网络小说,但其方法论和发现对全球AI创意写作领域都具有参考价值。随着技术的发展,我们可能会看到类似的评估框架应用于其他语言和文学形式,为AI在全球创意产业中的角色提供更全面的理解。
总的来说,WebNovelBench研究不仅是对AI写作能力的一次科学评估,也是对AI与人类创造力关系的深入探索。它让我们看到了AI在创意领域的进步和潜力,同时也提醒我们人类独特创造力的价值。在AI与创意的交叉路口,我们正在见证一个新时代的开始,这个时代将重新定义创作的边界和可能性。
六、研究的局限性与未来展望
尽管WebNovelBench提供了一个创新的评估框架,但研究团队也坦诚地指出了几点局限性。首先,该基准测试仅使用中文网络小说作为评估数据集。虽然这些作品丰富多样且具有代表性,但未来的研究应将基准扩展到其他语言和文学形式,以提高其普适性。这就像是一个最初只在亚洲举行的比赛,需要扩展到全球范围才能更全面地评估参赛者的能力。
其次,由于资源和时间限制,实验规模有限:研究仅使用了单一的"LLM作为评判者"模型评估子集性能。虽然结果显示了稳健性,但未来研究中使用多个评判模型评估更多子集将进一步加强和验证结论。这就像是增加比赛的裁判人数和比赛场次,以确保评分的公正性和准确性。
最后,虽然研究提出基准可以直接评估数据质量,但尚未探索其更广泛的应用。未来研究将调查这些基准数据集如何被利用来提升模型性能和其他下游任务。这就像是研究一个评分系统不仅能评价选手当前水平,还能指导他们如何提高技能。
展望未来,WebNovelBench开创的方法论可以扩展到多个方向。我们可以期待看到类似的评估框架应用于其他语言、不同文学类型(如诗歌、剧本、非虚构写作)甚至跨媒体叙事形式。研究人员还可以探索更多元化的评判模型组合,以减少潜在的模型偏见,提高评估的客观性。
从长远来看,这类评估框架不仅可以用于测量AI的创作能力,还可以帮助我们更深入地理解人类创作的本质:什么让一个故事打动人心?不同文化背景的读者如何评价叙事质量?这些问题的探索可能带来对人类创造力和AI潜力的新认识。
对于AI开发者来说,WebNovelBench提供的具体评分和分析可以指导模型改进的方向,例如加强修辞手法的多样性、提升角色对话的独特性等。对于内容创作者,了解AI的优势和局限性可以帮助他们更有效地利用这些工具,将AI作为创作助手而非替代者。
随着AI技术的快速发展,我们可能很快就会看到专门针对创意写作的AI模型,它们在WebNovelBench等框架的指导下,针对特定的叙事维度进行优化。这将进一步推动AI辅助创作工具的发展,为作家、编辑和内容创作者提供更强大、更精准的支持。
总的来说,WebNovelBench不仅是对当前AI写作能力的一次快照,也是AI与创意产业未来互动方式的一个预告。它为我们展示了一个AI与人类创造力共舞的未来,在这个未来中,技术不仅是工具,也是灵感的来源和创新的催化剂。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。