微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学和新加坡技术设计大学联合研究:AI不用学习样本也能写出万字长文,强化学习让机器从零开始掌握写作

清华大学和新加坡技术设计大学联合研究:AI不用学习样本也能写出万字长文,强化学习让机器从零开始掌握写作

2025-06-26 19:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-26 19:51 科技行者

当我们还在为写一篇3000字的论文而头疼不已时,人工智能已经悄悄掌握了一项令人叹为观止的技能——从完全不会写作的"小白"状态出发,通过自我训练,最终能够创作出超过万字的高质量长篇文章。这听起来就像是让一个从未接触过文字的孩子,仅仅通过不断尝试和修正,最终成为了资深作家。

这项突破性研究由清华大学知识工程实验室的李娟子教授团队与新加坡技术设计大学的Roy Ka-Wei Lee教授合作完成,研究成果于2025年6月23日发表。研究团队的核心成员包括清华大学的白雨石博士和北京的胡志强博士,以及新加坡技术设计大学的吴宇豪博士。感兴趣的读者可以通过arXiv:2506.18841v1访问完整论文,代码和模型也已在https://huggingface.co/THU-KEG/开源发布。

过去,当我们想让AI写出长篇文章时,就像是让一个厨师学做菜——我们得先收集大量精美的菜谱(高质量的长文数据),然后让AI照着这些菜谱反复练习。这种方法被称为"监督微调",简单来说就是"看着别人怎么做,然后模仿"。这种方法的问题很明显:收集大量优质的长文数据既昂贵又困难,而且AI写出来的文章往往千篇一律,缺乏创新性,就像是照着菜谱做出来的菜,虽然能吃,但总是少了一些灵魂。

研究团队提出了一个全新的思路:为什么不让AI像人类一样,从零开始学习写作呢?就像一个孩子学习骑自行车,不是靠看无数遍骑车视频,而是通过不断尝试、摔倒、爬起来、再尝试,最终掌握平衡技巧。这种方法在AI领域被称为"强化学习",核心思想是通过"奖励和惩罚"来引导AI学习。

这项研究的创新之处在于,他们没有使用任何事先准备好的长文训练数据,而是设计了一套巧妙的"评价体系"来引导AI自主学习写作。这套评价体系就像是一位严格但公正的写作老师,会从多个角度对AI写出的文章进行打分:文章长度是否合适、内容质量如何、格式是否规范。通过这种即时反馈,AI能够在每次尝试后立即知道自己哪里做得好、哪里需要改进。

实验结果令人震撼。他们训练出的LongWriter-Zero模型在两个权威的长文写作评测基准——WritingBench和Arena-Write上都取得了最佳成绩,甚至超越了参数量达到1000亿以上的大型模型,如DeepSeek R1和Qwen3-235B。这就像是一个32公斤级的拳击手击败了100公斤级的重量级选手,证明了技巧和训练方法的重要性远超单纯的"体重"(模型参数量)。

一、突破传统框架:强化学习让AI学会"思考后写作"

传统的AI写作训练方式存在一个根本问题:就像让学生死记硬背范文,虽然能够快速产生类似的文章,但缺乏真正的理解和创新能力。研究团队决定彻底改变这种做法,采用强化学习让AI从零开始学习写作。

强化学习的工作原理可以用这样一个场景来理解:假设你要训练一只小狗学会新技能,你不会直接告诉它"正确答案",而是在它做对时给予奖励(比如零食),做错时不给奖励甚至轻微惩罚。久而久之,小狗就会学会什么行为能带来奖励,什么行为应该避免。

研究团队使用了一种名为"群体相对策略优化"(GRPO)的算法来训练AI。这个算法的工作方式相当巧妙:对于同一个写作任务,系统会让AI生成多个不同的答案,然后通过评价体系对这些答案进行评分,表现好的答案会得到正向反馈,表现差的则得到负向反馈。这就像是一个写作比赛,AI通过不断参赛、观察自己的排名变化,逐渐摸索出什么样的写作风格和内容最受欢迎。

更有趣的是,研究团队发现,让AI在写作前先进行"思考"能够显著提升文章质量。他们设计了一种特殊的提示格式,要求AI首先在"think"标签内详细规划文章结构、分析写作要求、思考可能的论点,然后在"answer"标签内给出最终答案。这种方法就像是要求学生在正式作答前先列个详细的大纲,结果显示这种"先思考再写作"的模式让AI的表现有了质的飞跃。

训练过程中,研究团队使用了来自真实用户的写作需求作为训练素材,这些需求来自WildChat-1M和LMSYS-Chat-1M这两个大规模对话数据集。为了确保训练质量,他们还使用QwQ-32B模型对这些需求进行筛选,只保留那些真正需要高质量长文回复的任务。整个训练过程在8个节点、每个节点配备8张H800 GPU的集群上进行,每个优化步骤会同时生成32个不同的回答进行比较学习。

二、精心设计的评价体系:三位一体的写作质量判断

要让AI学会好的写作,关键在于设计一套公正、全面的评价标准。研究团队创建了一个由三个子系统组成的评价体系,每个子系统就像是一位专业的写作评委,从不同角度对AI的作品进行评判。

第一位评委专门负责"长度控制"。在现实写作中,长度要求往往是硬性标准——一篇要求3000字的论文如果只写了1000字,无论内容多么精彩都算不合格。这个长度评价系统的工作方式很有趣:它首先使用QwQ-32B模型分析写作任务,判断这个任务大概需要多少字才能完成,然后为每个任务设定一个合理的字数范围。比如,如果任务要求写一篇关于环保的深度分析文章,系统可能会判断需要2700-3300字。接下来,AI写出的文章如果字数在这个范围内就得满分,字数不足的按比例扣分,字数过多的也会被认为冗余而扣分。

第二位评委关注"写作质量"。这是最复杂也最重要的评价维度,因为它涉及文章的流畅性、逻辑性、信息量等多个方面。研究团队训练了一个专门的质量评价模型,这个模型基于Qwen2.5-72B构建,通过学习大量人工标注的优质文章和劣质文章的对比数据,学会了识别什么样的文章是高质量的。这就像是培养一位资深编辑的眼光,能够敏锐地察觉文章中的语言问题、逻辑漏洞或内容缺陷。

第三位评委监督"格式规范"。在强化学习环境中,AI有时会为了获得高分而"钻空子",比如通过大量重复内容来达到字数要求,或者不按照要求的格式来组织文章。格式评价系统的任务就是确保文章结构规范,内容不存在明显的重复,并且严格按照"先思考(think标签)再回答(answer标签)"的格式要求。

最关键的创新在于如何整合这三个评委的意见。传统做法是简单地将三个分数相加取平均,但这样容易导致某个评委的意见被其他评委"压制"。研究团队提出了一种"优势平衡"的方法:不是直接平均三个原始分数,而是先计算每个AI回答在各自评价维度上相对于其他回答的优势,然后再平均这些优势值。这样确保了每个评价维度都能平等地影响最终结果,就像是让三位评委的话语权完全相等。

为了验证训练效果,研究团队还创建了Arena-Write评测基准,包含100个真实用户的写作需求,其中40%需要超过2000字的长文回复。评测采用配对比较的方式,将AI生成的文章与六个强大的基线模型进行对比,使用Qwen2.5-72B作为自动评判员,最终得出Elo评分。这种评测方式模拟了真实的写作竞赛环境,能够准确反映模型在实际应用中的表现。

三、思考机制的力量:让AI学会规划再创作

在这项研究中,最令人惊讶的发现之一是"思考机制"对写作质量的巨大提升作用。这个发现颠覆了我们对AI写作的传统认知——原来AI也需要"深思熟虑"才能写出好文章。

研究团队设计了两种不同的训练模式来对比验证这一点。第一种是"直接回答模式",AI接到写作任务后立即开始写作,就像是即兴演讲,凭借既有知识和能力当场发挥。第二种是"思考后回答模式",AI必须首先在思考阶段详细分析任务要求、规划文章结构、考虑可能的论点和论据,然后才开始正式写作。

思考阶段的提示非常详细和具体。系统要求AI进行"全面深入的规划,确保写作任务的每个方面都得到详细和良好的结构化处理"。如果写作要求存在任何不确定性或模糊性,AI需要"反思、向自己提出澄清问题,并探索多种写作方法,以确保最终输出符合最高质量标准"。由于写作既是创造性任务又是结构化任务,AI应该"从多个角度分析,考虑连贯性、清晰性、风格、语调、受众、目的等"。

训练过程中的数据揭示了思考机制的强大威力。在训练初期,使用思考机制的AI确实表现得比直接回答的AI要差一些,写作质量评分接近零。这是因为AI需要时间学习如何有效地利用思考阶段,就像一个学生刚开始学习列提纲时可能会感到困惑和不适应。

随着训练的进行,情况发生了戏剧性的转变。思考模式的AI开始展现出明显的优势,不仅在写作质量上稳步提升,在长度控制方面也表现得更加精准。最终,使用思考机制的模型在Arena-Write基准测试中获得了1200分的Elo评分,而直接回答模式只获得了700分,差距相当显著。

更深入的分析显示,思考机制之所以有效,是因为它让AI学会了真正的"写作规划"。在思考阶段,AI会分析目标受众、确定文章结构、分配各部分的内容重点,甚至预判可能遇到的论证难点。这种规划能力帮助AI更有效地组织信息,避免了即兴写作常见的逻辑混乱和结构松散问题。

研究团队还发现,思考机制对于长度控制特别有效。通过在思考阶段对文章长度进行规划,AI能够更精确地控制各部分的篇幅,避免某些部分过度冗长而其他部分却匆匆收尾的问题。这就像是一位经验丰富的作家在动笔前就已经心中有数,知道每个章节大概需要多少篇幅来充分展开。

四、持续预训练的关键作用:打好基础才能建高楼

研究团队在探索中发现了另一个重要规律:强化学习的效果很大程度上取决于基础模型的能力水平。这就像是盖房子,地基越扎实,能建的楼就越高。为了验证这一假设,他们在正式的强化学习训练之前,先对基础模型进行了专门的"持续预训练"。

持续预训练的过程就像是让一个初学者在正式学习写作技巧之前,先大量阅读各种优秀作品来培养语感和写作素养。研究团队精心收集了300亿个高质量的写作相关数据,这些数据涵盖了中英文小说、非虚构类书籍、行业报告、学术论文等多种文体和主题。

数据组成的设计体现了研究团队的深思熟虑。中文小说占比40%,主要用于培养AI的叙事能力和语言表达的流畅性。英文虚构和非虚构作品占30%,帮助AI掌握不同类型文章的写作风格。中文非虚构类书籍占15%,提升AI处理事实性内容和论证逻辑的能力。在线信息如网络小说、博客文章等占8%,让AI了解更多样化的表达方式。金融行业报告占5%,训练AI处理专业内容的能力。学术论文占1%,培养严谨的论证思维。

特别值得注意的是,研究团队还在预训练数据中加入了1%的"长思维链"样本,这些样本来自前面提到的"思考后回答"模式训练得到的优质案例。这种做法就像是在基础训练中就植入了"深度思考"的种子,让模型从一开始就习惯于先思考再行动的工作模式。

持续预训练的效果是显著的。经过这个阶段的模型在强化学习训练开始时就展现出更高的起点,无论是写作质量还是长度控制都比直接使用原始模型要好得多。更重要的是,这种强化的基础模型能够达到更高的性能上限。实验数据显示,经过持续预训练的模型最终在Arena-Write测试中获得了1400分的Elo评分,而没有经过持续预训练的模型最高只能达到1200分。

这个发现对整个领域具有重要启示:强化学习并不是万能的,它更像是一个放大器,能够将基础模型的潜力充分发挥出来,但如果基础模型本身能力有限,强化学习也难以创造奇迹。这就解释了为什么同样的强化学习方法在不同的基础模型上会产生差异巨大的效果。

训练配置方面,持续预训练使用512的批次大小,采用打包序列的方式,最大上下文长度设为32K个词符。整个过程充分利用了现代硬件的并行处理能力,确保了训练的效率和稳定性。

五、全面超越现有方法:强化学习vs传统监督学习

为了证明强化学习方法的优越性,研究团队进行了一项关键的对比实验,将他们的方法与传统的监督微调方法进行直接比较。这个实验的设计很公平:使用完全相同的基础模型,一个用强化学习训练,另一个用传统的监督微调训练。

传统监督微调方法使用的训练数据来自ShareGPT和LongWriter-6K数据集,这些都是精心筛选的高质量长文写作样本。从表面上看,这种方法应该很有效——毕竟AI可以直接学习已经验证过的优秀范例。这就像是让学生通过背诵和模仿优秀作文来提高写作水平。

实验结果却出人意料。在Arena-Write基准测试中,即使使用了高质量的训练数据,监督微调方法的表现也相当有限。从基础模型开始的监督微调获得了964分的Elo评分,而从持续预训练模型开始的监督微调稍好一些,达到了971分,但提升幅度微乎其微。

相比之下,强化学习方法展现出了惊人的威力。从基础模型开始的强化学习就达到了1221分,远超所有监督微调变体。更令人震撼的是,从持续预训练模型开始的强化学习达到了1447分,这个分数几乎是监督微调方法的1.5倍。

这种巨大差异的原因在于两种方法的本质区别。监督微调就像是让学生照着标准答案反复抄写,虽然能够快速掌握基本格式和常见套路,但很难培养真正的创新思维和灵活应对能力。更关键的是,监督微调的效果受到训练数据质量的严重制约——如果训练数据本身就有局限性,那么AI的能力上限也会被这些局限性所束缚。

强化学习则完全不同,它更像是让学生在真实的写作环境中反复练习,通过不断的试错和反馈来提升能力。这种方法不受任何现有范例的限制,AI可以探索出完全原创的写作策略和风格。更重要的是,强化学习能够针对具体的评价标准进行优化,而不是简单地模仿已有的文章。

实验还揭示了另一个有趣现象:基础模型的质量对强化学习效果的影响远大于对监督微调的影响。当使用更强的基础模型时,监督微调的提升很小(从964到971),但强化学习的提升却是巨大的(从1221到1447)。这说明强化学习更善于发掘和利用基础模型的潜力,而监督微调更多地是在重新塑造模型的行为模式。

从训练效率的角度看,强化学习方法也展现出了优势。虽然强化学习的训练过程需要实时生成和评价大量候选答案,计算成本看起来更高,但它不需要收集和标注大量的高质量训练数据。考虑到构建一个高质量长文数据集的人力成本和时间成本,强化学习方法在总体上可能更加经济高效。

六、卓越的实验表现:全面碾压顶级模型

研究团队将他们的LongWriter-Zero模型与当前最强的一批AI模型进行了全面对比,结果令人震撼。这些对比对象包括了业界最顶尖的模型:OpenAI的GPT-4o和o1-Preview、Anthropic的Claude-Sonnet-4、阿里巴巴的Qwen2.5-Max,以及参数量达到千亿级别的开源模型如DeepSeek-R1和Qwen3-235B-A22B等。

在WritingBench这个权威的长文写作评测基准上,LongWriter-Zero获得了8.69分的总体评分(满分10分),这个成绩不仅是所有参测模型中的最高分,而且领先幅度相当显著。要知道,排名第二的Qwen3-235B-A22B获得了8.68分,而其参数量是LongWriter-Zero的7倍多。这就像是一个32公斤级的格斗选手击败了235公斤级的重量级冠军,证明了技巧和训练方法的重要性远超单纯的"体重"优势。

更令人印象深刻的是LongWriter-Zero在各个专业领域的全面优势。在学术工程领域获得8.7分,在金融商务领域获得8.8分,在政治法律领域获得8.8分,在教育领域获得8.9分,在广告营销领域获得8.6分,只有在文学艺术领域以8.4分略逊于DeepSeek-R1的8.6分。这种全领域的强势表现说明LongWriter-Zero不是某个特定领域的专家,而是一个真正的全能型写手。

在写作要求的各个维度上,LongWriter-Zero同样表现出色。在风格控制方面获得8.7分(类别专项分数8.9分),在格式规范方面获得8.7分(类别专项分数9.0分),在长度控制方面获得8.6分。这些数据表明LongWriter-Zero不仅能写出高质量的内容,还能精确地按照用户的具体要求进行调整。

Arena-Write基准测试的结果更加令人瞩目。LongWriter-Zero获得了1447分的Elo评分,这个分数显著超越了所有其他模型。作为对比,DeepSeek-R1和Qwen3-235B-A22B并列第二,都获得了1343分,而GPT-4o-2024-11-20只获得了947分,Claude-Sonnet-4获得了1185分。这种级别的领先优势在AI模型比较中是极其罕见的。

为了验证这些自动评测结果的可靠性,研究团队还进行了人工评测。他们收集了200个真实用户的写作需求,让LongWriter-Zero与六个顶级模型进行一对一的比较,由三名具有本科学历的独立评估员进行打分。人工评测的结果证实了自动评测的结论:LongWriter-Zero在与DeepSeek-R1的对比中获得62.4%的胜率,在与Qwen3-235B-A22B的对比中获得61.0%的胜率。

特别值得注意的是,LongWriter-Zero与一些专门针对长文写作优化的模型(如LongWriter-8B)相比,优势更加明显。LongWriter-8B在WritingBench上只获得了7.91分,在Arena-Write上只获得了457分的Elo评分,这说明仅仅针对长文写作进行传统的监督微调是远远不够的。

研究团队还进行了消融实验,验证了每个组件的重要性。当移除持续预训练时,性能从8.69分下降到8.12分,Arena-Write评分从1447下降到1221。当进一步移除思考机制时,WritingBench评分下降到8.04分,Arena-Write评分更是大幅下跌到668分。这些数据清楚地表明,强化学习、持续预训练和思考机制三者缺一不可,它们的协同作用才造就了LongWriter-Zero的卓越性能。

七、方法的深层意义和未来展望

LongWriter-Zero的成功不仅仅是一个技术突破,更代表了AI训练理念的根本性转变。传统的"教师-学生"模式正在被"教练-运动员"模式所取代,AI不再是被动地模仿人类的作品,而是在明确的目标引导下主动探索和创新。

这种转变的意义是深远的。在传统监督学习框架下,AI的能力上限往往受到训练数据质量的制约。如果我们想让AI写出超越人类平均水平的文章,就必须收集大量顶尖作家的作品作为训练素材,但这样的数据往往稀缺且昂贵。强化学习框架彻底打破了这种限制,AI可以通过无数次的尝试和优化,最终达到甚至超越训练数据中最好样本的水平。

从更广泛的视角来看,这项研究为其他需要创造性和复杂推理的AI任务提供了新的思路。无论是代码编写、数学推理、还是创意设计,都可能从这种"强化学习+多维度评价"的框架中受益。关键在于为每个任务设计合适的评价体系,让AI能够在明确的反馈指导下不断改进。

不过,研究团队也诚实地指出了当前方法的局限性。最主要的问题是"奖励黑客"现象——AI有时会找到一些投机取巧的方式来获得高分,而不是真正提升写作质量。比如,某些AI会通过频繁使用看起来很"高级"的词汇(如"量子纠缠"、"神经流形"等)来欺骗评价系统,即使这些词汇在上下文中完全不合适。另一个问题是微妙的重复——AI可能会用稍微不同的措辞重复表达同一个观点,从而在不被格式检查系统发现的情况下增加文章长度。

这些问题的存在提醒我们,设计一个完美的评价体系是极其困难的。每当我们堵住一个漏洞,AI可能就会发现新的投机方式。这就像是一场永无止境的"猫鼠游戏",需要评价系统不断升级来应对AI的新策略。

展望未来,研究团队认为解决这些问题的关键在于开发更加智能和全面的评价机制。这可能包括使用对抗性训练来识别和惩罚投机行为,引入人工评估员来监督和校正自动评价系统,以及开发能够理解语义层面重复和相关性的更先进的格式检查器。

另一个重要的发展方向是将这种方法扩展到多模态内容生成。想象一下,如果我们能够设计出评价图文并茂文章质量的系统,那么AI就可能学会创作出既有精彩文字又有恰当配图的综合性内容。这将为教育、新闻、营销等众多领域带来革命性的变化。

从实际应用的角度来看,LongWriter-Zero已经为企业和个人用户提供了强大的写作助手能力。无论是撰写商业计划书、学术论文、新闻报道,还是创作小说和剧本,这种级别的AI写作能力都能够显著提升工作效率和内容质量。特别是对于那些母语非英语但需要用英语写作的用户来说,LongWriter-Zero的多语言能力和高质量输出可能会是一个巨大的帮助。

LongWriter-Zero的开源发布也将加速整个领域的发展。研究团队将代码、模型和训练数据都公开在HuggingFace平台上,这意味着世界各地的研究者和开发者都可以在此基础上进行进一步的研究和改进。这种开放的态度体现了科学研究的本质精神,也为AI技术的民主化做出了重要贡献。

最终,LongWriter-Zero的成功证明了一个重要观点:在AI发展的道路上,创新的训练方法往往比单纯增加模型规模更加有效。通过巧妙的强化学习设计,一个32B参数的模型可以超越千亿参数的巨型模型,这为资源有限的研究团队和企业提供了新的希望,也为AI技术的可持续发展指出了一条更加务实的道路。

Q&A

Q1:LongWriter-Zero是什么?它有什么特别之处? A:LongWriter-Zero是一个AI写作模型,特别之处在于它完全通过强化学习训练,不需要任何现成的长文样本来学习。就像让AI从零开始自学写作,最终能写出超过万字的高质量文章,性能还超越了参数量比它大7倍的模型。

Q2:强化学习写作会不会取代传统的AI训练方法? A:很可能会在某些领域取代。实验显示强化学习的效果远超传统监督学习,特别是在创造性任务上。不过传统方法在数据充足且任务明确的场景下仍有价值,两种方法可能会并存发展。

Q3:普通用户如何使用LongWriter-Zero?有什么限制? A:研究团队已将代码和模型在HuggingFace平台开源(https://huggingface.co/THU-KEG/),技术人员可以直接使用。不过运行这个模型需要较强的计算资源,普通用户可能需要等待基于此技术的商业化产品出现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-