在当今快速发展的人工智能领域,大型语言模型(LLMs)已经展现出令人惊叹的文本生成能力。然而,当涉及到生成长篇文本时,这些模型仍然面临着巨大挑战,尤其是在保持连贯性、确保逻辑一致性以及随着文本长度增加而维持质量方面。新加坡科技设计大学和清华大学的研究团队在一项最新研究中提出了一个创新解决方案,他们开发了名为"SuperWriter"的框架,旨在显著提升长篇文本生成的质量。这项研究由吴宇昊、白宇实、胡志强、李娟子和李嘉伟共同完成,发表于2025年6月的arXiv预印本平台(arXiv:2506.04180v1)。
为什么长篇文本生成如此困难?
想象一下,你正在阅读一部小说,刚开始情节引人入胜,但随着阅读的深入,你发现故事线开始混乱,人物行为前后矛盾,甚至出现了情节漏洞。这正是当前大型语言模型在生成长篇文本时面临的典型问题。
现有的大型语言模型通常采用"一口气生成"的方式创作长篇文本,就像一个人不打草稿、不停顿思考地一气呵成写完一篇长文。然而,优秀的人类作家很少这样创作。如论文第一页图1所示,人类写作通常遵循一个更为深思熟虑的过程:先思考(Think)、再规划大纲(Outline)、然后分章节写作(Write),最后进行修改(Refine)。这种结构化的思考过程正是SuperWriter要模仿的关键。
研究团队发现,虽然大型语言模型在短文生成方面表现出色,但在长篇创作中,它们往往会随着文本长度增加而出现连贯性下降和逻辑矛盾的问题。这些模型缺乏一个明确的、结构化的思考框架来指导长篇文本的创作过程。
SuperWriter:模仿人类作家的思考过程
SuperWriter的核心理念是引入显式的结构化思考环节到文本生成过程中。这个框架主要由两个关键部分组成:SuperWriter-Agent(基于代理的框架)和SuperWriter-LM(经过训练的语言模型)。
### SuperWriter-Agent:三阶段写作框架
SuperWriter-Agent是一个代理式框架,它模拟人类写作的认知过程,将长篇文本生成分为三个阶段:规划(Planning)、写作(Writing)和修改(Refining)。就像一位专业作家会先构思、再动笔、最后修改一样,这个框架也遵循类似的工作流程。
**第一阶段:规划(Plan)**
想象一下写作课堂上老师和学生们围坐在一起,通过口头讨论来完善创作构思的场景。SuperWriter-Agent的规划阶段正是模拟了这种"故事工作坊"(Story Workshop)的互动过程。
在这个阶段,系统中的两个AI代理会进行协作对话,共同确定: - 核心主题和中心论点 - 角色背景设定(如果是创意写作) - 段落级别的内容结构 - 合理分配每个段落的字数 - 将关键想法与特定段落关联起来
研究团队解释道,这种结构化的规划过程大大增强了最终文本的整体连贯性和组织性。通过这种方法,AI代理能够更加专注和有条理地发展思路,就像人类作家在正式写作前会先在脑海中或纸上整理思路一样。
**第二阶段:写作(Write)**
受到OpenAI的o1和DeepSeek-R1等推理型语言模型的启发,SuperWriter在写作阶段采用了"先思考后写作"的双步骤方法。具体来说,写作阶段包含两个主要步骤:
1. **思考步骤(Thinker Step)**:在这一初始阶段,模型不会直接生成表层文本。相反,它会识别并组织与段落相关的关键思想、主题元素和逻辑结构。这种显式的推理过程为后续的文本生成提供了清晰的方向性框架。
2. **写作步骤(Writer Step)**:基于思考步骤中形成的结构化大纲,并将前一段落(即第n-1段)作为上下文输入,模型开始生成当前段落。这种利用先前上下文的方法确保了段落之间的平滑过渡,并有助于整个文档的逻辑流畅性。
这种方法就像人类写作时会先在脑海中构思一段话的主要内容和结构,然后才开始正式写作一样。通过分离"思考"和"写作"这两个认知过程,SuperWriter能够产生更有条理、逻辑更一致的段落。
**第三阶段:修改(Refine)**
最后的修改阶段不仅仅是进行表面的编辑,而是系统地评估生成文本的整体质量,并识别需要有针对性修改的特定段落。这个过程包含两个关键步骤:
1. **检查步骤(Checker Step)**:模型对每个段落进行全面评估,识别逻辑不一致、表达不清晰或偏离预期叙事结构等问题。
2. **编辑步骤(Editor Step)**:基于检查步骤的反馈,模型进行精确和有针对性的修改,以提高文本的准确性、流畅性和结构连贯性。
这种迭代和结构化的修改过程确保最终输出不仅准确传达原始意图和叙事目标,还满足学术写作中期望的严格标准。就像人类作家会反复阅读和修改自己的草稿一样,SuperWriter也通过这种方式提升文本质量。
### SuperWriter-LM:将结构化思考融入语言模型
研究团队在开发了SuperWriter-Agent后,提出了一个关键问题:能否将这种结构化思考的能力直接注入到语言模型中,使其能够以更少的推理步骤生成高质量的长篇文本,而不是依赖30到40个单独的代理调用?
为了解答这个问题,他们进行了有针对性的模型训练实验,目标不仅是延长输出长度,还要通过将SuperWriter-Agent的结构化思考过程直接融入模型本身,从根本上改善连贯性、相关性和深度。
**训练数据构建**
SuperWriter-LM的训练数据来源于两个实际的指令调优数据集:WildChat-1M和LMSYS-Chat-1M,分别包含英文和中文指令。为确保所选指令对长篇写作任务的质量和相关性,研究团队使用DeepSeek-R1-Distill-Qwen-32B模型进行了筛选。
最终,他们使用SuperWriter-Agent(由GPT-4o-2024-08-06驱动)基于4,000条经过筛选的指令生成了SFT训练数据。每个数据实例都遵循结构化流程:查询 → 大纲 → 草稿 → 最终输出。他们明确地将这个流程分为与SuperWriter-Agent内部结构一致的三个阶段:规划(query → outline)、写作(outline → draft)和修改(draft → final output)。
这种分阶段的训练方式有两个主要优势: 1. 它更好地适应实际用户工作流程,用户可能希望在进入下一阶段之前查看和修改中间结果(例如大纲)。 2. 由代理生成的完整输出可能非常长——有些超过10万个标记——对现有的长上下文模型构成重大挑战。通过将生成过程分解为多个阶段,研究团队确保每个训练样本都控制在32K标记以内,使其更易于当前模型处理。
三个阶段(规划、写作和修改)各包含4,000个数据实例,总共形成了12,000个高质量的训练数据。在推理过程中,模型按照三个连续阶段进行生成,产生最终输出。
**层次化直接偏好优化**
直接偏好优化(DPO)已被证明在基于成对人类(或代理模型)偏好的单次生成任务中有效地调整策略。然而,在SuperWriter的情境中,写作过程是按照三个不同阶段顺序展开的:规划、起草和修改。仅对最终输出应用传统DPO会忽略早期阶段固有的宝贵偏好信号。
为了解决这个问题,研究团队引入了一个层次化的多阶段DPO框架,结合了结构化偏好数据构建和系统评估。如论文图4所示,写作过程被构造为一棵通过蒙特卡洛树搜索探索的树。树中的每条路径,标记为(i, j, k),依次对应第一阶段(计划i)、第二阶段(草稿j)和第三阶段(修改k)。
他们嵌入了两个关键假设: 1. 结构良好的初始计划会导致更高质量的草稿(第一阶段计划 → 第二阶段写作) 2. 精心修改的草稿通常会产生更好的最终输出(第二阶段写作 → 第三阶段修改)
因此,他们将质量信号从叶节点(最终输出)向上反向传播到中间阶段,确保策略从每个层次的决策中学习,而不仅仅是从最终结果中学习。
**评估过程**
为了评分每个叶节点上的最终输出,研究团队引入了Write-judge,这是一个六维评分标准(每个维度0-10分),根据指令类型从更大的二十个维度池中选择。为了抑制评估偏差,他们使用QwQ-32B模型在相同温度设置下对每个输出评分三次,并取平均值。
然后,他们从叶节点向上传播分数,构建DPO对,并使用标准DPO损失优化策略:
``` LDPO = – E(x,y+,y–)~DDPO[log σ(β [sθ(x, y+) – sθ(x, y–)])] ```
通过上述方法,他们获得了一个DPO偏好数据集,并使用360-LLaMAfactory对已经监督微调的SuperWriter-LM进行了上下文并行DPO训练,批量大小为32,学习率为1 × 10^-6。
实验结果:SuperWriter-LM表现如何?
SuperWriter-LM的性能评估通过两个主要方面进行:WritingBench基准测试和与其他模型的胜率比较。
### WritingBench基准测试结果
WritingBench是一个综合基准测试,旨在评估大型语言模型在六个主要写作领域(学术与工程、金融与商业、政治与法律、文学与艺术、教育、以及广告与营销)的表现。
如论文表1所示,基于Qwen2.5-7B开发的SuperWriter-LM在整体表现上达到了8.51分(满分10分),仅次于DeepSeek-R1(8.55分),并超过了许多规模更大的模型,包括ChatGPT-4o-latest(8.16分)、o1-Preview(8.15分)以及Claude-3.5-Sonnet(7.71分)。
在不同领域的表现上,SuperWriter-LM在学术与工程(8.6分)、金融与商业(8.7分)、政治与法律(8.7分)和教育(8.7分)这四个主要领域中取得了最高分,甚至略微超过了DeepSeek-R1模型。此外,SuperWriter-LM在满足各种特殊写作要求方面也表现出色,只有在长度_C设置上表现稍差。研究团队解释,这主要是因为代理生成的数据往往倾向于生成更长的输出,即使是对短文本任务也是如此——这个问题对长篇文本生成并不构成影响。
### 胜率比较结果
为了解决WritingBench评估方法的局限性(如评论模型的相对较小规模可能导致的脆弱性),研究团队采用了更直接和可解释的评估指标:胜率。他们在收集的近200个来自实际用户的查询上评估了模型性能,对于每个查询,由SuperWriter-LM和六个基准模型生成响应。
如图5所示,SuperWriter-LM在与同规模模型(图中的1、2和3号模型)的比较中展示了显著的性能领先优势。此外,在与更大规模模型(图中的4、5、6和7号模型)的比较中,SuperWriter-LM保持竞争力,在某些情况下甚至略微优于最先进的LLMs。
为了减轻自动评估中可能出现的不准确性,研究团队还对约200个实际用户查询进行了人类补充评估,比较SuperWriter-LM与Writing-Model-Qwen-7B。对于每个查询,三名具有本科学位的独立注释者被要求评估和确定首选响应,结果被分类为胜利、失败或平局。图5(8)中的聚合结果显示,SuperWriter-LM在人类判断下表现更强。然而,由于注释者在两个响应之间的差异微妙时倾向于分配平局,整体胜率看起来稍低。
### 消融研究结果
最后,研究团队进行了一项消融研究,包括四种不同的设置,在WritingBench基准测试上进行评估:
1. **基础模型**:使用Qwen2.5-Instruct作为性能基线(平均分数7.43) 2. **SuperWriter-final-answer**:将用户查询作为输入,从SuperWriter-agent的Stage-3修改步骤产生最终输出——这是一个没有任何显式思考过程的一次性生成,达到了8.21的平均分数 3. **+Three-Stage**:对应于他们的SFT训练模型,明确执行规划、起草和修改,以链式、多阶段的方式进行,包含结构化思考,将性能提升至8.47 4. **+Hierarchical DPO**:进一步使用层次化DPO优化增强的完整模型,达到最高分8.51
如表6所示,每个额外的组件都带来了一致的性能改进,证明了他们提出的方法在结构化写作任务中的有效性。
SuperWriter的局限性
尽管SuperWriter-LM在长篇文本生成方面表现出色,但研究团队也坦率地指出了几个局限性:
**1. 推理延迟**:与LongWriter或Suri等单次生成模型相比,SuperWriter的三阶段框架会导致额外的推理时间。虽然比多轮代理式管道(如每个输出需要30-40次调用)效率高得多,但结构化的规划→写作→修改过程仍需要三次顺序前向传递,可能增加实际应用中用户感知的延迟。
**2. 模型规模**:当前实现基于7B参数的Qwen2.5骨干网络,这在性能和成本之间取得了平衡。然而,这种中等规模可能限制模型的内部世界知识,特别是在知识密集型或专业化的写作场景(如法律、医疗和科学领域)。在定性分析中,一些输出显示出浅层的事实基础或微妙的推理错误。
**3. 缺乏在线强化学习**:SuperWriter的对齐阶段仅依赖离线直接偏好优化(DPO),使用静态偏好对训练。虽然有效,但这种设置缺乏在线人类反馈强化学习(RLHF)的适应性,后者允许模型通过探索持续改进输出。关键瓶颈是将通用奖励模型应用于长输出时的高回滚成本。
总结:SuperWriter如何改变长篇文本生成
SuperWriter通过引入结构化的写作过程——规划、写作和修改——彻底改变了长篇文本生成的方式。这种方法教会模型在写作前"深思熟虑",并产生高质量的监督信号。结合层次化DPO策略,模型学会了在所有写作阶段调整其输出。
实验结果令人印象深刻:SuperWriter-LM在WritingBench上超越了所有同等规模的模型,在关键领域甚至超过了671B的DeepSeek-R1模型。在与顶级开源基准模型的实际用户比较中,它也赢得了超过98%的胜率。这些结果证实了多阶段生成和结构化偏好学习对提高写作质量的价值。
总的来说,SuperWriter项目展示了通过模拟人类认知写作过程,可以显著提高人工智能生成的长篇文本质量。通过结构化思考和分阶段生成,这种方法不仅延长了输出文本的长度,更重要的是提升了内容的连贯性、逻辑一致性和整体质量,使AI生成的长篇文本更接近人类专业作家的水平。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。