这项来自字节跳动人工智能实验室(ByteDance Seed)与香港科技大学、北京大学等机构合作完成的突破性研究,于2024年9月发表在人工智能顶级预印本平台arXiv上。该研究由王浩哲、阙昊然等研究人员共同完成,论文编号为arXiv:2509.06160v1,详细内容可通过项目页面https://m-a-p.ai/REER_DeepWriter获取。
想象一下,当你面对一道复杂的数学题时,通常会先分析问题,制定解题步骤,然后按步骤求解。但如果给你一个正确答案,让你反推出解题过程,这听起来是不是更有挑战性?这正是这项研究要解决的核心问题。
目前的人工智能在数学、编程等有标准答案的领域表现出色,因为它们可以通过反复试错和奖励机制来学习。就像训练一只小狗做动作,做对了给零食,做错了不给,小狗很快就能学会。但当涉及到创意写作、文章创作这些没有标准答案的任务时,AI就犯了难。毕竟,一篇好文章的标准因人而异,很难用简单的对错来评判。
传统的AI训练方法主要有两种思路。第一种是强化学习,就像教孩子写作文,需要老师不断打分指导,但对于创意写作来说,很难找到一个完美的"评分老师"。第二种是让AI模仿优秀的"老师"(比如GPT-4),但这种方法成本高昂,而且学生永远无法超越老师的水平。
研究团队提出了一个全新的解决方案,他们称之为"逆向工程推理"(REverse-Engineered Reasoning,简称REER)。这个方法的巧妙之处在于,它不是从问题出发找答案,而是从已知的优质答案出发,反推出产生这个答案最合理的思考过程。
就像一个美食家品尝到一道绝佳菜肴后,试图反推出厨师的制作过程和思路一样。研究团队收集了大量优秀的文章和写作作品,然后让AI反推:如果要写出这样的作品,作者当时可能经历了怎样的思考过程?
这个过程并非简单的猜测。研究团队将其设计为一个精密的搜索问题。他们首先让AI生成一个初步的思考轨迹,然后通过特殊的评分系统不断优化这个轨迹。评分的标准很有趣:如果这个思考过程能让最终的优质作品显得"理所当然",那就是一个好的思考过程。
通过这种方法,研究团队创建了一个包含2万个深度思考轨迹的大型数据集,命名为DeepWriting-20K。这些轨迹涵盖了从学术写作到创意故事创作的25个不同类别。更重要的是,他们还开源了这个数据集,让其他研究者也能从中受益。
基于这个数据集,研究团队训练了一个名为DeepWriter-8B的AI模型。这个模型的表现令人惊艳:在多个写作评测基准上,它不仅大幅超越了同等规模的开源模型,甚至在某些任务上能够媲美甚至超越GPT-4o和Claude 3.5这样的顶级商业模型。
更有趣的是,研究团队还深入分析了什么样的思考模式最有效。他们发现,那些包含"嗯...也许..."、"等等,这有点..."这类自我反思和纠错的思考轨迹,往往能产生更好的写作效果。这说明AI也需要学会像人类一样"边想边改",而不是一条道走到黑。
在技术细节上,这个方法的优势在于它是"无梯度"的搜索过程,不需要复杂的数学计算,具有很好的可扩展性。研究团队通过大量实验验证了方法中每个组件的重要性,发现去除任何一个关键部分都会导致性能显著下降。
这项研究的意义远不止于技术创新。它为AI在开放性、创意性任务上的应用开辟了新的道路。传统上,AI在需要标准答案的任务上表现出色,但在需要创造性和主观判断的领域总是力不从心。而这项研究证明,通过巧妙的"逆向思考",AI同样可以在创意领域发光发热。
对于普通用户而言,这意味着未来的AI写作助手将能提供更加深思熟虑、逻辑清晰的创作建议。无论是写工作报告、学术论文还是创意小说,AI都能展现出更接近人类思维的规划和推理能力。
当然,这项研究也面临一些挑战和限制。目前的方法主要针对文本创作,在其他创意领域的适用性还有待验证。同时,如何确保AI生成的思考过程真实反映人类认知过程,也是一个值得深入探讨的问题。
说到底,这项研究最大的贡献在于它改变了我们思考AI学习的方式。与其让AI像学生一样从零开始学习,不如让它像侦探一样,从结果反推过程,从优秀作品中挖掘隐藏的智慧。这种"逆向工程"的思路,不仅在AI领域具有广泛应用前景,也为我们理解人类创造性思维提供了新的视角。
研究团队已经将DeepWriter-8B模型和相关数据集公开,希望能推动整个领域在开放性生成任务上的进步。对于那些想要深入了解技术细节的读者,可以访问论文的项目页面获取更多信息。这项研究无疑为AI在创意写作领域的发展奠定了重要基础,也让我们对AI未来在更多创造性任务上的表现充满期待。
Q&A
Q1:REER逆向工程推理方法与传统AI训练方法有什么区别?
A:传统方法是从问题出发寻找答案,就像学生做题一样需要反复试错或模仿老师。而REER是从已知的优质答案出发,反推产生这个答案的思考过程,就像美食家品尝佳肴后反推制作工艺。这种"逆向思考"的方式避免了创意写作中难以制定标准评分的问题。
Q2:DeepWriter-8B模型的性能表现如何?
A:DeepWriter-8B在多个写作评测基准上表现优异,大幅超越同等规模的开源模型,在某些创意写作任务上甚至能媲美或超越GPT-4o和Claude 3.5等顶级商业模型。特别是在需要长篇幅、结构化思考的写作任务上表现突出。
Q3:DeepWriting-20K数据集包含什么内容,普通研究者能使用吗?
A:DeepWriting-20K包含2万个涵盖25个不同类别的深度思考轨迹,从学术写作到创意故事创作应有尽有。研究团队已经将这个数据集完全开源,任何研究者都可以免费获取和使用,通过项目页面https://m-a-p.ai/REER_DeepWriter即可访问。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。
北京交通大学与阿里巴巴AMAP团队合作开发FE2E框架,首次将图像编辑模型应用于单目深度估计任务。该方法仅用71K训练图像就在ETH3D数据集上实现35%性能提升,超越了使用100倍数据的DepthAnything系列。通过重新设计训练目标、采用对数量化和联合估计策略,FE2E证明了选择合适基础模型比单纯增加数据量更有效,为资源受限环境下的高精度几何估计开辟了新路径。