这项由腾讯模式识别中心的刘源、赵仲印、田乐等研究人员完成的突破性研究,发表于2025年EMNLP主要会议。该研究提出了一个名为POINTS-Reader的全新文档转换方法,彻底改变了传统依赖大模型"蒸馏"的训练模式。有兴趣深入了解的读者可以通过GitHub链接https://github.com/Tencent/POINTS-Reader访问完整项目。
当你拿起一本厚厚的教科书,里面既有普通文字,又有复杂的数学公式和密密麻麻的表格时,你可能会感到头疼。现在想象一下,要让计算机也能"读懂"这样的文档内容,并准确地把它们转换成数字化文本,这该有多么困难。腾讯AI团队面对的正是这样一个挑战,他们要让计算机学会像人一样理解和处理各种复杂的文档格式。
传统的做法就像让一个学生通过模仿优等生的作业来学习。研究人员通常会用GPT-4这样的"超级学霸"来给文档做标注,然后让较小的模型学习这些标注结果。这种方法被称为"知识蒸馏",就好比让一个学生看着学霸的答案来学习解题方法。然而,这种方法存在明显的问题:学生永远无法超越被模仿的对象,而且还可能学到学霸的一些坏习惯。
更重要的是,这种依赖"老师"的学习方式让AI的发展受到了限制。就像一个班级里如果所有学生都在模仿同一个学霸,那么整个班级的思维方式就会变得单一,缺乏创新性。腾讯的研究团队意识到这个问题后,决定让AI"自立门户",通过自己的努力来掌握文档理解的能力。
他们的解决方案分为两个阶段,就像培养一个独立学习者的完整过程。第一个阶段叫做"统一格式预热阶段",这就像给学生制定一套标准化的学习方法。研究团队发现,文档中的不同元素——普通文字、数学公式、表格——通常用不同的格式来表示,这让AI学习起来特别困难。就好比一个学生同时要学习中文、英文和数学符号,如果没有统一的学习规则,很容易搞混。
因此,他们为每种内容制定了统一的输出格式。普通文字用Markdown语法表示,就像给文字穿上统一的"制服";表格统一用HTML格式,因为Markdown表格无法处理复杂的合并单元格结构,就像普通的格子纸无法画出复杂的建筑图纸一样;数学公式则用LaTeX语法,这是数学界公认的"通用语言"。
有了统一的格式规则后,他们开始"制造"大量的练习材料。这个过程就像一个出版社批量生产教辅书籍。他们用大语言模型生成各种类型的文本内容,然后把这些内容渲染成图片,形成图文对照的训练数据。这样做的好处是可以快速获得大量高质量的训练素材,而且每一份素材的答案都是完全准确的。
他们总共生成了四类数据:纯文本内容、包含数学公式的文本、包含表格的文本,以及多栏布局的复杂文档。每一类数据都经过精心设计,确保涵盖真实世界中可能遇到的各种情况。就像制作一套完整的练习册,从基础题目开始,逐渐增加难度。
第二个阶段被称为"迭代自我改进阶段",这是整个研究中最具创新性的部分。虽然AI在合成数据上训练得很好,但真实世界的文档往往更加复杂多变,就像在教室里学会了游泳动作,但真正下水时还是会遇到各种意外情况。为了让AI适应真实环境,研究团队让它开始处理真实的文档,然后通过巧妙的"自我检验"机制来筛选高质量的结果。
这个自我检验过程特别巧妙。对于文字内容,他们使用传统的OCR工具作为"参考答案"来计算F1分数,就像用标准答案来检查作业的正确性。虽然OCR工具本身不够完美,但在识别基本文字方面还是相当可靠的,可以有效筛选出那些明显错误的结果,比如漏掉大段文字或者产生幻觉内容的情况。
对于表格,他们重点检查结构的完整性。每个表格的行和列必须保持一致,就像检查一个拼图是否完整。如果某一行的单元格数量和其他行不一致,这样的数据就会被剔除。
数学公式的检验则相对简单,主要检查语法是否正确。虽然无法验证公式的数学含义是否正确,但至少可以确保公式的格式是合法的,不会出现括号不匹配或者语法错误的情况。
经过筛选后的高质量数据被用来重新训练模型,这个过程可以反复进行多轮。每一轮训练后,模型的能力都会有所提升,同时生成的数据质量也会越来越高。这形成了一个正向的螺旋上升过程,就像一个学生通过不断练习和自我纠错来提高成绩。
研究团队在实验中发现了许多有趣的现象。比如,当合成数据的规模达到80万条时,模型的性能开始出现下降。这说明过度依赖合成数据可能会让模型"过拟合",就像一个学生如果只做模拟题而不接触真实考试,可能会在实际应试中表现不佳。这进一步证明了第二阶段真实数据适应的重要性。
他们还发现,数据的长宽比对训练效果有显著影响。那些形状过于极端的图片——比如特别细长或者特别扁平的文档——往往会影响模型的学习效果。这就像人在阅读时,如果书页的比例太过奇怪,也会影响阅读的舒适度和效率。因此,他们将数据筛选范围限制在长宽比2/5到5/2之间,这个范围基本涵盖了常见文档格式。
在多轮迭代的过程中,模型表现出了令人惊喜的持续改进能力。即使在只检验表格结构和公式语法正确性的情况下,模型对这些内容的识别准确率也在稳步提升。这说明通过高质量数据的反复训练,模型确实在"理解"这些内容,而不仅仅是机械地模仿。
实验结果证明了这种方法的有效性。POINTS-Reader在多个基准测试中都表现出色,在某些任务上甚至超越了体积更大的竞争模型。比如在OmniDocBench的表格识别任务中,它比GOT-OCR模型高出19.7个百分点,这是一个相当显著的提升。更重要的是,它在Fox数据集上的整体编辑距离只有0.023,这意味着它的输出结果与标准答案几乎完全一致。
这种方法的优势不仅体现在性能上,更在于它开辟了一条全新的发展路径。传统的蒸馏方法就像让所有学生都去模仿同一个老师,而这种自我改进的方法让AI能够根据自己的经验来学习和成长。这种独立学习的能力对于AI的长远发展具有重要意义。
当然,这个方法目前还存在一些限制。比如它目前只支持英文文档,对于中文、日文等其他语言的支持还需要进一步开发。另外,它主要专注于文字、公式和表格的识别,对于图片内容的处理能力还比较有限。研究团队表示,他们将在未来的工作中逐步解决这些问题。
从更广阔的视角来看,这项研究展示了AI领域的一个重要发展趋势:从依赖外部"老师"转向自主学习能力的培养。这种转变不仅能够提高AI系统的性能,更重要的是让它们获得了持续改进的能力。就像人类文明的进步一样,最重要的不是现在掌握了多少知识,而是具备了不断学习和创新的能力。
POINTS-Reader的成功也为其他AI任务提供了有价值的启发。这种"先用合成数据打基础,再用真实数据精雕细琢"的方法,很可能成为AI训练的一种新范式。它证明了在某些领域,我们可以摆脱对超大模型的依赖,通过精心设计的训练方法让相对较小的模型也能达到优秀的性能。
说到底,这项研究最大的价值在于它为AI的发展指出了一条更加自主和可持续的道路。在这个AI技术日新月异的时代,能够让机器学会独立学习,不再依赖"老师"的指导,这本身就是一个了不起的成就。对于普通用户而言,这意味着未来我们将拥有更加智能、更加准确的文档处理工具,无论是学术论文、技术文档还是复杂的财务报表,都能被快速而准确地数字化。
研究团队已经将POINTS-Reader开源,这意味着全世界的研究者和开发者都可以基于这个工作继续创新。相信在不久的将来,我们会看到更多基于这种自主学习理念的AI应用出现,为人类的工作和生活带来更多便利。
Q&A
Q1:POINTS-Reader和传统的文档识别方法有什么不同?
A:传统方法需要依赖GPT-4等大模型来制作训练数据,就像学生模仿学霸的作业来学习。而POINTS-Reader采用自主学习方式,先用合成数据建立基础,再通过自我改进机制在真实数据上不断提升,不需要依赖外部"老师"指导。
Q2:POINTS-Reader能处理哪些类型的文档内容?
A:POINTS-Reader主要处理三类内容:普通文字(用Markdown格式输出)、数学公式(用LaTeX语法表示)和表格(用HTML格式呈现)。它特别擅长处理包含复杂表格和数学公式的学术文档、技术报告等专业材料。
Q3:普通用户可以使用POINTS-Reader吗?
A:是的,研究团队已经将POINTS-Reader开源,用户可以通过GitHub链接https://github.com/Tencent/POINTS-Reader访问完整项目。不过目前主要面向开发者和研究人员,普通用户可能需要等待更友好的应用版本推出。
好文章,需要你的鼓励
OpenAI团队的最新研究揭示了大语言模型产生幻觉的根本原因:AI就像面临难题的学生,宁愿猜测也不愿承认无知。研究发现,即使训练数据完全正确,统计学原理也会导致AI产生错误信息。更重要的是,现有评估体系惩罚不确定性表达,鼓励AI进行猜测。研究提出了显式置信度目标等解决方案,通过改革评估标准让AI学会诚实地说"不知道",为构建更可信的AI系统指明方向。
字节跳动AI实验室提出"逆向工程推理"新范式,通过从优质作品反推思考过程的方式训练AI进行创意写作。该方法创建了包含2万个思考轨迹的DeepWriting-20K数据集,训练的DeepWriter-8B模型在多项写作评测中媲美GPT-4o等顶级商业模型,为AI在开放性创意任务上的应用开辟了新道路。
ByteDance Seed团队开发的UI-TARS-2是一个革命性的AI助手,能够通过观看屏幕并用鼠标键盘操作电脑,就像人类一样完成各种任务和游戏。该系统采用创新的"数据飞轮"训练方法,在多项测试中表现出色,游戏水平达到人类的60%左右,在某些电脑操作测试中甚至超越了知名AI产品,展现了AI从对话工具向真正智能助手演进的巨大潜力。