这项由上海人工智能实验室联合北京大学、上海交通大学等多家机构共同完成的研究,于2025年9月30日发表在arXiv预印本平台(论文编号:arXiv:2509.22186v2),为文档解析技术带来了革命性突破。有兴趣深入了解的读者可以通过该论文编号查询完整论文。
想象一下,你面前有一本厚厚的学术论文,里面密密麻麻的文字、复杂的数学公式、各种表格图表,如果让你把这些内容完整准确地转换成电子文档,你会感到多么头疼。现在,上海人工智能实验室的研究团队开发出了一个名为MinerU2.5的"智能助手",它就像一个经验丰富的文档处理专家,能够快速准确地理解和转换各种复杂文档。
这个研究解决的问题其实与我们的日常生活息息相关。无论是学生需要整理学术资料,还是企业需要数字化历史文档,或者是研究人员需要从大量文献中提取信息,文档解析都是一个绕不开的环节。传统的方法要么需要人工逐字逐句地输入,要么依赖多个软件工具的复杂组合,不仅效率低下,还容易出错。
研究团队的创新之处在于,他们设计了一种全新的"两阶段解析策略",就像一个聪明的侦探破案一样。第一阶段,这个智能助手会像鸟瞰全局的侦探一样,快速浏览整个文档,理解文档的整体布局和结构,找出哪里是标题、哪里是正文、哪里是表格公式。第二阶段,它会像放大镜一样,针对每个具体区域进行精细化的内容识别和转换。
更令人惊喜的是,MinerU2.5只有12亿个参数,相比其他动辄几百亿参数的模型,它就像一个轻便但功能强大的瑞士军刀。在多项权威测试中,它不仅超越了GPT-4o、Gemini-2.5 Pro等知名的通用AI模型,还在专业文档解析任务上创下了新的性能记录。这意味着,未来我们处理文档的方式可能会发生根本性的改变,从繁琐的人工操作转向智能化的自动处理。
一、破解文档解析的千年难题:为什么这么难?
文档解析听起来简单,实际上却是计算机视觉和自然语言处理领域的一个超级难题。这就好比让一个从未见过汉字的外国人去阅读一本中文古籍,不仅要认识每个字,还要理解字与字之间的关系,段落的层次结构,甚至还要处理各种特殊符号和图表。
传统的文档处理方法就像一条流水线,需要多个工人分工合作。第一个工人负责找出文档的布局结构,第二个工人负责识别文字,第三个工人负责处理表格,第四个工人负责识别数学公式。这种方法的问题在于,一旦某个环节出错,错误就会像多米诺骨牌一样传递下去,最终导致整个结果都不准确。而且,这种方法需要维护多个不同的工具,就像需要同时掌握多种不同的技能一样,既复杂又容易出问题。
另一种方法是使用大型的通用AI模型,比如GPT-4o或者Gemini。这些模型就像一个博学的学者,什么都懂一点,但在处理具体的文档解析任务时,却经常会出现"幻觉"现象。所谓幻觉,就是模型会"脑补"一些原本不存在的内容,或者在处理长文档时丢失重要信息。更要命的是,这些大模型在处理高分辨率文档时,需要消耗巨大的计算资源,就像用大炮打蚊子一样,既浪费又低效。
文档解析的核心难点在于,文档图像通常分辨率很高,包含大量的空白区域和低信息密度的区域。当AI模型试图处理这些图像时,就会产生大量冗余的计算,这种计算复杂度会随着图像分辨率的增加而呈平方级增长。这就好比让一个人去数一个巨大仓库里的每一粒米,不仅费时费力,还容易出错。
正是在这样的背景下,研究团队意识到需要一种全新的解决方案,既要保持高精度,又要控制计算成本,还要避免传统流水线方法的错误传播问题。
二、MinerU2.5的核心创新:像侦探一样的两阶段策略
MinerU2.5的最大创新在于它采用了一种"粗细结合"的两阶段解析策略,这种方法就像一个经验丰富的侦探破案的过程。
在第一阶段,MinerU2.5就像一个站在高楼顶层俯瞰全城的侦探,它会将原始的高分辨率文档图像缩小到1036×1036像素的缩略图。这个尺寸的选择经过了精心的计算和实验验证,既能保持文档整体结构的可见性,又能大幅降低计算成本。在这个阶段,模型主要关注的是文档的全局布局分析,就像侦探首先要了解案发现场的整体情况一样。
这个全局分析过程会识别出文档中的各种元素:哪些区域是标题,哪些是正文段落,哪些是表格,哪些是数学公式,哪些是图片。更重要的是,它还会判断这些元素的阅读顺序和可能的旋转角度。这就好比侦探在现场勘查时,不仅要找出所有的线索,还要理解这些线索之间的逻辑关系。
在第二阶段,MinerU2.5就像拿着放大镜仔细检查每个线索的侦探。基于第一阶段识别出的布局信息,它会从原始高分辨率图像中精确地裁剪出每个感兴趣的区域,然后对这些区域进行精细化的内容识别。这些裁剪出的图像块会保持原始分辨率,确保不会丢失任何细节信息。
这种设计的巧妙之处在于,它完美地解决了传统方法的两大痛点。首先,它避免了直接处理整个高分辨率图像带来的巨大计算开销。研究团队的实验表明,这种方法可以将计算成本降低一个数量级。其次,它保持了内容识别的高精度,因为在第二阶段处理的都是原始分辨率的图像块,不会因为压缩或缩放而丢失重要细节。
更重要的是,这种两阶段设计还带来了额外的好处。由于布局分析和内容识别被分离开来,整个系统的可解释性大大增强。当出现错误时,用户可以清楚地知道是布局识别出了问题,还是内容识别出了问题,这对于系统的调试和优化非常有价值。同时,这种设计还有效地缓解了大型语言模型常见的"幻觉"问题,因为模型在每个阶段都有明确的任务目标,不容易产生无中生有的内容。
三、模型架构:小而精的设计哲学
MinerU2.5的模型架构体现了"小而精"的设计哲学,就像一把精心打造的瑞士军刀,虽然体积不大,但每个组件都经过精心优化,发挥着关键作用。
整个模型由三个核心组件构成,就像一个高效团队的三个关键成员。首先是视觉编码器,它就像团队中的"观察员",负责理解和处理图像信息。这个编码器采用了6.75亿参数的NaViT架构,这是一种能够处理任意分辨率图像的先进技术。与传统的固定分辨率处理方式不同,NaViT就像一个有弹性的橡皮筋,能够自适应地处理各种尺寸和比例的图像,这对于文档解析来说至关重要,因为文档的页面尺寸和比例往往千差万别。
第二个组件是语言模型解码器,它就像团队中的"翻译员",负责将视觉信息转换成人类可以理解的文字。研究团队选择了一个5亿参数的Qwen2-Instruct模型作为基础。这个选择看似保守,但实际上非常明智。文档解析任务虽然复杂,但主要的挑战在于视觉理解而非语言生成,因此不需要过大的语言模型。这就好比解决一个数学题,关键在于理解题目的意思,而不是用多么华丽的语言来表达答案。
第三个组件是补丁合并器,它就像团队中的"协调员",负责将视觉信息和语言信息有效地结合起来。这个组件使用了像素反混洗技术,将相邻的2×2视觉标记聚合在一起,然后再传递给语言模型。这种设计在保持性能的同时,显著提高了计算效率。
为了更好地处理文档中常见的各种分辨率和长宽比,研究团队还对模型进行了特殊的优化。他们将原本的一维旋转位置编码替换为多维旋转位置编码,这就像给模型装上了一个更加精确的GPS系统,能够更好地理解图像中各个元素的空间关系。
这种精简而高效的架构设计使得MinerU2.5在保持强大功能的同时,具有了出色的部署灵活性。相比那些动辄几百亿参数的大型模型,MinerU2.5就像一辆高效的小型跑车,既能跑得快,又不需要太多的燃料,可以在各种不同的硬件环境中稳定运行。
四、训练策略:三步走的成长之路
MinerU2.5的训练过程就像培养一个从零开始学习文档处理的学生,需要经历三个循序渐进的学习阶段,每个阶段都有明确的学习目标和训练重点。
第一个阶段是"模态对齐",就像教一个学生同时学会看图和说话。在这个阶段,模型需要建立起视觉信息和语言信息之间的基本对应关系。研究团队首先冻结了视觉编码器和语言模型的参数,只训练中间的连接层,让模型学会如何将看到的图像内容转换成语言描述。这就好比先教学生认识苹果的样子,然后教他说出"苹果"这个词。
接下来,研究团队解冻了所有参数,让模型进行更全面的学习。在这个子阶段,模型不仅要学会基本的视觉-语言对应关系,还要掌握基础的OCR能力。训练数据包括了图像标注、视觉问答、文本图像对等多种类型,就像让学生同时练习看图说话、回答问题和阅读理解。
第二个阶段是"文档解析预训练",这是模型真正开始专门学习文档处理技能的阶段。在这个阶段,模型需要同时掌握两项核心能力:布局分析和内容识别。布局分析就像学会快速浏览一篇文章,理解哪里是标题、哪里是段落、哪里是表格。内容识别则像学会仔细阅读每个部分的具体内容,包括普通文字、数学公式和表格数据。
为了确保训练的全面性,研究团队准备了一个包含690万样本的大规模数据集。这个数据集就像一个巨大的练习册,包含了230万个布局分析样本、240万个文本识别样本、110万个公式识别样本和110万个表格识别样本。模型在这个阶段需要训练2个完整的轮次,确保对各种类型的文档都有充分的理解。
第三个阶段是"文档解析微调",这个阶段的重点是让模型掌握处理复杂和困难情况的能力。就像一个学生在掌握了基础知识后,需要通过做难题来提高自己的水平。研究团队精心构建了一个包含63万样本的高质量数据集,这些样本都是经过精心筛选的困难案例和高质量示例。
在这个阶段,数据的质量比数量更重要。研究团队不仅从预训练数据中筛选出高质量的多样化样本,还专门收集了一些模型在预训练阶段表现不佳的困难案例,并对这些案例进行了人工标注。这就像为学生准备了一套精选的难题集,每道题都针对特定的薄弱环节。
为了增强模型的鲁棒性,研究团队还在训练过程中加入了各种数据增强策略。这些策略模拟了现实世界中可能遇到的各种文档质量问题,比如模糊、倾斜、光照不均等。这就像让学生在各种不同的环境下练习,确保他们在面对真实世界的挑战时能够从容应对。
五、数据引擎:打造高质量训练素材的智能工厂
MinerU2.5能够达到如此出色的性能,离不开一个强大的数据引擎的支撑。这个数据引擎就像一个高度自动化的智能工厂,能够从海量的原始文档中筛选、加工和生产出高质量的训练数据。
整个数据处理流程分为三个主要阶段,每个阶段都有明确的目标和精心设计的处理策略。第一个阶段是数据筛选,就像在一个巨大的图书馆中挑选最有价值的书籍。研究团队面对的是一个包含大量网络数据和商业采购文档的庞大数据池,但这些原始数据存在严重的长尾分布问题,就像图书馆中某些类型的书籍特别多,而另一些类型的书籍却很少。
为了解决这个问题,研究团队设计了一套多维度的平衡策略。在布局多样性方面,他们使用页面级图像聚类技术,从各种不同的视觉布局和风格中选择代表性样本。在文档类型多样性方面,他们利用文档的元数据信息,如学科分类、标签等,进行分层抽样,确保学术论文、教科书、报告、演示文稿等各种类型的文档都有均衡的代表性。在元素平衡方面,他们使用初步的检测模型来确保标题、段落、表格、公式、图片等关键元素在数据集中有平衡的分布。在语言平衡方面,他们特别注意维持中文和英文文档的相当比例。
第二个阶段是预训练数据准备,这个阶段的目标是为筛选出的数据生成高质量的标注。研究团队首先使用他们之前开发的MinerU2流水线生成初始标注,然后使用专门的专家模型对这些标注进行精细化改进。对于文本内容,他们使用强大的Qwen2.5-VL-72B-Instruct模型来验证和纠正文本识别结果。对于公式内容,他们使用自己重新训练的UniMERNet模型来生成更高保真度的公式识别结果。对于表格内容,他们使用自研的高性能表格解析模型重新生成所有的表格结构。
第三个阶段是微调数据构建,这个阶段的重点是识别和处理困难案例。研究团队开发了一种创新的"推理一致性迭代挖掘"策略,这种策略的核心思想是利用模型推理过程中的随机性来识别困难样本。当模型对某个样本有充分的理解时,多次推理的结果应该高度一致。相反,如果多次推理的结果差异很大,说明这个样本位于模型的决策边界附近,是一个需要重点关注的困难案例。
具体实现时,研究团队会让模型对同一个样本进行多次推理,然后计算这些结果之间的一致性。对于布局分析任务,他们使用PageIoU指标来衡量多次布局检测结果之间的相似度。对于公式识别任务,他们使用CDM指标来评估多次识别结果的一致性。对于表格识别任务,他们使用TEDS指标来衡量表格结构识别的一致性。那些一致性得分较低的样本会被自动标记为困难案例,然后交给人工专家进行精确标注。
这种智能化的数据处理流程不仅大大提高了数据质量,还显著降低了人工标注的工作量。通过将有限的人工资源集中在最有价值的困难案例上,研究团队能够以最高的效率获得最大的性能提升。
六、任务重新定义:让机器更好地理解文档结构
MinerU2.5的另一个重要创新在于对传统文档解析任务的重新定义和增强。研究团队不满足于简单地沿用现有的任务定义,而是从实际应用需求出发,对布局分析、公式识别和表格识别这三个核心任务进行了系统性的改进。
在布局分析方面,研究团队首先解决了一个长期困扰该领域的问题:缺乏统一的标注体系。现有的数据集在元素定义、粒度和范围方面存在广泛的不一致性,就像不同的地图使用不同的符号系统,让人无所适从。研究团队设计了一套层次化和全面的标注体系,这套体系遵循三个关键原则。
首先是全面覆盖原则,他们的标注体系包含了其他系统经常忽略的非正文内容,如页眉、页脚、页码等。这些元素对于下游应用如检索增强生成非常重要。其次是精细粒度原则,他们将复杂元素进行细分,比如将图片细分为图像、图表、化学结构等不同类型,并为相关的标题分配独立的标签。最后是语义区分原则,他们为视觉上不同的文本块如代码、算法、参考文献、列表等分配独立的类别,以保留重要的语义信息。
更重要的是,研究团队将布局分析重新定义为一个多任务问题,在单次推理中同时预测每个文档元素的四个关键属性:位置、类别、旋转角度和阅读顺序。这种集成设计有效解决了旋转元素的解析挑战,并简化了整个文档分析流程。
为了更好地评估布局分析的质量,研究团队还提出了一个新的评估指标PageIoU。传统的基于IoU的评估方法在处理文档布局时存在明显的局限性,因为文本块的边界往往是模糊的。PageIoU通过计算页面级别的覆盖一致性,能够更好地反映布局分析的实际质量。
在公式识别方面,研究团队识别出现有模型在处理长公式或多行公式时容易出现结构性幻觉的问题。他们提出了"整体-部分"解耦的哲学,将公式分为原子公式和复合公式两种类型。原子公式是最小的、不可分割的语义单元,具有紧密的二维拓扑结构。复合公式则是原子公式的有序集合,通过特定的对齐关系垂直组合而成。
基于这种分类,研究团队开发了原子分解与重组框架。这个框架首先通过布局分析将复合公式分解为原子公式序列,然后对每个原子公式进行高精度识别,最后将识别结果结构化地重新组合。这种"分而治之"的策略将一个困难的识别任务转换为一系列简单的任务,既确保了每个组件的高保真度识别,又保持了整体结构的逻辑完整性。
在表格识别方面,研究团队针对复杂长表格的解析挑战,提出了一种四阶段识别流程。前两个阶段处理几何标准化,系统检测表格的边界框和旋转角度,然后通过裁剪和旋转将图像校正到标准方向。第三个阶段是关键的表格识别阶段,研究团队采用了优化表格结构语言作为中间表示。这种语言相比HTML具有显著优势,其简约设计与表格的视觉二维矩阵直接对应,将结构标记从28个以上减少到仅5个,平均序列长度缩短约50%。第四个阶段是将OTSL输出转换为标准HTML的直接转换过程。
七、性能表现:全面超越现有技术的里程碑
MinerU2.5在各项评估中展现出的性能表现可以说是文档解析领域的一个重要里程碑。研究团队在OmniDocBench这个包含1355个文档页面的权威测试集上进行了全面的性能评估,结果显示MinerU2.5在几乎所有指标上都达到了新的技术高度。
在整体性能方面,MinerU2.5获得了90.67分的综合得分,这个成绩不仅超越了所有的通用大型语言模型,包括GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等,也超越了所有专门针对文档解析优化的模型,如dots.ocr、MonkeyOCR等。更令人印象深刻的是,MinerU2.5仅用12亿参数就达到了这样的性能,而许多被超越的模型都有着几十倍甚至上百倍的参数量。
在文本识别方面,MinerU2.5的编辑距离仅为0.047,这意味着它的文本识别准确率极高,几乎不会出现错误。这个成绩甚至超过了专门优化的文本识别系统。在公式识别方面,MinerU2.5的CDM得分达到88.46,在这个特别具有挑战性的任务上建立了新的性能标杆。数学公式的识别一直是文档解析中最困难的任务之一,因为公式不仅包含复杂的符号,还有严格的结构要求。
在表格识别方面,MinerU2.5的TEDS得分达到88.22,TEDS-S得分更是高达92.38。表格识别的难点在于需要同时理解表格的结构和内容,特别是处理复杂的跨行跨列情况。MinerU2.5在这方面的出色表现证明了其强大的结构理解能力。
在阅读顺序预测方面,MinerU2.5的编辑距离仅为0.044,这表明它能够准确理解文档的逻辑结构和阅读流程。这对于文档的自动化处理和信息提取具有重要意义。
特别值得注意的是,MinerU2.5在不同类型的文档上都表现出了稳定的高性能。无论是学术论文、教科书、杂志、报纸还是财务报告,它都能保持一致的高质量解析效果。这种泛化能力对于实际应用来说非常重要,因为真实世界中的文档类型千差万别。
在计算效率方面,MinerU2.5同样表现出色。在A100 80G GPU上,它能够达到每秒2.12页的处理速度和每秒2337.25个标记的生成速度。相比其他模型,MinerU2.5在MonkeyOCR-Pro-3B的基础上实现了4倍的速度提升,比dots.ocr快了7倍。这种高效率使得MinerU2.5在大规模文档处理场景中具有明显的优势。
更重要的是,即使在没有任何部署优化的情况下,MinerU2.5的基线性能就已经超过了其他经过优化的模型。这表明其架构设计的内在效率,为实际部署提供了更大的优化空间。
八、实际应用:从实验室到现实世界的跨越
MinerU2.5的技术突破不仅仅停留在实验室的性能指标上,它在实际应用中展现出的能力更是令人瞩目。研究团队通过大量的实际案例展示了MinerU2.5如何解决现实世界中的文档处理挑战。
在学术文献处理方面,MinerU2.5展现出了处理复杂学术论文的强大能力。学术论文通常包含复杂的多栏布局、大量的数学公式、详细的表格数据以及各种图表。传统的文档处理工具往往在面对这些复杂元素时力不从心,要么无法正确识别公式,要么破坏了表格的结构,要么丢失了重要的布局信息。MinerU2.5能够完整地保留论文的所有结构信息,包括页眉页脚、参考文献、图表标题等细节,同时准确识别复杂的数学公式和表格内容。
在商业文档处理方面,MinerU2.5同样表现出色。财务报告、市场分析报告、技术文档等商业文档往往具有标准化的格式,但内容密度高,信息量大。MinerU2.5能够准确识别这些文档中的关键信息,包括数据表格、图表说明、重要段落等,为企业的数字化转型提供了强有力的技术支撑。
特别值得一提的是MinerU2.5在处理旋转表格方面的突破。在实际的文档中,表格经常会因为页面布局的需要而旋转90度或其他角度。传统的处理方法往往无法正确处理这种情况,导致表格内容的识别错误。MinerU2.5通过其增强的多任务布局分析能力,能够准确检测表格的旋转角度,并在内容识别阶段进行相应的几何校正,确保表格内容的准确识别。
在多语言文档处理方面,MinerU2.5展现出了优秀的跨语言能力。现代文档经常包含中英文混合的内容,特别是在学术论文和技术文档中。MinerU2.5能够准确识别和处理这种混合语言的情况,包括中英文混合的数学公式、表格标题等复杂情况。
研究团队还特别关注了MinerU2.5在处理低质量文档方面的表现。现实世界中的文档往往存在各种质量问题,如扫描模糊、光照不均、倾斜变形等。通过在训练过程中加入各种数据增强策略,MinerU2.5对这些质量问题表现出了良好的鲁棒性,能够在各种不理想的条件下保持稳定的性能。
在部署便利性方面,MinerU2.5的轻量化设计使其能够在各种不同的硬件环境中稳定运行。无论是高端的服务器GPU还是普通的消费级显卡,MinerU2.5都能够提供可接受的性能。这种灵活性对于实际应用来说非常重要,因为不是所有的用户都有条件使用最先进的硬件设备。
说到底,MinerU2.5代表了文档解析技术发展的一个重要转折点。它不仅在技术指标上达到了新的高度,更重要的是,它证明了通过巧妙的架构设计和训练策略,可以用相对较小的模型达到甚至超越大型模型的性能。这种"小而精"的设计哲学为AI技术的普及和应用开辟了新的道路。
从更广阔的视角来看,MinerU2.5的成功也为其他AI应用领域提供了有价值的启示。它展示了如何通过任务分解、专门优化和高质量数据来解决复杂的AI问题,这种方法论对于推动整个AI领域的发展具有重要意义。
未来,随着MinerU2.5技术的进一步完善和推广,我们可以期待看到更多基于这种技术的创新应用。无论是教育领域的智能化教材处理,还是企业级的文档管理系统,或者是研究机构的文献分析工具,MinerU2.5都有望发挥重要作用,真正实现让文档解析变得像看图说话一样简单的目标。
Q&A
Q1:MinerU2.5相比传统文档解析方法有什么优势?
A:MinerU2.5采用创新的两阶段解析策略,先进行全局布局分析,再进行局部精细识别,避免了传统流水线方法的错误传播问题,同时比直接处理高分辨率图像的方法效率高一个数量级。它只有12亿参数,却在文本、公式、表格识别等任务上全面超越了包括GPT-4o在内的大型模型。
Q2:MinerU2.5能处理哪些类型的复杂文档?
A:MinerU2.5能够处理各种复杂文档,包括多栏学术论文、包含复杂数学公式的技术文档、带有旋转表格的报告、中英文混合的文档等。它特别擅长处理传统方法难以应对的旋转元素、无边框表格、长公式等挑战性内容,同时能保留页眉页脚等完整的文档结构信息。
Q3:普通用户如何使用MinerU2.5?
A:MinerU2.5已经开源并提供了完整的代码和模型,用户可以通过GitHub获取。由于其轻量化设计,即使在普通的消费级GPU上也能运行,处理速度达到每秒2.12页。研究团队还提供了基于vLLM的高效部署方案,支持批量处理和异步推理,适合各种规模的应用需求。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。