
这项由IBM Research领导的研究于2026年3月发表在arXiv预印本服务器上,论文编号为arXiv:2603.15118v1。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队开发了一个名为VAREX的全新测试基准,专门用来评估人工智能模型在理解和提取政府表格信息方面的能力。
如果把人工智能比作一个刚入职的办公室助理,那么它最重要的技能之一就是能够准确地从各种表格和文档中提取信息。无论是税务表格、申请表还是政府备案文件,这些都是现代办公环境中不可或缺的一部分。然而,就像新员工需要接受培训一样,我们如何知道AI助理在处理这些文档时的表现如何呢?这正是VAREX基准测试要解决的核心问题。
想象一下这样的场景:你正在为一家大型企业工作,每天需要处理成百上千份政府表格。传统的做法是雇佣大量员工手动输入这些信息,这不仅耗时费力,还容易出错。现在,AI技术的发展让我们看到了自动化处理这些文档的可能性。但问题在于,我们缺乏一个标准化的方法来测试这些AI系统到底有多可靠。
研究团队发现,现有的测试基准存在一个关键缺陷:它们通常只使用固定的几种表格模板,就像让学生只用相同的试卷反复练习一样。这样的测试无法真实反映AI在面对千变万化的真实世界文档时的表现。更重要的是,这些测试往往只关注大型AI模型的表现,而忽略了那些参数量在4B以下的小型模型。
为什么小型模型如此重要呢?简单来说,它们就像是经济实用的家用轿车,虽然没有豪华车那么强大,但对于日常使用来说既实用又经济。对于那些预算有限或需要在本地设备上运行AI的企业来说,小型模型是更现实的选择。然而,我们对这些"经济型AI助理"的真实能力了解得还远远不够。
VAREX基准测试的创新之处在于采用了一种被称为"反向标注"的巧妙方法。传统的测试方法就像是先拍照片,然后让人工标注照片中的内容,这个过程不仅耗时,还容易出错。而反向标注的方法则完全相反:研究团队首先收集了3300个来自美国政府机构的空白表格模板,然后用计算机程序自动填入数据,再生成标准答案。
这个过程可以比作制作标准化考试题目:首先设计好题目模板,然后按照既定规则填入答案,最后生成一份标准试卷。由于整个过程都是程序化的,所以答案的准确性得到了保证。研究团队通过三个阶段的质量检查,确保最终生成的测试数据达到了98.5%的准确率。
VAREX基准测试包含了1777份文档,每份文档都有独特的结构模式,涵盖了21084个需要提取的信息字段。这些文档被分为三个类别:平铺型(就像简单的个人信息表)、嵌套型(包含多层级信息结构)和表格型(包含行列数据的复杂表格)。每份文档都以四种不同的形式提供给AI模型进行测试。
第一种是纯文本格式,就像把表格内容按阅读顺序排列成一长串文字。第二种是空间文本格式,通过添加空格字符来保持原始表格的列对齐效果,就像用打字机打出的表格一样。第三种是图像格式,将表格渲染成200DPI的PNG图片。第四种则是同时提供空间文本和图像两种信息。
这样的设计允许研究人员精确地测试不同输入方式对AI性能的影响。就像测试一个学生在不同考试环境下的表现:有的学生在纸质考试中表现更好,有的则在电脑考试中发挥更出色。通过对比同一份文档在不同格式下的处理效果,我们可以更好地理解AI模型的优势和局限性。
一、小型AI模型面临的核心挑战
研究团队在测试20个不同的AI模型后发现了一个令人意外的结果:对于参数量在4B以下的小型模型来说,主要问题并不是它们看不懂文档内容,而是无法按照要求的格式输出答案。这就像是一个聪明的学生,明明知道正确答案,却总是不按考试要求的格式来回答问题。
这种现象被研究人员称为"模式回声",具体表现为两种形式。第一种是"纯模式复制",AI模型会将输入的JSON格式模板原样复制出来,而不填入任何实际提取的信息。这就像学生面对填空题时,不是填入答案,而是把题目重新抄了一遍。第二种是"包装式提取",模型确实提取了正确的信息,但却用错误的格式包装起来,就像把正确答案写在了错误的位置。
有趣的是,这种格式错误主要出现在JSON模式中包含"$defs"关键字的情况下。当研究人员将这些引用定义直接展开到模式中时,问题立刻得到了显著改善。以Qwen3-VL 2B模型为例,这样的调整让其准确率从27.4%飞跃到91.8%,提升了64个百分点。
另一个关键发现是小型模型存在"提取不足"的问题。就像一个注意力不够集中的学生,开始时还能认真答题,但随着时间推移就开始走神,后面的题目要么空着不答,要么胡乱填写。研究显示,h2oVL系列模型在处理文档前四分之一字段时的准确率比处理最后四分之一字段时要高出2.1倍。
然而,最鼓舞人心的发现是,这些问题并非无法解决。NuExtract 2.0这个2B参数的模型通过专门的文档提取训练,完全避免了模式回声问题,达到了90.8%的准确率。这证明了小型模型的局限性更多地反映在指令遵循能力上,而非根本的理解能力缺陷。
二、输入格式的显著影响
在测试不同输入格式对AI性能影响的过程中,研究人员发现了一个颇为意外的结果:添加空间布局信息比提供视觉图像信息带来的性能提升更大。当AI模型从纯文本切换到保持空间布局的文本时,准确率提升了3到18个百分点,这个提升幅度超过了任何其他单一改进措施。
这种现象可以通过一个简单的比喻来理解:纯文本就像把一张精心排列的餐桌上的物品按照某种顺序串成一行,虽然所有物品都在那里,但原有的空间关系被破坏了。而空间文本则像是用文字描述保持了餐桌的基本布局,让人能够理解物品之间的相对位置关系。
相比之下,从空间文本格式切换到图像格式,或者从单独的图像格式切换到图像加文本的组合格式,性能提升相对有限,通常只有0.5到2.2个百分点。这一发现对于那些需要在成本和效果之间寻找平衡的实际应用场景具有重要意义。
更有趣的是,一些纯文本模型在处理空间文本时甚至能够超越视觉-语言模型处理图像的效果。例如,Qwen 2.5 72B模型在空间文本格式下达到了95.9%的准确率,超过了GPT-4o在图像格式下94.8%的表现。
这一发现的实用价值在于,空间文本可以通过任何能够提供词级边界框信息的OCR引擎生成,即使是在CPU上运行的轻量级系统也能实现这一功能。这意味着企业可以在不需要昂贵的视觉-语言模型的情况下,通过改进文本预处理来显著提升文档处理效果。
三、模型规模与性能的复杂关系
研究结果揭示了一个关于AI模型规模与性能关系的复杂图景。在参数量达到2B到4B之间存在一个关键的转折点,模型开始从输出格式错误转向真正的提取错误。这就像学生从不会写作文格式转变为格式正确但内容有误。
InternVL3.5系列模型清晰地展示了这个转折过程:1B版本的准确率只有28.2%,而2B版本跳跃到85.6%,提升了57个百分点。这种戏剧性的改进表明,在这个参数范围内存在某种能力的质变。
然而,规模并不是唯一的决定因素。专门的训练同样重要,甚至可能更加关键。NuExtract 2.0通过针对性的文档提取训练,将基础模型从几乎无法使用的9.7%准确率提升到实用级别的90.8%,提升幅度达到81个百分点。这个结果证明了适当的训练方法可以完全绕过规模限制。
在8B参数以上的大型模型中,性能差异变得更加微妙。有趣的是,8B参数的Qwen3-VL模型(96.6%准确率)竟然超越了参数量更大的Llama 4 Maverick(95.6%准确率,17B×128E)和GPT-4o(94.8%准确率)。这说明在这个性能水平上,模型架构和训练质量比单纯的参数数量更重要。
四、图像质量的抗干扰能力测试
为了测试AI模型在面对质量较差的文档时的稳定性,研究人员进行了一项分辨率压力测试。他们将标准的200DPI图像降低到50DPI,这相当于将一张清晰的照片故意模糊化,观察模型性能的变化。
测试结果显示了API服务与开源模型之间的巨大差异。Gemini系列模型表现出了令人印象深刻的稳定性,准确率仅下降1.7到3.5个百分点,就像经验丰富的医生即使在昏暗的灯光下也能准确诊断病情。
相比之下,8B到17B参数范围的开源模型遭遇了灾难性的性能下降,准确率暴跌38到40个百分点,从90%以上的优秀水平直接跌落到50%左右的勉强及格线。GPT-4o虽然是API模型,但也出现了29个百分点的显著下降。
有趣的是,InternVL3.5 2B成为开源模型中的一个异类,仅下降4.7个百分点,展现出与其规模不符的抗干扰能力。这种异常表现可能与其视觉编码器对高频细节的依赖程度较低有关,这也解释了为什么它在空间文本格式上的表现优于图像格式。
五、文档结构复杂度对性能的影响
VAREX基准测试将文档分为三种结构类型,每种类型对AI模型提出了不同程度的挑战。平铺型文档就像简单的个人信息登记表,所有字段都在同一层级,没有复杂的嵌套关系。嵌套型文档则包含多层级的信息结构,就像公司组织架构图一样,有主要部门下面还有子部门。表格型文档包含行列数据,需要AI理解表格的结构关系。
对于90%以上准确率的顶级模型来说,这三种类型的文档难度差异并不明显,它们的表现通常在1个百分点的范围内波动。这说明一旦AI达到了足够高的能力水平,文档的结构复杂度就不再是主要障碍。
然而,对于准确率在70%到90%之间的中等水平模型,表格型文档开始显现出更大的挑战性。这类模型在处理平铺型和表格型文档时的准确率差异可以达到8到20个百分点。这种差异反映了真正的结构理解能力缺陷,而不仅仅是简单的信息提取问题。
在不同语义类别的字段中,格式敏感的类型显示出最大的跨模型性能差异。货币数值的准确率在不同模型间的差异可达15个百分点,从97%降至82%,反映了小数点定位和数字识别的精确度要求。电子邮件地址的处理也显示出17个百分点的差异,这主要涉及字符级别的精确识别能力。
相比之下,邮政编码和州名缩写等相对简单的字段类型显示出较小的跨模型差异,通常在10个百分点以内。这表明某些信息类型对AI模型来说确实比其他类型更容易处理。
六、实际应用中的权衡考量
VAREX基准测试的最大价值在于为实际应用提供了决策依据。对于那些需要处理大量政府表格的企业来说,选择合适的AI解决方案需要在性能、成本和部署难度之间找到平衡点。
研究结果表明,对于预算充足且对准确性要求极高的应用场景,Gemini 2.5 Pro等顶级API模型是最佳选择,它们不仅准确率最高,而且在面对质量较差的文档时表现稳定。这些模型就像是顶级的专业翻译服务,虽然价格昂贵,但质量有保证。
对于需要在本地部署或有成本约束的场景,8B参数的开源模型如Qwen3-VL提供了一个很好的平衡点。虽然它们在某些方面不如顶级API模型,但96%以上的准确率对大多数实际应用来说已经足够。这些模型就像是高质量的桌面软件,一次购买可以长期使用。
对于那些愿意投入时间进行定制化训练的团队,小型模型可能是最具成本效益的选择。NuExtract 2.0的成功案例表明,通过适当的训练,2B参数的模型可以达到接近大型模型的性能水平。这种方法就像是培训专门的员工,虽然初期投入较大,但长期回报丰厚。
空间文本格式的优异表现为那些无法使用视觉-语言模型的场景提供了一个实用的替代方案。任何能够进行精确OCR的系统都可以生成空间文本,这大大降低了技术门槛和计算需求。
七、研究局限性与未来方向
虽然VAREX基准测试在很多方面都是开创性的,但研究团队也坦诚地指出了其局限性。首先,基准测试的复杂度上限受到用于模式发现的24B参数模型能力的限制。这意味着一些对AI模型来说真正困难的文档结构可能没有被充分代表。
其次,由于模式是通过AI生成的,可能存在偏向AI友好结构的倾向。这就像是用一个擅长数学的老师来设计数学题目,可能会无意识地避开一些真正困难的概念。真实世界的文档可能包含一些AI难以理解但对人类来说很自然的结构模式。
基准测试仅包含单页的英语美国政府表格,缺乏手写内容、扫描伪影和多语言内容。这些都是真实世界应用中经常遇到的挑战。此外,表格行数相对较少(中位数为3行),远低于企业级应用的规模要求。
研究使用的Faker库生成的合成数据虽然在格式上正确,但在分布特征上可能与真实数据存在差异。例如,555前缀的电话号码在测试数据中很常见,但在真实应用中相对稀少。
尽管存在这些局限性,VAREX基准测试仍然为文档理解领域提供了一个重要的评估工具。它的价值在于提供了标准化的比较基础,让研究人员和工程师能够系统地评估不同方案的优劣。
说到底,VAREX基准测试就像是为AI模型设计的一套综合性体检项目。虽然它不能涵盖所有可能的健康状况,但足以帮助我们了解AI助理在处理文档任务时的基本能力水平。通过这项测试,我们发现小型AI模型的主要问题不在于理解能力,而在于输出格式的规范性。这个发现为改进小型模型指明了方向:与其一味追求更大的模型规模,不如专注于提升指令遵循能力和输出格式的规范性。
更重要的是,空间文本格式的优异表现为实际应用提供了一个经济实用的解决方案。企业不必投资昂贵的视觉-语言模型,仅通过改进文本预处理就能获得显著的性能提升。这种发现对于推动AI文档处理技术的普及具有重要意义,让更多的组织能够以合理的成本享受到AI带来的便利。
随着研究团队将所有数据集和评估代码公开发布,我们期待看到更多的研究者在此基础上开发出更好的文档理解系统,最终让AI助理在处理各种表格文件时变得更加智能和可靠。
Q&A
Q1:VAREX基准测试是什么,为什么要开发它?
A:VAREX是IBM Research开发的专门测试AI模型提取政府表格信息能力的基准工具。现有测试方法只用固定模板,无法反映AI处理真实世界各种文档的能力,特别是对小型AI模型的评估存在空白。VAREX包含1777份独特结构的文档,能更准确评估AI的实际表现。
Q2:小型AI模型在文档处理方面有什么主要问题?
A:研究发现4B参数以下的小型模型主要问题不是看不懂文档内容,而是无法按要求格式输出答案,这叫"模式回声"。比如AI知道正确答案却总是格式错误,导致准确率大幅下降。不过这个问题可以通过专门训练解决,NuExtract 2.0模型就通过训练从9.7%提升到90.8%。
Q3:什么样的输入格式对AI处理文档最有效?
A:研究发现空间文本格式效果最好,能提升3-18个百分点的准确率,比提供图像信息效果更明显。空间文本就是用空格保持原始表格布局的文本,让AI能理解信息的空间关系。这种格式可以用普通OCR引擎生成,成本低且效果好,适合实际应用。
好文章,需要你的鼓励
加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限,通过整合"思考-搜索-整理-绘制"四步工作流程,让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%,特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合,突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合,并采用类生物进化机制持续优化创意质量。实验显示,FlowPIE在新颖性、可行性等维度显著超越现有方法,展现出强大的跨领域泛化能力,为AI辅助科研开辟了新路径。
阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统,采用掩码离散扩散模型技术,能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色,为个性化医疗和药物开发开辟了全新路径,标志着数字生物学时代的到来。
上海AI实验室联合多所高校发布GEMS技术,通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配,在主流测试中提升14分以上,为资源受限环境下的高质量AI应用提供新方案。