
由中国科学院大学的董浩宇、华南理工大学的张鹏坤等多位研究者组成的国际团队,在2025年12月发表了一项名为《FINCH: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows》的重要研究成果。这项研究首次构建了一套专门测试AI在真实财务会计工作中表现的评测体系,结果令人震惊:就连最强大的AI系统也只能完成不到40%的工作任务。
想了解这项研究的读者可以通过论文编号arXiv:2512.13168v1查询完整内容。
**一、从理想走向现实:AI遭遇的"职场大考"**
在科技公司的宣传片里,AI助手总是能够轻松处理各种办公任务,仿佛只要敲敲键盘说几句话,复杂的财务报表就能自动生成。然而,当研究团队真正让这些AI"上岗"处理真实的财务工作时,现实却给了所有人一记响亮的耳光。
这场测试的主角是目前市面上最强大的AI系统,包括OpenAI的GPT-5.1、Anthropic的Claude Sonnet 4.5、Google的Gemini 3 Pro等。这些平时在各种基准测试中表现优异的AI明星,在面对真实财务工作时却显得力不从心。即便是表现最好的GPT-5.1 Pro,在花费了整整48小时的"加班时间"后,也只能成功完成38.4%的工作流程,而Claude Sonnet 4.5的成功率更是只有25%。
这个结果让很多人感到意外。毕竟,在实验室环境下,这些AI在各种标准化测试中的表现都相当出色。那么,真实的职场工作到底有什么特别之处,能让这些"超级大脑"频频败下阵来?
答案就隐藏在研究团队精心构建的FINCH评测体系中。FINCH这个名字本身就很有趣,它不仅是"Finance"的缩写,也是一种小鸟的名字,象征着这套评测系统虽然看似小巧,却拥有敏锐的洞察力,能够精准捕捉到AI在真实工作环境中的各种问题。
**二、深入企业内部:从安然公司的"数字遗产"中寻找真相**
要理解FINCH的独特之处,我们需要先了解研究团队是如何构建这套评测体系的。与以往那些基于人工合成数据的测试不同,FINCH的数据来源完全来自真实的企业环境,其中最重要的素材来自安然公司(Enron)。
安然公司虽然因为财务丑闻而臭名昭著,但从研究角度来看,它却留下了一份珍贵的"数字遗产"——大约15000个真实的电子表格文件和50万封企业邮件。这些材料完整保留了一家大型企业日常财务运作的全貌,包括各种复杂的跨部门协作、版本迭代、数据校验等真实工作场景。
研究团队如同考古学家一般,从这些海量的企业数据中精心挖掘出172个完整的工作流程。这些流程涵盖了企业财务工作的方方面面:从简单的数据录入到复杂的金融建模,从日常的报表制作到重要的风险评估。每一个工作流程都包含384个具体任务,涉及1710个电子表格,总计超过2700万个数据单元格。
这个数据规模听起来可能很抽象,我们可以这样理解:如果把这些电子表格打印出来堆叠起来,大概相当于一栋20层楼的高度。而这还不包括那些配套的PDF文档、图表和其他辅助材料。
更重要的是,这些工作流程并不是孤立存在的。就像真实的企业工作一样,它们相互交织、层层依赖。一个看似简单的数据更新可能会影响到十几个不同的报表,而一个计算错误可能会在整个财务体系中产生连锁反应。这种复杂性正是传统基准测试所无法捕捉的。
**三、三条路径构建真实场景:邮件、版本历史与专业文档**
为了确保测试的真实性和全面性,研究团队采用了三种不同的方法来构建工作流程,每种方法都像是从不同角度观察同一个复杂的钻石。
第一种方法是从企业邮件中提取工作流程。研究团队开发了一套智能分析系统,能够识别那些明确提到业务目标的协作邮件,比如"更新RAC排名"或"修订2002年分配方案"等。这些邮件往往包含了完整的工作指令和相关附件,为研究团队提供了真实工作场景的第一手资料。
不过,邮件分析也分为两种情况。在"强关联"情况下,邮件中包含了完整的输入文件和最终结果,这样的邮件为研究提供了完美的工作流程样本。但更多时候遇到的是"部分关联"的情况,邮件中可能只提到了工作目标,而缺少必要的文件。这时,研究团队就需要像侦探一样,从其他渠道寻找缺失的拼图。
第二种方法是分析电子表格的版本历史。在企业环境中,重要的财务文档往往会经历多次修订,每次修订都反映了特定的业务需求或问题解决过程。研究团队开发了专门的算法来识别这些版本变化,并推断出变化背后的业务逻辑。这种方法特别有价值,因为它捕捉到了那些可能从未在邮件中明确表述的隐性工作流程。
第三种方法是利用高质量的专业文档。研究团队从投资公司、证券机构、世界银行、加拿大和英国政府等组织收集了大量专业财务文档,然后将这些完成品逆向分解为工作流程。这就像是根据一道精美的菜肴来推断烹饪过程一样,需要深厚的专业知识和丰富的经验。
整个构建过程耗费了700多个小时的专家标注时间,每个工作流程都经过了严格的质量控制。为了确保准确性,研究团队甚至使用了AI作为"第二评判员",让GPT-5.1 Pro和Claude Sonnet 4.5来检查标注结果的一致性。
**四、多维度挑战:复杂性、混乱度与多模态的三重考验**
FINCH之所以能让最强大的AI系统败下阵来,关键在于它准确还原了真实财务工作的三个核心特征:任务的复合性、数据的混乱性和信息的多模态性。
首先是任务复合性的挑战。与实验室中那些设计精巧的单一任务不同,FINCH中78.5%的工作流程都涉及多个相互关联的任务。这就像是要求一个厨师不仅要会炒菜,还要同时负责采购、备菜、调味、摆盘和清洁,而且这些环节必须无缝衔接,任何一个环节出错都可能影响最终结果。
实验结果清楚地显示了这种复合性对AI的影响。当工作流程只包含一到两个任务时,GPT-5.1 Pro的成功率还能达到44.3%,但当任务数量超过两个时,成功率就急剧下降到23.5%。这种现象被研究人员称为"误差累积效应",就像多米诺骨牌一样,前面的小错误会在后续步骤中被不断放大。
其次是数据混乱性带来的困扰。在学术研究中,数据通常都经过精心整理,格式统一、结构清晰。但在真实的企业环境中,数据往往是混乱的、不一致的,充满了各种例外情况和特殊格式。
在FINCH的测试中,单个工作流程平均涉及8个不同的电子表格,有些复杂的流程甚至会涉及多达91个表格。这些表格往往采用不同的格式和布局,有的使用合并单元格,有的包含多级标题,还有的穿插着各种图表和注释。最复杂的工作簿包含多达370万个数据单元格和数十万个公式,形成了一个庞大而复杂的依赖网络。
第三个挑战来自信息的多模态性。现代财务工作不仅仅涉及数字和文本,还包括各种图表、图像和PDF文档。在FINCH的测试中,约10.5%的工作流程需要处理多种不同格式的文档,7.6%的流程明确要求AI理解PDF或图像中的信息。
这种多模态的要求对AI来说特别困难。举个例子,AI可能需要从一份PDF格式的财务报告中提取特定数据,然后将这些数据整合到Excel表格中,同时还要保持原有的格式和布局。这不仅需要理解不同格式文档的内容,还要理解它们之间的逻辑关系。
**五、AI败北的深层原因:五大致命弱点的剖析**
通过对失败案例的详细分析,研究团队发现了AI在处理真实财务工作时存在的五大关键问题,这些问题就像是AI身上的"阿基里斯之踵",在简单测试中可能不会暴露,但在复杂的真实场景中却成为致命弱点。
第一个问题是任务理解偏差。企业财务工作往往依赖大量的隐含知识和上下文信息,而这些信息通常不会在明确的指令中体现。就像一个经验丰富的会计师能够根据业务背景理解某个数据调整的真实意图,但AI却经常按照字面意思执行指令,导致结果偏离实际需求。在研究中,10%的失败案例都源于这种理解偏差。
第二个问题是数据检索错误。在复杂的多表格环境中,准确找到所需的数据就像在图书馆中寻找特定的书籍一样困难。AI经常会选择错误的数据范围,或者从错误的表格中提取信息。这类错误占到了失败案例的25%,而且往往具有连锁反应,一个小的检索错误可能导致整个分析链条的崩塌。
第三个问题是公式推理能力不足。财务工作中的公式往往蕴含着复杂的业务逻辑,比如税务计算、折旧摊销或风险调整等。AI虽然能够执行现有公式,但在需要理解公式背后的业务逻辑或创建新公式时就显得力不从心。35%的失败案例都与公式推理有关,这也是失败率最高的单一原因。
第四个问题是代码生成质量低下。许多复杂的财务任务需要通过编程来完成,但AI生成的代码经常存在语法错误或逻辑问题。更重要的是,这些代码往往无法正确处理电子表格的复杂布局和格式要求。25%的失败案例都源于代码问题,这反映了AI在将抽象指令转化为具体实现时的局限性。
第五个问题是数据渲染和格式处理能力欠缺。财务工作不仅要求数据准确,还要求展示美观、格式规范。AI往往能够生成正确的数据,但在图表制作、报表格式或布局设计方面表现不佳。虽然这类问题只占失败案例的5%,但在实际工作中却可能严重影响工作效果。
**六、不同AI系统的表现差异:各有所长但都有短板**
在FINCH的测试中,不同AI系统展现出了各自的特点和局限性。GPT-5.1 Pro采用了更加细致的工作策略,会将复杂任务分解为多个小步骤,每一步都进行验证和检查。这种方法虽然耗时更长(平均每个工作流程需要16.8分钟),但确实提高了成功率。
相比之下,Claude Sonnet 4.5更倾向于使用更直接的解决方案,步骤更少但每一步的跨度更大。有趣的是,在涉及数据可视化的任务中,Claude生成的图表往往比GPT更加美观和准确,这可能反映了不同系统在不同能力方面的专长。
通过API接口调用的模型表现相对较差,这主要是因为它们只能进行单次调用,无法像网页版AI那样进行多轮交互和错误修正。不过,研究团队通过改进数据编码格式和优化提示策略,显著缩小了API模型与网页版AI的性能差距。
在具体任务类型上,所有AI系统都在数据录入、结构调整和翻译任务上表现较差。特别是翻译任务,这令很多人感到意外。原来,财务表格的翻译不仅涉及语言转换,还需要保持复杂的格式布局和数据关系,这比普通文本翻译要困难得多。
**七、人机评判的一致性:自动化评测的可靠性验证**
为了确保评测结果的可靠性,研究团队同时采用了人工评判和AI自动评判两套标准。有趣的是,AI作为"裁判员"的表现相当不错。在GPT-5.1 Pro的测试中,AI裁判与人工专家的判断一致性达到82.1%,在Claude Sonnet 4.5的测试中更是达到90.2%。
这种高一致性的背后有其深层原因。研究团队设计了一套多模态评判框架,AI裁判不仅能够分析文本和数据,还能够"观察"表格的截图,识别格式、图表和布局等视觉元素。在某些情况下,AI裁判甚至比人工专家更加敏锐,能够发现一些人眼容易忽略的细微错误,比如公式被意外替换为静态数值等问题。
不过,AI裁判也有其局限性。它有时会过于严格地按照字面意思执行评判标准,忽略了一些合理的变通做法。而且在处理一些需要深层业务理解的复杂情况时,AI裁判的准确性还有待提高。
**八、真实企业环境的"恶劣条件":为什么AI会失败得如此彻底**
FINCH测试结果之所以如此"残酷",根本原因在于真实企业环境的复杂性远远超出了人们的想象。这种复杂性体现在多个相互交织的层面上。
首先是规模上的挑战。真实的财务工作往往涉及庞大的数据体系,几十个相互关联的工作簿、数百个工作表、成千上万的数据单元格构成了一个复杂的信息网络。在这样的环境中,即使是很小的定位错误也可能导致严重后果。
其次是语义上的困扰。财务领域充满了相似但不同的概念,比如"收入"和"营业收入"、"利润"和"净利润"等。这些概念在不同语境下可能有细微差别,对于缺乏领域知识的AI来说很容易混淆。
第三是结构上的不规则性。与教科书中的标准表格不同,真实的财务文档往往采用各种非标准的布局和格式。合并单元格、多级标题、嵌套表格等复杂结构对AI的理解能力构成了严峻挑战。
第四是逻辑上的隐含性。许多财务操作背后蕴含着复杂的业务逻辑和历史惯例,这些信息往往不会在表面数据中明确体现。比如某个定价公式可能看起来是简单的数学计算,但实际上反映了55天的付款周期安排。
最后是多模态信息的整合难度。现代财务工作需要同时处理表格、文档、图表和图像等多种格式的信息,而且这些信息往往相互引用、相互依赖。对AI来说,理解单一格式的信息已经不容易,要准确整合多种格式的信息更是难上加难。
正是这些因素的叠加效应,导致了即便是最强大的AI系统也在FINCH测试中败下阵来。这并不意味着AI技术不够先进,而是说明了真实世界的复杂性确实超出了当前技术的处理能力。
**九、展望未来:AI与人类协作的新可能**
尽管FINCH的测试结果显示AI在处理复杂财务工作时还有很大局限性,但这项研究的价值恰恰在于为未来的改进指明了方向。
研究结果表明,当前AI的主要问题不在于基础能力不足,而在于缺乏处理复杂、混乱、多模态信息的综合能力。这意味着未来的AI发展重点应该放在提高系统的鲁棒性和适应性上,而不是单纯追求在标准化测试中的高分。
同时,研究也揭示了人机协作的巨大潜力。虽然AI难以独立完成复杂的财务工作流程,但在特定子任务上仍然表现出色。未来的财务工作可能会发展成为一种新的协作模式:AI负责处理大量的数据计算和格式转换工作,而人类专家则专注于业务逻辑理解、质量控制和决策制定。
此外,FINCH的构建方法本身也具有重要价值。通过从真实企业数据中提取工作流程,研究团队开创了一种新的基准测试构建思路。这种方法不仅能够更准确地评估AI系统的实际应用能力,也为其他领域的AI评测提供了有益借鉴。
说到底,FINCH不仅仅是一套测试工具,更像是一面镜子,让我们更清楚地看到了AI技术的现状和前景。它告诉我们,虽然AI在很多方面已经表现出色,但要真正融入复杂的人类工作环境,还有很长的路要走。这不是AI的失败,而是我们对AI能力边界有了更准确的认识,为未来的技术发展提供了更明确的目标和方向。
Q&A
Q1:FINCH评测体系与传统AI测试有什么不同?
A:FINCH使用的是来自安然公司等真实企业的工作数据,包含15000个电子表格和50万封邮件,构建了172个真实的财务工作流程。与传统测试使用人工合成的简单数据不同,FINCH的测试环境完全还原了企业工作的复杂性、混乱性和多任务协作特点。
Q2:为什么最强大的AI模型在FINCH测试中表现这么差?
A:主要因为真实财务工作具有五大挑战:任务理解需要隐含的业务知识、在复杂多表格环境中数据检索困难、公式推理需要理解业务逻辑、代码生成要处理复杂格式、多模态信息整合难度大。这些问题在简单测试中不会暴露,但在真实场景中会累积放大。
Q3:FINCH测试结果对企业使用AI有什么启示?
A:结果表明AI目前还无法独立完成复杂的企业财务工作,成功率只有25-38%。但这不意味着AI无用,而是需要重新定位AI的角色,让AI处理数据计算和格式转换等标准化工作,人类专家负责业务逻辑理解和质量控制,形成更合理的人机协作模式。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。