
当人工智能开始写财务分析报告时,会发生什么?就像让一个刚学会开车的新手在高速公路上飞驰一样,看起来很厉害,但经常会"开到沟里去"。这项由纽约大学上海分校的胡天晟、纽约大学的陈钊教授,以及耶鲁大学的赵艺伦、阿曼·科汉教授共同完成的研究,发表于2025年10月,专门解决了AI在处理复杂财务问题时经常"胡说八道"的问题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.06426v1查询完整论文。
现在的大型语言模型就像是一个博学但有时会胡编乱造的助手。当你问它复杂的财务问题时,它能给出听起来很专业的长篇回答,但仔细一看,里面的数字计算错了,引用的资料也不对,甚至有些内容完全是凭空想象出来的。这种现象在学术界被称为"幻觉",就像人在发烧时会看到不存在的东西一样。
为了解决这个问题,研究人员通常会给AI的回答加上"出处标注",就像学生写作业时要标明参考资料一样。但现有的标注方法太简单了,只是告诉你"这句话来自哪篇文档",就像在地图上只标出了城市名称,却没有标出具体的街道地址。
研究团队发现,在财务分析这个专业领域里,仅仅标注文档出处是远远不够的。财务分析就像做一道复杂的数学应用题,不仅需要找到正确的数据来源,还要展示详细的计算过程,更要运用专业的财务知识。这就好比一个厨师不仅要说明食材来源,还要展示烹饪步骤,并解释为什么要用这种烹饪方法。
基于这种认识,研究团队创建了一个全新的评测基准FINLFQA,专门用来检验AI在财务分析方面的"三重保险"能力。这套评测系统包含了1008个专家精心设计的财务问题,每个问题都要求AI不仅给出正确答案,还要提供三种不同类型的支撑证据,就像法庭审判时需要人证、物证和专家证词一样。
一、给AI装上"三重保险"的新评测体系
传统的AI评测就像只检查学生的答案对不对,而FINLFQA更像是要求学生不仅答案正确,还要展示完整的解题过程、引用的公式,以及使用的解题思路。这种"三重保险"的评测方式确保AI的回答不仅听起来合理,而且经得起专业scrutiny。
第一重保险是"证据支撑"。当AI说某家公司的利润增长了25%时,它必须明确指出这个数字来自财务报告的第16段。这就像记者写新闻时必须标明消息来源一样,让读者能够追溯和验证信息的真实性。
第二重保险是"计算过程"。财务分析中充满了各种计算,比如计算公司的现金流、债务比率或者投资回报率。AI不能只给出最终结果,还必须展示完整的计算代码,就像数学考试中要求"写出解题步骤"一样。这些计算代码必须能够实际运行并得出正确结果,确保没有计算错误。
第三重保险是"专业知识引用"。财务分析需要大量专业概念,比如"自由现金流等于经营现金流减去资本支出"这样的公式。AI必须正确识别和引用这些专业知识,就像医生诊断时要引用医学理论一样。研究团队为此构建了一个包含一千个财务概念的知识库,AI需要从中选择相关的概念来支撑自己的分析。
这套评测体系的设计非常巧妙。研究人员选择了两家同行业的公司,获取它们同一财务季度的报告,然后让财务专家基于这些真实数据设计问题。这些问题往往需要跨公司比较、整合表格和文本数据、进行时间序列分析,以及计算各种财务指标。例如,一个典型问题可能是"分析CWT和AWK两家公司在2024年第一季度净利息支出的变化对其财务策略的影响"。
要回答这样的问题,AI不仅要从大量财务文档中找到相关数据,还要进行准确计算,并运用财务理论进行分析。整个过程就像让AI完成一份专业的财务咨询报告,要求极高的准确性和专业性。
二、三种不同的AI训练方式大比拼
研究团队设计了三种不同的方法来训练AI完成这种"三重保险"的财务分析,就像比较三种不同的学习方法哪种最有效。
第一种方法叫做"事后补课法"。就像学生先把作业写完,然后再回过头来标注参考资料和解题步骤一样。AI首先根据财务报告和问题生成一个完整的答案,然后在第二阶段为这个答案添加证据支撑、计算代码和专业知识引用。这种方法的优点是思路清晰,先专心回答问题,再专心做标注。
第二种方法叫做"一气呵成法"。就像要求学生在写作业的同时就标明每一步的依据和计算过程。AI在生成答案的同时就提供三种类型的支撑证据,所有内容在一次输出中完成。这种方法更加高效,也确保了答案和支撑证据之间的一致性。
第三种方法叫做"反复打磨法"。就像写论文时要经过多轮修改和完善一样。AI首先生成一个初始版本的答案,然后对这个答案进行自我评估和改进,包括检查计算结果、验证证据支撑、确认专业知识使用是否恰当等。这个过程会持续多轮,直到AI认为答案已经足够完善,或者达到预设的最大迭代次数。
在"反复打磨法"中,AI会像一个严格的老师一样检查自己的作业。它会验证四个方面:首先检查答案是否完整回答了问题;其次确保每个声明都有财务报告的支撑;再次验证计算结果是否与代码输出一致;最后检查引用的专业知识是否相关和正确。如果发现问题,AI会生成具体的改进建议,然后据此修改答案。
有趣的是,研究团队还测试了不同的"打磨"方式。有时让AI完全依靠自己的判断进行改进,有时则引入外部的"专业顾问"来提供修改建议。就像学生可以自己检查作业,也可以请老师或者学霸同学帮忙检查一样。
三、八个AI"学生"的考试表现大揭秘
研究团队选择了八个不同的大型语言模型进行测试,就像让八个不同水平的学生参加同一场考试。这些"学生"包括了目前最先进的GPT-4o、以及一些优秀的开源模型如Qwen2.5-72B、Llama-3.3-70B等,还有一些相对较小的模型作为对比。
测试结果就像期末考试的成绩单一样有趣。GPT-4o不出意外地成为了"班级第一",在15分满分的评测中获得了13.7分。它在数字计算方面表现尤其出色,就像一个数学天赋很高的学生,能够准确处理复杂的财务计算。具体来说,在数字匹配的准确性方面,GPT-4o的精确度达到37.9%,召回率达到58.0%,F1分数为42.3%。
令人欣喜的是,一些开源模型的表现也相当不错。Qwen2.5-72B获得了13.0分,紧追GPT-4o的步伐,就像班级里的第二名学生,实力不容小觑。Llama-3.3-70B也表现稳定,在多个维度上都显示出了竞争力,特别是在证据引用方面表现优秀。
更有趣的是不同训练方法的对比结果。"事后补课法"和"一气呵成法"的表现几乎不相上下,这说明对于目前的先进AI模型来说,无论是分步完成还是一次性完成,都能达到类似的效果。这就像有些学生喜欢先写完作业再检查,有些学生喜欢边写边检查,只要方法得当,最终效果差不多。
然而,"反复打磨法"的结果让人意外。当AI只是自己跟自己较劲,反复修改答案时,并没有带来明显的改进,有时甚至会越改越糟。这就像学生过度纠结一道题目,反而可能把原本正确的答案改错了。但是,当引入外部的"专业指导"时,情况就大不相同了。
研究团队发现,外部指导的效果很大程度上取决于"老师"的水平。当使用更强大的模型来指导较弱的模型时,效果明显。例如,让Llama-3.3-70B来指导Llama-3.2-3B,后者的表现确实有所提升。更有趣的是,当使用专门在财务数据上训练过的Fino1-8B来指导同等规模的Llama-3.1-8B时,效果非常显著,这说明专业知识的重要性。
这个发现很像现实中的学习情况:一个学生自己埋头苦读可能效果有限,但如果有一个好老师或者学霸同学的指导,进步就会明显很多。而且,专业老师的指导往往比非专业人士的建议更有价值。
四、AI在财务分析中的五大"翻车"现场
通过仔细分析AI的错误表现,研究团队发现了五种主要的"翻车"类型,就像分析学生考试失分的原因一样。
最常见的问题是"证据标注混乱",占了所有错误的25%。AI经常会引用错误的文档段落,或者遗漏重要的支撑证据,就像学生写论文时引用了不相关的资料,或者忘记标注重要的参考文献。有时AI还会出现冗余引用,明明一个段落就能说明问题,却要引用好几个不必要的段落。
第二常见的是"代码执行失败",占22%。AI生成的计算代码经常因为语法错误或逻辑问题而无法运行,就像学生在数学考试中写出了错误的计算公式。通过深入分析,研究团队发现了三种主要的代码错误:46%的错误是因为定义了函数却没有提供必要的参数,20%是因为执行了计算却忘记返回结果,16%是因为代码缩进格式错误。
第三类问题是"数字提取和计算错误",占20%。这包括从财务报表中提取错误的数字、单位换算出错、以及基本的算术计算失误。比如AI可能把"百万美元"误读为"千美元",或者在计算百分比时出现舍入错误。这就像学生在做应用题时看错了题目中的数字,或者计算时粗心大意。
第四类是"专业知识验证错误",占15%。AI有时会引用不相关的财务概念,或者在没有正确理解概念含义的情况下就使用专业术语。比如在分析净收入数据时,却引用了关于"净利润率"的定义,虽然相关但并不直接适用。这就像学生在回答问题时使用了听起来很专业但实际不相关的术语。
最后是"流畅性、事实一致性和推理错误",占12%。这包括生成错误的时间信息、混淆不同公司的数据、给出缺乏逻辑支撑的结论,甚至完全虚构一些事实。还有一些是格式问题,比如答案过于冗长或者语言不是英文。
通过这些错误分析,研究团队得出了一个重要结论:当前的AI在处理需要精确性的专业任务时,仍然存在明显的局限性。就像一个聪明但缺乏专业训练的人,能够理解大体方向,但在细节处理上还需要更多的改进。
五、数字游戏中的精确度挑战
在财务分析中,数字的准确性至关重要,哪怕是小数点后一位的差异都可能导致截然不同的投资决策。研究团队为此设计了专门的数字准确性评测方法,就像用放大镜检查钟表的每一个齿轮是否精确吻合。
传统的文本相似度评测方法,比如常用的ROUGE分数和BERTScore,在这里就像是用尺子测量时间一样不合适。这些方法主要关注词汇的重叠程度和语义相似性,但在财务分析中,即使语义完全正确,数字错误也会导致分析结论完全失效。
因此,研究团队开发了一套更加严格的数字评测标准。这套标准不仅要求数字完全准确,还考虑到了现实世界中常见的数字表示方式差异。比如,300万、3000千、3,000,000这些不同的表示方式应该被认为是等价的。同时,考虑到合理的舍入误差,如果预测值与真实值的相对误差在1%以内,也会被认为是正确的。
测试结果显示,即使是最先进的GPT-4o,在数字准确性方面的表现也只能算是"及格"水平。这就像一个优秀学生在文科方面表现出色,但在精确计算方面还有提升空间。所有模型在处理复杂财务计算时都面临着相似的挑战,这说明数字准确性是当前AI技术的一个普遍难点。
有趣的是,那些能够生成可执行代码的AI往往在数字准确性方面表现更好。这是因为代码执行提供了额外的验证机制,就像学生做数学题时用计算器检验答案一样。当AI生成的代码能够成功运行并产生结果时,这个结果通常比直接生成的数字更加可靠。
六、专业知识的智慧运用考验
财务分析不仅仅是数字游戏,更需要深厚的专业知识作为支撑。就像一个医生不仅要会使用医疗设备,还要理解各种医学理论一样,AI在做财务分析时也需要正确理解和运用各种财务概念。
研究团队构建了一个包含一千个财务概念的专业知识库,涵盖了从基础的会计原理到高级的投资分析理论。每个概念都有清晰的定义和应用场景,就像一本财务百科全书。在每个测试问题中,AI需要从这个知识库中选择相关的概念来支撑自己的分析。
这种设计模拟了真实的财务分析场景。专业的财务分析师在撰写报告时,总是会引用相关的财务理论和概念来增强分析的说服力。比如,在分析公司的流动性时,会引用"流动比率"的定义;在评估投资回报时,会运用"净现值"或"内部收益率"等概念。
测试结果显示,不同模型在专业知识运用方面存在明显差异。一些模型能够准确识别相关概念并恰当引用,而另一些模型则经常出现"张冠李戴"的情况,引用了听起来相关但实际不适用的概念。这就像学生在考试时使用了错误的公式,虽然知道要引用公式,但选择了错误的公式。
更有趣的是,研究团队发现模型的规模和专业知识运用能力之间并不总是正相关。有些相对较小但专门训练过的模型,在专业知识运用方面甚至超过了一些更大的通用模型。这说明专业化训练对于特定领域的应用非常重要,就像专科医生在自己的领域内往往比全科医生更专业一样。
七、自动评测系统的创新设计
评估AI在复杂任务上的表现本身就是一个技术挑战,就像设计一套全面的考试系统来评估学生的综合能力。研究团队为此开发了一套多维度的自动评测系统,不仅能够快速给出评分,还能提供详细的能力分析。
这套评测系统的核心是使用另一个AI(GPT-4o)作为"评判员",就像请一位经验丰富的老师来批改学生的作业。这个"AI评判员"会从三个维度对答案进行评分:答案的准确性、数字计算的正确性、以及证据支撑的充分性。每个维度都是1到5分,总分15分。
为了验证这种"AI评判员"方法的可靠性,研究团队进行了一个有趣的对比实验。他们让真人财务专家和AI评判员同时评估50个样本答案,然后比较两者的评分结果。结果显示,AI评判员与人类专家的评分相关性达到了85.3%,这说明AI确实能够相对准确地模拟人类专家的判断标准。
这种方法的优势在于既保持了评估的专业性,又大大提高了评估效率。人类专家评估一个复杂的财务分析答案可能需要半小时,而AI评判员只需要几分钟就能完成同样的工作。这就像有了一个永不疲劳、标准统一的自动阅卷系统。
除了总体评分,评测系统还提供了丰富的细节分析。比如,它会统计AI引用了多少个正确的证据段落、生成了多少可执行的代码块、运用了多少相关的专业概念等。这种细粒度的分析帮助研究人员更好地理解不同模型的优劣势,就像详细的体检报告能够帮助医生了解患者的健康状况。
八、开源模型的逆袭之路
虽然商业化的GPT-4o在总体表现上仍然领先,但开源模型的快速进步令人瞩目。这就像看到一群努力的学生正在快速缩小与班级第一名的差距,甚至在某些单项上已经能够匹敌甚至超越。
Qwen2.5-72B的表现尤其令人印象深刻,在多个评测维度上都接近GPT-4o的水平。更重要的是,这个模型完全开源,任何人都可以免费使用和改进,就像一本可以自由传播和修改的教科书。这种开放性为整个AI研究社区带来了巨大价值。
Llama-3.3-70B在证据引用方面表现突出,甚至在某些测试中超过了GPT-4o。这说明不同模型可能各有专长,就像不同的学生可能在不同科目上有自己的优势。Mistral-Small-24B在专业知识运用方面表现最佳,显示出了专业化训练的价值。
这种多元化的发展趋势对整个行业都是利好消息。商业模型虽然在总体性能上仍有优势,但开源模型在特定领域的突破为用户提供了更多选择。就像汽车市场上既有豪华品牌,也有性价比很高的大众品牌,不同的用户可以根据自己的需求和预算选择合适的解决方案。
更重要的是,开源模型的透明性使得研究人员能够更深入地理解AI的工作原理,并针对性地进行改进。这种开放式的发展模式正在推动整个领域的快速进步,就像开源软件推动了整个软件行业的发展一样。
说到底,这项研究为我们展示了AI在专业领域应用时面临的真实挑战和可能的解决方案。就像考驾照不仅要求会开车,还要懂交通规则、能应对突发情况一样,让AI胜任专业的财务分析工作需要的不仅仅是语言能力,还需要精确的计算能力、严谨的逻辑推理、以及深厚的专业知识。
研究团队开发的"三重保险"评测体系为这个领域建立了新的标准,就像为AI专业能力认证考试制定了考试大纲。这不仅有助于推动AI技术的改进,也为实际应用提供了重要的参考依据。
对于普通人来说,这项研究的意义在于让我们更清醒地认识到AI的能力边界。虽然AI在很多方面已经表现出色,但在需要高度专业性和精确性的领域,我们仍然需要保持谨慎的态度。就像虽然GPS很方便,但在关键时刻我们仍然需要具备基本的方向感一样,AI可以是很好的助手,但重要决策还是需要人类专家的参与和验证。
随着技术的不断进步,我们有理由相信AI在专业领域的表现会越来越好。但这个过程需要像这项研究一样严谨的评测和持续的改进,而不是盲目的乐观或恐惧。毕竟,任何强大的工具都需要我们学会正确地使用它。
Q&A
Q1:FINLFQA是什么?它和普通的AI评测有什么不同?
A:FINLFQA是由纽约大学等院校开发的专门评测AI财务分析能力的基准系统。与普通评测不同,它要求AI提供"三重保险":不仅要给出正确答案,还要标明证据来源、展示计算过程、引用专业知识。就像法庭审判需要人证、物证和专家证词一样严格。
Q2:为什么现在的AI在财务分析方面容易出错?
A:主要有五大问题:证据引用混乱占25%、代码执行失败占22%、数字计算错误占20%、专业知识误用占15%、逻辑推理问题占12%。就像一个聪明但缺乏专业训练的人,虽然能理解大体方向,但在需要精确性的细节处理上还有明显不足。
Q3:普通人现在能用这种高精度的AI财务分析吗?
A:目前还不能直接使用,FINLFQA主要是研究工具。但研究显示开源模型正快速进步,像Qwen2.5-72B已经接近GPT-4o水平。随着技术发展,未来可能会有基于这些严格标准开发的财务分析AI产品,但重要财务决策仍建议咨询专业人士。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。