微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI"考金融证书":Lime FinTech打造的专业级金融考试台,正在揭露大模型的真实水平

当AI"考金融证书":Lime FinTech打造的专业级金融考试台,正在揭露大模型的真实水平

2026-05-26 09:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-26 09:45 科技行者

这项由俄罗斯金融科技公司Lime FinTech的研究团队完成的工作,以预印本形式发布于2026年5月,论文编号为arXiv:2605.15482,感兴趣的读者可以通过该编号查阅完整论文。

如果你曾经用ChatGPT或类似的AI助手处理过财务问题,也许你会好奇:这些AI真的懂金融吗?还是只是在滔滔不绝地表演"看起来懂"?这个问题其实比听起来重要得多。当越来越多的银行、投资机构和财务顾问开始把AI引入真实业务时,我们到底有没有一把靠谱的尺子来衡量AI的金融能力?

Lime FinTech的研究团队就是带着这个疑问出发的。他们观察到一个令人不安的现象:现有的AI金融评测工具,大多停留在让AI"看财报回答问题"这个层面,而真正职业化的金融能力——比如理解复杂的期权策略、识别技术图表形态、处理多步骤的组合管理决策——基本上处于评测盲区。换句话说,我们知道AI能不能"读懂财报",却不太清楚它能不能"通过CFA考试"。

为了填补这个空白,团队构建了一套名为FINESSE-Bench的测评体系,包含八个不同方向的专项测试集,合计3993道题目,覆盖从基础金融知识到专家级技术分析的完整难度梯度。这套测评体系的设计逻辑,颇像是给AI报名参加一系列专业资格考试——从初级到高级,从理论到实战,从英语考题到俄语竞赛题,一层一层地检验AI的真实金融水准。

研究团队同时对超过30个主流AI模型进行了系统评测,包括Claude、GPT、Kimi、Qwen、GLM、DeepSeek等各类大模型。结果发现,一个模型在常见的金融问答测试里表现亮眼,并不代表它在更专业的职业级任务上同样出色。这个发现,正是整个研究的核心价值所在。

一、现有的金融AI测评,为什么不够用?

要理解这套新测评体系的价值,先得搞清楚现有工具的局限在哪里。

目前学界最常用的金融AI评测数据集主要有三个:FinQA、ConvFinQA和TAT-QA。这三个数据集的共同特点是,它们都在考验AI"看文件回答问题"的能力。具体来说,FinQA要求AI阅读财务报告并完成数值计算推理;ConvFinQA在此基础上加入了多轮对话,模拟人与AI连续问答的场景;TAT-QA则引入了表格与文字混合的格式,要求AI同时处理结构化数据和自然语言。

这些测试并非没有价值,恰恰相反,它们曾经推动了AI财务阅读能力的显著进步。但问题在于,真正的金融从业能力远比"读财报"复杂得多。一位合格的CFA(特许金融分析师)持证人,不仅要能读懂资产负债表,还要能从宏观经济数据中推断利率走向、在复杂的期权组合中计算Greeks(期权风险指标)、在多资产组合中权衡风险收益比、在模糊的市场信号中识别技术形态。这些能力,现有测试集几乎完全没有覆盖。

此外,这些现有数据集还有一个共同缺陷:它们没有"难度分层"。所有题目混在一起,我们只能知道AI的平均分,却看不出它在入门级问题上表现如何、在专家级问题上又会不会崩溃。就像只用一张试卷测试一个学生从小学到博士的所有数学能力——平均分根本说明不了问题。

学界也注意到了这个痛点。一项名为FinanceReasoning的相关研究明确指出,金融测评工具不仅要看"覆盖范围广不广",还要看"题目难不难、够不够真实"。另一项研究在开发了专门的金融推理大模型Fin-R1之后发现,这个模型在常规公开测试集上表现不错,但一旦面对更广泛的专业金融任务,优势就大幅缩水——这正说明现有测试集的评测价值是有上限的。

正是在这个背景下,FINESSE-Bench应运而生。

二、FINESSE-Bench长什么样?八套考卷,各司其职

FINESSE-Bench的整体设计逻辑,可以用一句话概括:把金融职业资格考试的体系搬到AI测评里,同时补充真实交易场景和非英语考题。

整套体系的第一块,是模拟CFA(特许金融分析师)三个级别的考题。CFA考试本身是全球金融行业最权威的职业资格之一,分为三个难度递增的级别,每个级别的考试内容和认知要求差别显著。

CFA模拟一级(CFA-like Level 1)包含1069道选择题,主要涵盖金融伦理、量化方法、经济学、财务报告、公司金融和投资基础知识,平均每道题约348个字符,难度定位在"基础金融素养"。这一级别的作用类似于摸底考试,考察AI有没有掌握金融行业的基本概念体系。

CFA模拟二级(CFA-like Level 2)包含293道题,难度显著提升。这一级别的题目采用"案例串联"格式,即几道相互关联的题目共享同一个场景描述,考生需要先读懂案例,再回答多个相关问题。平均每道题约2965个字符,是一级的近九倍。这里涉及的内容包括多步骤财务分析、公司估值、固定收益和衍生品,需要真正的综合推理能力,而不仅仅是记忆知识点。

CFA模拟三级(CFA-like Level 3)包含318道题,平均每题约3951个字符,是三个级别中信息量最大的。这一级别考察的是真正的专家能力:组合管理策略、私人财富规划、风险管理框架,以及在复杂道德情境下的判断。这类题目通常没有简单的标准答案,需要综合多个领域的知识进行策略性思考。

测评体系的第二块,聚焦于技术分析能力。金融市场中存在两大主要分析流派:基本面分析和技术分析。前者着重研究公司财务数据,后者则通过研究价格图表、成交量、技术指标来预判市场走势。CFA考试侧重基本面,而技术分析则是另一套完整的专业体系,有其专属的职业认证。

CFTe模拟一级(CFTe-like Level 1)包含781道选择题,考察技术分析的基础知识:K线图、趋势线、支撑与阻力位、常见图表形态、移动平均线和动量指标。这是技术分析能力的入门考核。

CMT模拟二级(CMT-like Level 2)包含251道题,难度更高,涵盖技术分析理论体系、图表形态识别、市场成交量与持仓量分析、交易系统的回测验证,以及风险管理。这一级别更侧重于实战应用,而非单纯的概念记忆。

第三块是实战交易类题目。Trading\_TA包含413道应用型技术分析题,模拟真实交易情境:如何识别突破形态并设置入场点、动量策略与均值回归策略的条件判断、止损规则的设定逻辑、跨时间周期的综合分析。这些题目更接近实际交易员的日常决策,而非教科书式的知识问答。

Trading\_derivatives包含544道期权与期货专项题,是整套体系中数量最多、计算密度最高的部分。涵盖期权定价(包括Black-Scholes模型的应用)、合成头寸构建、看涨/看跌期权平价关系、套利策略识别、Greeks(Delta、Gamma、Theta等风险指标)计算,以及各类对冲组合的损益分析。这是目前AI金融测评中最少见到的细分领域之一。

第四块是独具特色的俄语数学竞赛题集。VLigaBench-ru包含324道俄语题目,涉及微观经济学、宏观经济学、金融数学和博弈论,题目风格类似奥林匹克竞赛,强调逻辑推导和精确计算,而非知识复述。这个板块的存在有双重意义:一方面测试AI处理非英语专业金融内容的能力,另一方面通过高难度推理题考察AI的深层数学思维。

从数据格式上看,前五个测试集(三个CFA级别、CMT和CFTe)全部采用选择题(MCQ)形式,便于标准化评分;后三个测试集(VLigaBench-ru、Trading\_TA、Trading\_derivatives)包含数值计算题(NAQ)和简答题(SAQ),需要AI真正写出答案而非从选项中猜测,难度更高,评分也更复杂。

三、如何让AI"交卷":统一评分机制的设计

给AI打分,听起来简单,实际操作起来颇有讲究。

对于选择题,判断AI是否选对相对直接。但对于数值计算题和简答题,AI的回答往往是一段自然语言,里面包含推导过程、最终答案、单位说明等各种信息,用传统的字符串匹配来判断对错显然不合适。

研究团队采用了一种被称为"LLM-as-Judge"(大模型担任评判官)的评分机制。具体做法是:把题目、标准答案,以及被测AI的回答,一起交给另一个担任"评判官"角色的AI,由它判断被测AI的回答是否实质上正确。在这套体系中,担任评判官的是GPT-5.2。评判官给出的是二元判断——正确或不正确——而非打分制。

这种方式的优点是可以处理各种格式的自由回答,同时保持评分标准的一致性。当然,研究团队也坦诚地指出,AI评判并不完美,不能完全替代人类专家的判断,但在大规模基准测试场景下,这是目前最实用的折中方案。

评分管线的底层代码参考了开源项目arena-hard-auto,并针对金融场景进行了大量定制扩展。所有被测模型在测试前统一固定推理参数设置,对于支持"深度思考"模式(即让模型在给出答案前进行较长的内部推理)的模型,将推理深度设置为中等级别,以平衡性能表现与公平比较。

最终的核心评估指标是准确率,计算方式就是所有题目中答对的比例。此外,研究团队对每个模型在每个测试集上的结果都额外计算了95%的置信区间,使用的是自举法(Bootstrap),以确保结果具有统计意义。

四、大考揭榜:各类模型的真实成绩单

研究团队对超过30个AI模型进行了全面测试,被测对象涵盖闭源前沿模型(Claude Sonnet 4.6、GPT-5.2、GPT-5.4)、中国开源模型(Qwen系列、GLM系列、DeepSeek系列)、专为金融场景微调的专业模型(Fin-R1、Fino1-8B、Fin-o1-8B),以及俄语专属模型(GigaChat、YandexGPT)。

在传统公开金融测试集上,整体成绩非常"拥挤"。Claude Sonnet 4.6在FinQA上得分0.827、在TAT-QA上高达0.959;Kimi K2.5的TAT-QA得分也达到0.954;GPT-5.2、MiniMax M2.5、qwen3.5-plus等模型也都集中在0.88至0.94的区间内。换句话说,顶级模型之间的差距非常小,仅靠这几个测试集,很难说清楚哪个模型更"懂金融"。

切换到FINESSE-Bench的专业考试类测试集,情况立刻变得戏剧化起来。

在CFA模拟三级考试上,Claude Sonnet 4.6得分0.824,Kimi K2.5得分0.811,GPT-5.2得分0.802,GLM-5得分0.840,Qwen3.5-Plus-02-15得分0.821——这些顶级模型仍然保持在80%以上的水准。然而,专为金融场景打造的Fin-R1得分只有0.409,Fino1-8B仅有0.425,Fin-o1-8B也只有0.469。也就是说,这些"金融专业选手"在最难的金融考试面前,成绩甚至不如大多数通用模型。

期权与期货专项测试(Trading\_derivatives)的结果更加分化。Kimi K2.5以0.866领跑,GPT-5.2得分0.851,Qwen3.5-Plus-02-15达到0.836。而Fino1-8B只有0.182,GigaChat3-10B得分0.221,Fin-R1也只有0.292。换句话说,有的模型对复杂期权计算的掌握程度,还不如随机猜测的期望值高出多少。

俄语竞赛题集(VLigaBench-ru)也给出了有趣的区分。Claude Sonnet 4.6得分0.806,GPT-5.2得分0.849,Kimi K2.5得分0.830,Qwen3.5-Plus-02-15得分0.849。相比之下,Fino1-8B仅有0.278,Fin-R1为0.454,GigaChat3-10B为0.392——即便是俄语本土模型,在专业金融推理面前也没有显现出明显的语言优势。

五、"拿高分容易,真本事难说":转移差距的深层含义

研究团队引入了一个非常直观的分析维度,叫做"转移差距"(Transfer Gap)。这个概念的意思很简单:一个模型在常规金融测试集上的得分,与它在专业考试类测试集或实战交易测试集上的得分之间,相差多少?差距越大,说明这个模型的"金融能力"越依赖于熟悉的常规题目形式,在真正的专业场景里越容易原形毕露。

转移差距的计算方式是:用常规测试集的聚合得分,分别减去专业考试类测试集的聚合得分,以及实战交易类测试集的聚合得分,得到两个差值。

结果显示,绝大多数模型在这两个维度上都存在正向差距,即专业测试集的成绩低于常规测试集。但差距的大小天差地别。

最为触目惊心的是那几个专门为金融微调的小型模型。Fino1-8B的两个转移差距分别高达0.331和0.360,Fin-R1为0.292和0.336,GigaChat3-10B更是达到0.340和0.312。这意味着,这些模型在标准金融问答题上看起来和大模型差距不大(Fin-R1的FinQA得分0.774,Fino1-8B也有0.713),但一旦考题类型变换为更专业的职业级场景,它们的成绩就几乎腰斩。

相比之下,表现最稳健的是Qwen3.5-Plus-02-15和Kimi K2.5。前者的两个转移差距仅为0.008和0.038,后者为0.026和0.050。这说明这两个模型不仅在常规测试上表现出色,在更专业的金融任务上也能维持高水准,真正做到了"实力稳定"。

这个发现从实用角度看非常重要。如果你是一家机构在选择金融AI工具,仅仅看模型在FinQA上的排名是不够的——你需要知道它在真实职业场景下会不会掉链子。

六、从入门到专家:CFA三级难度梯度的验证

FINESSE-Bench的一个核心设计理念就是"难度分层",而CFA三级体系是这个理念的最直接体现。研究团队专门分析了每个模型从一级到三级的成绩变化,试图验证这套难度梯度是否真实有效。

结论是:有效,但表现形式比预想中更细腻。

总体规律是:几乎所有模型从CFA一级到CFA三级都会出现成绩下滑,这验证了三级考试确实比一级更难。但从一级到二级的过渡并非总是下降——对于一些强大的前沿模型,二级成绩反而略高于一级。

举几个具体例子:Claude Sonnet 4.6在一级得分0.898,二级得分0.918,三级得分0.824。也就是说,它在二级反而比一级表现更好,但三级出现了明显下滑,从一级到三级的总差距为0.074。Kimi K2.5的情况几乎相同:一级0.892,二级0.918,三级0.811,总差距0.081。GPT-5.4则呈现单调递减:一级0.732,二级0.696,三级0.651,三级比一级低了0.081。DeepSeek-V3.2的下滑最为剧烈:一级0.796,二级0.659,三级0.579,总差距达到0.218。

这种"一级到二级可能不降甚至微升,但一级到三级必然下降"的规律,其实反映了一个有意思的现象:二级考题的内容重点和考察方式有所不同,某些模型的知识结构恰好更擅长处理二级那类的综合计算题,反而在二级上发挥更好;但面对三级那种需要综合多领域知识进行策略性判断的题目,所有模型都难以维持高水平。这正说明三级测试在考察一种更高层次的能力——策略思维和多维度综合推理——而不仅仅是"更多的知识"。

七、同门内斗:Qwen家族的规模效应实验

研究团队还专门分析了同一模型家族内部不同规模版本的成绩变化,以此检验FINESSE-Bench有没有足够的"分辨率"来区分同门兄弟。

被选中参与这项分析的是Qwen3系列,包括Qwen3-8B、Qwen3-14B、Qwen3-32B和Qwen3-235B-A22B-Thinking-2507这四个版本,参数规模从8亿依次增长到2350亿。

在传统公开金融测试集上,这四个版本的成绩几乎没有区别:Qwen3-8B得分0.851,Qwen3-235B得分0.867,差距仅有0.016。这种"一视同仁"的评分结果,意味着传统测试集完全看不出大模型和小模型之间的能力差异——这是个很严重的问题。

FINESSE-Bench则显现出截然不同的景象。在专业考试类测试集上,Qwen3-8B的聚合得分为0.689,而Qwen3-235B高达0.838,差距扩大到了0.149;在实战交易类测试集上,Qwen3-8B得分0.674,Qwen3-235B得分0.803,差距为0.129。更重要的是,从8B到14B、再到32B、再到235B,成绩几乎呈现出单调递增的规律,没有出现反常的波动。

这个实验说明,FINESSE-Bench不仅可以用来比较不同公司的不同模型,还能精准捕捉到同一模型家族内部随参数规模增大而带来的真实能力提升——而传统测试集对这种规律是"瞎"的。

八、鉴别力分析:哪些题目最有价值?

研究团队还从一个有趣的角度分析了各个测试集的"质量":题目的鉴别力。

所谓鉴别力,是指一道题能否有效区分不同能力的AI。如果一道题所有模型都答对了,它对区分模型能力没有任何帮助;如果一道题所有模型都答错了,它同样没有意义。真正有价值的题目,是那些被10%到90%的模型答对的题目——这个区间被称为"中间辨别带"(mid-band 10-90)。

统计结果相当惊人。在传统公开测试集中,TAT-QA的中间辨别带占比只有12.35%,意味着绝大多数题目要么所有模型都能答对,要么都答错,几乎起不到分辨作用。ConvFinQA为18.41%,FinQA好一些,为24.15%——但与此同时,TAT-QA有45.74%的题目所有模型都能答对,说明这个测试集整体难度对当前顶尖模型来说已经偏低。

FINESSE-Bench的情况则大相径庭。CFA模拟二级的中间辨别带高达81.23%,三级为81.13%,Trading\_derivatives为70.40%,VLigaBench-ru为66.98%。这意味着这些测试集中的绝大多数题目都落在了最有价值的难度区间——它们既不会让所有模型全对,也不会让所有模型全错,而是真正地把不同能力的AI拉开距离。

一个特别值得一提的细节:CFA模拟三级的"所有模型全部答对"率只有0.94%,而"所有模型全部答错"率为0%。换句话说,三级考题中几乎没有任何一道题让所有模型都无能为力——哪怕最难的题,也总有模型能答对。这说明这套题目的难度设计非常精准,位于当前AI能力的正确挑战区间内,而非超出所有模型的能力上限。

九、谁是最稳的选手?全科均衡分析

除了单项冠军,研究团队还分析了哪些模型在所有测试维度上表现最为均衡——即不仅某一项突出,而是整体表现稳定、没有明显短板。

按照各测试组的平均分排序,Kimi K2.5以0.8746的三组平均分位列第一,最低单组成绩为0.850,标准差仅0.025,是稳定性最高的模型之一。Qwen3.5-Plus-02-15紧随其后,三组均分0.8702,但标准差更小,只有0.020,是所有高分模型中最稳定的。GPT-5.2的三组均分为0.867,表现也相当稳健。

相比之下,即便是总体成绩最高的Claude Sonnet 4.6,其最低单组得分(实战交易类0.825)也低于Kimi K2.5的最低单组得分(0.850),说明Claude在交易类任务上相对于其他测试组有一定程度的相对劣势。

GLM-5则呈现出另一种有趣的模式:它在专业考试类测试集上的聚合得分(0.873)甚至略高于传统公开测试集(0.872),是极少数在专业题上不比常规题差的模型之一。这表明GLM-5的金融知识深度可能超出了它在常规测试集上所展现的水平。

说到底,FINESSE-Bench这套测评体系真正回答的,是一个在AI金融应用爆发时代极为关键的问题:我们该怎么知道一个AI是真的"懂金融",而不是只会在熟悉的题型上表演?

这项研究告诉我们,那些在常见金融问答题上大放异彩的AI,放到职业资格考试风格的专业题目面前,成绩往往会大幅缩水。尤其是那些专门为金融场景微调的小型模型,在常规测试上看起来还不错,但在真实的专业任务上,竟然远不如那些没有特殊微调的大型通用模型——这个发现对于金融机构选型颇具参考价值。

研究团队也坦诚指出了这套体系目前的局限性。题目的来源在收集过程中没有做到完全追溯,这意味着部分题目可能已经出现在某些模型的训练数据中,形成"刷题"效应;现有覆盖范围虽然比之前的测试集更广,但仍然没有包括合规风控、银行风险建模、保险精算、金融法律等领域;俄语测试集的存在虽然很有价值,但未来应当进一步扩充多语种支持。

这些局限性并不影响这套体系的实用价值,但确实提醒我们:FINESSE-Bench是目前向更完整的AI金融能力评测迈出的重要一步,而非终点。未来的研究方向可能包括:引入更多开放性问答题而非单纯的选择题和数值题,进一步加强专家人工校验,以及持续扩展覆盖的金融子领域。

对于真正关心"AI能不能干金融活"这个问题的人来说,FINESSE-Bench提供了迄今为止最接近职业实战的评测维度。有兴趣深入了解全部实验细节和数据集的读者,可以通过论文编号arXiv:2605.15482查阅完整原文,数据集本身也已开源,可通过论文中提供的项目仓库获取。

Q&A

Q1:FINESSE-Bench和现有的FinQA、TAT-QA这些金融测评有什么本质区别?

A:FinQA、TAT-QA等主要考察AI"看财报回答问题"的能力,题目难度较为单一,当前顶级模型在这些数据集上已经接近饱和,很难区分出谁更强。FINESSE-Bench则引入了类似CFA职业资格考试的三级难度体系,加上期权交易、技术分析等专项测试,能够检验AI在真实职业场景中的表现,并且统计分析显示其题目的鉴别力远高于传统测试集。

Q2:Fin-R1这类专门为金融微调的模型,为什么在FINESSE-Bench上反而不如通用大模型?

A:Fin-R1等金融微调模型通常是在常规的金融新闻、财务报告、金融问答数据上进行专项训练,因此在对应格式的常规测试集上表现不错。但FINESSE-Bench覆盖的是职业资格考试风格和实战交易场景,这些内容与微调数据的格式和深度差距很大,微调带来的优势反而失效,而通用大模型依靠庞大的预训练数据积累了更广泛的推理能力,因此在专业题目上更有竞争力。

Q3:FINESSE-Bench对普通人或非专业机构有什么实际参考价值?

A:对于想使用AI辅助金融决策的个人用户来说,FINESSE-Bench的结论提示:在常规问答上表现好的模型,不代表它能处理复杂的期权策略或多步骤的投资组合分析。选择模型时应关注它在专业测试集上的稳定性,而非只看通用排行榜。具体而言,Kimi K2.5和Qwen3.5-Plus-02-15在三个维度上均表现稳健,GPT-5.2也表现均衡,相对适合需要综合金融能力的应用场景。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-