
这项由斯德哥尔摩大学经济系与苏莱曼·德米雷尔大学社会科学研究所联合开展的研究,发表于2026年的《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence),论文编号为arXiv:2605.19014v1,于2026年5月18日公开发布。有兴趣深入了解的读者可通过该编号检索完整论文。
每个人的收入轨迹就像一条蜿蜒的河流。年轻时可能细窄湍急,中年时也许宽阔平稳,偶尔遭遇干旱或洪涝。如果有一张足够精确的地图,能提前预判这条河流未来三十年的走向,那对于管理整个国家的财政政策来说,价值不可估量。
欧洲各国的财政部和中央银行正是面对这样的需求。他们需要预测每个人一生中大概会挣多少钱,进而评估税收政策的效果、养老金制度的可持续性,以及各类福利改革对社会分配的影响。瑞典的FASIT模型、英国的IGOTM模型、美国的TRIM3模型,还有欧盟整体使用的EUROMOD框架,都依赖同一个核心组件:一个能预测个人终身收入轨迹的预测工具。
然而,长期以来这个核心组件用的是一套相当"老派"的方法,就像用一把直尺去预测一条弯弯曲曲的河流走向。这项新研究提出了一个名为SAGA的全新预测系统,用现代深度学习技术替换了这把"直尺",并在瑞典超过两百万人、跨越三十三年的真实行政数据上进行了验证。结果显示,这台"人生预测机"比原有方法精准得多,在某些关键指标上误差缩小了将近四成。
一、旧地图的局限:传统收入预测方法为何失效
为了理解这项研究解决的问题,需要先了解现有的"旧地图"是什么样的。
现有的主流方法叫做"参数化随机收入过程",其中最权威的版本由美国经济学家Guvenen、Karahan、Ozkan和Song四人提出,简称GKOS模型。这个模型的核心思路是:把一个人的年收入拆分成几个数学组件。第一个组件是个人固定效应,也就是某人天生的禀赋和初始条件,类似于河流的起点海拔。第二个组件是一个缓慢变化的"永久冲击",代表那些能够长期影响收入的事件,比如升职或遭遇重大失业。第三个组件是短暂波动的"暂时冲击",就像收入河流上的涟漪,转瞬即逝。
这个模型确实捕捉到了一些重要规律。比如它能解释为什么收入变化分布有一条很长的左尾,也就是说人们偶尔会遭遇收入急剧下滑,而急剧上涨则相对少见。它在美国、挪威、丹麦、德国的数据上都得到了验证。
但这张"旧地图"有三处根本性的空白。第一处是它只看历史收入,完全忽略了大量已知的、影响收入走势的信息,比如你从事什么职业、在哪个行业工作、你的雇主是谁、你住在哪里、你的教育背景如何、你的家庭结构怎样,以及当前的宏观经济形势是好是坏。这就好像预测一条河流的走势,却只看昨天的水位记录,完全无视周围的地形、季节和气候系统。
第二处空白是即便考虑了这些特征,旧方法也只用一个单一的"固定效应"数字来总结所有这些信息对于一个人收入的影响,就像把一个人所有的个人特征都压缩成一个数字,大量细节被丢掉了。
第三处空白是这套模型有固定的数学形式,不够灵活。要让模型保持可以手工计算的优美结构,就必须接受某些假设,而这些假设在现实中未必成立。
正是这三处空白,让GKOS及类似方法在预测个人终身收入分布时产生系统性偏差,进而导致下游的政策分析出现误差。
二、新地图的构建:SAGA如何学会读懂人生轨迹
SAGA这个名字代表"序列自适应生成架构"(Sequence-Adaptive Generative Architecture)。从技术角度来说,它是一个"仅解码器的变换器",也就是近年来ChatGPT等大语言模型所使用的那类核心架构的一个专门变体。但研究团队在这里并不是用它来生成文字,而是用它来预测数字——具体来说,是预测一个人未来每一年的收入。
用一个具体的比喻来理解SAGA的工作方式:假设你要预测一个人的人生河流走向。旧方法是拿着一个简单的公式,只输入过去几年的水位记录,然后算出一个预测值。SAGA则像是聘请了一位拥有无数案例经验的资深分析师,这位分析师不仅看过去十年的水位,还同时查看这条河流所在地区的地形(职业信息)、土壤类型(行业信息)、历史气候档案(宏观经济年份信息)、流域居民的情况(家庭结构),以及这条河有没有改道过(职业跳槽记录)。分析师在脑海中把所有这些信息整合在一起,再给出对未来河流走向的判断,并且不只给出一个预测值,还给出一个完整的"可能性分布"——这条河有多大概率会在某个范围内,有多大概率会特别大或特别小。
SAGA在技术实现上有几个关键设计。首先是它的输入方式。每一年的个人记录被转换成一个"令牌",也就是一段固定长度的数字表示。这个令牌由五个部分拼接而成:十五个连续数值特征(包括劳动收入、自雇收入、资本收入、工作小时数、失业天数、育儿假天数、病假天数等)经过标准化处理后映射成64维向量;职业、行业、地区、教育程度等类别特征各自有独立的嵌入表,拼接后形成76维向量;一个16维的缺失值指示向量记录哪些特征这一年没有数据;一个64维的年龄位置嵌入和一个32维的日历年份嵌入。五个部分合并成252维,再通过一个线性变换升维到384维,作为变换器的工作维度。
为什么要把年龄和年份分开处理?这是一个颇具匠心的设计。年龄追踪的是一个人的人力资本积累过程——30岁的你和50岁的你处于人生的不同阶段;而日历年份追踪的是宏观经济环境——2009年金融危机那年的经济背景和2019年完全不同。这两类信息都影响收入,但影响机制不同,把它们混在一起处理会丢失信息。
SAGA的核心是六层变换器,每层有八个注意力头,模型维度384,前馈网络内部维度1536。整个模型共有约一千零八十七万个参数。变换器的注意力机制采用因果掩码,也就是预测未来某一年时,只能"看到"之前的年份记录,不能偷看未来——这在逻辑上保证了预测的合理性。
输出端有两个并行的头。第一个是点预测头,给出对数收入的单一数值预测;第二个是分位数预测头,同时输出第5、10、25、50、75、90、95百分位数共七个值,构成完整的概率分布。这样,SAGA不只告诉你"预测这个人明年挣X万",还会告诉你"有90%的概率他的收入会落在Y到Z之间"。
三、给预测加上"质量保证":共形预测校准
即便一个模型的预测分布很合理,它给出的置信区间也未必真的覆盖了正确比例的真实值。打个比方:如果一个模型说"我有90%的把握这个人的收入会在10万到50万之间",那在实际测试中,真实收入真正落在这个区间的比例应该接近90%。如果只有70%,这个模型就是"过度自信的";如果有99%,则是"过度保守的"。这种实际覆盖率与声称覆盖率之间的一致性,叫做"校准性",是预测系统用于实际决策的关键质量指标。
SAGA配备了一套叫做"分裂共形校准"的装置来保证这个性质。这套方法的工作原理类似于产品质检:在一批专门的"校准数据"上(具体来说是1980年到1982年出生队列的个人数据,共168,542人),计算模型预测区间的误差大小;然后根据这些误差的分布,对模型给出的区间进行调整,使得最终区间的覆盖率有严格的数学保证。
这个方法有一个重要的理论基础:只要校准数据和测试数据来自同一分布(也就是说两批数据本质上是同类型的),这个覆盖率保证就是有限样本下成立的,不需要任何关于数据分布形状的假设。这与大多数统计方法需要假设数据服从正态分布等条件不同,是一种更为稳健的保证方式。
研究团队还在这个基础上做了一个扩展,专门处理多步预测中不同预测步长的问题。预测一年后的收入和预测二十年后的收入,误差大小本质上是不同的,不能用同一套校准参数来调整。他们提出了"自适应时间共形预测"方案,对每个预测步长分别维护一套校准参数,并证明了该方案的覆盖率理论保证(论文中的定理2),理论预测的最坏情况偏差大约为2.4个百分点,与实际观测到的低收入组最大偏差完全吻合。
四、数据:三十三年、两百万人的人生账本
SAGA训练所用的数据来自瑞典的LISA登记册(Longitudinell integrationsdatabas for sjukforsakrings och arbetsmarknadsstudier),这是瑞典统计局从1990年开始维护的行政记录,覆盖每一位在瑞典居住的16岁以上公民,每年一条记录。
这份数据通过链接税务局的收入记录、社会保险局的失业和育儿假记录、教育登记册、人口登记册和企业登记册构建而成,信息密度极高。研究团队筛选了1960年到1990年出生的队列,剔除了观测年数过少、中途移民、收入异常高(超过当年99.99百分位)或观测窗口有缺口的个体,最终得到2,143,817名个人、61,284,903条人年观测记录的分析样本。
数据按出生队列分成三个部分。1960年到1979年的二十个出生队列共1,834,201人用于训练模型;1980年到1982年的三个队列共168,542人用于校准和早停;1983年到1985年的三个队列共141,074人是测试集,模型在开发过程中从未见过这批数据。此外还有一个完全独立的时间外测试集,包含1986年到1990年出生的287,391人,专门用于检验模型在完全未知的未来队列上的泛化能力。
在预测任务的设计上,模型用每个人最初观测到的前十年数据作为条件窗口,然后预测此后直到64岁的每一年收入,最长预测窗口可达三十年。终身收入目标定义为以20岁为基准、用2%实际利率折现的每年收入之和,单位为2022年不变价格的瑞典克朗。
五、模型的对手们:五个比较基准
为了公平评估SAGA的真实水平,研究团队设置了五个比较基准。
最重要的对手就是前面介绍的GKOS参数化模型,它在同样的瑞典数据上重新估计参数,是最强的传统基准。估计结果显示,AR(1)系数约为0.924,说明收入冲击有很强的持续性;永久冲击的混合正态分布参数与文献中美国和挪威的结果基本吻合。
第二个对手是更简单的AR(1)加固定效应模型,这是更经典、更古老的参数化方法,用阿雷拉诺-邦德GMM方法在一阶差分上估计参数。
第三个对手是梯度提升树模型,具体用LightGBM实现。对每个预测步长分别训练一个独立模型,输入的是与SAGA相同的条件窗口特征,同样输出七个分位数预测。
第四个对手是LSTM,一种传统的循环神经网络,参数量约一千零九十四万,与SAGA规模相当,使用相同的输入编码方式和输出结构,训练流程也完全相同。这个比较专门用于隔离序列处理能力上变换器架构与循环神经网络的差异。
第五个对手是静态特征前馈网络,把整个条件窗口展平成一个向量,输入一个六层全连接网络,用于隔离序列维度的贡献——如果这个模型表现也很好,说明时序信息本身的价值不大;反之则说明序列建模是关键。
六、预测结果:SAGA在各个战场上的表现
在预测精度上,SAGA在超过一年的所有预测步长上都胜过了所有五个基准模型,而且优势随着预测步长延长而显著扩大。
以连续排序概率分数(CRPS,一种综合评估预测分布质量的标准指标,数值越低越好)为例:在十年预测步长上,SAGA的CRPS为0.318,而GKOS为0.467,相对改善幅度为31.9%;在二十年步长上,SAGA进一步降低到0.631对应的绝对误差水平,相对GKOS的CRPS改善达到41.2%。LSTM的CRPS在十年步长为0.364,梯度提升树为0.401,静态前馈网络为0.428,都明显不如SAGA。
在平均绝对误差(MAE,衡量对数收入预测的绝对偏差)上,SAGA在二十年步长的误差为0.631,而GKOS为1.013,改善幅度为37.7%。一年步长的改善最小,为16%,这符合预期——短期收入有很强的自相关性,任何合理的模型都能利用最近的收入水平做出不错的一年预测,竞争优势主要体现在长期。
在预测区间覆盖率上,SAGA的90%置信区间在测试集上的实际覆盖率为90.3%,几乎完美地命中了目标。相比之下,GKOS的同等置信区间实际覆盖率为86.3%,LSTM为84.7%,梯度提升树为82.1%,静态前馈网络仅79.8%。
按人口亚群体分解后,改善幅度呈现出有规律的异质性。低收入群体(收入最低的五分之一)的改善幅度最大,达44.7%;工作经历不稳定的人(前十年换过四次以上雇主)改善幅度47.3%;而收入较高且雇主稳定的群体改善幅度只有24.1%。这个规律说明,SAGA的优势恰好集中在传统参数模型最力不从心的地方——那些人生轨迹非线性、不规律、难以用简单公式描述的人群。
按教育程度来看,受教育程度越低的群体改善越明显:仅完成义务教育者改善41.2%,高中毕业者31.4%,短期大专28.3%,长期本科及以上24.7%。这与"高教育群体收入轨迹更平稳可预测"的直觉相符。
按地区看,大城市(斯德哥尔摩27.1%、哥德堡29.4%)的改善小于农村地区(36.3%),可能反映了农村地区收入路径更受非线性结构因素影响。
七、终身收入的重建:谁更接近真相
更重要的检验是:将预测出来的未来收入路径合并成完整的终身收入,看这个终身收入的分布有多接近真实情况。
研究团队对每个测试个体用蒙特卡洛方法模拟500条可能的人生路径:每一步根据SAGA预测的分位数分布随机抽取一个当年收入值,附加到历史记录后面,再继续预测下一年,如此循环到64岁;将每条路径的各年收入用2%实际利率折现求和,得到一个终身收入值;500次模拟形成一个关于终身收入的概率分布。
结果显示,SAGA重建的终身收入基尼系数为0.327,而"部分观测真相"(测试队列在数据窗口内实际观测到的终身收入,只覆盖到37-39岁)对应的基尼系数为0.341。两者相差0.014。相比之下,GKOS重建的基尼系数为0.378,与真相相差0.037,偏差是SAGA的两倍多。
收入最高的1%群体的终身收入份额上,SAGA重建为8.3%,真相为8.9%,偏差0.6个百分点;GKOS重建为11.2%,偏差2.3个百分点。用中学数学来理解这个差距:如果GKOS认为最富的1%人掌握了11.2%的终身财富,而实际是8.9%,那基于GKOS进行的富人增税政策模拟,就会系统性地高估向富人征税能带来多少额外收入,具体来说大约会高估2.3%左右。
八、放进税收模拟器:误差会传导多远
研究团队进一步把每个模型的预测路径输入一个简化版的瑞典终身个税计算器,应用2022年的税制规则,统一折现到20岁,计算终身税负、平均有效税率、税负基尼系数和最高收入1%群体的平均有效税率。
SAGA重建的平均有效税率为30.1%,与部分真相值30.6%相差0.5个百分点;GKOS重建的平均有效税率为29.4%,相差1.2个百分点。最高收入1%群体的有效税率上差距更大:SAGA重建为42.7%,真相为43.4%,差0.7个百分点;GKOS重建为46.8%,差3.4个百分点。终身税负基尼系数上,SAGA为0.341,真相为0.358,差0.017;GKOS为0.397,差0.039,几乎是SAGA的两倍。
这些数字对政策实践的意义是明确的:如果财政部用GKOS类模型来评估一项收入税改革,关于高收入者税负的模拟结果会存在系统性高估,进而导致政策设计出现可量化的偏差。
九、拆解SAGA:哪些部分真正起作用
研究团队做了一系列消融实验,通过逐一去掉某个组件来测量该组件对最终性能的贡献,所有测量均以十年步长的CRPS为标准。
去掉职业和行业信息后,CRPS上升5.0%;去掉家庭和家庭收入信息后上升2.8%;把变换器换成参数量相当的LSTM后上升14.5%;把整个序列模型换成在窗口上跑的全连接网络后上升55.0%;去掉分位数输出头只保留点预测后上升9.1%;去掉日历年份嵌入后上升7.2%;去掉年龄嵌入后上升11.3%;去掉缺失值指示向量后上升1.9%。
把模型维度从384降到192,CRPS上升3.1%;从384升到768,几乎没有改善(仅0.3%),说明384是这个数据规模下接近最优的配置,不是参数越多越好。
三个最重要的组件分离实验尤其揭示了性能来源。首先,把共形校准层关掉、只用点预测头,CRPS上升15.4%——这说明概率校准本身贡献不小。其次,把共形校准层搬到GKOS模型上(也就是用更好的校准技术包装旧的参数模型),CRPS比SAGA还差41.8%——说明性能提升的核心在于变换器主干,而不仅仅是更好的校准技术。第三,把SAGA主干的分位数输出头换成GKOS风格的混合正态输出头,只损失4.4%——说明分位数直接回归和参数混合分布在这里几乎一样好,变换器主干本身才是关键。
十、注意力告诉我们什么
研究团队还分析了变换器的注意力模式,也就是在预测某一年时,模型"最看重"过去哪些年的信息。
预测一年后时,注意力高度集中在最近的两三年,这与直觉一致:短期收入最受近期水平影响。预测五年后时,注意力开始稍微扩散。预测十年和二十年后时,注意力均匀地铺开到整个十年条件窗口,并且在包含职业跳槽或行业转变的那些年份上有明显的权重峰值。这说明,对于长期预测,模型学会了识别人生轨迹中的"转折点"信息,并赋予其更高的预测权重。
用积分梯度方法对五个匿名测试个体进行特征归因分析也得到了类似结论:教育程度指标、行业代码和当前收入水平在中长期预测中有最高的归因得分,符合人力资本理论对收入长期动态的基本理解。
十一、结果的边界:研究承认的局限
这项研究在讨论部分坦诚地列出了若干局限,这些局限对于理解研究成果的适用范围同样重要。
首先是外部有效性的问题。SAGA是在瑞典数据上训练的,架构可以迁移到其他国家,但模型参数不能直接照搬。北欧注册数据的信息密度在全球范围内属于最高水平,其他国家可能因为缺乏部分行政链接数据而获得更小的改善。研究团队用一个特征子集消融实验(研究表V中的R8行)测试了这一点:把输入特征限制在美国PSID调查数据能提供的变量范围内,SAGA相对GKOS的改善从31.9%降至21.4%,说明北欧注册数据的额外信息确实贡献了可观但不是全部的优势。
其次是模型过时的问题。SAGA假设未来的收入条件分布与训练窗口(1990到2022年)相同,如果未来发生结构性变化,比如人工智能替代大量职业,模型会逐渐失效,需要周期性再训练或者引入分布漂移检测。
第三是关于终身覆盖率的问题。共形校准在每个年度步长上有严格的理论保证,但把五百条年度预测路径合并成终身收入分布后,这个保证不能自动传递。实际测试中,终身收入的90%置信区间实际覆盖率为89.2%,稍低于目标,研究团队指出这是一个未解决的技术问题,需要专门的终身聚合校准方案。
说到底,这项研究做的事情是把政府财政分析的一个核心底层工具,从上世纪八九十年代的参数化方程组更换为现代深度学习架构,并用现代统计理论保证了预测区间的可靠性。它的价值不在于哪个具体算法技巧有多新颖,而在于把这一整套组合——数据、架构、校准、评估、下游应用——系统性地做了一遍,并用真实的两百万人数据证明了这种替换在关键指标上有显著收益。
对普通人来说,这意味着政府在设计税率、养老金制度或失业保险方案时,所依赖的那个"预测每个人一生能挣多少钱"的计算工具,可能正变得更加精准。一个1个百分点的终身收入顶层份额估计偏差,经过政策乘数放大后,可能导致数十亿克朗的税收收入预测误差。SAGA所展示的方向是,这类误差可以通过更好的预测工具系统性地压缩。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.19014v1检索完整论文,模型权重、校准表格和合成数据集也已通过Zenodo平台以DOI 10.5281/zenodo.20260287公开发布,代码库则托管于GitHub。
Q&A
Q1:SAGA模型和GKOS参数化模型的核心区别是什么?
A:GKOS模型只用一个人的历史收入数据来做预测,把其他一切信息压缩成一个固定效应数字。SAGA则同时使用职业、行业、教育、家庭结构、地区、宏观经济年份等十五个连续特征和多个类别特征,通过变换器架构学习这些特征与未来收入之间的复杂非线性关系。在二十年预测步长上,SAGA的平均绝对误差比GKOS低37.7%。
Q2:共形预测校准在收入预测中能保证什么?
A:共形校准能保证模型给出的置信区间在测试集上有有限样本内的边际覆盖率保证,无需假设数据服从任何特定分布。具体来说,SAGA的90%置信区间在测试集上实际覆盖率为90.3%,误差在0.5个百分点以内。最差情况下(最低收入五分之一群体)覆盖率为87.6%,偏差2.4个百分点,与理论上界吻合。
Q3:SAGA的终身收入基尼系数预测为什么比GKOS更准确?
A:GKOS倾向于高估收入分布的两端,导致基尼系数偏高(0.378,真实值约0.341)。SAGA通过更好地捕捉人力资本积累的路径依赖性,在中位数附近的预测更准确,同时对高收入尾部的过度发散有更强的抑制,重建的基尼系数为0.327,与真实值的偏差比GKOS小近六成。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。