这项由普林斯顿大学的Seth Karten、Wenzhe Li、Zihan Ding、Samuel Kleiner等研究者与Salesforce Research的Yu Bai共同完成的突破性研究,发表于2025年7月。这个被称为"LLM经济学家"的创新框架首次让大型语言模型学会了设计和管理复杂的经济政策。有兴趣深入了解的读者可以通过论文代码库github.com/sethkarten/LLM-Economist访问完整研究内容。
当我们谈论人工智能的未来时,大多数人会想到聊天机器人或图像生成器。但是,如果AI能够管理整个社会的经济政策呢?普林斯顿大学的研究团队刚刚让这个看似科幻的想法变成了现实。他们创造了一个名为"LLM经济学家"的系统,这个系统就像一个虚拟世界的财政部长,能够为数百个AI"居民"制定最优的税收政策。
这个研究的核心魅力在于它解决了一个现实世界中极其复杂的问题:如何设计既公平又有效的税收制度。每当政府考虑调整税率时,经济学家们都需要预测这些变化会如何影响不同收入群体的行为。传统的经济学模型往往过于简化,假设所有人都会以完全理性的方式做出反应。但现实中,一个企业家可能对高税率的反应与一个公务员完全不同。
研究团队巧妙地将这个问题转化为一个多层次的游戏。在这个虚拟经济体中,底层是一群"工人"AI,每个都被赋予了独特的身份和背景故事。有些是雄心勃勃的科技创业者,讨厌高税收因为这会削减他们的投资资金;有些是关心社会公平的教师,认为富人应该承担更多税负来支持公共服务;还有些是生活拮据的零售店员工,对任何可能影响收入的政策变化都格外敏感。
这些虚拟"居民"的特征并非凭空想象,而是基于美国人口普查局2023年的真实数据精心设计的。研究团队从庞大的人口统计数据中提取信息,确保这个虚拟社会在收入分布、职业构成和人口特征方面都能真实反映美国社会的现状。这就好比在电脑中重建了一个微缩版的美国社会,每个虚拟居民都有自己的经济状况、价值观和对税收政策的独特看法。
在这个虚拟社会的顶层,有一个"规划者"AI扮演着财政部长的角色。这个AI的任务是观察整个社会的经济状况,然后提出能够最大化全社会福利的税收方案。但这里的挑战在于,每当规划者调整税率时,所有的工人AI都会重新评估自己的工作意愿和努力程度。一个原本每周工作60小时的企业家可能会因为税率过高而减少工作时间,而一个教师可能会因为看到更好的公共服务而更加支持新的税收政策。
这种互动创造了经济学中著名的"斯塔克尔伯格均衡"局面。这个有趣的名字来源于德国经济学家海因里希·冯·斯塔克尔伯格,他研究的是一种特殊的竞争模式:一方先行动(在这里是规划者制定税收政策),然后另一方根据这个行动做出最优反应(工人们调整工作努力程度)。这就像下棋时,一方先走一步,对方看到这步棋后再决定自己的最佳应对策略。
研究团队让这个系统运行了相当于多年的时间跨度,观察税收政策如何在反复调整中逐渐趋于最优。他们发现,这个AI系统最终制定出的税收方案竟然与经济学理论中的最优解非常接近。更令人惊讶的是,在某些情况下,AI系统的表现甚至超越了传统的经济学模型。
这种超越并非偶然。传统的经济学模型,比如著名的萨艾兹公式,虽然在理论上很优雅,但它们基于一些在现实中很难成立的假设。比如,这些模型通常假设所有人对税收变化的反应弹性是固定的,不同收入档次之间相互独立。但在现实中,当政府调整一个收入档次的税率时,往往会影响到其他档次的人的行为。一个年收入15万美元的工程师可能会因为看到20万美元档次的税率上升而调整自己的工作策略。
LLM经济学家系统的独特之处在于,它不需要这些简化假设。每个虚拟居民都会根据完整的税收结构和自己的个人情况做出决策。这就像在一个真实的社会实验中,每个人都能看到完整的政策画面,并据此调整自己的行为。
研究团队还在这个虚拟社会中引入了民主投票机制。每隔一段时间,所有的虚拟居民都可以投票选择他们偏好的规划者。不同的规划者候选人会提出不同的税收政策平台,试图争取选民支持。这创造了一个更加动态和现实的政策制定环境。
这个投票机制带来了一些有趣的现象。在小规模的三人社会实验中,研究团队观察到了经典的"多数暴政"现象:两个收入相对较低的居民反复选举彼此为规划者,制定对他们有利但对第三个高收入居民不利的税收政策。这个第三个居民的处境确实变得更加困难,其效用水平明显低于其他两人。
但在更大规模的100人社会中,情况变得截然不同。选举带来了频繁的政策变化,几乎每个税收年度都会有新的规划者上台。这种看似混乱的状况实际上产生了积极的效果:选举过程中的竞争促使候选人提出更好的政策方案,最终提升了整个社会的福利水平。这就像政治竞争能够激励候选人提出更优秀的施政纲领一样。
研究团队通过大量的实验验证了系统的有效性。他们测试了不同的参数设置,比如税收调整的频率、工人适应新政策所需的时间等。结果显示,给工人足够时间适应新政策(大约128个模拟步骤)对于达到最优结果至关重要。如果政策调整过于频繁,工人们还没来得及完全适应就面临新的变化,整个系统就无法稳定在最优状态。
另一个重要发现涉及AI规划者的决策策略。研究团队发现,最有效的规划者会采用"先探索后开发"的策略。在初期,它们会尝试各种不同的税收方案,观察社会的反应;一旦找到表现良好的政策,它们就会坚持这个方向并进行精细调整。这种策略平衡了创新探索和稳定执行的需求。
系统的可扩展性也得到了验证。研究团队成功地将实验规模扩展到1000个虚拟居民,证明了这个框架能够处理更接近现实社会复杂度的场景。随着居民数量的增加,系统的计算需求确实上升了,但仍然保持在可接受的范围内。
这个研究的技术实现也颇具创新性。整个系统基于Llama-3.1-8B-Instruct语言模型构建,所有的决策和交互都通过自然语言进行。工人AI会收到诸如"你的税前收入是8万美元,按照当前税率你需要缴税1.5万美元,获得2000美元的税收返还"这样的信息,然后用自然语言表达他们的工作决策。规划者AI则会分析收入分布和社会福利数据,提出像"将第二档税率从25%调整为23%"这样的政策建议。
研究团队还比较了不同语言模型的表现。他们发现,更先进的模型(如GPT-4)确实能够制定出更好的经济政策,达到理论最优解的98.2%,而Llama模型则达到90%。这表明AI模型的能力直接影响经济治理的质量,未来随着AI技术的进步,这类系统的表现还有很大提升空间。
这项研究的意义远远超出了学术范畴。随着越来越多的AI系统开始参与经济活动——从自动交易算法到智能定价系统——我们迫切需要理解这些AI代理如何相互作用,以及如何设计治理机制来确保良好的社会结果。LLM经济学家提供了一个安全的"试验场",政策制定者可以在其中测试各种经济政策,而不必承担现实世界实验的风险。
当然,这个系统也有其局限性。虚拟居民的技能水平在实验中保持不变,但现实中人们会学习新技能、换工作、创业或退休。此外,系统目前只考虑了劳动供给决策,而没有包含消费、投资、储蓄等其他重要的经济行为。研究团队也坦承,他们的虚拟社会虽然基于真实的人口统计数据,但在复杂的社会关系和文化因素方面仍有简化。
展望未来,这类系统可能会在多个领域发挥作用。政府机构可能会使用类似工具来预测政策效果,企业可能会用它来理解市场动态,学者们则可以用它来测试经济理论。更进一步,随着真实世界中AI代理数量的增长,这些模拟系统可能成为理解和管理AI经济的重要工具。
说到底,LLM经济学家代表了AI研究的一个重要转向:从单纯的工具开发转向复杂系统的治理。这项研究告诉我们,AI不仅能够执行任务,还能够参与社会治理的复杂决策过程。当然,这也提醒我们需要认真考虑AI系统的设计和监管,确保它们能够促进而非损害人类社会的福祉。
归根结底,这个虚拟经济实验室为我们打开了一扇窗,让我们得以窥见AI参与社会治理的未来图景。虽然距离AI财政部长管理真实经济还有很长的路要走,但这项研究已经证明了这种可能性的存在,也为我们思考AI与人类社会的未来关系提供了宝贵的启示。有兴趣的读者可以通过github.com/sethkarten/LLM-Economist查看完整的研究代码和详细文档。
Q&A
Q1:LLM经济学家是什么?它能做什么? A:LLM经济学家是普林斯顿大学开发的AI系统,它能在虚拟社会中为数百个不同背景的AI"居民"设计最优税收政策。系统包含工人AI和规划者AI两层,通过不断互动找到平衡效率与公平的最佳税收方案,甚至能模拟民主投票过程。
Q2:这个系统会不会真的用来管理现实经济? A:目前不会直接管理真实经济,但可以作为政策制定的重要参考工具。它主要用于安全地测试各种经济政策效果,帮助政府和研究机构在实施前预测政策影响,避免现实世界实验的风险。
Q3:虚拟居民的行为有多接近真人? A:虚拟居民基于美国人口普查真实数据设计,具有不同职业、收入和价值观。它们会像真人一样对税收变化做出差异化反应,比如企业家可能因高税率减少工作,教师可能更支持用于公共服务的税收,整体行为模式相当接近现实。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。