
这项由伊利诺伊大学厄巴纳-香槟分校与卡内基梅隆大学联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2606.11482。有兴趣深入了解的读者可以通过该编号查询完整论文。
**一、你有没有想过,某个重大事件发生后,人们的集体想法会朝哪个方向变化?**
2024年11月6日,唐纳德·特朗普赢得美国总统大选。就在消息传出的那一刻,全美乃至全球无数人的判断和预期都在悄悄发生改变——有人开始重新估算美联储年底是否会加息,有人开始押注加密货币Solana能否创下历史新高,还有人重新考量多个政治事件走向的可能性。这些变化不是无迹可寻的,它们留在了预测市场的价格数据里,如同一根根被风吹过的芦苇,每一次摆动都记录着那个时刻人群集体心理的细微颤动。
这个研究团队正是从这样的场景出发,提出了一个大胆的问题:能不能训练一个AI系统,让它像一位经验丰富的社会观察者那样,在重大事件发生之后,提前感知并预测集体信念的走向?他们给这个系统起了一个名字——社交世界模型(Social World Model,简称SWM)。
**二、为什么这个问题本来是"不可能完成的任务"**
在深入了解这套系统之前,有必要先理解为什么这个问题如此棘手,以至于此前几乎没有人能系统地解决它。
研究团队总结了三道横亘在研究者面前的"高墙"。
第一道墙是"怎么量化人心"。集体信念本质上是一种飘忽不定、难以捕捉的东西。你没法像测量温度一样测量"社会上有多少人相信某件事"。传统的民调数据往往有延迟、有偏差;社交媒体上的声音也不能代表全体——发推特的人和整个社会的想法之间存在系统性的偏差。没有高质量的数据,就无法训练出能学习规律的模型。
第二道墙是"社会逻辑太复杂"。即便你有了数据,社会信念的变化也不遵循什么简单的物理定律。为什么特朗普当选会带动加密货币价格预期上涨?这背后涉及人们对监管政策的猜测、对市场情绪的预判,以及各种间接的推理链条。这种复杂的语义逻辑,传统的统计模型或符号化规则根本没法"读懂"。
第三道墙是"没有标准答案"。假设某天预测市场上某个合约的价格跳涨了,这可能是因为当天某条新闻,可能是多条新闻共同作用,也可能只是市场内部的随机波动。没有人给每次价格变动贴上"这次是因为那条新闻"的标签,模型无法通过有监督的方式学习"事件→信念变化"的对应关系。
**三、用"预测市场"把飘忽的人心变成可测量的数字**
研究团队找到的第一个突破口,是用预测市场的价格数据来代替无法量化的集体信念。
所谓预测市场,可以理解为一种特殊的"赌注交易所"。以Polymarket和Kalshi这两个平台为例,用户可以在上面购买关于某个未来事件的合约,比如"特朗普会赢得2024年总统大选吗?"或者"美联储12月会加息50个基点吗?"。如果你认为某件事会发生,你就出价买"Yes";如果你认为不会发生,你就出价买"No"。最终,合约的市场价格会在0到1之间波动,这个价格在数学上近似于"交易者群体认为这件事发生的概率"。
这个机制有几个让研究团队特别感兴趣的特性。由于真实的金钱在流转,参与者会认真思考再下注,不会随便说一句"我觉得可能吧"就了事;参与者的多样性保证了价格能反映大量不同背景、不同信息来源的人的综合判断;此外,预测市场天然只会关注那些存在真正不确定性的问题,避免了"太显而易见"的无效数据。这三个特性加在一起,使得预测市场的价格成为一种比民调或社交媒体更高质量的集体信念量化指标。
基于这个洞察,研究团队从Polymarket和Kalshi两个平台收集了从2022年12月到2026年1月的历史数据,涵盖3000多个不同的预测市场,涉及政治、金融、加密货币等多个领域,最终构建出一个名为SWM-Bench的评测基准,包含超过12000个数据点。值得一提的是,由于大多数日子里预测市场的价格几乎不动,他们专门设计了一套筛选机制,只保留那些价格发生了显著变动的数据点,确保基准测试真正考验的是"读懂新闻对价格的影响"这件事,而不是"每天复制昨天价格"这种偷懒策略。
**四、这套系统的核心架构:一个"归因"加一个"预测"的双引擎设计**
有了数据,研究团队开始构建实际的预测系统。整个SWM的设计逻辑可以用一个侦探推理的框架来理解:先找出"案发原因",再推算"案发后果"。
每一次预测市场价格的变动,都可以看作一个需要解释的"案件"。案件发生的那天,周围可能同时存在十几条、几十条新闻——政治新闻、经济新闻、科技新闻,各种各样。其中哪一条才是"真凶"?哪一条新闻的出现,才是这次价格变动的真正驱动力?
SWM被设计成由两个核心模块组成。第一个模块叫做"事件归因器"(prior attributor),负责从当天的新闻候选池里找出最可能的"驱动新闻",给每条新闻打一个相关度分数,分数越高表示这条新闻越可能是这次价格变动的幕后推手。第二个模块叫做"世界模型"(world model),它接受归因器选出的新闻,结合历史价格走势,预测价格接下来会如何变化,以及变化幅度会有多大。
两个模块的分工非常清晰:归因器负责"读懂新闻与事件的关联性",世界模型负责"把新闻信息翻译成价格变化的量"。在实际预测时,系统会把所有候选新闻通过归因器打分,然后用这些分数作为权重,对世界模型给出的多个预测结果做加权平均,最终得出一个综合预测。
**五、最关键的难题:没有"真相标签"时,如何教会AI学习?**
前面说到,没有人告诉你"这次价格变动是因为那条新闻",所以训练过程面临一个根本困难:归因器怎么学会正确归因?
研究团队采用了一种极其巧妙的策略,可以称为"后验指导"。
设想这样一个场景:在事件发生之前,你只能猜测哪条新闻最重要;但在事件结果已知之后,一个见多识广的观察者看着"价格从0.24涨到了0.40",再回头看当天的新闻,往往能相当准确地判断出"哦,是这条关于特朗普赢得大选的新闻导致了这个变化"。这种事后诸葛亮式的判断,比事前猜测准确得多。
于是他们引入了第三个模块:一个"后验归因器"(posterior attributor)。这是一个大型语言模型(使用的是Qwen3.5-397B,一个参数规模极大的模型),它会在已知事后结果的情况下,对每条候选新闻打出一个"责任分"——这条新闻有多大可能是这次价格变动的原因。这个后验归因器就像案件中负责回顾审查的资深侦探,它不参与训练,只负责给每个训练样本打上"事后标签"。
有了这些"事后标签",前向归因器就可以进行学习:它的目标是在事前、不知道结果的情况下,尽量复现后验归因器的判断结果。世界模型同样受益于这些标签:它只需要在被告知"这条新闻是驱动力"的前提下,学习"这条新闻出现后价格应该变多少"。
这种训练方式在数学上被称为"优化证据下界"(ELBO),但用更直白的话说,就是让一个事前预测系统去模仿一个有"上帝视角"的事后分析系统,把后者积累的智慧蒸馏到前者的参数中。
**六、SWM-Bench:一场真实的考试**
训练完成后,研究团队用SWM-Bench对这套系统进行了严格的评测,并与多种竞争方法进行了比较。
评测指标涵盖四个维度:预测误差的绝对大小(MAE)、相对于"直接照搬昨天价格"这种最简单策略的改进程度(MASE,低于1意味着比什么都不做还要好)、方向准确率(DA,预测价格涨还是跌,三选一,包括涨、跌、不变)、以及预测值和真实值之间的相关性(Corr)。
对比的方法分为三大类。第一类是纯粹依靠历史价格数字做预测的时间序列模型,包括Autoformer、DLinear、iTransformer等业界知名模型。第二类是直接用大型语言模型(不经过专门训练)做预测,包括Qwen3-8B、GPT-5.5等,这类模型可以同时接受历史价格和新闻文本作为输入。第三类是经过专门训练、同样结合了价格和新闻信息的语言模型,包括Time-LLM、ChatTime、FNF等。
在Kalshi数据上,SWM的表现尤为亮眼。它在几乎所有指标上都超过了包括GPT-5.5在内的所有竞争对手,方向准确率(DA)在归因子集上达到了0.845,相关性(Corr)达到0.380,MASE降至0.800。特别值得注意的是,在被后验归因器认定为有明确新闻驱动的子集上,SWM的优势更加显著,这说明当信号清晰时,这套系统的学习成果发挥得非常充分。
Polymarket上的表现则呈现出一种有趣的分化:SWM在方向准确率上同样领先所有对手,但在价格幅度预测的精准度上略逊于GPT-5.5等大体量模型。研究团队分析认为,这主要源于Kalshi和Polymarket两个平台的结构性差异——Kalshi的市场问题与基本面事件的联系更紧密,新闻信号更清晰,只有约19%的价格变动可以被归因到某条新闻,而且这些变动中只有17%会在之后反转;Polymarket则存在更多算法交易和内生性波动,大约42%的大幅变动会在随后反转,这意味着很多价格变动并非来自外部新闻冲击,这种环境下基于新闻归因的训练方法受到了更大挑战。
研究团队还做了一个特别启发性的实验:如果在推理时把后验归因器(也就是拥有事后视角的"上帝模式")的结果直接用作权重,会怎样?结果显示,在Kalshi上方向准确率飙升到0.894,相关性达到0.525。这个结果说明,世界模型本身的预测能力其实已经相当强——当归因做对了,预测基本也对了。因此,当前系统性能的主要瓶颈在于"前向归因",也就是在不知道结果的情况下准确找到驱动新闻这件事本身的难度。
**七、规模和参数:更大的模型带来更强的能力**
研究团队还做了一系列消融实验,专门测试各种设计选择的影响。
关于模型规模,他们测试了0.6亿参数、40亿参数和80亿参数三个不同大小的Qwen3模型版本。规律非常清晰:模型越大,表现越好。以Kalshi上的结果为例,世界模型从0.6B增长到8B时,MASE从0.884下降到0.738,相关性从0.290提升到0.525。最显著的提升发生在0.6B到4B这一跳,说明额外的参数量主要用来加深模型对"新闻语义如何影响价格数值"这种跨模态映射的理解。
关于历史价格窗口的长度,他们测试了从仅看前1天到看前16天的不同设置。结果显示,窗口从1天扩展到4天时改善明显,但继续延长到16天时收益递减。换句话说,对于单步价格预测而言,大约四天的历史走势已经足够捕捉"市场动量"这一关键信息,更长的历史数据带来的边际收益有限。
关于候选新闻集合的大小,他们测试了从只给1条新闻到给出全部新闻的不同设置,并比较了随机选择、后验指导选择和前向归因器选择三种策略。后验指导只需要1条新闻就能达到使用全量新闻的效果,前向归因器在5条新闻时达到同等水平,而随机选择即便用完所有新闻也难以追平。这个结果有力地证明了"归因稀疏性"这一核心假设的合理性:大多数价格变动背后只有一个真正的驱动事件,找到它比罗列所有新闻更重要。
关于后验归因器本身的选择,研究团队比较了Qwen3-32B和Qwen3.5-397B两种规模的模型。397B版本生成的归因权重更尖锐,最高分新闻的平均得分为0.787,但它只对约12%的样本做出明确归因;32B版本的归因权重更分散(0.603),但覆盖了约48%的样本。用更大的后验模型训练出的世界模型,在有归因的子集上表现更好,但覆盖范围更窄。这揭示了一个需要根据实际需求权衡的取舍:如果你更在乎高置信度场景下的精准预测,用大后验模型;如果你更在乎覆盖全体样本,用小后验模型。
**八、从理论到现实:系统如何在两种模式下运作**
SWM被设计为支持两种截然不同的使用方式,这也是整个框架设计中最具实用价值的部分。
第一种是预测模式。系统拿到当天的候选新闻,让前向归因器给每条新闻打分,然后对世界模型针对每条新闻给出的价格变化预测做加权平均,最终输出一个综合预测价格。这相当于在事件发生后,系统综合考虑所有可能的驱动因素,给出一个"综合考量下"的预测。在论文中,研究团队用"特朗普与普京会面"这一预测市场合约作为案例:传统时间序列模型只看到价格在下跌,就简单预测会继续下跌;SWM则通过前向归因器识别出"俄乌和平协议"相关新闻获得最高权重(0.583),并由世界模型映射为+0.12的正向价格变动,最终的加权预测结果与市场实际的上扬走势吻合。
第二种是模拟模式。用户可以直接给世界模型输入一条特定的真实或假设新闻,让模型输出"如果这件事发生,价格应该变多少"。这是一种假设性问答的能力,类似于给经济学家一个反事实场景,让他估算影响。论文中展示的案例是"日本央行加息预期":当输入真实新闻"日本央行行长植田发出加息信号"时,世界模型预测价格上涨+0.14;当输入假设新闻"全球油价暴跌30%、通胀缓解"时,世界模型正确推断这会降低加息概率,给出-0.16的预测。
这里也有一个失败案例值得认真审视:当输入"日元贬值背景下丰田/索尼创利润新高"时,模型预测了-0.13的价格下降,暗示加息概率降低。但从宏观经济逻辑看,这其实是错的——日元贬值带来的企业利润高涨会加剧输入性通胀,反而会增加央行加息压力。模型在这里犯了一个"表面启发式"的错误:它似乎把"企业业绩好"简单映射为"维持宽松政策",而没有走完"企业盈利→通胀压力→加息压力"这条多步逻辑链。这个失败案例揭示了当前系统的一个根本局限:世界模型的推理深度受制于其底层语言模型是否真正掌握了复杂的多步经济因果机制。
**九、归因的本质:真正的因果还是表面的相关?**
研究团队坦率地承认,LLM驱动的后验归因并不能正式确保因果关系。它更像是一种"因果对齐的过滤器"——通过语义相关性、时间先后顺序和方向一致性来筛选最可能的驱动事件,但偶尔会被表面相关性误导。
一个真正因果对齐的案例是:对于"日本央行12月会议加息幅度预测"这个合约,被归因器赋予0.95高分的文章"日本央行将权衡加息利弊…",发布时间严格早于价格从0.69跳升到0.844的那一天,语义上直接触及市场问题,方向上也完全吻合——这是一个高置信度的因果归因。
一个虚假归因的案例是:对于多个"以太坊价格能否突破6000美元"类型的合约,归因器总是把同一篇报道以太坊横盘震荡的文章标记为"原因",不论价格是在涨还是在跌。这里的问题在于,高归因分数反映的是语义重叠(文章提到了以太坊),而非真实的因果关系。
这种局限性是整个研究框架设计时就必须接受的代价,也是研究团队在论文中主动指出而非刻意回避的问题。
**十、这套系统对世界意味着什么**
研究团队在论文末尾专门用一整节讨论了这套系统潜在的正面价值与风险。
正面价值方面,SWM可以帮助政策制定者、经济学家和非政府组织提前感知公众对重大事件(如疫情政策、经济冲击、政策转向)的反应方向,从而制定更前瞻、更有针对性的应对措施。它还可以被用来检测非自然的、突然的集体信念转变,帮助研究人员识别和分析协调性的舆论操纵行为。
风险方面,研究团队提出了一个相当严肃的警告:如果被恶意使用,这套系统有可能被用来反向设计——找出能触发特定信念变化的最有效信息刺激,从而优化定向虚假信息的投放。此外,如果SWM的预测结果被公开用于实时市场,模型本身的预测可能会影响市场价格,进而改变它所测量的那个"集体信念",形成一种自我强化的反馈回路。
由此可见,研究团队建议这类工具应当以透明和防御性的方式部署,而非主动干预公众舆论。
---
说到底,这项研究做的事情可以用一句话概括:把"人们集体怎么想"这件原本飘在空中、难以触摸的事,变成了一套可以学习、可以预测、可以模拟的数学系统。它用预测市场的价格数据解决了"怎么量化人心"的问题,用大型语言模型解决了"怎么理解社会逻辑"的问题,用后验归因蒸馏解决了"没有标签怎么训练"的问题。三个看似无解的困难,都找到了各自精巧的出口。
这套系统当前仍有明显的局限性——在复杂的多步经济因果链面前会犯错,在充满算法交易的市场里归因会失灵,覆盖范围和精准度之间仍需权衡。但它开辟了一条以前几乎没有人走过的路:用参数化的世界模型直接建模宏观层面的社会信念动态,而非逐个模拟数百万个体的行为再从中涌现出宏观规律。
未来,当AI系统能够更准确地预测人们对各类事件的集体反应时,这将改变政策决策的方式、危机管理的方式,乃至信息战中攻防双方的博弈方式。这项研究在这条路上迈出了值得记录的一步。
有兴趣深入研究这套系统技术细节的读者,可以通过arXiv:2606.11482查阅完整论文,代码和数据集也已通过论文中提供的GitHub和HuggingFace地址公开。
---
Q&A
Q1:社交世界模型(SWM)是如何解决没有"事件导致信念变化"标注数据这一难题的?
A:SWM引入了"后验归因器"这个关键设计。具体做法是:使用一个大型语言模型(Qwen3.5-397B),在已知价格变化结果的情况下,回头判断每条候选新闻对这次变化的"责任度",生成伪标签。前向归因器和世界模型再以这些伪标签为目标进行训练,从而在没有人工标注的情况下实现有效学习。
Q2:SWM在Kalshi和Polymarket两个平台上表现差异显著的原因是什么?
A:两个平台的市场结构不同。Kalshi的问题与基本面事件联系更紧密,新闻驱动的价格变动更规律;而Polymarket存在更多算法交易,约42%的大幅变动会在随后反转,说明很多价格波动来自内生流动性而非外部新闻冲击。在算法交易主导的环境中,基于新闻归因的训练方法受到更大干扰,这是SWM在Polymarket上表现相对较弱的核心原因。
Q3:SWM的模拟模式和预测模式有什么区别,分别适合什么场景?
A:预测模式会结合所有候选新闻,通过前向归因器加权后输出综合预测,适合日常市场走势预测。模拟模式则跳过归因器,直接接受用户指定的一条真实或假设性新闻,输出该事件对价格的影响估算,适合"如果X发生,市场会如何反应"这类假设性情景分析,相当于一个可交互的社会舆论反应模拟器。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。