微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI预言机能预测未来吗？马克斯·普朗克研究所等机构揭示：顶尖AI预测真实世界事件的成绩单令人惊讶

AI评估基准预测与推理自适应智能体

AI预言机能预测未来吗？马克斯·普朗克研究所等机构揭示：顶尖AI预测真实世界事件的成绩单令人惊讶

作者：科技行者

2026-05-21 10:15

分享至：

马克斯·普朗克等机构搭建FutureSim测试框架，让顶尖AI预测2026年真实世界大事，发现最强模型GPT 5.5准确率仅25%，多款开源模型表现比不预测还差。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 10:15 • 科技行者

这项由德国马克斯·普朗克智能系统研究所、图宾根ELLIS研究所、图宾根AI中心、斯图加特大学以及英国南安普顿大学联合开展的研究，于2026年5月14日以预印本形式发布，论文编号为arXiv:2605.15188v1，收录于计算机学习领域（cs.LG）分类下。感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

如果让你预测三个月后的世界大事，你有多大把握？现在把这个问题抛给地球上最聪明的几款AI系统，结果会怎样？研究团队搭建了一个名为FutureSim的模拟环境，把这个问题变成了一场可以量化的考试，而考试结果，出人意料。

一、为什么要给AI出"预测未来"这道题

在理解这项研究的具体做法之前，有必要先理解它解决的是什么问题。今天的AI系统越来越多地被部署在实际工作中——帮你查资料、写代码、做分析。但这些系统有个根本性的局限：它们的知识有截止日期，就像一本只更新到某个时间点的百科全书。一旦世界发生了新变化，它们就懵了。

过去衡量AI能力的测试，大多是在固定的题库上打分，就像一次期末考试，卷子印好了就不会变。这类测试无法衡量AI面对"世界还在变化"这件事时的表现。有些研究团队用电子游戏或虚构场景来测试AI的适应能力，但游戏的规则是人设计的，虚构场景离真实世界有差距。

研究团队想要的是一个更接近真实生活的测试场：真实的事件、真实的不确定性、真实的信息流。预测未来世界大事恰好满足了这些条件。一方面，预测本身要求AI必须合理地处理不确定性；另一方面，随着时间推移，新的新闻不断涌现，AI必须持续更新自己的判断，而不是一次性给出答案就完事。更重要的是，AI做出的预测不会改变事件本身的走向——研究者不必担心"AI的行为影响了被观测的世界"这种棘手问题。

二、FutureSim是怎么工作的

FutureSim的核心思路，可以用一个生动的场景来理解：把一个AI关进一间信息"时光屋"。这间屋子里每天会从门缝塞进当天的报纸，但屋子的墙壁是单向透明的，AI能看到屋外世界发生了什么，却绝对无法看到"明天的报纸"。

具体来说，研究团队构建了一个跨越88天的模拟环境，时间跨度从2025年12月24日到2026年3月28日。他们准备了330个预测问题，这些问题都围绕2026年1月到3月间真实发生的世界事件，比如"谁将成为尼泊尔的新总理""超级碗冠军将是哪支球队"。这些问题的答案，在各个AI系统的知识截止日期之前是无从知晓的，因为事件根本还没发生。

每一个问题，AI不是给出一个简单的是或否，而是要提交一份"概率分布"——类似于天气预报里的"明天下雨概率40%、晴天概率60%"，只不过针对的是世界事件的多种可能结果。比如，AI可能预测"巴连德拉·沙阿成为尼泊尔总理的概率是55%，加甘·塔帕的概率是30%，其他人的概率是15%"。

这套新闻语料库来自Common Crawl News（一个可靠的网络新闻快照数据库），包含了从141个不同新闻来源采集的736万篇文章。在模拟开始的第一天，AI可以访问到2025年12月24日之前的全部712万篇文章；此后每天，新的文章陆续解锁，整个模拟窗口内新增了24.4万篇。为了严格防止"作弊"——也就是AI偷看未来的信息——研究团队在技术层面做了严密的隔离：所有文章按日期存放在不同的文件夹里，AI只能读取当天及之前的内容，网络搜索工具被完全封锁，就连curl这类能联网的命令也被屏蔽。

AI在这个环境里只有两个正式的行动选项：提交预测（submit_forecast），以及前进到下一天（next_day）。除此之外，它可以调用新闻搜索工具、读取文件、写笔记，一切都是为了帮它做出更好的预测。

三、这些问题从哪里来

330个预测问题并非随机挑选，它们经过了精心的筛选和设计流程，背后是一套相当严格的质量控制机制。

研究团队以半岛电视台的新闻报道为原始素材，从1万多篇文章出发，用强大的语言模型自动生成候选问题，最终筛选出3%的高质量题目。这个筛选过程包含多重关卡。首先，每个问题的"解答日期"要经过校准——不是简单使用文章发布日期，而是追溯到"公开信息能够确定答案的最早时间点"。研究团队用带有网络搜索能力的GPT 5.5来判断这个时间点，如果发现某个问题在2026年1月之前就已经有了确定答案，就会被淘汰。其次，如果一个问题用截止到2025年6月的搜索就能轻松回答，说明它太陈旧或太简单，同样不要。反过来，如果即使给AI提供完整的网络搜索权限，到2026年4月它依然无法回答，那可能是问题本身有标注错误，也要排除。

最终保留的330个问题横跨多个主题领域。其中国际政治与外交方面有91道，占比27.6%；冲突与战争方面有78道，占比23.6%；体育赛事75道，占比22.7%；刑事司法26道，占比7.9%；美国政治20道，占比6.1%；灾难与事故14道，占比4.2%；其余26道涵盖科技、娱乐、商业、健康、气候等领域。这个分布比预测市场平台上的题目要均衡得多——那些平台往往充斥着加密货币、美国政治和体育，而FutureSim明显更具全球视野。

四、用什么尺子来量AI的表现

衡量预测好坏是一门学问，尤其是当预测不是简单的"对或错"，而是一套概率分布的时候。

研究团队使用了两把尺子。第一把叫做"准确率"，逻辑很直白：AI在每道题上押注概率最高的那个答案，如果它就是真正的答案，就算对，最终统计对题的比例。第二把叫做"布里尔技能分"（Brier Skill Score，简称BSS），这把尺子更复杂也更全面，它同时考量了答案对不对，以及概率分配得合不合理。

布里尔技能分的计分方式可以用一个例子理解：如果超级碗的真正赢家是西雅图海鹰队，而AI预测"海鹰队概率55%、酋长队25%、49人队10%"，这份预测的分数会是0.725——相当不错。但如果AI把最多概率压在了错误答案上，比如"酋长队55%、比尔斯队20%、海鹰队15%、49人队10%"，即便海鹰队出现在预测列表里，最终得分也会是-0.075，是负的。

这个负分机制非常关键：一个完全不作答的AI，分数是0；如果AI很自信地押错了宝，分数会变成负数，比什么都不说还要糟糕。这迫使AI必须认真对待不确定性，而不是随便填个"我猜是A"就完事。

五、顶尖AI的成绩单如何

考试结果摆在面前，差距清晰可见。

表现最好的是GPT 5.5（运行在Codex代码执行环境中）。在整个88天的模拟结束时，它的准确率达到了25%，布里尔技能分为0.05——这两项都是所有参测模型中最高的。排在第二位的是Claude Opus 4.6，准确率20%，布里尔技能分0.02。紧接着是Deepseek V4 Pro，准确率13%，布里尔技能分-0.02。GLM 5.1准确率10%，布里尔技能分-0.01。表现最差的是Qwen 3.6 Plus，准确率只有5%，布里尔技能分-0.07。

注意那些负数：Deepseek V4 Pro、GLM 5.1和Qwen 3.6 Plus的布里尔技能分都是负的，这意味着它们的预测表现比"什么都不预测"还要糟糕。换句话说，如果一个系统选择对所有题目保持沉默，它的得分反而会比这三款模型更高。

不过有一个令人鼓舞的现象：所有模型的准确率都随着时间推移持续上升。在模拟的第一天，每款AI都要面对没有任何新信息支撑的"空白起点"；随着每天的新闻不断涌入，它们的预测越来越准。GPT 5.5在整个模拟过程中累计进行了约3700轮互动，消耗了1240万个文字处理单元（tokens），并经历了多次长上下文的压缩处理，充分展示了这个测试对AI系统在长时间跨度内保持专注的极高要求。

六、AI是如何"思考"和"犯错"的

单看最终分数只是故事的一半，研究团队还仔细分析了每款AI在预测过程中的具体行为，发现了一些有趣的模式。

GPT 5.5虽然准确率最高，但在它答错的题目中，有27.4%的情况下它把至少50%的概率押给了错误答案，有9.1%的情况下更是把75%以上的确信度全押在错处——严重的过度自信。Deepseek V4 Pro几乎对每一道题都会在模拟过程中更新自己的预测，这种积极的更新行为帮助它从糟糕的初始预测出发显著提升了表现，但它有时会给出"没有新任命"这类空洞的预测，拖累了得分。GLM 5.1相对保守，在答错的题目中只有3.7%超过了50%确信度阈值，但它恰恰因为不够积极主动地更新预测，最终表现平平。Qwen 3.6 Plus对330道题中只有36.7%的题目提交了预测，而其他所有模型都覆盖了全部题目。

研究团队还观察到一个叫做"自我条件化"的有趣现象：AI会把自己之前写下的分析笔记当成铁板钉钉的事实，在后续推理中把这些笔记当成不可置疑的依据，从而导致越来越自信但越来越偏离实际的错误判断——有点像一个人把自己的日记当成历史教科书来引用。

七、运行环境的设计如何影响表现

研究团队注意到，同一款AI模型在不同的"运行环境"（也就是给AI配备的工具、提示词和工作流程，英文叫harness）下，表现可以有显著差异。因此他们专门设计了一套改进版的运行环境，并与各模型的官方推荐环境进行对比。

改进版环境做了几件关键的事情。它在每次工具调用后向AI汇报"你还剩多少上下文空间"，让AI意识到自己不能无限制地翻阅文章；它配备了结构化的记忆工具，让AI可以把重要信息整理成有序的笔记，而不是让信息随意散落；它为每一道预测题单独建立记忆档案，方便AI在后续日子里快速回忆之前的判断依据；它还在AI每天"下班"前强制执行一个记忆整理阶段，防止AI把有用信息丢进垃圾桶；此外，它提供了一套预测流程的指导框架，告诉AI应该先看哪些题、再搜索什么、最后提交预测。

对比实验的结果非常明显：在开源模型（Qwen 3.6 Plus和GLM 5.1）中，使用改进版环境的准确率和布里尔技能分都显著高于官方推荐环境。尤其是Qwen 3.6 Plus，在官方OpenCode环境下布里尔技能分甚至随时间下降，而在改进版环境下则持续上升，最终也跨越了0分线，变成正值。Claude Opus 4.6同样在改进版环境下展现出更好的校准性。这说明"怎么用AI"这件事，跟"用哪款AI"一样重要。

八、记忆、搜索和算力分别值多少分

研究团队还做了一系列精巧的"控制变量实验"，分别测试了不同能力模块对最终预测效果的贡献。

关于记忆的实验结果清楚地表明，拥有记忆写入权限的AI，表现明显优于被剥夺记忆能力的版本。记忆的价值不仅体现在存储和调用新证据，还体现在稳定性上：当某天的新闻搜索没有找到有力证据时，有记忆的AI往往能保持相对合理的初始判断，而没有记忆的AI则倾向于从头重新推理，容易被零散的新证据带偏，做出过于激进的更新。

关于搜索的实验更加揭示性。研究团队设计了四种条件进行横向比较，全部针对GPT 5.5在最高推理级别下的表现。第一种是正常的模拟流程，每天有新文章加入语料库，AI可以主动进行多轮搜索；第二种是冻结语料库，模拟开始后不再新增文章；第三种是在题目解答截止前一天直接进行主动多轮搜索；第四种是在题目解答截止前一天只用题目标题做一次语义搜索。结果：正常流程的最终准确率是24.8%；冻结语料库的准确率下降到17.9%，说明持续涌入的新鲜信息非常关键；主动多轮搜索达到了31.2%的最高准确率；而只做一次搜索的准确率仅有14.2%，远不如多轮搜索的两倍。单次搜索在布里尔技能分上表现更糟糕，甚至是高度负值，表明即便能找到一些正确信息，不经过多轮深入搜索就提交的概率分布会严重失准。

关于算力投入的实验，研究团队让GPT 5.5在五个不同的推理级别（从无推理到超高推理）下运行同一个模拟，发现更高的推理算力确实带来更高的准确率。无推理状态下不仅准确率最低，布里尔技能分更是极度负值，说明足够的"思考时间"对于概率校准至关重要。从低到高的推理级别，准确率持续爬升；不过从"高"升到"超高"时，收益开始收窄，表明算力投入存在边际递减效应。

九、AI能和人类预测市场比肩吗

研究团队做了一个特别引人入胜的比较：把AI的预测轨迹与真实预测市场（Polymarket）上的人群聚合预测进行对照。

在某些问题上，GPT 5.5的表现出人意料地出色。以超级碗冠军预测为例，GPT 5.5的预测走势与Polymarket市场聚合基本一致，有时甚至比市场稍早一步调整了概率——要知道这个市场的总交易额高达7.04亿美元，凝聚了无数职业预测者和量化投资者的判断。对于葡萄牙决选也是类似的情况。

然而，GPT 5.5在格莱美奖和英国选区议员选举（戈顿与登顿选区）上的表现要差得多。研究团队的解读是，格莱美和选区选举更多地反映了人类的审美偏好和情感倾向，这是AI难以从新闻文章中提取的信号。

在尼泊尔总理选举的案例中，研究团队详细标注了GPT 5.5的每一次预测更新，对应到当天的新闻报道，发现它引用的每一条证据都是合理的，它的预测走向与市场聚合高度一致，只是稍微滞后——这种滞后被认为是因为CCNews语料库缺少社交媒体的实时信息，导致消息传递慢了半拍。

十、当多个AI同时预测会怎样

研究团队还做了一个有趣的多智能体实验：让三个完全相同的Deepseek v3.2同时在模拟环境中运行，它们之间的唯一联系是每天能看到三者预测的"集体均值"，类似于预测市场上的综合报价。

在单独运行的模式下，三个AI的预测随着时间推移会越来越分散，各走各的路。而在多智能体模式下，三者的预测则逐渐向集体均值靠拢，趋同现象非常明显。有趣的是，研究团队在提示词中明确告知AI将按照"同伴比较分"（peer score）评分——这种机制理论上应该激励AI提出有别于群体的独特判断——但AI依然倾向于向群体均值靠拢，而非差异化。这个发现与人类社会中的从众心理有几分相似，也为未来研究多AI系统如何相互影响提供了一个有趣的起点。

十一、测试框架本身如何防止"作弊"

这套测试的可信度，很大程度上依赖于对"信息隔离"的严格执行。研究团队使用了Linux系统的bwrap工具，把每个AI运行在一个封闭的沙箱环境中，彻底切断了对外部网络的访问。沙箱内只有按日期分隔的文章文件夹，且每次调用"前进到明天"的指令时，系统才会解锁当天的文章——AI无法提前看到。任务状态文件（market.csv）对AI只读，AI的预测记录单向写入，无法被AI自行篡改。

此前研究团队曾尝试使用Brave等商业搜索API来提供新闻，但发现这类工具的日期过滤功能存在严重漏洞。以一道关于2026年冬奥会高山滑雪女子速降银牌得主的题目为例：题目解答日期是2026年2月7日，但在模拟日期还是2026年1月30日时，Brave搜索竟然返回了一条标注为2026年1月9日的Wiki/Fandom页面，其摘要里明确写了2月8日的比赛结果，包括金银铜牌得主的名字。这直接让AI在不应该知道答案的时间点就知道了答案，严重污染了实验。正是这个原因，研究团队坚持使用本地存储的静态快照，以确保模拟的时间线完整性。

说到底，FutureSim这项研究最直白的启示是：今天最顶尖的AI系统在面对"真实世界、实时演变、需要持续更新判断"这类任务时，表现远未达到人们期待的高度。哪怕是最好的GPT 5.5，在三个月内对330件世界大事的预测准确率也不过25%，而且其中相当一部分答对的题目只是因为初始猜测恰好押对。那些号称强大的开源模型，甚至连"什么都不说"这条基准线都没能突破。

这并不是说AI一无是处。研究团队的消融实验揭示了一条清晰的改进路径：让AI拥有记忆、让它进行多轮主动搜索、给它足够的推理算力、为它设计合理的工作流程，每一项都能带来可测量的进步。这就像告诉一个分析师，你不仅要给他资料，还要给他档案柜、给他时间整理思路、给他一套工作方法——然后他才能真正发挥水平。

另一个耐人寻味的发现是，AI在"从错误的初始预测出发改正自己"这件事上极为困难。研究者专门做了实验，把所有模型的初始预测强制设置为表现最差的Qwen 3.6 Plus的预测，然后让其他模型从这个糟糕的起点出发。结果所有模型在整个模拟结束时都未能把布里尔技能分从负值扭转为正值，哪怕它们明确被告知自己的分数在下降。这种"锚定效应"——也就是对初始判断的过度依赖——是人类认知中已知的偏见，而现在AI系统同样没能免疫。

这项研究的价值不只在于出了一份成绩单，更在于它提供了一个可复现、可拆解、可持续更新的测试框架。研究团队已经表示，随着新模型的出现，他们会持续更新预测题目和语料库。对于关心AI技术走向的人来说，这套框架提供了一个比游戏成绩或考试分数更贴近现实的参照系。真正的问题不是"AI能在数学竞赛上拿满分吗"，而是"AI能在这个不断变化的世界里，做一个可靠的思考伙伴吗"。目前来看，答案是：还有很长的路要走，但方向已经越来越清晰。有兴趣深入钻研这项研究细节的读者，可以通过论文编号arXiv:2605.15188在arXiv平台查阅完整原文。

Q&A

Q1：FutureSim测试框架是如何防止AI"偷看"未来新闻的？

A：FutureSim使用Linux的bwrap工具把每个AI运行在封闭的沙箱中，彻底切断外部网络访问。新闻文章按日期分隔存放，只有调用"前进到明天"指令后系统才解锁当天的文章。商业搜索API曾因日期过滤漏洞泄露未来信息，因此研究团队改用本地静态快照，确保AI在任何时间点都只能看到那个日期之前的内容。

Q2：布里尔技能分为负值说明什么问题？

A：布里尔技能分为负值意味着AI的预测表现比"完全不预测"还要糟糕。负分的根源是AI以较高的自信度押注在了错误答案上。在FutureSim的测试中，Deepseek V4 Pro、GLM 5.1和Qwen 3.6 Plus的最终布里尔技能分都是负数，说明如果这些模型选择对所有问题保持沉默，反而能获得比它们实际表现更高的分数。

Q3：改进版运行环境具体做了哪些改变让AI预测更准？

A：改进版环境主要增加了五项设计：实时提示AI剩余的上下文处理空间，避免AI浪费资源；提供结构化记忆工具让AI有序整理信息；为每道预测题建立独立的记忆档案；在每天结束前强制执行记忆整理阶段；以及提供一套预测工作流程引导。这些改变帮助开源模型显著提升了表现，也说明运行环境的设计与模型本身的能力同样重要。

AI评估基准预测与推理自适应智能体

分享至