近日,由ETH苏黎世大学的Daniel Paleka和Florian Tramèr,以及ELLIS图宾根研究所和MPI图宾根的Shashwat Goel和Jonas Geiping共同完成的一项研究引起了广泛关注。这篇题为《评估语言模型预测者的陷阱》(Pitfalls in Evaluating Language Model Forecasters)的论文发表于2025年5月31日的arXiv预印本平台(arXiv:2506.00723v1),深入探讨了一个逐渐受到重视的问题:我们如何正确评估大型语言模型(LLM)的预测能力?
近年来,越来越多的研究表明大型语言模型在预测未来事件方面显示出惊人的能力,有些研究甚至声称这些AI系统已经能够媲美甚至超越人类预测者。但这些引人注目的结论真的可靠吗?这正是本研究要探讨的核心问题。
想象一下,如果有人告诉你:"我的AI系统可以准确预测明年的股市走势!"你会不会觉得有些怀疑?就像看到街边算命先生声称能预测你的未来一样,我们需要用批判性思维来审视这些声称能"预见未来"的AI系统。研究团队发现,当前评估语言模型预测能力的方法存在许多容易被忽视的陷阱,如果不小心,我们可能会对这些系统的实际能力产生误解。
这项研究的独特之处在于,它不是开发一个更强大的预测系统,而是检视我们如何评估这些系统的方法本身。就像科学家不仅要做实验,还要确保测量工具本身是准确的一样,我们在评价AI的预测能力时,也需要确保我们的评估方法是可靠的。
研究人员将评估中的问题分为两大类:第一,难以确保评估结果的可信度,因为存在各种形式的时间信息泄露;第二,难以将评估结果外推到实际应用场景,因为基准测试的表现可能无法反映真实预测能力。通过对这些问题的系统分析,研究团队提出了更严格的评估方法建议,帮助我们更准确地判断语言模型的预测能力。
让我们深入了解这些挑战,看看为什么评估未来预测如此困难,以及如何避免这些评估陷阱。
一、难以确保评估结果的可信度
评估一个预测系统的理想方法是什么?最直接的做法是提出一些关于未来的问题,收集系统的预测,然后等待这些事件自然发生或不发生,最后根据实际结果对预测进行评分。然而,这种方法需要等待数月甚至数年才能完成评估,这显然不适合快速迭代开发AI系统。
因此,研究人员通常会采用"回测"(backtesting)或"回溯预测"(retrodiction)的方法。这种方法的基本思路是:假设现在是过去某个时间点T,给AI系统提供截至时间T的知识,然后让它预测时间T到现在之间发生的事件。这听起来很合理,但实际上存在多种可能导致评估结果不可信的隐藏问题。
### 逻辑信息泄露
想象一下这个场景:假设现在是2030年,有人请你预测"在2028年,人类是否发现了外星生命?"作为一个生活在2025年的人,你可能会给出一个基于当前科学进展的谨慎估计。但如果这个问题是在2030年被提出的,你可能会推理:"如果到2030年人类还没有确凿证据证明外星生命的存在,那么答案很可能是'否',否则提问者不会用这种方式提问。"
这就是"逻辑泄露"的一个例子。当我们在回测中使用已知结果的问题时,问题的设定方式本身可能暗示了答案。研究团队发现,在多个现有的预测基准测试中,有相当一部分问题存在这种逻辑泄露问题,使得模型可以通过简单的逻辑推理而不是真正的预测能力得出正确答案。
例如,Halawi等人的研究使用了一个包含2023年6月至2024年1月期间已解决问题的数据集,但他们没有过滤掉那些可能在该时间窗口内无法解决的问题(如"苏丹会在2036年前经历内战吗?")。研究团队发现,至少3.8%的问题属于这种"提前解决"的类型,不需要任何预测能力就能回答。
### 日期限制检索的不可靠性
许多预测系统会使用检索组件(如搜索引擎)来获取信息,并限制只使用时间T之前的数据。然而,这种时间限制往往不可靠,原因有三:
首先,网页上的日期元数据经常不准确,未来的数据可能被错误标记为过去的日期。
其次,即使文档日期正确,检索模型本身可能是在包含未来数据的环境中训练的,导致通过学习到的关联性产生信息泄露。
举个例子,研究团队发现,在Google搜索中,如果限制只返回2020年之前的结果并搜索"1月6日",搜索结果会显示与美国政治异常相关的内容,这种关联性在2020年标准下是不正常的,因为1月6日与美国政治的强关联是在2021年1月6日国会山事件后才形成的。
想象一下,这就像是你把时间机器设定到2019年,想查询关于某个普通日期的信息,但搜索引擎却提供了受到未来事件影响的结果,就好比在2019年的书店里,发现了一本提及2020年新冠疫情的书一样。
同样,如果搜索"武汉"并限制结果为2018年12月之前,结果中会prominently显示武汉病毒研究所的内容,而这个研究所在国际上的知名度是在COVID-19疫情之后才大幅提高的。
### 对模型知识截止日期的过度依赖
模型创建者通常会报告一个"知识截止日期",指示模型的知识在该日期之后不再更新。研究人员经常根据这个日期来决定哪些事件对模型来说是"未来"事件。
然而,这些截止日期并不总是可靠的。模型创建者报告这些日期主要是为了告知用户什么时候之后的信息可能不可靠,而不是为了建立测试/训练分离。因此,知识截止日期不应被视为保证模型没有该日期之后信息的硬性标准。
研究团队发现,通过适当的提示,即使是声称知识截止日期为2023年10月的GPT-4o模型也能被诱导出关于2023年11月15日发生的拜登-习近平会晤的信息,而这次会晤直到2023年11月8日才被宣布。
此外,即使模型的主要训练截止日期是准确的,系统提示词和其他模型搭建也可能泄露信息。例如,Anthropic的Claude.AI(声称知识截止日期为2024年11月,不使用搜索功能)的系统提示词据报道包含"唐纳德·特朗普是美国现任总统,于2025年1月20日就职"等片段。
二、难以将评估结果外推到实际预测能力
即使我们解决了评估结果可信度的问题,从基准测试的表现外推到实际预测能力仍然面临着额外的挑战。
### 依赖人类预测结果
许多预测数据集来源于人类预测平台。这意味着,人类的预测结果很可能已经通过训练数据或检索系统提供给了语言模型。当研究者声称语言模型"达到人类水平"时,这个结论可能是循环论证:模型可能只是复制了人类预测,而不是展示独立的预测能力。
这就像一个学生在考试前偷看了答案,然后声称自己解题能力超强一样。如果语言模型能够访问人类预测者已经做出的判断,那么比较模型与人类的表现就失去了意义。
### 通过下注策略游戏基准测试
与许多AI任务不同,预测基准测试可能会奖励策略性投机而非准确的不确定性估计。
想象一个情景:你在2023年预测2025年美国政治事件,假设对总统大选有50/50的先验概率。从基准测试优化角度来看,最佳策略可能是坚定地押注一个结果,并在这个假设下做出所有预测。如果押对了,你的表现会非常出色;如果押错了,完全失败。但这种策略有更高的机会在基准测试中获得好成绩,比起一个更加谨慎、更符合校准的策略。
这种现象在人类预测比赛中也存在。2022年一个预测比赛的获胜者说:"我试图有意识地构建我的答案,以最大化我获胜的概率,而不是最大化每个单独答案正确的概率。"
这就像彩票游戏:你可以购买很多不同号码的彩票,获得稳定但很小的期望回报;或者你可以把所有钱都押在一个号码上,大部分情况下你会输,但万一中奖,回报会非常高。在预测基准测试中,极端策略可能会被过度奖励。
### 数据分布偏差
预测平台上的问题往往集中在竞争性预测者感兴趣的话题上,这可能导致数据分布偏差。当为回测筛选基准测试时,这些偏差可能会因为哪些问题可以在评估时间范围内解决的限制而进一步加剧。
虽然数据偏差在许多机器学习基准测试中都存在(例如,ImageNet对狗品种的关注仍然产生可迁移的视觉特征),但几乎没有证据表明在当前预测基准测试上的表现能产生可泛化的预测能力。
不同的预测市场平台有不同的用户群体和兴趣焦点。例如,Polymarket不成比例地关注加密货币价格变动和体育结果,而Manifold包含大量个人问题,如"我今天会去健身房吗?"。更广泛地说,这些市场往往过度代表美国中心的政治、经济和体育事件。
### 评估指标的反直觉性
评估预测者通常使用的指标包括Brier分数、对数分数、准确率和校准度。然而,这些指标可能会导致意外的激励。
例如,在先验概率低的问题数据集上,简单预测基础比率可能会获得比实际尝试预测正确模型更好的校准度。想象一个有100位红衣主教的例子,只有一位会成为教皇,数据集包含100个问题,问"X红衣主教会成为教皇吗?"。一个简单预测每位红衣主教都有1%机会成为教皇的预测者在这个小数据集上会有完美的校准度。相比之下,一个更有辨别力的预测者,可能会给5位可能的"热门候选人"(包括最终的教皇!)各10%的概率,给其余95位红衣主教各约0.5%的概率,这个预测者的校准度反而会更差,尽管他的预测显然更有用!
同样,在基础比率不同的问题混合的情况下,Brier分数可能会过度强调对基础比率接近50%的问题的表现,而忽视对罕见事件的预测能力。
三、优化更好预测者面临的挑战
目前表现最好的语言模型预测者主要利用现有模型的知识和推理能力,而没有经过专门的预测优化。随着该领域的发展,自然而然的下一步是专门优化模型以提高预测性能。
然而,数据中的时间相关性使这种优化变得困难。简单地在一段时间内的问题-答案对上训练会创造时间泄漏,因为训练中的早期样本可能会泄露与后期样本相关的信息(例如,"谁会赢得选举?"后面跟着"谁会赢得初选?")。
即使按时间顺序排序训练样本,仍然无法正确模拟预测更远未来事件的任务。这就像是训练一个预测系统,告诉它今天是1月1日,然后让它预测1月2日、1月3日...的事件,最后评估它对12月31日的预测能力。这显然与实际使用场景不符,因为在实际应用中,我们希望系统能够预测远期事件,而不仅仅是近期事件。
四、讨论与结论
公共基准测试的主要目的是为用户对模型进行排名。由于绝对分数难以解释(取决于数据分布),一些我们强调的问题,如回测问题可以被轻易回答(第2.1节),可能不会影响相对比较。然而,不同系统利用基准测试缺陷的程度可能不同,因此排名仍然可能受到影响。
我们并没有证据证明我们发现的基准测试问题会降低语言模型预测者的性能声明。但我们认为,由于语言模型预测者可能通过各种捷径利用了评估方法,因此很难信任这些评估。这种利用不一定是对抗性的,它可能是尝试提高基准测试性能的无意结果。
随着对这些问题更加了解,更好的预测评估方法是可能的,而且已经有所进展。例如,与其他尝试相比,ForecastBench显示出更少的明显时间和逻辑泄漏问题。我们建议未来的评估遵循本文中提出的建议,并收集有关尽可能近期事件的问题。金融交易文献中也有很多相关经验可以借鉴,这些领域在过去几十年中发现并缓解了类似问题。
理想情况下,应该在预测市场上进行实时评估,目标是盈利,并详细报告不同主题和预测时间范围的表现。
总结来说,我们分析了评估语言模型预测未来事件能力时出现的独特问题。通过一系列具体例子,我们认为现有的数据收集和评估实践可能会产生误导性结果,无论是由于简化预测任务的捷径,还是对语言模型预测者的一般能力产生疑问的数据偏差。我们希望本文提供的潜在对策能够指导设计更有原则的语言模型预测者评估方法。
我们就像是在评估一个声称能预测天气的系统。如果你说"我的系统能准确预测明天会下雨",但你在测试时只选择了那些天气预报已经说会下雨的日子,那么你的系统可能并没有真正的预测能力。同样,评估语言模型的预测能力时,我们需要确保它们真的在预测未来,而不是以某种方式访问或推断已经发生的事件的信息。
如果你对这项研究感兴趣,可以通过arXiv:2506.00723v1查阅完整论文,深入了解评估语言模型预测能力的挑战和可能的解决方案。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。