这项由乔治梅森大学经济学系的Janna Lu主导的研究发表于2025年7月6日,论文代号为arXiv:2507.04562v1,有兴趣深入了解的读者可以通过arXiv平台访问完整论文。这项研究首次系统性地将最新的大型语言模型与人类顶级预测专家进行了直接对比,探索了AI在预测未来事件方面的真实能力。
一年前,当研究人员首次让AI尝试预测未来时,结果简直惨不忍睹——这些"聪明"的机器连普通人群的准确率都达不到。然而,短短一年时间,情况发生了翻天覆地的变化。Janna Lu带领的研究团队发现,如今最先进的AI模型在预测准确性上已经能够超越普通人群的集体智慧,但仍然无法匹敌那些被称为"超级预测师"的人类专家。
这项研究的独特之处在于,它不是在实验室里进行的纸上谈兵,而是在真实世界的预测竞赛中展开的。研究团队选择了Metaculus这个全球知名的预测平台,收集了464个真实的预测问题,涵盖了从政治选举到经济指标,从体育赛事到科技发展的各个领域。这些问题都有明确的答案——要么发生,要么不发生,没有模糊地带。
为了确保比赛的公平性,研究团队采用了一种叫做"布莱尔评分"的评估方法。这个评分系统就像考试一样严格:如果你预测某件事有90%的可能性发生,而它真的发生了,你得到很高的分数;但如果它没有发生,你就会被严重扣分。这种评分方式不仅考察预测的准确性,还惩罚过度自信的错误预测。
在这场AI与人类的预测大战中,研究团队测试了12个不同的语言模型,包括OpenAI的GPT-4o系列、o3系列,Anthropic的Claude 3.5和3.6 Sonnet,以及DeepSeek的v3和R1等最新模型。每个模型都被要求对同一个问题进行5次独立预测,然后取平均值来减少随机误差。
结果令人既惊喜又深思。在这场预测竞赛中,OpenAI最新的o3模型表现最为出色,获得了0.1352的布莱尔评分。要知道,这个分数已经超越了之前研究中人群预测的0.149分,这意味着AI首次在预测准确性上超越了普通人群的集体智慧。紧随其后的是GPT-4.1和o4-mini,分别获得了0.1542和0.1589的评分。
然而,当AI面对真正的预测专家时,差距依然明显。那些被Metaculus平台认定的"超级预测师"——这些在历史预测中表现卓越的人类专家——获得了惊人的0.0225分。这个分数几乎是最佳AI模型的六分之一,显示出人类顶级预测师在复杂判断和不确定性处理方面仍然具有显著优势。
更有趣的是,研究团队发现不同类型的问题对AI来说难度差别很大。在政治类问题上,所有AI模型都表现得相对较好,比如预测政治候选人的辩论时间或支持率变化。然而,在经济和金融类问题上,AI的表现就明显逊色了。研究者推测,这可能是因为经济问题往往涉及更多的数字计算和复杂的因果关系,而这正是当前AI模型的薄弱环节。
研究团队还进行了一个巧妙的实验:他们用两种不同的方式让AI进行预测。第一种是直接询问,就像问朋友"你觉得明天会下雨吗?"第二种是让AI编写一个剧本,内容是两位著名的预测专家在讨论某个事件发生后的情况。令人意外的是,当AI被要求编写剧本时,预测准确性反而下降了。这个发现对于那些试图通过"角色扮演"方式来绕过AI安全限制的做法提出了警告——这种方法不仅可能带来安全风险,还可能降低AI的实际性能。
研究还揭示了AI预测中的一个普遍问题:过度自信。许多AI模型倾向于给出极端的预测概率,要么接近0%,要么接近100%,而现实世界的事件往往存在更多的不确定性。相比之下,超级预测师更善于处理这种不确定性,他们的预测更加细致入微,更频繁地更新自己的判断,并且更擅长识别问题的微妙差别。
从技术发展的角度来看,这项研究展现了AI能力提升的惊人速度。仅仅一年前,类似的AI模型在预测任务上的表现还不如随机猜测,而现在它们已经能够超越普通人群。如果按照这种发展趋势继续下去,研究者预测,AI可能在2027年之前就能达到超级预测师的水平。
这项研究的实际意义远超学术范畴。在预测市场和决策支持系统中,准确的预测能力具有巨大的商业价值。许多预测平台面临的一个问题是流动性不足——参与预测的人太少,导致市场效率低下。如果AI能够达到足够高的预测准确性,它们就可以作为"自动预测师"参与到这些平台中,提高整体的预测质量和市场活跃度。
同时,这项研究也揭示了当前AI技术的局限性。尽管在某些方面表现出色,但AI在处理复杂的经济问题、进行长期预测和应对突发事件方面仍然存在明显不足。超级预测师之所以能够保持优势,很大程度上是因为他们具备AI尚未掌握的能力:深度的领域专业知识、对不确定性的敏感处理、持续的学习和调整能力,以及对复杂因果关系的直觉理解。
研究团队使用了一个叫做AskNews的新闻聚合系统来为AI提供最新信息。这个系统能够爬取几乎所有网络新闻文章,并使用另一个AI模型将每篇文章概括为几句话。这种做法确保了AI获得的信息既全面又及时,同时避免了信息过载的问题。每个预测问题都配备了相关的30篇新闻文章,涵盖了问题发布前60天内的相关信息。
为了确保研究的可靠性,团队还设计了一个特殊的对照组:130个额外的预测问题,这些问题的新闻信息是在问题发布当天就收集的,完全避免了任何可能的"信息泄露"。结果显示,AI在这个对照组中的表现与主要数据集基本一致,这证明了研究结果的可靠性。
在评估AI的预测能力时,研究团队特别关注了一个叫做"校准"的概念。简单来说,一个好的预测师应该做到"说到做到"——如果你说某件事有70%的可能性发生,那么在所有你给出70%概率的预测中,应该有大约70%真的发生了。研究发现,大多数AI模型在这方面表现不佳,特别是在预测高概率事件时容易过度自信。
这种过度自信的问题在AI领域并不罕见。许多AI系统在处理它们"认为"很确定的情况时,往往会给出接近100%的概率,但现实往往比AI预期的更加复杂和不可预测。相比之下,经验丰富的超级预测师更懂得谦逊,他们知道世界充满了意外,即使是看似确定的事情也可能出现变数。
研究还发现了不同AI模型之间的有趣差异。一些较新的模型在医疗健康类问题上表现特别出色,而在环境能源类问题上则相对较弱。这种差异可能反映了这些模型在训练过程中接触到的数据类型和质量的差异。
从更宏观的角度来看,这项研究揭示了人工智能发展的一个重要趋势:AI正在从简单的模式识别向复杂的推理和判断能力发展。预测未来事件需要综合多种信息源,理解复杂的因果关系,并在不确定性中做出合理判断。这些能力的提升标志着AI正在向更高级的认知能力迈进。
然而,研究也提醒我们,即使是最先进的AI系统,在面对需要深度专业知识、直觉判断和创造性思维的任务时,仍然无法完全替代人类专家。超级预测师的优势不仅在于他们的准确性,更在于他们能够持续学习、适应新情况,并在面对前所未有的挑战时做出合理判断。
这项研究的意义还体现在它为未来的人机协作提供了新的思路。与其让AI完全取代人类预测师,不如探索如何让AI与人类专家协同工作,发挥各自的优势。AI可以处理大量数据,进行快速计算,而人类专家可以提供深度洞察,进行创造性思考,并在关键时刻做出最终判断。
展望未来,这项研究开辟了多个有趣的研究方向。研究团队建议,未来可以探索在真实的预测市场中部署AI交易机器人,研究AI在实际投资决策中的表现。同时,也可以深入研究为什么AI在不同领域的表现存在差异,以及如何通过改进训练方法来提升AI的预测能力。
说到底,这项研究告诉我们的不仅仅是AI预测能力的现状,更重要的是它揭示了人工智能发展的新阶段。我们正在见证AI从简单的工具向真正的智能助手转变的过程。虽然AI还无法在所有方面超越人类专家,但它已经在某些领域表现出了令人刮目相看的能力。
归根结底,这场AI与人类预测师的较量不是零和游戏,而是推动双方共同进步的催化剂。AI的快速发展促使人类预测师不断提升自己的能力,而人类专家的卓越表现也为AI的改进指明了方向。在这个充满不确定性的世界里,准确预测未来的能力变得越来越重要,无论是对个人决策还是对社会发展都具有重大意义。
对于普通读者来说,这项研究提供了一个重要的启示:在这个AI快速发展的时代,我们既不应该盲目崇拜AI的能力,也不应该低估它的潜力。AI正在成为我们分析和理解世界的强大工具,但人类的智慧、经验和判断力仍然是不可替代的。未来的成功可能属于那些能够巧妙结合AI能力和人类智慧的人。
Q&A
Q1:什么是"超级预测师"?他们为什么这么厉害? A:超级预测师是在历史预测竞赛中表现特别出色的人类专家,他们通常具备深度的专业知识、对不确定性的敏感处理能力,以及持续学习调整的习惯。他们的厉害之处在于能够更细致地处理复杂信息,更频繁地更新判断,并且在面对意外情况时保持冷静客观的分析能力。
Q2:AI会不会很快就能完全取代人类预测师? A:根据这项研究,AI虽然发展迅速,但目前还无法完全取代顶级的人类预测师。AI在处理复杂经济问题、应对突发事件和进行创造性判断方面仍有明显不足。未来更可能的趋势是人机协作,让AI处理数据分析,人类专家负责深度洞察和最终判断。
Q3:普通人能不能使用这些AI预测技术? A:目前这些先进的AI预测技术主要还是研究阶段的工具,普通用户无法直接使用。不过随着技术发展,未来可能会有基于这些技术的消费级预测应用出现。现在普通人可以关注一些预测平台如Metaculus,学习预测思维和方法来提升自己的判断能力。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。