
这项由谷歌与宾夕法尼亚州立大学联合完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.14389,感兴趣的读者可通过该编号查阅完整论文。研究团队来自谷歌内部多个技术部门以及宾夕法尼亚州立大学的自然语言处理实验室。
你有没有想过,当一个经验丰富的基金经理在预测股价时,他不只是盯着那些上下起伏的K线图,更会翻阅最新财经新闻、研究宏观政策走向,甚至留意某家公司刚发布的季报?而现有的绝大多数AI预测系统,却偏偏只会看数字,完全无视那些在现实世界中真正左右走势的文字信息。这个矛盾,正是这篇论文想要解决的核心问题。
研究团队构建了一个名为Nexus的多智能体预测框架,核心思路是让不同的"专家"各司其职:有人专门梳理过去发生了什么,有人从宏观角度研判大方向,有人从细节层面逐步推演每一步,最后再由一位"总指挥"综合所有意见给出最终判断。这套机制使得整个系统既能捕捉数字背后的规律,又能理解文字信息对走势的真实影响,从而在股票价格和房地产指标两类完全不同风格的预测任务中,都取得了超过现有最先进专用模型的成绩。
---
一、为什么单看数字不够用,单靠语言也不行
以一个具体场景来切入这个问题。假设你要预测下个月某城市的二手房挂牌数量。纯粹靠历史数据的AI模型可以非常精准地捕捉到"每年春天挂牌量会上升"这种季节性规律,因为它从无数历史数字中学到了这个节奏。但如果这个月恰好发生了严重山火,整个城市的房产交易活动被迫暂停,这种突发事件是藏在新闻文本里的信息,纯数字模型完全看不见,自然也就无从应对。
反过来,大语言模型(可以理解为ChatGPT这类能读懂文字、进行推理的AI)在理解"山火会影响房产交易"这件事上表现很好,但它在处理"过去三年每年一月份数字都比十二月低15%"这种精确的数值规律时,却往往力不从心。就像一位博学的经济学教授,能把宏观经济政策分析得头头是道,但真要你给出"下周五收盘价是多少"这个具体数字,他可能就没那么自信了。
这两类工具各有所长,各有短板,而现有的研究大多在试图让其中一方学习另一方的技能,效果有限。宾夕法尼亚州立大学的研究人员曾系统验证过,强行让大语言模型逐步生成连续数值序列,其表现往往不如专为时间序列设计的数值模型。反过来,那些专用的时间序列基础模型虽然在数字上表现出色,却完全不知道世界上正在发生什么,对突发事件毫无感知能力。
Nexus的设计哲学是:与其让一个模型勉强学会它天生不擅长的事,不如让各个组件专注于自己最擅长的领域,然后通过精妙的协作机制把各自的优势整合起来。这种分工协作的逻辑,贯穿了整个框架的设计。
---
二、四位"专家"组成的预测团队是怎么运作的
Nexus的工作流程,可以用一场多轮会议来理解。在做出最终预测之前,系统内部会经历四个专业角色的依次工作,每个角色都在为最终决策贡献独特的价值。
第一位上场的是"历史档案整理员",在论文中被称为历史上下文智能体。这个角色的工作听起来简单,实际上至关重要:它负责把原始的历史数据整理成一份清晰的时间线档案。原始数据往往是杂乱的——某周的数字是多少,同期的新闻摘要是什么,这些信息混在一起,直接塞给后续的预测模块,很容易造成信息过载。这位"整理员"的职责是将每个时间点的数值与对应的关键事件关联起来,过滤掉无关噪音,确保每一条记录都清晰地呈现"发生了什么、对数值产生了什么影响"。这一步的意义在于,后续所有的分析都基于一份高质量的信息底稿,而不是原始的混乱数据。
第二位和第三位登场的,是两个视角截然不同的"分析师"。宏观分析师(论文称之为Macro-Reasoning Agent)的工作方式像一位战略顾问,它通盘审视整个预测窗口,给出大方向上的研判——未来这段时间整体会上行、下行还是维持平稳,主要受哪些宏观力量驱动,预计会在什么区间波动。它给出的是一个"大剧情",就像电影的主线叙事。
微观分析师(Micro-Reasoning Agent)则像一位事无巨细的策略分析师,它的工作方式是逐步推进的,每次只专注于下一个时间点——这一周会发生什么,哪些具体事件会在这几天内产生影响,预计这一步的变化幅度是多少。它产出的是一个充满细节的"每日行程单",对短期波动和临时性事件非常敏感。这两位分析师独立工作、互不干扰,他们的分析结果会同时提交给下一位角色。
第四位是最终的"决策者",论文称之为预测综合智能体。它的任务是拿到宏观分析师的大方向和微观分析师的细节推演,并判断在当前这个具体预测任务中,应该更多地倾向哪一方的意见。当两个分析师意见接近时,综合就比较直接;当两者出现分歧时,这位决策者需要给出有依据的权衡,并最终输出一个具体的数值序列,同时附上完整的推理说明——为什么这么判断,依据了哪些信息,如何在两个视角之间取舍。
这四位角色的协作流程,构成了Nexus最基础的运行机制。但系统中还有第五个组件,它的存在让整套机制从静态变成了动态学习的闭环。
---
三、从错误中学习的"复盘教练"
传统的预测模型一旦训练完成就固定下来,面对新的预测场景只能照章办事,无法根据自己过去犯过的错误主动调整策略。Nexus内嵌了一个被称为校准智能体的组件,其核心功能是系统性地复盘历史预测误差,并将从中提炼出的教训转化为具体的调整指南。
它的工作方式是这样的:研究团队会把历史数据切分成若干段(论文中设定为6段),最后一段作为隐藏的验证集,前面几段则用于生成调整经验。系统会先在前几段上独立运行预测,然后将预测结果与真实值进行比对,校准智能体从这些比对中分析失误的模式——是系统性地高估了某类事件的影响,还是在特定的市场状态下总是过于保守?从每段历史数据中提炼出的经验会被汇集起来,取其共同之处形成一套通用的调整准则。
这里有一个重要的设计细节:这套准则在正式应用于最终预测之前,必须先在隐藏的验证集上通过检验。只有当应用这套准则能让预测精度提升至少5%时,它才会被纳入最终的决策流程。这一门槛设计是为了防止"过度拟合"——也就是说,防止系统在历史数据上学到的经验过于特化,反而在真正重要的新数据上适得其反。
用更直白的比喻来说,这位"复盘教练"的价值在于:它能帮助决策者了解自己过去在什么情况下容易判断失误,从而在下次遇到类似情况时主动保持警惕,做出更有针对性的修正。
---
四、如何在真实数据上验证这套框架,且不作弊
评估一个AI系统的预测能力,最容易踩到的坑是"数据泄露"——如果用于测试的数据在模型训练时已经见过,模型只需要"回忆"答案而不是真正"预测",那么优秀的测试成绩就没有任何意义。这个问题在大语言模型的测评中尤为突出,因为这类模型的训练数据量极为庞大,互联网上绝大多数公开信息都可能已经在训练时被吸收。
研究团队采用了一个干净利落的解决方案:他们选择了两类真实数据集,并且将评测时间段严格限定在所用语言模型的知识截止日期(2025年1月)之后。换句话说,测试数据是这两个AI模型从未在训练中见过的真实历史记录。
第一类是Zillow房地产数据集,收录了美国15个主要都市圈(包括洛杉矶、纽约、芝加哥、休斯顿、西雅图等城市)的每周房屋挂牌库存数量,评测期横跨2025年2月至10月。每次预测时,模型可以看到过去三年的历史数据作为参考。预测窗口设置了三个长度:4周(短期)、8周(中期)和13周(长期)。这类数据有强烈的季节性规律,每年春季挂牌量会上升,冬季会萎缩,因此数字本身就携带着丰富的规律信号,对纯数值模型相对友好。
第二类是股票市场数据集,涵盖了7只具有代表性的股票,包括苹果(AAPL)、谷歌母公司(GOOGL)、微软(MSFT)、奈飞(NFLX)、英伟达(NVDA),以及两只更具故事性的标的——强生(JNJ)和火箭实验室(RKLB)。评测期为2025年2月至12月,模型只能看到过去一年的价格历史作为背景。预测窗口同样有三档:6周、13周和26周。股票数据的特点与房地产截然不同——价格对突发新闻、政策变化、财报表现的反应往往比规律性的季节因素更为剧烈。
在对比对象的选择上,研究团队设置了两个基准:一是TimesFM-2.5,谷歌自家开发的专用时间序列基础模型,代表了当前最先进的纯数值预测工具;二是一个精心设计的思维链(Chain-of-Thought)基准,它让大语言模型看到同样的历史数据和文本信息,直接进行推理并给出预测,提示词由一位熟悉大语言模型和时间序列领域的专业研究人员独立设计,代表了不使用多智能体框架时的"最强单兵"水平。
实验还特别区分了两种信息设置:纯数值模式,即只给模型看历史数字;以及多模态模式,即同时提供历史数字和对应时期的文本信息(比如宏观经济摘要或公司新闻)。这种区分让研究团队得以单独衡量文本信息对预测精度的贡献。
---
五、数字说话:Nexus在实际测试中的表现
在多模态预测场景(同时提供数字和文本信息)中,使用Gemini-3.1-Pro作为底层语言模型时,Nexus在Zillow房地产数据集上将平均绝对百分比误差(可以理解为预测偏差率)从思维链基准的4.23%降低到3.61%,相当于预测误差下降了约14.7%。均方根误差(衡量绝对偏差大小的指标)则从63.1降至53.5,下降了约15.3%。股票数据集上的提升幅度相对温和,误差率从11.22%降至11.09%,下降约1.2%。
当换用Claude-4.5-Sonnet时,提升幅度更加戏剧性。在Zillow数据集上,思维链基准的平均误差率高达29.68%,而Nexus将其拉低到3.98%,降幅超过86%。这个巨大的差距揭示了一个有趣现象:Claude在处理长上下文时存在已知的局限,当被要求同时处理三年的数值序列加上密集的文本信息时,它的单次推理能力明显不足,容易陷入"在很长的背景信息中找不到重点"的困境。Nexus的分阶段处理机制恰好规避了这一弱点——每个智能体只需专注于自己的工作范围,信息负担大幅降低。股票数据集上Claude的基准表现本身就不差,因此Nexus的提升幅度相对较小,但仍然保持了12%的误差下降。
在纯数值预测场景(不提供任何文本信息)中,结论同样耐人寻味。使用Gemini时,Nexus在Zillow数据集上的平均误差率为3.78%,不仅比思维链基准(4.22%)低10.4%,更比专用的TimesFM-2.5(3.87%)略胜一筹。在股票数据集上,Nexus的误差率为12.38%,好于思维链基准(13.34%),且优于TimesFM-2.5(12.94%)。使用Claude时,Nexus在Zillow数据集上的表现(3.30%误差率)甚至大幅超过了TimesFM-2.5(3.87%),降幅达15%。
这个结果的意义在于:Nexus设计之初是为了更好地利用文本信息,但即便在没有任何文本辅助的纯数字预测模式下,它也能与专门为数字预测而生的最先进工具相媲美,甚至在多个测评维度上略有超越。这说明Nexus的分阶段推理结构本身就对语言模型的数值预测能力有实质性的改善作用,而不仅仅是依赖文本信息的加成。
---
六、不只看对不对,还要看说得通不通
准确的数字只是预测质量的一个维度。一个真正可信的预测系统,不仅需要给出正确的答案,还需要给出正确的理由。研究团队设计了一套推理质量评估机制,用来检验Nexus生成的分析推理是否真正言之有物,而不仅仅是数字碰巧接近真实值。
评估方式是让两个AI模型互相担任"评委":Gemini生成的预测内容由Claude来评分,Claude生成的预测内容由Gemini来评分。这种交叉评审设计是为了避免"自夸"偏差——任何模型都不评价自己的输出。评委模型会看到真实发生的事件信息,以及两个被比较系统各自的推理文本和预测数值,但不会看到真实的数值结果,从而确保评价聚焦于推理质量本身,而非结果对错。
评估维度涵盖四个方面:第一是领域相关性,推理中使用的概念和术语是否与预测对象的专业领域吻合,比如分析股票时是否运用了正确的金融概念;第二是事件关联性与合理性,推理是否与真实发生的事件存在逻辑上的因果联系,是否出现了与事实不符的臆造信息;第三是逻辑与数字的一致性,推理说"这段时间会有明显下跌",实际给出的数字是否确实反映了下跌趋势和相应幅度;第四是分析深度,推理是否展现了对时间序列本质特征(趋势、波动、动量)的真正理解,还是只做了表面描述。
结果显示,在Zillow房地产预测任务中,Nexus的推理在"整体偏好"这一维度上有超过97%的情况被两位评委模型优先选择。在股票预测任务中,Nexus的推理被优先选择的比例约为64%至80%,远高于思维链基准的33%至36%。从具体维度来看,Nexus在"事件关联性与合理性"和"分析深度"两个维度上优势最为明显,说明它的分阶段分析结构确实帮助系统更好地理解了预测背后的驱动力,而不是简单地拟合数字。
---
七、拆解这台机器:每个零件都重要吗
好的系统设计需要验证:每个组件是否都在发挥不可替代的作用?如果去掉某个部分,整体性能会下降多少?研究团队做了系统性的消融实验,在Gemini的多模态预测场景下,分别测试去掉微观分析师、宏观分析师或校准智能体后的系统表现。
以短期预测(Zillow 4周、股票6周)为基准,完整Nexus系统的Zillow误差率为3.06%,股票误差率为8.66%。去掉微观分析师后,Zillow误差率上升至3.14%,股票上升至8.77%,这说明那位专注于逐步推演细节的分析师,对捕捉短期价格波动有实质贡献;去掉宏观分析师后,Zillow误差率上升至3.17%,股票上升至8.82%,这说明宏观层面的方向性研判对于保持预测在合理区间内同样不可缺少;去掉校准智能体后,误差率分别变为3.09%和8.77%,仍然低于单独去掉任一分析师的情况,但校准机制的贡献在完整系统中体现为最后那一点精度的提升。
这个实验的结论很清晰:宏观和微观两个视角是互补的,单独使用任何一个都不如两者结合。宏观分析提供方向感,微观分析提供精度,校准机制负责从历史错误中学习修正。去掉任何一个,系统表现都会退步,三者同时存在时才能达到最优。
---
八、框架生成的推理是什么样子的
研究团队提供了多个具体的预测案例,可以让我们直观地感受Nexus生成的推理内容与普通思维链推理之间的差别。
以微软股票26周预测为例,Nexus的推理内容是这样的:预测综合了宏观层面"2025年初关税冲击后逐步修复"的大背景,与微观层面"微软AI变现能力持续提升和云基础设施扩张"的具体驱动力。在26周的预测窗口内,股价被预期随市场消化贸易政策影响、提前定价强劲财报而稳步攀升,期间会有轻微的季节性回调,但企业软件业务的韧性和AI技术进展将支撑整体的上行走势。
对于洛杉矶房地产8周预测,Nexus的推理写道:未来八周预计会从2025年1月山火冲击导致的急剧下降中逐步恢复。随着火势得到控制、地区活动逐步恢复,二月份挂牌数量将趋于稳定并开始回升,尽管当月第二周通常会有轻微的历史性平台期。进入三月后,重大季节性活动的回归——包括温暖天气、春假旅游以及春季购房季——将推动活跃度明显上升,走势与历史上的春季复苏规律高度吻合。
这类推理与简单的"历史上三月份总会上升所以我预测上升"有本质区别——它明确指出了具体驱动事件(山火冲击与恢复、季节性活动节点),说明了预期走势背后的因果逻辑,并在历史规律与当前特殊情境之间做出了有意识的权衡。这正是框架设计所追求的:预测不应只是数字,还应该是可以被验证、被质疑、被理解的判断过程。
---
说到底,Nexus这个研究最核心的洞察,是把预测问题重新定义了一遍。它的作者们认为,真实世界的预测从来就不是一个"给我一段数字、让我猜下一个数字"的任务。它本质上是一个需要同时理解数值规律和文本信息、同时把握宏观方向和微观细节、同时依赖历史经验和当前判断的综合推理过程。
这个认识听起来像是常识,但在AI预测领域,现有工具的设计逻辑往往停留在"更好地拟合历史数字"这个层面,对文本信息的处理要么忽视,要么作为辅助附件简单堆砌。Nexus通过分工协作的多智能体架构,第一次把"理解文字"和"把握数字"这两种能力放在了平等的位置,让它们各自在最擅长的维度上发力,再通过精心设计的综合机制整合成统一的判断。
当然,这项研究也诚实地标注了自身的局限。目前的评测数据集只覆盖了两类场景,且在同一组实验条件下只进行了单次评测,没有通过多次重复运行来计算统计置信度——这是因为每一次完整运行都需要多次调用拥有数千亿参数的语言模型,成本极为高昂。此外,随着更多后知识截止日期的公开数据积累,未来的验证工作可以在更广泛的领域上展开。
对于普通人来说,这项研究的意义可以这样理解:下次当你看到某个AI给出的预测数字时,不妨多问一句——它是怎么想到这个数字的?它考虑过最近发生的新闻吗?它知道今年春天和去年春天有什么不同吗?如果一个预测系统能够清晰地回答这些问题,它就不只是在猜测,而是在真正地推理。Nexus想要构建的,正是这样一种能够"说清楚自己为什么这么判断"的预测体系。感兴趣深入了解技术细节的读者,可通过arXiv:2605.14389查阅完整论文。
---
Q&A
Q1:Nexus框架在预测股票价格时比传统时间序列模型准确在哪里?
A:Nexus的优势主要在于它能同时处理数值规律和文本信息。传统时间序列模型只能从历史价格走势中学习规律,对公司财报发布、宏观政策变化、行业新闻等文字信息完全无感。Nexus通过历史上下文智能体将数字和文本关联起来,再由宏观和微观两个分析模块分别研判趋势方向和具体事件影响,最终在股票数据集上实现了比思维链基准更低的预测误差。
Q2:Nexus的校准智能体是怎么通过历史错误改善预测效果的?
A:校准智能体会把历史数据切分成几段,先在前几段数据上独立预测,然后将预测结果和真实值比对,分析哪类情况下系统容易高估或低估。从多段历史中提取共同经验,形成调整准则,再把这套准则在隐藏的验证集上测试,只有当应用准则能让预测精度提升5%以上时才会正式启用,防止过度学习历史特例而影响新预测的准确性。
Q3:Nexus在没有文本信息只有数字时,能不能超过专门的时间序列基础模型?
A:能。实验结果显示,即使在不提供任何新闻或文本信息、只输入历史数值的纯数字预测场景下,Nexus在Zillow房地产数据集上的误差率(3.78%)略优于专用的TimesFM-2.5(3.87%),在股票数据集上同样表现相当。这说明Nexus的分阶段宏观加微观推理结构本身对语言模型的数值预测能力有实质性改善,并非单纯依赖文本信息加成。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。