在快速发展的技术世界中,随时掌握计算机系统的健康状况至关重要。当我们谈论"可观测性"时,指的是收集和分析分布式计算机系统生成的数据,以便及时发现、诊断和解决性能与可靠性问题。这项由Datadog公司的Ben Cohen、Emaad Khwaja领导,并有众多研究人员参与的最新研究成果,于2025年5月20日发表在arXiv预印本平台上(编号:2505.14766v1)。这篇论文介绍了两项重大贡献:一个名为TOTO的时间序列预测基础模型,以及一个专门用于可观测性数据评估的大规模基准数据集BOOM。这项研究值得我们关注,因为它可能彻底改变我们监控和预测复杂计算系统行为的方式。
让我们先理解一下为什么可观测性数据如此特别。想象你有一台正在运行多个应用程序的电脑。要确保它运行良好,你需要监控很多指标:内存使用量、CPU负载、磁盘读写速度、网络吞吐量、点击次数、错误率和延迟等。这些指标各自展现不同的行为模式,共同反映系统的运行状况。当这些指标出现异常时(比如错误率突然飙升),你需要快速找出原因;或者,你可能想提前预测资源何时会耗尽,以便及时扩展系统。
现实世界中,可观测性系统通常需要监控数百万甚至数十亿个不同的时间序列。这种规模使得为每个时间序列单独训练复杂模型变得不切实际。你可以想象这就像要为城市中的每条街道分别预测交通状况,而不是建立一个统一的交通预测系统。这正是时间序列基础模型的用武之地——它们可以在不需要针对特定时间序列进行训练的情况下,直接进行"零样本"预测。
然而,研究人员发现现有的通用时间序列基础模型在处理可观测性数据时表现不佳。这就像一个擅长预测天气的系统可能无法准确预测股票市场一样——不同领域的数据有其独特的特点和挑战。
一、TOTO:为可观测性而生的时间序列基础模型
TOTO(Time Series Optimized Transformer for Observability)是一个拥有1.51亿参数的时间序列预测基础模型。它采用了现代的仅解码器架构,并融入了专为应对多变量可观测性时间序列数据挑战而设计的创新架构。
让我们通过一个简单的比喻来理解TOTO的工作原理:想象你在观察一个繁忙的道路网络。每条道路(变量)在不同时间点有不同的交通流量(数值)。TOTO的任务是根据过去几小时的交通数据,预测未来几小时内每条道路的交通情况。
TOTO的关键创新组件包括:
首先是"基于补丁的因果实例归一化"。普通人可能会问:"这是什么意思?"简单来说,可观测性数据往往变化剧烈——就像一条平时很少车辆的道路,突然因为一场音乐会而变得异常拥堵。大多数模型会使用整个历史数据的平均值和方差来标准化输入,但这对于这种快速变化的数据效果不佳。TOTO采用了一种新方法,它只使用当前和过去的数据来计算标准化参数,确保模型不会"偷看"未来的数据。这就像交通预报员只能根据已经发生的交通状况,而不是根据将要举行的活动来预测交通一样。研究表明,这种方法在处理高度非平稳的序列时表现出色。
第二个创新是"比例因子化注意力"。想象你需要同时关注数十条甚至上百条道路的交通状况。传统方法要么会试图同时分析所有道路和所有时间点的关系(计算成本极高),要么只关注时间维度而忽略道路之间的关系(丢失重要信息)。TOTO采用了一种平衡的方法:它更多地关注时间维度的关系(例如,早高峰通常在下午高峰之前),但也不忽视变量之间的关系(例如,主干道拥堵时,附近的小路也可能变得繁忙)。具体来说,TOTO使用了11:1的比例——11个时间维度的注意力层后跟1个变量维度的注意力层,这样既能捕捉时间模式,又能理解变量间的相互影响,同时保持计算效率。
第三个关键组件是"学生T混合模型"。为什么需要这个?可观测性数据经常出现极端值——就像平常车流量为100辆/小时的道路,偶尔可能因为事故飙升到1000辆/小时。普通的高斯分布(钟形曲线)难以捕捉这种极端情况。TOTO使用学生T分布的混合模型,这种分布有"更厚的尾部",能更好地表示罕见但重要的极端情况。这使得TOTO不仅能预测普通情况,还能对异常情况做出合理的概率估计。
最后,TOTO使用了"复合鲁棒损失函数",这有点像训练一个运动员同时掌握多种技能。该损失函数结合了负对数似然(关注概率预测质量)和柯西损失(关注点预测准确性),帮助模型在训练过程中避免某些病态解,并减轻离群值的影响。
TOTO的训练数据集是目前最大的同类数据集之一,包含约2.36万亿个时间序列点,其中1.59万亿是非重复的非合成数据。这个数据集比领先的时间序列基础模型的预训练语料库大4-10倍。其中43%来自Datadog自己的内部可观测性平台,完全匿名化处理,不包含任何客户数据。此外,还包括公共数据集和合成数据,以提高模型的泛化能力。
二、BOOM:为可观测性而生的基准数据集
除了TOTO模型,研究团队还推出了BOOM(Benchmark of Observability Metrics),这是一个专门针对可观测性时间序列的大规模评估框架。
BOOM包含约3.5亿个观测值,跨越2,807个真实世界的时间序列。尽管BOOM的唯一序列数量比通用时间序列基准GIFT-Eval少(2,807对144K),但它的总数据点更多(3.5亿对1.58亿),且维度显著更高,每个序列的中位变量数为60,而GIFT-Eval主要是单变量或低基数多变量序列。
BOOM的数据完全来自Datadog平台的匿名化遥测和内部可观测性指标。为确保评估设置稳健并防止污染,TOTO的训练数据专门来自生产环境,而BOOM的评估数据则来自单独的暂存环境。
为了突显BOOM数据的多样性,研究人员将每个时间序列根据其查询字符串分配了一个或多个标签,形成了一个分类法。这些领域包括:应用程序使用(占41.3%,如请求率、API调用)、基础设施(占34.4%,如CPU使用率、内存消耗)、数据库(占29.3%,如查询延迟)、网络(占10%,如吞吐量、延迟)和安全(占0.3%,如登录尝试、代码漏洞)。
那么,可观测性时间序列有什么特别之处呢?研究人员分析了六个相关统计特性,发现BOOM数据集与通用时间序列基准相比有显著差异:
首先是"一阶自相关函数",它衡量短期时间依赖性。BOOM分布在较小值处有较大的下尾,表明局部噪声波动更大。
其次是"ARCH-LM统计量",它检测自回归条件异方差性。BOOM分布是双峰的,在接近零处有一个大峰值,这表明时变波动性更高。
"频谱熵"在可观测性序列中平均更高,表明周期性更少,不规则性更大。
"KPSS统计量",一种非平稳性测试,在BOOM可观测性数据中取值更大,表明更频繁地偏离确定性趋势。
"平坦点"衡量时间序列中最长常数子序列的长度。这个指标在BOOM中更高,表明可观测性数据中的稀疏指标更多。
最后,"偏度"揭示了可观测性数据中更重尾、不对称的分布,这通常反映了突发行为和罕见但极端的事件。
总的来说,这些统计特性在BOOM数据中的更极端值,强化了可观测性时间序列的独特性和挑战性。
三、实验结果:TOTO的表现如何?
研究团队在三个基准上评估了TOTO:BOOM、GIFT-Eval和LSF(长序列预测)。
在BOOM上,TOTO显著优于其他基础模型和基线方法。具体而言,TOTO的MASE(平均绝对比例误差)和CRPS(连续排序概率得分)分别比次优模型MoiraiBase低13.1%和12.4%,平均排名也显著更低(2.351对4.278)。TOTO在各种预测期限(短期、中期、长期)和各种指标类型(计数、分布、仪表、速率)上都表现出色,展示了其在不同情境下的鲁棒性。
在GIFT-Eval上,尽管这是一个通用时间序列预测基准,TOTO仍然取得了顶级性能,平均排名分数为5.495(截至2025年5月)。它在点预测(MASE为0.673)和概率预测(CRPS为0.437)方面都表现强劲。值得注意的是,TOTO是最佳表现模型,尽管一些竞争模型与基准数据集之间存在已知的部分数据泄露问题。
在LSF基准上,尽管这个基准在数据集多样性和监督方法饱和方面有已知限制,TOTO仍然取得了最先进的结果,在与其他零样本方法相比的12个报告指标中取得了8个最佳性能,并且平均MAE和MSE最低。此外,当在LSF的训练分割上微调时,TOTO在全样本评估中也取得了最先进的结果,这凸显了TOTO作为多功能选择的强大泛化能力。
研究人员还进行了消融实验,以说明TOTO各架构组件的作用。结果表明,去除因果缩放导致NLL增加27.3%,去除学生T混合模型导致NLL增加27.2%,这证明了这些组件对于模型性能的重要性。
四、研究的意义与展望
这项研究通过可观测性的视角重新构建了时间序列预测,展示了一个领域特定基础模型可以如何超越通用模型。TOTO的零样本能力特别适合可观测性场景,在这些场景中,需要实时监控数百万个时间序列,而没有时间为每个序列单独训练模型。
当然,TOTO也有一些限制。例如,它假设时间序列是固定间隔的,目前使用启发式方法处理缺失点。它也不直接纳入基于日历的特征,这对某些应用可能很重要。此外,对极端预测长度的性能研究也将对某些应用有所启发。
研究团队已将TOTO的模型权重、推理代码和评估脚本,以及BOOM的数据和评估代码,都以Apache 2.0许可证开源提供,希望加速解答这些和其他开放问题的研究,为社区做出贡献,并引起人们对这一重要实际应用的关注。
总的来说,这项研究不仅推进了时间序列预测技术的前沿,还特别关注了一个具有重大实际意义的应用领域——可观测性。通过开源他们的工作,研究团队为未来的研究和应用打开了新的可能性,这对于依赖复杂分布式系统的组织和个人都有潜在的深远影响。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。