微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

用Uber的方式管理机器学习模型

Uber机器学习

用Uber的方式管理机器学习模型

作者：科技行者

2019-06-27 15:55

分享至：

每一天，Uber公司在全球700个城市规划出数百万次行程，而由此产生的关于交通、首选路线、预计到达/送货时间以及下车地点的信息，则让Uber得以为客户提供更加顺畅的乘车体验。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2019-06-27 15:55 • 科技行者

Uber公司是目前对数据依赖性最高的组织之一。

通过访问来自出租车、驾驶员以及用户的丰富数据集，Uber一直在投资机器学习与人工智能技术以增强自身业务。优步AI实验室由ML研究人员以及众多从业者组成，他们负责将最先进的机器学习技术与优势成果转化为Uber的核心业务。从计算机视觉到会话型AI，再到识别与感知，Uber公司已经成功将ML与AI融入其共享出行平台当中。

自2017年以来，Uber方面一直在分享与机器学习模型的构建、部署以及管理相关的最佳实践。他们使用的一系列内部工具与框架都建立在高人气开源项目基础之上，具体包括Spark、HDFS、Scikit-learn、NumPy、Pandas、TensorFlow以及XGBoost。

下面，让我们进一步了解Uber公司在机器学习领域的成果。

>>>Michelangelo——ML平台即服务

Michelangelo 是一套机器学习平台，通过端到端系统对各个团队的工作流程与工具进行标准化。它的出现，使得整个公司的开发人员与数据科学家都能够轻松实现机器学习系统的大规模构建与操作。

Michelangelo构建于一系列开源组件之上，包括HDFS、Spark、Samza、Cassandra、MLLib、XGBoost以及TensorFlow。其利用Uber的数据与计算基础设施构建而成，提供的数据湖足以存储Uber的全部交易与记录数据，Kafka以中间人的形式汇集所有Uber服务记录——包括Samza流式计算引擎、托管Canssandra集群以及Uber的其它内部服务供应与部署工具等等。

Michelangelo主要负责实现典型机器学习工作流程中的以下六个阶段：

1. 管理数据

2. 训练模型

3. 评估模型

4. 部署模型

5. 做出预测

6. 监测预测

这套平台拥有一个数据湖，可供模型在训练与推理期间进行访问。通过指预测与在线推理，应用程序将能够访问其集中数据存储。

Michelangelo为训练中的ML模型提供标准算法，个人开发者与团队也都可以轻松向该平台添加新的算法。在部署模型之前，其会根据各种指标及参数对模型的准确性做出评估。Michelangelo通过UI或API提供端到端的模型部署管理支持。其能够将所部署的每个模型用于在线及离线预测，或者作为与移动应用程序相集成的库。该平台会持续监测预测结果的准确性与速度，从而在必要时触发重新训练。

Michelangelo的用户能够直接通过Web UI、REST API以及监控与报警工具处直接同该平台的组件进行交互。

Uber公司通过PyML对Michelangelo项目进行了扩展，使得Python开发人员能够更轻松地完成模型训练与部署。PyML是一个用于处理Michelangelo流水线的高级API，使得团队能够独立于Michelangelo之外提供独立的自定义算法、框架、工具以及依赖项。

虽然Uber方面并没有开源Michelangelo，但发布了相关说明文档，其中记录了关于实现可扩展机器学习流水线的设计思路与最佳实践。

>>>Horovod——用于TensorFlow的分布式深度学习框架

Horovod 是一套利用GPU资源用于TensorFlow、Keras、PyTorch以及MXNet的分布式训练框架。Uber公司已经开源了Horovod并将其转交给LF AI——Linux基金会下辖的另一机构。顺带一提，LF AI主要关注人工智能、机器学习以及深度学习类项目的运营。

通过将对代码内容的修改量控制在最低水平，Horovod优化了跨多GPU的模型训练方式，其支持目前各类高人气深度学习框架，包括TensorFlow、Keras、PyTorch以及Apache MXNet等。

Uber方面还扩展了百度公司在多GPU上实现的分布式训练成果。百度最初的方案强调了将标准高性能计算技术引入深度学习这一基本想法。

Horovod还与英伟达集合通信库（NCCL）相集成，用以支持跨多个GPU与多台机器的深度学习模型分布式训练。Horovod公开的API能够与各类主流深度学习框架共同配合使用。

Uber的Horovod项目目前以开源形式通过Github 公开交付。

>>>Ludwig——无代码深度学习工具箱

Ludwig 是Uber旗下最有趣的机器学习项目。这是一套开源深度学习工具箱，以TensorFlow为基础构建而成，允许用户有无需编写代码的前提下实现深度学习模型的训练与测试。

Ludwig是一套AutoML平台，其提供一组模型架构集合；用户可以将这些架构组合起来，从而为特定用例创建端到端模型。该工具箱要求将数据集格式化为一个逗号分隔值（CSV）文件，外加一个用于对特征、标签以及训练参数进行描述的YAML文件。Ludwig还提供一个简单的Python API，允许开发人员借此实现模型的训练或加载，以及获取关于新数据的预测结果。

该工具箱支持文本分类、机器翻译、情绪分析、图像分类、图像字幕用例以及其它多种场景。

Ludwig在构建之初即考虑到可扩展性原则，基于数据类型抽象，能够轻松添加对新数据类型以及新模型架构的支持。从业者可以利用它快速训练并测试深度学习模型，允许研究人员通过强大的基准进行性能比较，并提供实验设置选项以通过执行标准数据预处理及可视化确保可比较性。

Ludwig开源项目已经在 Github上公开发布。

Uber机器学习

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
AI安全防护
自适应攻击

2025-11-19 16:15

谷歌DeepMind等顶级机构联合揭秘：为什么所有AI安全防护都是纸老虎？

谷歌DeepMind等顶级机构联合研究揭示，当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效，成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法，系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术，暴露了AI安全评估的根本缺陷。
视频生成
多模态控制
Diffusion Transformer

2025-11-19 16:15

西蒙弗雷泽大学和Adobe研究院联手打造视频制作新神器：让静态图片学会"按剧本演戏"

西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术，能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式，可单独或组合使用。采用双分支架构和分阶段训练策略，在运动控制精度上比现有技术提升53%以上，为视频制作提供了前所未有的灵活性和精确度。
人工智能
扩散语言模型
并行文本生成

2025-11-19 16:14

英国国王学院突破传统：让AI像人类思考一样"反复斟酌"，生成速度飞跃10倍

英国国王学院研究团队开发了潜在精炼解码（LRD）技术，解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程：先让AI在连续空间中"深思熟虑"，保持多种可能性的混合状态，然后"果断行动"，逐步确定答案。实验显示，LRD在编程和数学推理任务中准确性提升最高6.3个百分点，生成速度提升最高10.6倍，为AI并行文本生成开辟了新路径。
人工智能
强化学习
模型训练优化

2025-11-19 16:14

清华大学团队发布ViSurf：让AI视觉模型学习更聪明的新方法

清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法，巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中，让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法，特别是在处理模型知识盲区时表现突出，同时有效避免了灾难性遗忘问题，为AI训练提供了更高效稳定的新范式。