下一站AI：实时服务

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

下一站AI：实时服务

作者：科技行者

2020-05-26 16:53

分享至：

随着实时解决方案的增长与人工智能技术的发展，工作负载的日益提升以及非结构化数据的爆炸式增长，数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2020-05-26 16:53 • 科技行者

随着实时服务浪潮逐渐渗透进我们的日常生活，计算基础设施也开始迎来重大变化。从使用自然语言提供即时型个人智能助手，到通过店面分析生成与客户购物行为相关的结论信息，各类实时服务的出现给服务供应商带来了前所未有的巨大市场空间。

为了从这些服务中获取价值，一大基本前提就是保证数据与洞见结论的即时可访问能力;很明显，这种能力在很大程度上需要AI技术作为基础。也正因为如此，Amazon Web Services(AWS)、微软、阿里巴巴以及SK电信等云服务巨头都在开发自己的计算基础设施，用于提供这类服务方案。

数据中心运营商现在也需要优化计算以满足实时响应要求。为此，IT架构不仅要解决持续快速变化的工作负载与算法需求(主要由AI驱动)，同时必须进一步提升计算资源与存储/网络资源的集成水平。

这就给服务供应商带来了新的难题：要求他们提供一套能够实现差异化优势与卓越性能，同样具备高吞吐量、低延迟与灵活软件/硬件堆栈的基础设施平台。这套平台还必须能够处理从递归神经网络、长期/短期内存网络、卷积神经网络以及基于Apache Spark集群计算框架的查询加速等实际任务。

为了建立起这样的差异化优势，服务供应商开始自主构建与众不同的硬件与软件堆栈。例如，AWS Advanced Query Accelerator就是一套包含定制化软件与可编程硬件堆栈的数据分析平台。SK电信最近也立足自家定制化软件与可编程硬件堆栈，开发出支持AI技术的语音与视频分析方案。

下一轮计算还需要具备自适应性，将软件与硬件合并在一处，且硬件与软件都要拥有可编程性以满足业务用例对于实时性能、最高吞吐量以及低延迟/低功耗的要求。随着实时解决方案的增长与人工智能技术的发展，工作负载的日益提升以及非结构化数据的爆炸式增长，数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

实时预测

学术研究人员目前正利用高性能计算(HPC)解决真实世界中存在的各类高复杂度问题。为了加快洞察处理过程与大规模HPC部署工作，原始计算能力、能源效率与适应性已经成为决定项目最终命运的先决条件。

为了回答世界上最具挑战性的科学问题之一，欧洲粒子物理实验室(CERN)约2万名科学家组成的联盟正试图重现宇宙的起源。为此，研究人员必须不断突破技术极限。

大型强子对撞机是世界上最大的粒子加速器。总长27公里的环形隧道由超导磁体组成，可将粒子加速到前所未有的能量水平。每个质子每秒绕隧道运行11000圈，速度接近于光速。环形隧道上还部署有四个定位点(质子每25纳秒经过一次)，质子将在这里发生碰撞。对撞的条件将由粒子探测器捕捉并记录。

整个触发系统分两层实现——第一层触发要求AI技术在约3微秒周期内完成事件处理，这对其推理延迟提出了极高的要求。至于第二层，自然是大量的数据传输带宽。

CPU与GPU根本无法满足这样的要求。因此，研究人员在地下100米深、且不受辐射区影响的位置构建起一套用于运行分析算法的FPGA网络。该算法旨在即时过滤生成的数据并识别新型亚粒子结构，借此证明暗物质的存在乃至其他重要物理现象。这些FPGA将同时运行经典与卷积神经网络，负责接收并校准传感器数据、执行跟踪与聚类、运行机器学习对象识别并触发功能——所有操作都需要在事件数据的格式化与交付之前完成。结果就是，这套网络带来了极低的推理延迟(约100纳秒)。

为实时分析提供存储支持

高速存储方案的采用，以及现实用例对于数据密集型应用程序的更高性能要求，已经令现有CPU、内存与存储沦为瓶颈。为此，研究人员的探索重点由计算能力转向通过计算存储完成数据处理。这样的转变，也给应用程序性能与基础设施整体效率带来了深远影响。

最可行的解决方案，自然是尽可能缩小计算与数据间的距离。将数据分析与存储集成在一起，能够极大减少系统层面的数据瓶颈、提高并行度，同时降低总体功耗水平。这种方法也得到IBM及美光科技等厂商的支持，他们据此开发出加速存储与计算存储产品，保证一切处理方案紧紧围绕在数据周边。三星电子还推出SmartSSD，将闪存作为主干建立高性能加速计算体系，借此克服CPU与内存带来的限制。通过将智能元素推送至数据所在的位置，三星SmartSSD成功提高了速度与效率，同时降低了运营成本。

复杂网络

随着虚拟化计算与容器化工作负载的出现，网络也变得越来越复杂。在将这些环境扩展到单一服务器之外时，我们必须与其匹配复杂的覆盖网络。覆盖网络的本质，属于通过分组封装概念动态创建并维护的虚拟化系统。对这种封装进行监管，必然会增强操作系统或虚拟化内核的处理负担。在与传统网络任务配合使用时，这类方案会直接消耗掉近30%的服务器原始CPU周期。

目前比较常见的覆盖网络管理方法当属vSwitch(OvS)协议。基于FPGA的SmartNIC(网卡)能够把这近30%的计算负担从主机CPU转移到自身之上。简而言之，三台配备OvS协议SmartNIC的服务器，足以提供等同于四台配备标准网卡的服务器的计算能力。

基于FPGA的SmartNIC还能显著降低服务器CPU在执行安全与加密任务时面临的计算负担。目前的安全保障方案通常采取深度数据包检查的形式;一旦发现数据包中存在威胁，则将该数据包丢弃。这种方法能够增强甚至彻底取代企业在服务器上运行的传统防火墙软件。另外，SmartNIC也可以轻松承担起各类加密与解密任务。

新的世界，新的秩序

在实时服务新时代之下，考虑到成本、功耗以及纯CPU的扩展能力等各类限制性条件，单纯使用CPU或者多核心CPU来满足业务需求早已不具备可行性。对于大多数复合型工作负载而言，单纯投入更多服务器CPU已经永远无法带来必要的性能表现。

随着摩尔定律的逐步终结，下一代CPU恐怕也无法解决这些实际问题。因此，自适应计算加速器将成为一种可行的解决方案，有望在满足广泛计算需求的同时，极大提高扩展能力以帮助企业控制运营成本。

分享至