6月13日,在2022年阿里云峰会上,阿里云智能总裁张建锋表示,阿里云今年最重要策略是“B2B”,也就是“Back to Basic”,回到云计算的本质,坚持在技术的长征路上,不断取得新的突破。他认为,云计算进入了一个关键的突破期,“如果我们定义好下一代的云,中国云计算就有超车机会。”
图:阿里云智能总裁张建锋
他认为,过去十多年,云计算技术经历了两个发展阶段:第一阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求;第二阶段出现了资源池化技术,把计算和存储资源分离,再规模化编排和调度,提供了超大规模的计算和存储资源池。
这两个阶段的演进推动云计算发展,但它们都是通过软件定义的方法,基于传统的以CPU为中心的体系架构去做优化,已经触及瓶颈。近年来,云上客户的需求发生了很大变化,数据密集型的计算越来越多,不断地提高了对云计算提供的低时延、高带宽的需求,这些需求很难通过传统体系结构去满足。
“这几年,我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代”,张建锋表示,新一代的云计算要从数据中心的内部做体系化创新,从以往的以CPU为中心的体系架构,进入以CIPU为中心的体系架构。
当天,阿里云发布了一款云数据中心专用处理器CIPU(Cloud Infrastructure Processing Units 云基础设施处理器),将替代CPU成为云时代IDC的处理核心。CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快。
这是一个全新的架构体系,从最底层的数据中心核心部件到最上层云原生软件,建立了完整的自研技术体系。“今天我们可以清晰地看到,阿里云做到了软硬件完美结合,成为‘飞天+CIPU’支撑的云计算技术体系”,张建锋说,阿里云核心技术一直走在世界前列,这个新型体系是技术长征路上的新的里程碑,这个新型的技术体系正在定义下一代云计算架构。
在芯片层面,阿里云是全球支持CPU种类最多的云厂商,基于“一云多芯”战略对X86、ARM、RISC-V等多种架构进行适配,兼容飞腾、鲲鹏、AMD、Ampere等多种CPU,形成标准形态的算力输出。同时,阿里云针对云计算大规模、高并发特性,推出自研CPU芯片倚天710。目前,倚天710已在阿里云数据中心内部规模化部署,并顺利支撑2021年双11等多个核心业务。今年4月,基于倚天710的公共云 ECS实例已上线邀测。
在网络层面,阿里云建设了全球最大规模的RDMA分布式高性能网络,CIPU对高带宽物理网络进行硬件加速,实现RDMA技术的普惠化。在存储层面,CIPU对存算分离架构的块存储进行加速,让云端存储比本地存储更快,并拥有极大规模的资源池。在计算层面,通过CIPU把虚拟化开销降到0,并提供硬件安全隔离功能。
目前,阿里云在全球云计算的市场和技术水平均处于领先地位,在权威机构Gartner发布的年度报告里,阿里云的IaaS基础设施能力、产品能力获得了全球最高分。其中,在网络技术上,阿里云被权威机构AMiner评为全球十大最具影响力的网络研究机构。
同时,新一代云计算体系不仅会对云、对数据中心内部产生影响,张建锋认为,这也会改变传统计算机终端形态、以及软件应用和开发界面。
其中,对于计算机终端来说,阿里云推出的云电脑无影,将高算力工作从本地转移到云端,释放终端侧的高性能硬件需求。今年云峰会上,无影宣布升级全新ASP云流协议,支持开发者打造8K画质体验,并将时延控制在20毫秒内。
张建锋表示,钉钉希望为企业数字化提供一个统一的软件界面,不用每个软件单独装一个APP。此外,钉钉提供了非常多的基础能力,例如通讯录、组织架构、权限控制、办公、文档、沟通等,并提供低代码这样的易用技术,可以让企业更快速地开发应用。截至2022年3月31日,钉钉已经服务2100万个企业和组织,这些企业在钉钉上开发的应用超过350万个。
“云计算越来越接近进入下一个时代——全新的架构定义,全新的软件界面,硬件加速。我们错过了PC时代,但云这个时代大家起步是一样的。现在是重新定义云的窗口期,如果我们定义好了,中国就可以在下一个技术时代有自己的一席之地。”张建锋表示。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。