亚马逊云科技在2023 re:Invent全球大会上宣布,亚马逊云科技与英伟达宣布扩大战略合作,将联合推出先进的基础设施、软件及服务,推动客户在生成式AI(Generative AI)的创新。
双方将英伟达与亚马逊云科技技术优势相结合,为训练基础模型和构建生成式AI应用提供理想环境,具体包含英伟达新一代GPU、CPU与AI软件的最新多节点系统,以及亚马逊云科技的Nitro System先进虚拟化与安全平台、Elastic Fabric Adapter(EFA)互连技术和UltraCluster扩展能力。
亚马逊云科技与英伟达一直保持长期合作关系,携手为生成式AI赋能。此次扩大合作将为机器学习(ML)开拓者提供推动这些技术进一步发展所需的计算性能。双方合作的内容包括:
1、亚马逊云科技推出首款結合NVIDIA Grace Hopper Superchip与Amazon UltraCluster扩展功能的云AI超级计算机。
2、NVIDIA DGX Cloud率先配备NVIDIA GH200 NVL32,并首次在亚马逊云科技上提供此AI训练即服务。
3、英伟达和亚马逊云科技在Project Ceiba上合作,打造全球最快的GPU驱动AI超级计算机以及最新的NVIDIA DGX Cloud超级计算机,用于英伟达的AI研发以及自研模型开发服务。
4、配置NVIDIA GH200、H200、L40S以及L4 GPU等芯片的全新Amazon EC2实例,大幅提升生成式AI、HPC高性能计算、设计以及模拟类工作负载的性能。
5、在亚马逊科技上运行的英伟达软件,包括NeMo LLM框架、NeMo Retriever以及BioNeMo,加速自研模型、语义检索、新药研发等应用的生成式AI发展。
此次双方合作将大幅加速所有产业应用生成式AI的发展,具体内容包括:
1、亚马逊云科技是第一家在云端配备具有多节点NVLink技术的NVIDIA GH200 Grace Hopper Superchips的云厂商。NVIDIA GH200 NVL32多节点平台运用NVIDIA NVLink与NVSwitch技术连接32个Grace Hopper Superchips,组成一个实例。此平台将在Amazon Elastic Compute Cloud(Amazon EC2)实例上可用,与亚马逊强大的网络(EFA)相连,由先进的虚拟化(Amazon Nitro System)及超大规模集群(Amazon EC2 UltraClusters)提供支持,让共同客户能扩展至数千个GH200 Superchips。
2、英伟达与亚马逊云科技将连手在亚马逊云科技上推出NVIDIA DGX Cloud NVIDIA AI训练即服务(AI-training-as-a-service)。此服务将是首个配置GH200 NVL32的DGX Cloud,为开发者提供单一实例中最多的共享内存。在亚马逊云科技上运行的DGX Cloud将加速训练含有超过1兆参数的尖端生成式AI与大型语言模型。
3、英伟达与亚马逊云科技合作推动Project Ceiba,构建全球最快的GPU驱动的AI超级计算机,这是一个配备GH200 NVL32与Amazon EFA互连技术的大规模系统,该系统部署在亚马逊云科技上,为英伟达研发团队提供服务。该开创先河的超级计算机配置16,384颗NVIDIA GH200 Superchips,能处理65 exaflops速度等级的AI运算,英伟达使用该超级计算机推动其全新生成式AI的创新。
4、亚马逊云科技将推出三款Amazon EC2实例:P5e实例配置NVIDIA H200 Tensor Core GPUs,针对大规模与尖端生成式AI及HPC高性能运算工作负载;分别配置NVIDIA L4 GPUs与NVIDIA L40S GPUs的G6 与G6e实例,可运行包括AI微调、推理、绘图以及影片工作负载等广泛应用。G6e实例特别适用于开发3D工作流程、数字孪生、以及其他使用NVIDIA Omniverse的应用,用来连结与构建各种生成式AI的3D应用。
亚马逊云科技首席执行官Adam Selipsky表示:“亚马逊云科技与英伟达合作已经超过13年,我们的合作起源于推出全球首个配置GPU的云端实例。现在我们推出最广泛的英伟达 GPU解决方案,可用于各种工作负载,包括绘图、游戏、HPC高性能计算、机器学习,直到现在的生成式AI。我们持续运用英伟达技术推动创新,并通过将新一代NVIDIA Grace HopperSuperchips与亚马逊云科技强大看的网络EFA、超大规模集群EC2 UltraClusters以及先进虚拟化能力Nitro相结合,让亚马逊云科技成为运行GPU的最佳云端环境。”
英伟达创始人兼首席执行官黄仁勋表示:“生成式AI正改变各种云端负载,为多元内容创作在底层注入加速计算动能。我们共同目标是为每个客户提供具有成本效益、先进生成式AI,为此英伟达与亚马逊云科技在整个计算堆栈展开合作,横跨AI基础设施、加速库(acceleration libraries)、基础模型以及生成式AI服务。”
在亚马逊云科技云端上运行英伟达软件,加速生成式AI的研发
此外,英伟达宣布推出在亚马逊云科技上运行的软件,用于加速其生成式AI的研发。NVIDIA NeMo Retriever microservice微服务提供多项新工具,用来创造高精准度的聊天机器人,以及运用加速的语意检索技术的归纳工具。在Amazon SageMaker上可用的NVIDIA BioNeMo,并计划在亚马逊云科技托管的NVIDIA DGX Cloud,让制药企业加快新药开发,企业可运用自己的数据简化与加速模型训练。
在亚马逊云科技云端运行的英伟达软件将帮助亚马逊为其服务与运营注入创新动能。亚马逊云科技正运用NVIDIA NeMo框架训练新一代大语言模型Amazon Titan。Amazon Robotics也已开始借助NVIDIA Omniverse Isaac打造数字孪生,在虚拟化环境中推动自主仓库的自动化、优化以及规划,完成之后再部署到真实环境。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。