微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 要把人工智能提速50倍的ARM,却依然坚持做“通用的计算架构”

要把人工智能提速50倍的ARM,却依然坚持做“通用的计算架构”

2017-03-23 22:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2017-03-23 22:05 周雅

CNET科技资讯网 3月23日 北京消息(文/周雅):3月21日下午,ARM在北京对外公布了一项新技术——DynamIQ技术,并宣称这个技术将被大量的应用于汽车、家庭以及各种互联设备,设备产生的数据会在云端或者设备端被用于机器学习,以实现更先进的人工智能。

这个技术是ARM公司的一项重大突破。按照ARM自己的说法,“DynamIQ是针对下一个计算时代应运而生的新技术”。之所以这么评价,ARM副总裁暨计算产品事业部总经理Nandan Nayampally作出了解释:

要把人工智能提速50倍的ARM,却依然坚持做“通用的计算架构”

ARM副总裁暨计算产品事业部总经理Nandan Nayampally

1、这项技术相当于“重新定义了多核处理器”。

说到这里我们先回顾一下12年前,ARM确实在业界推出了革新式的产品多核ARM11,ARM11实际上是第一次实现了在单一群集当中可以支持四个核用于嵌入式的系统。也就是说,即使是一个群集,内部的配置也能够做到多元化、灵活性。

六年前,ARM开始引入大小核群集这样的技术。两个不同的群集连在一起,能够实现异构计算的多核。这就更适用于越来越高需求的智能手机,同时延伸到了企业级计算,甚至汽车等嵌入式系统的领域。

现在,DynamIQ技术所基于的Cortex-A系列处理器,将重新定义多核。这也是ARM big.LITTLE技术(为适当的作业分配恰当的处理器)的重要演进,因为DynamIQ big.LITTLE能够允许对单一计算集群上的大小核进行配置,而这在过去是不可能的。例如,1+3或者1+7的SoC(系统级芯片)设计配置, 现在因为DynamIQ big.LITTLE使其得以实现,这个功能,尤其在异构计算和具有人工智能的设备上都是需要优先考虑的。

Nandan Nayampally说,“有了DynamIQ这个技术,我们在一个群集当中可以最多放8个核,而且这8个核可以是不同处理能力的核。这意味着,不管你有没有大小核,都能够实现同构或者异构计算的灵活性。”“另外,DynamIQ还可以与CoreLink和Cache Coherent Interconnect技术互补,实现与大型计算系统的连接。”“此外, DynamIQ对内存子系统做了重新设计,让核本身具有更强的处理能力和更高的性能。”所有这些性能,以及快速响应,都被延展到片上系统的其他部分。

2、DynamiQ还包含了一系列针对机器学习和人工智能进行优化的全新处理器指令集,可以加速人工智能在各个领域的普及程度。这个“加速”,主要通过对CPU和片上系统两方面性能的提升来实现。第一代采用DynamiQ技术的Cortex-A系列处理器在使用优化指令集后,可以实现比基于Cortex-A73设备高出50倍的人工智能性能,并最多可提升10倍CPU与SoC上指定硬件加速器之间的反应速度。

3、这项技术拥有高度可拓展性以及量身定制的解决方案。它指的是一个全新的单一群集,在这个单一群集当中最多可以放置八个处理能力,或者功耗不同的核。这也就把芯片级或者是群集的可配置性,推上了一个新的台阶——结合使用CoreLink的话,可以把DynamIQ用于一些大型计算系统。

4、DynamIQ能实现更安全的自动控制系统(safer autonomous system),支持ASIL-D安全标准。不管是因为系统本身,还是因为人为的错误导致了系统故障,DynamIQ的技术能够帮助系统实现自恢复的功能。在这背后,DynamIQ从需求的捕获,到设计、验证、跟踪、部署、交付,整个过程当中都有非常严苛的执行。

值得注意的是,这个技术发布会是ARM在2016年被软银收购后的第二次大动作。而在ARM官方,加入软银集团并不仅仅是一次商业事件,更多的被描述成“为了引领下一次信息革命的突破性转型”。

在这次的技术发布会,ARM还是走这个路数,尽管ARM整场一直强调将在人工智能领域有所突破,但Nandan Nayampally在回答现场媒体提问时表示,ARM依然坚持做通用的计算架构,“重点是发布一个技术的平台”。

“通用的计算架构”一直是ARM的定位。这时候我们就有必要来了解一下这家公司。26年前成立于英国剑桥的ARM,是一家半导体设计及软件公司,公司既不生产芯片也不销售芯片,它只出售芯片知识产权方案授权——“ARM架构”。这个架构被广泛使用在手机、PDA(掌上电脑)、平板、数字媒体、计算器、手游控制台等等当中。

也许你并不了解ARM这家企业,但你很可能是它的用户。简单说,目前你能买到的硬件设备里,不管是骁龙、MTK、苹果还是海思麒麟,这些芯片统统使用过ARM的指令集架构或处理器架构。它们向ARM购买授权之后,在ARM架构的基础上再设计或改进芯片。也正是因为这样,ARM架构的芯片出货量已经达到了1000亿。

而ARM笃定,把这个数字再翻一倍只需要5年——到2021年,ARM的总出货量将达到2000亿片。Nandan Nayampally表示,ARM现有的成绩和对未来的乐观预测,有几个因素:

一方面反映了整个行业目前对于更多计算的需求,一方面因为ARM“全面计算(Total Computing)”自身的高可拓展性,更关键的是基于他们的合作伙伴——目前ARM在全球有450多家半导体行业合作伙伴,有35亿人使用基于ARM架构的计算设备,用来联网、通信以及计算。

特别是现在人工智能和物联网发展的越快,ARM的生态系统越不再局限于移动计算领域。市面上有更多基于ARM的软件、软件堆栈和应用被开发出来,被应用在智能手机以外的智能家居、汽车以及企业级应用。

在这些越来越细分的领域,“基于ARM架构的芯片小到能够用在一个连电池都没有、必须要依赖外部供电的非常微小的传感器当中。甚至注入到人体,可以监测人体的状态——我们相信,ARM架构在物联网的世界当中确实能够作为一个非常有效的催化剂。”Nandan Nayampally说。

这个“催化剂”时间可能不会等太长,或许2020年是一个时间点。Nandan Nayampally设想:2020年,人工智能、机器学习、电脑视觉以及电脑的语言能力会无所不在;

一些智能化被深入的运用到无人驾驶车、机器人以及工业控制系统当中——除了高性能,安全性也格外重要;

而且到了2020年,人类能够真正地实现混合现实。“尽管5G为我们描述了一个极低延时,超高带宽通信的情景,但是数据会以爆炸式的状态去发展。也就意味着,我们需要更高、更强的处理能力,我们不能够完全依赖于云端进行数据处理。此外,我们需要设备本身能够实现更低的功耗,更低的散热,以及更高的性能。”

到那个时候,ARM计划就是,计算在哪,ARM就在哪。

分享至
0赞

好文章,需要你的鼓励

周雅

Miranda
关注科技创新、技术投资。以文会友,左手硬核科技,右手浪漫主义。
推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-