咔嚓!
李雷掏出手机,按下快门,想要抓拍自己、韩梅梅、以及身后稍纵即逝的夕阳,但当把手机翻过来一看,竟然拍成了荷兰式镜头,虽然两人面部情绪是饱满的,但身后的美景却没有入镜。想要再拍,一个旅游团的游客正疯狂入画,可惜!
这个桥段我们经常见,不一样的是,要是放在以前,这张图像可能就会沦为废镜头,但现在李雷根本不慌,因为他的手机有个强有力的帮手——AI。
AI会根据原始图像,脑补它的完整画面,自动填充图像背景,即使是原始图像没有拍到的背景,AI也会用算法分析一波、再自动生成逼真的背景,把原始图像化腐朽为神奇——这一功能叫做“照片扩展Photo Expansion”,是来自高通与Tetras.AI公司合作开发的功能,现在被内置在搭载第三代骁龙8移动平台的手机里。
照片扩展前(左)VS照片扩展后(右)
01 手机进化与智能演进
智能手机的名字虽然有智能二字,但这个过程并不是一蹴而就的。相反,智能手机作为硅基生命载体,也经历了一个进化过程。而进化的上半场,是从语音终端,发展到移动互联网终端。
手机的第一次进化,是以通话+短信功能为代表的“翻盖机”;手机的第二次进化,是feature phone(功能机),从“翻盖机”跨越到“黑莓全键盘”,手机除了语音短信功能之外,还多了一些简单的上网娱乐功能;手机的第三次进化,是终端具备计算能力,当年iPhone的出现引发移动应用的爆发,移动应用又反哺人们的工作生活方式。
不过,把照片发到朋友圈里,只是移动互联网;像李雷一样,能把创作出来的图片发到朋友圈,就可以叫移动智能了。
是的,如今手机或许正在迎来第四次进化,手机正在能进行“无中生有”的创作,能够与用户基于自然语言交流,所以,从某种程度上看现在的“手机”,才能更称得上是“智能”手机”。同时,智能手机的端侧智能,也弥补了云端AI的成本、效率和安全性不足。
我们都知道,人工智能/机器学习主要包括两个方向:一个是训练,一个是推理。随着生成式AI模型的使用量和复杂性增长,如果只在云端进行训练和推理,就意味着数据中心的基础设施成本(包括硬件、场地、能耗、运营、额外带宽和网络传输的成本将持续增加),更何况,现在一些生成式AI大模型动辄数十亿参数。据估计,使用基于生成式AI的搜索,每一次查询(query)其成本是传统搜索方法的10倍,而这只是众多生成式AI的应用之一。
因此一些公司,比如高通,就提出了「混合AI」的路径,让每一个智能终端“进可攻退可守”。
所谓「混合AI」,指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载,以提供更好的体验,并高效利用资源。在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务;而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。“生成式AI将成为人们与应用程序之间的接口。当云端和终端完全融合时,我们将看到新一轮行业变革。”正如高通公司CEO安蒙所说,云端与终端的协同,将是未来AI技术落地的方向。
“混合AI架构,或仅在终端侧运行AI,能够在全球范围带来成本、能耗、性能、隐私、安全和个性化优势。”高通在曾经发表的《混合AI是AI的未来》报告中指出。此处重点梳理一下其中的「降低成本」和「个性化」两个优势。
在「降本」方面,在以终端为中心的「混合AI」架构中,终端将充当锚点,云端仅用于分流处理终端无法充分执行的任务,这就可以支持OEM厂商、独立软件开发商(ISV)、应用开发者,利用终端侧的计算能力降低成本,更经济实惠地探索和打造应用。“如果在云端运行一个超过10亿参数的生成式AI模型,可能需要数百瓦的功耗,而在终端侧运行需要的功耗仅有几毫瓦。”高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar曾经在采访中指出。
例如,搭载骁龙X Elite的Windows 11 PC的终端侧聊天助手,可实现每秒处理30个token;或搭载第三代骁龙8的智能手机,基于「高通AI软件栈」的优化,仅需不到1秒就能用Stable Diffusion生成图像。而这两者都是在终端侧的离线模式下运行。
之所以能实现如此迅速的生成速度,是因为第三代骁龙8搭载的AI引擎实现了性能与能效飞跃,搭载了史上最快的高通Hexagon NPU,支持大模型参数规格从今年年初的10亿量级,到现在暴增10倍至100亿,能够以20个token/s的速度进行AI大模型的生成。高通传感器中枢也引入了下一代微型NPU,将AI性能提升至前代的3.5倍,内存提升30%,在第三代骁龙8的加持下接入大模型的AI助手,能够与高通传感器中枢协同工作,利用位置和活动数据等信息,结合情境提供个性化的回答。
在「个性化」方面,智能手机的进化趋势,是它可以越来越懂你,越来越个性化。而在终端侧,数字助手将根据用户的表情、喜好和个性进行定制,所形成的用户画像能够从实际行为、痛点、需求、顾虑和问题等方面来体现,且这个助手可以持续学习和进化。另外,用户画像保留在终端内,既不影响隐私保护,也可以通过终端侧学习不断优化和更新。比如,搭载第三代骁龙8的手机支持终端侧个性化功能,假如李雷是个旅游博主,那么当他到某个旅游地时,手机里的AI助手会根据李雷喜欢冲浪的爱好,自动推荐当地的冲浪海滩。
它背后的原理是,高通传感器中枢和设备上的大模型一起工作,不断处理和分析来自手机上各种传感器的数据。这些数据被用于创建一个神经网络,持续学习李雷的喜好,并持续训练大模型,随着李雷用手机越多,它的响应就会变得越有针对性和个性化。
也就是说,为了在终端侧实现个性化人工智能,AI可以通过个人用户及其当前环境提供的本地数据进行灵活处理。例如,智能手机、平板电脑和PC等终端可以利用来自摄像头、麦克风、加速计、陀螺仪、GPS、Wi-Fi 和蓝牙等内置传感器的数据,并用于设备上推理,以提供更相关和个性化的响应。但仅这一点,对于“云端”来说,可能意味着成本高昂、效率低下、甚至无法实现,因为将视频数据等数据上传到云会占用大量带宽,并且很容易耗尽电池寿命。
更关键的是,在终端侧运行个性化AI,不需要持续访问云资源,这可确保低延迟、增强数据隐私、并提供可靠的离线功能。
02 从普及网络,到普及智能
图灵在1950年发表了一篇重要的论文,题为《计算机与智能》(Computing Machinery and Intelligence),这篇论文中他提出了著名的“图灵测试”。
70年过去了,这个测试终将被生成式AI所打破。然而,这一重要技术革新的到来并不容易,背后凝聚了发明家们长期的科研积累。高通公司,就是一个例子。
这些年来,计算从「主机」发展到在「PC端」和「手机端」进行,然后是AI加速的计算在「云端」或「终端」实现,这就带来一系列变革,甚至让高通这家老牌通信公司,也直言正在转型。“我们一直强调高通在不断转变,从原来的一家通信企业,转型为现在的网联计算处理企业。”安蒙前阵子在2023骁龙峰会时对外表示。
2007年,骁龙刚发布的时候,就承载了一个厚重的使命,要推动手机的普及,而4G带来移动互联网时代的同时,手机也从此变成一个互联网终端。
也几乎是在同一时刻,高通就开启了人工智能的研究。早在2007年,高通就开始探索面向计算机视觉和运动控制应用的机器学习脉冲神经方法,随后还将其研究范围从仿生方法拓展到人工神经网络——主要是深度学习领域。2012年,高通在ImageNet挑战赛中利用深度学习技术获得成功,在物体定位、物体侦测和场景分类比赛中名列前三名。
到了2014年9月,高通在阿姆斯特丹开设Qualcomm Research荷兰分支,作为机器学习研究的基地,学生通过“高通创新奖学金计划”进行前瞻性研究;2015年9月,高通与阿姆斯特丹大学建立联合研究实验室,专注于推进面向移动计算机视觉的、最先进的机器学习技术发展。2017年,通过收购阿姆斯特丹人工智能公司Scyfer,高通进一步加深了人工智能领域的研究。
经过持续不断的研究,高通也终于收获了AI领域的成果。2015年,高通向前迈出了一大步,正式在骁龙820上搭载首款高通AI引擎,在CPU上实现运行神经网络,还采用了当时商用领域最为主流的深度学习框架Caffe,能自动根据用户拍摄的照片进行分类,比如识别出实物和汽车的图像,分别存储在两个不同的文件夹,方便用户更好地管理拍摄的照片。此时,用户可能根本没有意识到,自己的手机里已经开始变得“智能”。
但如果顺藤摸瓜往前追溯,这源于2013年高通推出的AI芯片Zeroth,它最大的特色,是采用了仿生自生物大脑的神经元架构(这正是最早的NPU概念),能够不依赖编程、而是通过反复的“观察”和“自学习”,实现程序、性能的自我进化。在2015年,Zeroth的架构、编程思路首次被引入到骁龙平台,最终促使骁龙820成为第一款明确具备AI加速能力的移动平台。
三年后的2018年,高通在端侧AI处理又迎来一次技术爆发,骁龙855中专为AI新增张量加速器(Hexagon Tensor Accelerator),以及搭载了4个Hexagon向量扩展内核(Hexagon Vector eXtensions),这让骁龙855实现了专有的、可编程的AI加速。这是因为,在终端侧大规模运行推理,就不得不考虑「能效」。
以智能手机为例,AI 运算本身需要反复、高强度的运算环境,智能手机的计算能力、电池、存储空间等方面都可能是个问题,而高通的解决方法,是在 AI Engine 中引入 Hexagon 张量加速器,Hexagon支持的定点运算,有助于模型更快的运行,同时能耗也更低,Hexagon张量处理器的加入,可以大大提高AI Engine 的整体运算效率,降低功耗。
而一年后的2019年,随着骁龙865的推出,高通扩展了终端侧AI的用例,包括AI成像、AI视频、AI语音和始终在线的传感器中枢。
“再三年”后的2021年,骁龙8 Gen 1搭载了第七代高通AI引擎,高通推出了一种新的Hexagon数字信号处理器(DSP)架构,它增加了一些用例,比如由高通AI引擎支持的始终感应的相机用例。2022 年,高通将其软件的各个组件合并到高通AI堆栈中,为特定领域的SDK奠定了基础。
高通AI堆栈图
到了2023年,高通最新发布的骁龙8 Gen 3已经“无处不AI”,覆盖了从硬件参数、AI软件、到AI功能用例等方方面面。以用例而言,第三代骁龙8已经成为业界第一款可以运行100亿参数模型的安卓智能手机移动平台,这就意味着它可以在不联网的情况下,直接依靠本地AI算力实现自然语言对话、AI绘图等功能。
总结下来,高通的人工智能,将移动领域作为一个重要起点。而这种传统设定,也带来了很高的门槛,因为移动设备是电池供电的轻型消费设备,处理、内存和 I/O 有限。而高通已在AI业务领域集齐三大关键要素,它们包括:「硬件」,支持在既定功耗下实现更高性能;「高通AI软件栈」;以及一系列「工具」,包括高通AI模型增效工具包(AIMET)等。
“纵观智能手机领域,AI的发展有望开启一轮全新的增长周期。只有强有力的技术变革,才能推动手机市场的变革。我们将「生成式AI」视为一次千载难逢的机会,基于智能手机的新一轮创新浪潮已势不可挡。”高通公司CEO安蒙在近期的采访中如此分享道。
因此,我们或许可以这样讲,骁龙不仅参与了移动互联网的普及,在硬币的另一面,高通也在推动这颗芯持续进行移动端智能的普及工作。
多年前,骁龙驱动的智能手机,让全球多数人接入互联网成为可能。多年后,5G和人工智能时代到来,骁龙又有了一个新使命,让智能手机回归初心——让智能手机拥有真正的智能,更懂用户、更人性化。
好文章,需要你的鼓励
京东方董事长陈炎顺在9月4日举办的京东方全球创新伙伴大会(BOE IPC·2024)上,正式提出了企业创新发展的战略升维"第N曲线"理论,旨在以“屏之物联”发展战略为指引,打造企业新的业务增长极。这很自然让人想到“第二曲线”理论。不过,在讲这个发展理论之前,我们要先谈谈创新。
作为中美连续创业者,赵维奇的创业之路非常宽泛,做过社交软件、做过游戏、做过面向极限运动的AR产品等。而现在,赵维奇作为Rokid全球开发者生态负责人,也参与负责Rokid多款软硬件产品设计与研发。他回忆说,最早加入Rokid是在实验室,开发Rokid第一代AR眼镜,相当于是一个小组在做内部创业的过程。