微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

2025-10-29 11:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-29 11:25 周雅

作者|周雅

在资本市场,一个强烈的信号往往胜过千言万语。当地时间周一(10月27日),高通(Qualcomm)股价上演了一场惊人的攀升,盘中涨幅一度突破20%,最终以11%的涨幅收官。点燃市场热情的并非其基石所在的手机业务,而是一次蓄力已久的战略奇袭及回归:高通日前正式宣布推出面向数据中心的下一代AI推理优化解决方案——基于Qualcomm AI200与AI250芯片的加速卡及整机机架系统。

高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

说"回归",是因为高通并非第一次进入数据中心市场。许多业内人士仍记得,2017年高通曾推出Qualcomm Centriq 2400平台,这款48核ARM架构服务器芯片一度被视为挑战传统x86服务器市场的希望,微软也成为其早期客户。但在随后的市场竞争中,这个项目逐渐淡出。到2018年底,高通大幅缩减了数据中心团队规模,这次尝试最终未能建立起规模化业务。

时隔七年,高通再次出手。这一次,高通祭出了一套迥异于主流的打法。它不再走传统服务器芯片的路径,而是选择将其在移动端数十年积累的、经过亿万部手机验证的低功耗、高能效NPU(神经处理单元)设计,放大并移植到数据中心的机架之上。目标市场也从通用计算转向了AI推理这个更具体的应用场景。

高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

高通技术公司高级副总裁兼技术规划、边缘解决方案和数据中心业务总经理马德嘉(Durga Malladi)在公开资料里给出了答案。

马德嘉说:“凭借Qualcomm AI200与AI250,我们正在重新定义机架级AI推理的可能性。这些创新的AI基础设施解决方案能够让客户以业界先进的总体拥有成本部署生成式AI,同时满足现代数据中心对灵活性与安全性的要求。我们拥有丰富的软件栈与开放生态支持,能够支持开发者和企业更加轻松地基于我们的优化AI推理解决方案,集成、管理并扩展完成训练的AI模型。基于与主流AI框架的无缝兼容性和一键模型部署功能,Qualcomm AI200与AI250旨在支持无缝应用与快速创新。”

这段表述,揭示了高通此次进入数据中心市场的核心战略逻辑:聚焦于能效优化和成本控制,这正是其在移动芯片领域长期耕耘的优势所在。

高通的判断是:当生成式AI从模型"训练"走向大规模"推理"应用时,市场对总体拥有成本(TCO)和能效比的关注度会持续提升,每瓦特电力所能提供的性能,正在成为越来越重要的评估指标。

这正是高通看到的市场机会。根据麦肯锡估算,到2030年,全球数据中心的资本支出将接近6.7万亿美元,其中绝大部分将流向AI系统。而国际能源署(IEA)数据则显示,数据中心、AI和加密货币在2022年的电力消耗已占全球总量的2%,预计到2026年,仅数据中心的电力需求就可能超过1000太瓦时,相当于日本整个国家的用电量。在这个能源成本日益成为核心制约的时代,高通正试图用"每美元每瓦特"的性能优势,在这个市场中找到自己的位置。

这一举动背后,是高通对业务多元化的持续推进。

高通的主要收入主要来自两大块,一块是芯片业务,包括手机芯片、汽车芯片和其他芯片等;另一块收入来自专利授权,指高通向手机厂商收取 3G/4G/5G 标准必要专利的使用费。

根据高通2025财年Q3财报显示(截至2025年6月23日),该季度营收为103.65亿美元,同比增长10%。其中,作为基石的手机芯片业务营收为63.28亿美元,同比增长7%,虽仍占主导,但增速已相对平稳;相比之下,汽车芯片业务和物联网业务表现更为亮眼,分别实现了21%和24%的同比高速增长,营收达到9.84亿美元和16.81亿美元。侧面证明了高通“多元化”战略的有效性。

如今,数据中心成为高通下一个布局的版块,也是最具雄心的目标。

战略的支点

要想了解高通的打法,必须先厘清AI计算的两个核心环节:训练与推理。简单而言:

训练,如同教一个学生学习。它需要用海量数据去构建和调整一个庞大的神经网络模型,这个过程对算力要求极高,计算密集且不容中断。英伟达凭借其CUDA生态和强大的GPU并行计算能力,在这个领域一骑绝尘,其专门针对训练优化的GPU系统功耗可达数十千瓦,专为高强度计算场景设计。目前,超过90%的AI训练市场份额都掌握在英伟达手中。

推理,则如同学生学成后解答问题。它是指利用已经训练好的模型,去执行具体任务,如响应一次聊天对话、生成一张图片或分析一段视频。推理任务的特点是高并发、低延迟、对成本和功耗极其敏感。当一个AI应用需要服务数百万乃至数十亿用户时,每一次推理的能耗和成本都会被急剧放大。

高通此次发布的AI200与AI250,明确将靶心对准了「推理」市场。高通官方新闻稿中强调:“这些解决方案提供机架级性能与卓越的内存容量,能够以出色的每美元每瓦特的高性能赋能高速生成式AI推理,为推动各行业可扩展、高效率、高灵活性的生成式AI部署树立重要里程碑。”换言之,客户不会用它们来训练下一个GPT-5,但会用它们来经济、高效地运行已经存在的各种AI模型。

这是一个值得关注的市场定位。原因在于:

首先,推理市场的规模持续扩大。据一些行业分析机构预测,随着生成式 AI 模型从开发转向广泛使用,预计到 2030 年,大部分计算需求将来自推理工作负载 。实际上,一旦模型(如大语言模型)经过训练,它可能会服务于数百万或数十亿次查询——这使得推理(模型的使用 )成为未来计算的主要消费者,因为后者是一种持续的、扩展的成本 ,随着用户采用而增长。事实上,就连英伟达CEO黄仁勋也曾指出,AI的真正爆发点不是训练,而是推理,而且推理的增长幅度将是“十亿倍”。一年之后,他说,“其实当时还是低估了”。所以这是一个更广阔、更多元化的战场。

其次,推理市场对“总体拥有成本(TCO)”的敏感度更高。TCO不仅包括购买硬件的初始资本支出(CapEx),更包括电力、散热、运维等长期运营支出(OpEx)。高通宣称其整机架功耗为160千瓦,其目标是在能效和成本上提供有竞争力的表现。对于需要部署成千上万台服务器的云服务商而言,能效提升在全生命周期内意味着可观的成本优化空间。

最后,推理市场的客户需求更加分化,为不同技术路径提供了发展空间。或许,高通正是看准了这个窗口期,试图用一种更具经济效益的方案,吸引那些正在寻求英伟达替代品的客户,比如像OpenAI一样开始采购AMD芯片。不过无独有偶,高通另一方面也要面对同样盯上这个市场的谷歌、亚马逊和微软等云巨头,它们也在自研AI芯片。

高通的策略,是聚焦于「推理」这个应用场景更广泛、对能效要求更高的细分市场。而它的核心竞争力,来自其在手机芯片领域积累的技术优势。

此举,本质上是在押注一个正在发生的趋势:当AI从实验室走向产业,从追求"更快"到同时关注"更省",评估标准就会多元化,这不仅是技术路径的选择,更是对不同应用场景需求的深入理解。

产品的底气

我们再来细看这两款产品,高通指出:

高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

两款机架解决方案均支持直接液冷散热,以提升散热效率,支持PCIe纵向扩展与以太网横向扩展,并具备机密计算,保障AI工作负载的安全性,整机架功耗为160千瓦。

高通杀回数据中心市场,用手机芯片的逻辑能否撬动AI推理的万亿市场?

可以说,Qualcomm AI200和AI250是Hexagon NPU(神经处理单元)技术在数据中心级别的“升维”应用。高通在移动端的NPU始于2007年首款Hexagon DSP,一方面,它经过数十年迭代,已进化为当下AI应用的核心引擎;另一方面,高通多年来一直在智能手机这方寸之地,与功耗和散热进行着极限博弈,这为其积累了深厚的低功耗芯片设计经验。

与主要用于图形渲染的GPU不同,NPU是专为执行神经网络运算而设计的处理器。它通过固化矩阵乘法、卷积等AI常用计算单元,能够在极低的功耗下实现极高的AI计算效率。高通Hexagon NPU在骁龙移动平台中早已是标配,负责处理手机上的拍照、语音识别等AI任务。

从技术路径上看,高通的NPU本质上属于ASIC(专用集成电路)的一种,与英伟达的GPU(通用图形处理器)逻辑不同。GPU通用性强,其并行计算架构恰好能高效处理AI算法,因此成为主流;而ASIC为特定任务(如AI推理)量身定制,虽然研发周期长,但一旦量产,在算力密度、能效和成本上拥有天然优势。高通正是将这一优势从手机端放大到了数据中心。

高通现在做的,就是将这种经过数十亿台设备验证的能效优势,从毫瓦级的手机场景,扩展到千瓦级的机架场景。AI200和AI250正是基于这一设计理念,专为推理工作负载进行了优化。

从具体参数来看,AI200的一个杀手锏是768GB LPDDR内存。我们知道,在AI推理中,一个重要的考量是内存容量,大语言模型动辄拥有数百亿甚至上万亿参数,需要消耗海量的内存。如果内存容量不足,模型就需要被拆分,或者在显存和主存之间频繁交换数据,这会极大地增加延迟和功耗。

高通AI200给出的解决方案是,每张卡支持高达768GB的LPDDR内存。作为参考,市场上不同的解决方案采用了不同的内存配置策略,各有侧重。

更关键的是内存类型的选择。LPDDR和HBM代表了两种不同的设计取舍。更关键的是,高通选择了LPDDR(Low-Power Double Data Rate)内存,而非HBM。HBM提供了极高的带宽,适合需要大量数据吞吐的场景;而LPDDR是广泛用于智能手机的低功耗内存,成本效益显著。对于推理任务而言,模型的参数一旦加载,访问模式相对固定,对内存容量的需求在某些场景下会优先于对极限带宽的需求。

通过采用更大容量的LPDDR内存,AI200能够将大模型完整加载在一张卡里,减少跨卡或跨服务器通信带来的延迟和能耗,这服务于其优化TCO的产品定位,提供了一种侧重成本效益的大模型部署方案。

还有值得一提的技术是「近存计算(Near-Memory Computing)」。如果说AI200是基于成熟技术的优化组合,那么AI250则探索了更前沿的架构方向。高通宣称,AI250将采用基于"近存计算"的创新内存架构。

传统计算架构(冯·诺依曼架构)中,计算单元和存储单元是分离的,数据需要在两者之间来回搬运,这被称为“内存墙”或“功耗墙”,在AI计算中尤为突出,因为数据搬运的能耗甚至超过了计算本身的能耗。

「近存计算」的核心思想,就是将部分计算功能尽可能地靠近存储单元,甚至集成到存储芯片内部,从而大幅减少数据移动的距离和能耗。高通宣称,AI250的这一架构能带来“超过10倍的有效内存带宽提升并显著降低功耗”。

如此一来,这两款产品精准聚焦在推理场景下对成本、功耗和内存容量的平衡优化。

商业模式

众所周知,选择AI芯片,不仅是选择硬件,更是选择一个软件生态。我们留意到高通官方新闻稿中特别提到了“超大规模级AI软件栈”,覆盖从应用层到系统软件层。主打“开放”和“兼容”。

该软件栈支持所有主流的机器学习框架(如PyTorch、TensorFlow)、推理引擎和生成式AI框架。更重要的是,它通过Qualcomm AI Inference Suite等工具,实现了与Hugging Face模型库的一键部署,这意味着开发者可以将现有模型部署到高通的硬件上,降低了迁移成本和学习曲线。

高通的策略是提供一个开放的、对开发者友好的平台。这对于那些希望保持供应链灵活性的客户来说,是一个重要考量因素。

不过,任何战略都需要落地验证,高通此次官宣的一个重要内容,是与沙特阿拉伯AI公司HUMAIN的战略合作。

根据协议,HUMAIN将成为高通数据中心解决方案的启动合作伙伴。从2026年开始,HUMAIN计划在其为中东地区企业和政府构建的数据中心和AI云平台中,部署高达200兆瓦电力容量的高通AI系统。

200兆瓦是一个什么概念?一个典型的大型数据中心功率在30-50兆瓦之间,这表明HUMAIN的订单规模足以支撑多个大型AI数据中心的建设。

选择沙特作为突破口,体现了高通的市场策略。在“沙特2030愿景”的推动下,沙特正在投入巨资发展数字经济和AI产业,作为一个快速发展的AI基础设施市场,沙特对多元化供应链有着明确的需求。

高通与HUMAIN这样的新兴市场客户合作,可以在相对开放的环境中,快速建立起应用案例和规模化部署经验。

但是,这条路显然需要时间来验证。

高通宣称,AI200和AI250的商用时间点分别定在2026年和2027年。在快速演进的AI硬件领域,未来两到三年的时间足以发生翻天覆地的变化。各家厂商都在持续推进新一代产品,技术和性能都会继续进步,比如英伟达已经预告了其下一代Rubin平台。高通能否在产品上市时,依然保持其宣称的TCO优势,还需要市场检验。

此外,这个市场的激烈程度远超以往。战场上不仅有传统芯片厂商,还有谷歌(TPU)、亚马逊(Inferentia/Trainium)、微软(Maia)等云巨头也在开发自研芯片。这些玩家既是潜在客户,也在自建解决方案。市场格局正在形成多元化的态势。

归根结底,AI芯片的竞争正从单一维度的性能比拼,演变为一场围绕不同应用场景、不同成本结构、不同技术路径的多元化竞争。高通选择的,是从能效和成本优化的角度切入推理市场,这是一个差异化的定位。

特别有意思的一点是,一方面高通在进击数据中心市场,另一方面英伟达同时也在加强在端侧的投入。

黄仁勋在刚刚结束的今年第二场GTC大会上(华盛顿举行)接受媒体采访时指出,技术层面,未来的AI必须是“随时待命”的,它需要在你唤醒的瞬间就能回应,具有即时交互能力,而今天的AI延迟仍然过高,语音互动不够自然,英伟达正在开发“超低延迟”的AI,例如 Grace Blackwell 这样的新架构,可以提供更快响应和更强算力,未来每个人都可能佩戴AI设备,比如眼镜,那将需要比现在多得多的计算能力。“因此,我们需要持续扩展AI算力基础设施。”

显然,市场从不排斥新入局者。

分享至
9赞

好文章,需要你的鼓励

周雅

Miranda
关注科技创新、技术投资。以文会友,左手硬核科技,右手浪漫主义。
推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-