作者 | 周雅
“为什么AI这么火?”
是德科技大中华区高速数字市场部经理李坚,最近在是德科技(Keysight Technologies)年度技术会议 Keysight World Tech Day 2025上,抛出这个问题的同时,答案也呼之欲出:就像是90年代的移动通信、2001年前后的互联网,以及随后的移动互联网浪潮,而AI是未来10年内最大的风口。
Bloomberg数据显示,全球AI市场规模预计将从2022年的869亿美元增长至2030年的1.3万亿美元。Markets and Markets数据进一步指出,该市场在2024至2030年的年复合增长率预计高达35.7%,这一增长,预期是驱动全球企业大规模投入AI基础设施建设的核心动力。
但是,在AI高速发展的背后,数据中心的实际运营也出现了瓶颈。
数据中心的瓶颈
我们知道,数据中心的复杂性超乎想象,它由大量的服务器、GPU、CPU、网络交换机等组件构成,这些设备通过机架连接,机架之间再通过复杂的网络架构连接成集群,最终由数百个集群组成一个完整的数据中心。
数据中心的复杂,要求在多个技术层面取得突破:首先是高速的网络技术;其次是计算架构,包括GPU性能的持续提升;最后,也是至关重要的一点——功耗。
图源:是德科技
正如是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan现场指出,算力固然重要,但如果能耗过高,技术的实用性将大打折扣,因此,所有的高速、高性能计算,都必须在极低的功耗下实现,这是AI等技术能否大规模落地的核心前提。
是德科技高级副总裁兼通信解决方案事业部总裁Kailash Narayanan
在深入分析AI数据中心建设过程时,李坚进一步揭示了两个普遍的痛点:
第一,GPU利用率普遍偏低。
GPU作为AI数据中心最核心且最贵的算力资产,其工作效率直接决定了数据中心的整体效能。然而,是德科技的调研数据显示,在典型的模型训练过程中,GPU的实际计算时间仅占约20%,另有16%为计算与数据传输的重叠时间,Memory的时间占2%,而高达62%的时间都处于等待状态。这意味着,一个GPU的真正有效工作时间仅为38%左右。
李坚进一步指出,造成GPU利用率低的主要原因是“数据传输瓶颈”——GPU没有及时收到数据,自然就无法进行计算,导致算力资源的大量浪费。
第二,可靠性差。
大语言模型的训练周期通常长达数周甚至数月。李坚指出,有数据显示,一次训练任务能够不受干扰、顺利完成的概率仅为57%,因为中途可能出现各种软硬件故障,而硬件故障是导致训练中断的主要原因。
问题的根源在于,为满足AI算力需求,数据中心内部的元器件在高温、高速、7x24小时不间断运行,很多器件已经逼近物理极限。“目前很多算力中心的高速器件的可靠性,远未达到传统数据中心的水平。例如,一个NVIDIA NV72机柜内包含超过五千根线缆和上百个光模块,任何一个组件的失效都可能导致整个系统停机,如果缺少有效的断点保护与恢复机制,之前的训练成果可能全部作废。”李坚进一步强调。
是德科技大中华区高速数字市场部经理李坚
这两个瓶颈的产生,与AI的快速演进密切相关。
李坚解释,大模型需要大算力、大数据、大带宽的支持,这就推动了数据中心内部互连技术标准的快速迭代,但现有标准无法满足头部算力芯片的带宽需求。所以,未来几年里,存储技术将快速发展,从DDR5向DDR6/7、HBM3/4演进,接口技术从PCIe 5向PCIe 6/7发展。
此外,速率的提升也带来物理挑战。高速信号在传统PCB板上传输损耗和串扰严重,迫使新型算力机柜大量使用电缆和光缆。但随着速率从800G向1.6T、3.2T提升,电缆的有效传输距离被急剧压缩,而有源光电模块虽能增强传输,却带来了明显的功耗和散热问题,进一步威胁到系统稳定性。
总之,如何解决这些底层物理问题,是提升AI产业整体投资回报率的关键。
是德科技的“KAI矩阵”
面对AI基础设施的效率和可靠性挑战,是德科技正式推出一个全新的产品矩阵“Keysight AI”(简称“KAI”),为AI基础设施提供全栈、全生命周期的支持。
KAI被划分为四大板块,针对数据中心从计算到网络传输的全路径:
1. KAI Compute(KAI高速计算):聚焦于数据中心的最底层——算力板卡。它提供针对GPU、CPU、高速内存(HBM)及其互连接口的测试验证方案,旨在确保最基础的计算单元稳定可靠。
2. KAI Interconnect(KAI互连):聚焦于板卡之间的连接。当一块块算力板卡被造出来后,需要通过高速的电缆、光模块、光连接器等组件连接起来,形成计算节点乃至超级节点。所以是德科技将旗下的网络分析仪、高速误码仪、采样示波器等一系列用于验证光电互连性能的解决方案,统一归入KAI Interconnect矩阵,保障数据传输物理通道的质量。
3. KAI Network(KAI网络):计算节点和超级节点,还需要通过网卡、交换机、路由器等网络设备,组成一个规模更宏大、结构更复杂的算力网络。在这一层面,测试的需求从物理层延伸到了网络层乃至应用层。是德科技在多年前耗资16亿美元收购的行业翘楚Ixia,其深厚的技术积累构成了KAI Network板块的核心。这些解决方案能够对网络设备的性能、协议一致性、安全性等进行全面的测试与验证。
4. KAI Power(KAI能效):聚焦于数据中心的能源效率。“数据中心的尽头是电站”,这句行业内的调侃精准地道出了功耗问题的严峻性。一个十万卡集群的耗电量,甚至超过一座百万人口的城市。而KAI Power解决方案,专注于测试和验证电源模块、功率器件的性能,帮助客户提升能源转换效率,降低整体拥有成本(TCO)。
是德科技的目标是,通过这套覆盖全栈、全生命周期(从研发、生产到安装维护)的解决方案,帮助客户构建更高效、更可靠的AI基础设施。
为将KAI的战略构想落地,是德科技发布了三款针对性的新产品,分别切入物理层、网络层和应用层的验证需求。
第一款产品:224G单通道和双通道采样示波器。
该产品旨在满足下一代光电互连技术的测试需求。随着行业向单通道224Gb/s的速率演进(这是实现1.6T及以上带宽的基础),测试仪器的精度至关重要。是德科技推出的这款224G采样示波器,其核心器件是德科技久负盛名的自研技术——磷化铟(InP)技术,在示波器的噪声和抖动等关键指标上表现出色,为光芯片、光模块等组件厂商提供了精准的物理层验证工具。
第二款产品:INPT-1600GE网络互连与性能测试设备。
当光模块等组件被集成到网卡、交换机等设备后,验证工作便从物理层上升到了传输层和网络层。李坚介绍,这款产品速率达到1.6T,其创新之处在于融入了更多针对Layer 2 FEC(前向纠错编码)的分析功能。更重要的是,它具备进行“极限性能测试”的独特能力。传统的测试大多是在静态、理想的条件下进行。但真实工作环境中,模块的性能会受到温度、链路质量等多种动态因素的影响。这款产品能够模拟这些极限工况,对模块进行动态压力测试,评估其性能边界,而不仅仅是做一个简单的“通过/不通过”判断。这一功能已申请专利,体现了是德科技对真实应用场景的深刻理解。
第三款产品:工作负载仿真器。
这是三款新品中最具创新性、也最贴近AI应用实际的一款。李坚指出,当下的AI算力网络,其流量模型与传统数据中心有着天壤之别。传统数据中心多为“南北向流量”(客户端到服务器),而AI数据中心则充斥着大量GPU之间、节点之间的“东西向流量”,且这些流量往往是脉冲式的、非均衡的。如果交换机、网卡中的流量管控和调度算法(好比道路上的红绿灯系统)设计不合理,就会导致网络拥堵,造成GPU大量等待。
这款工作负载仿真器,可用于评估网络是否高效。它是一款主要运行在是德科技AresONE硬件平台上的软件,通过在网络部署前进行仿真测试,可以提前发现并优化交换机、网卡中的调度算法,从而有效避免上线后出现性能瓶颈,降低运维成本。李坚透露,是德科技是行业内率先提供此类仿真能力的公司,并已在北美与一些超大规模云服务商完成了相关验证。
深耕中国40年:与本土创新同频共振
回顾是德科技的发展史,可追溯到1939年的惠普公司。作为惠普最初的测试和测量业务部门,他们开启了为客户提供设计与仿真解决方案的旅程。历经85年后,这支队伍先是成为安捷伦科技的一部分,并最终在十年前独立出来,成为今天的“是德科技”。所以,尽管公司本身看似年轻,但它的技术传承已跨越近一个世纪。
Kailash强调,是德科技的使命是“加速创新,创造一个安全互联的世界”。为此,公司战略有三个核心支柱。
首先,在客户产品的极早期阶段,便与之深度合作,确保全生命周期的陪伴。其次,大力搞研发,不断提高自身的技术能力。最后,通过广泛合作,包括积极参与全球标准化组织,推动技术标准的制定与落地,从而赋能整个生态。
Kailash总结说,无论是产业链上游的半导体公司,中游的模块与组件制造商,还是下游集成这些组件构建路由器、交换机等大型子系统的设备商,或是超大规模云服务提供商(Hyperscaler),是德科技为产业链的每一个环节提供各类解决方案。无论是AI还是6G,是德科技与客户携手,共同推动这些颠覆性技术在中国乃至全球的商业化进程。
谈及中国市场,是德科技高级副总裁兼首席营销官Marie Hattar,介绍了是德科技与中国市场长达40余年的渊源。
是德科技高级副总裁兼首席营销官Marie Hattar
从当年作为惠普的团队开始,是德科技就开始服务中国客户,尽管中间经历了安捷伦等公司的分拆,但是德科技与中国客户的合作就一直没有断过。Marie自豪地表示,如今的是德科技,是一家专注于设计、仿真和测试的创新型公司,与中国客户共同成长,将业务版图扩展到了通信、半导体、汽车、航空航天等多个关键领域。
为了支撑中国市场发展,是德科技深耕本地化布局。目前,公司在大中华区拥有超过1000名员工,分布在10多个城市,且在中国多个城市设立开放式实验室(Open Lab)。Marie特别指出了在北京的研发中心,该中心专注于软件开发,确保更贴近市场需求,以“中国速度”推动创新。
以汽车领域为例。Marie认为,中国正迅速成为全球汽车行业的领导者,是德科技在全球设立的四座汽车客户中心里,其中一座就落户上海。这不仅是因为中国家用车市场的蓬勃,更是因为自动驾驶出租车、自动驾驶送货车等新兴业态,在中国快速涌现。
在市场触达方面,是德科技同样遵循本地化发展。考虑到中国客户的沟通习惯向社交平台迁移,他们不再只依赖官网,而是将微信和公众号作为与客户互动的主阵地。同时考虑到视频受众,是德科技还入驻了B站,展示各种产品评测教程。
不难看出,在这个步履不停的AI赛场,是德科技作为“基础设施赋能者”的一员,显然已经找到了自己的独特价值。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。