毫无疑问,生成式AI及其他各类机器学习应用将在未来几年之内,广泛渗透进各个行业、各类应用技术栈以及各种具体软件产品。而同样可以预期的是,针对最先进模型的AI训练(特别是那些包含数万亿个参数和数据标记的神经网络)将继续产生高昂的成本。如果要在生产环境中部署生成式AI,就必须找到一种以更低成本实现AI推理的可行方法。
目前体量最大的生成式AI模型,大约需要在数万个GPU上花三到四个月才能完成训练。但推理流程对资源的需求则没那么夸张,一般只需要一到两个节点、每节点搭载8个GPU,即可建立起嵌入至实际应用场景的生成式响应能力。如果未来的GPU没办法变得更小巧、更便宜,那么CPU厂商就得在自己的产品中添加更多矩阵数学功能,借此从GPU或其他类型的矩阵数学加速器手中争夺这部分市场份额。而且换个角度看,如果CPU没法依靠更强大的矩阵性能从GPU中夺回一部分业务空间,那么生成式AI的成本就很难下降到合理水平——至少就目前的GPU成本来看,这项技术还做不到广泛普及。
这就带来了新的有趣难题,而且目前很难差别形势会朝着哪个方向发展。英特尔凭借其“Ponte Vecchio”Max系列GPU在矩阵数学加速器领域处于相对弱势的地位——其最大缺点就在于发热量太大、制造成本太高。另一方面,尽管旗下的Gaudi 2和Gaudi 3神经网络处理器(NNP)芯片备受好评,但还不清楚客户要如何利用它们进行生成式AI推理。另外,Gaudi系列计划在2025年内被下一代“Falcon Shores”GPU-NNP融合芯片所取代,所以在短短两年之内,很难相信英特尔能够制造出比英伟达或者AMD更好、更便宜的GPU产品来。此外,也没有迹象表明英特尔会在未来的至强SP核心中大幅扩展AMX单元的低精度数学功能。
但我们仍然相信,英特尔上写希望尽量在其CPU上运行AI推理负载。只是最大的问题在于,考虑到目前最先进的生成式AI模型需要大量算力才能把对提示词的响应延迟控制在可以接受的范围之内,所以用CPU跑AI推理似乎仍不具备可行性。
面对生成式AI全面爆发的时代背景,加上AMD在x86服务器CPU领域的步步紧逼、以及英伟达和AMD双方在数据中心GPU市场上的快速崛起,我们不由得要为英特尔当前的数据中心计算业务捏一把汗。没错,尽管芯片巨头截至9月的第三季度表现好于预期,我们也确实希望激烈的市场竞争能够进一步拉低各类数据中心计算产品的价格,但这场决定数据中心市场格局的对抗还远未结束。事实上,这很可能成为一场绵延数十年的持久战,没有哪家厂商能够明显胜出。英特尔当初彻底掌控数据中心计算市场的经历,也许将成为特定历史时期下一种特殊的历史现象。哪怕是正在数据中心领域疯狂攻城掠地的英伟达,也必须接受这类场景下仍存在大量非AI工作负载的现实。那么,这种群龙无首的状况还会持续多久?据我们估计,至少在未来四、五年内,AI训练和推理就将占据总体服务器收入的约一半左右。届时最关键的问题就是,这些AI训练和推理工作负载到底在哪里运行、由谁来运行?
英特尔公司CEO兼数据中心业务总经理、曾在芯片巨头辉煌时期担任首席技术官的Pat Gelsinger在回顾第三季度的财务业绩时,做出了如下论述。
“虽然过去几个季度以来,业界看到CPU与加速器之间的市场份额比例发生了一些变化,服务器市场也进入了库存消化周期,但在进入第四季度之后,我们发现高层需求开始重归常态。这也推动总体潜在市场(TAM)迎来了适度的环比增长。对于大多数客户来说,预计2023年将以比较健康的库存水平迎来尾声,而计算核心需求量的增长也将在年末从低迷周期恢复至比较正常的历史水平。更重要的是,我们对发展路线图的成功执行正通过四代阶段增强自身产品组合,而后续五代至强、Sierra Forest和Granite Rapids产品将帮助英特尔重新夺回数据中心份额。此外,我们预计凭借由Gaudi主导的AI加速器套件,英特尔将在2024年内把握住不断增长的加速器市场份额。Gaudi正与MLCommons和Hugging Face等第三方共同建立领先的基准性能结果。我们对英特尔的加速器产品组合、特别是Gaudi表现出的客户吸引力感到满意。过去90天内,我们的销售渠道几乎增加了一倍。”
这部分销售渠道对应着约20亿美元的市场空间,且主要集中在Gaudi系列加速器之上。纵观英特尔过去几个季度的运营策略,这些加速器有望在英伟达和AMD GPU严重供不应求的背景之下有所斩获。但在我们看来,整个2023年之内,AI推理与训练服务器的总收入将接近500亿美元。所以在将渠道销售额与实际销售额比较时务必得考虑到整体业务需求的增长,毕竟渠道对应着理论出货空间、能否转化成实际收入仍然有待观察。另外英特尔在市场上还面对着不同的竞争对手,其业务定位各有差异、也都在全力以赴追逐这波AI浪潮中的商业机遇。
正如前文提到,如果英特尔能够开发出一套合理的矩阵数学引擎并承载起TensorFlow和PyTorch,那么产品销量应该不成问题。而英特尔选择的路线却是将4000台Gaudi 2设备部署在云端,而非直接出售给AI初创企业。这样的现实不禁令我们心生好奇。从表面上看,这似乎意味着英特尔没办法直接向客户出售这部分计算容量。但换个角度,多年以来AI处理能力所产生的收入高达设备直接销售收入的约2.5倍,这就解释了为什么英特尔非得自建云体系,并努力拉拢Stability.ai(Stable Diffusion生成图像处理平台的母公司)成为其主要客户。
鉴于英伟达“Hopper”H100 GPU的产能有限,再加上AMD那边不知道能产出多少“Antares”Instinct MI300A和MI300X GPU,相信英特尔目前的Gaudi 2加速器、以及后续号称性能将倍增的Gaudi 3加速器都将获得不错的市场表现。但问题最终还是要着落在,这一切是否能够转化成实质性的收入增长、又能否为未来的Falcon Shores GPU奠基开路。
英特尔数据中心与AI部门(简称DCAI)销售额为38.1亿美元,下降9.4%;但营业利润来到7100万美元,达到去年同期的4.2倍。
英特尔还提出了新的市场受众概念,即MNC——跨国公司。这部分客户以往被称为“大型企业”,区别于中小企业(SMB)、超大规模基础设施运营商和云服务商。Gelsinger在电话会议上表示DCAI部门的表现稍微超出了英特尔的预期,收入环比略有增长,而全球十大云服务商已经开始将今年1月推出的“Sapphire Rapids”四代至强SP纳入生产部署。Gelsinger还强调,英特尔Sapphire Rapids在本季度初的出货量已经突破100万颗,11月出货量预计将突破200万颗。他同时对第六代“Granite Rapids”至强SP也寄予厚望,其AI处理性能将达到Sapphire Rapids的2到3倍。
Gelsinger提醒大家,第五代“Emerald Rapids”至强SP只是对Sapphire Rapids的小改款,计划于12月14日推出。第六代“Sierra Forest”至强SP则甚至“Sierra Glen”能效核、而非“Redwood Cover”性能核。至于第六代Granite Rapids至强SP,将继续沿用相同的“Birch Stream”插槽及平台。Sierra Forest将在单一芯片上封装144个核心,并采用可容纳288个核心的双芯片插槽,推出时间预计在2024年上半年。Granite Rapids则将紧随其后。
但英特尔的设计水平和供应能力到底跟不跟得上宣传,还有待时间来验证。毕竟AMD仍在着力更新自家Epyc CPU产品线,英伟达和Ampere也在某些服务器领域表现出了竞争力。谷歌和微软都在开发自己的Arm架构CPU,亚马逊云科技更已宣布将在今年11月推出其Graviton 4芯片。
在向美国证券交易委员会提交的10-Q文件中,英特尔对其DCAI部门做出了更具体的论述。工程学院表示,第三季度服务器销量(主要是CPU,但也包含部分主板和芯片组)下降了35%,对于这个令人震惊的数字,英特尔将原因归结于“CPU数据中心市场的整体疲软”。这话其实没错,毕竟云服务商和超大规模运营商正在将大量资金投入到运行生成式AI负载的GPU之上,所以其他采购计划开始相应放缓。有趣的是,尽管超大规模基础设施运营商和云服务商的消费量下降,但服务器平均售价(ASP)却上涨了38%,而继续购买至强SP的客户(包括超大规模及云服务商)现在也更乐于选择那些核心数量更多的高端CPU。
从今年的情况来看,截至第三季度末,DCAI部门的收入下降了22.5%、至115.4亿美元。英特尔还在10-Q文件中提到,其中服务器销量下降了41%,但平均售价上涨了17%。FPGA的销量倒是贡献了一部分收入,但展望未来,英特尔认为FPGA的销售增长恐怕也将放缓。过去9个月以来,DCAI部门的运营亏损为6.08亿美元;相比之下,该部门在2022年前三个月的运营收益为19.2亿美元,销售总额则高达148.9亿美元。
据我们所知,从财务角度看2023年第一季度绝对是英特尔数据中心的近年最低点,而能否跌破历史低谷仍有待观察。
现在,DCAI部门虽已涵盖英特尔旗下的多项数据中心业务,但仍未彻底包揽。其网络和边缘(NEX)部门还在向数据中心及其边缘扩展销售设备。今年第三季度,NEX部门的销售额下降达46%、至14.5亿美元,营业利润下降77.3%、至1700万美元。过去9个月间,NEX部门的销售额下降36.8%、至43亿美元。利润方面,该部门也从2022年前9个月的正营收6.82亿美元转为2023年前三季度的亏损4.7亿美元。不妙,相当不妙。
而将DCAI和NEX两个部门结合起来看,我们就得到了英特尔数据中心业务的总体表现。这里涵盖了英特尔的闪存、存储、FPGA和物联网等各项业务,基本反映了芯片巨头“真实”数据中心业务随时间推移之下的变动情况,特别是在经历了一系列产品剥离、停运和竞争压力之下的整体趋势。下面来看图表:
曾经见证过英特尔在2000和2010年代辉煌与荣光的朋友,肯定很难预料短短十年间其数据中心业务就会跌破图中的红线、陷入运营亏损。
现已停产的Optane 3D XPoint持久内存属于纯服务器产品,现在被划入“其他”类别当中。出于好心,我们就不把“其他”业务在2023年第三季度这22.5亿美元的亏损纳入“数据中心”业务了,否则芯片巨头的成绩单会更加难看。另外,加速计算和图形(AXG)业务已经被拆分和并入DCAI及客户端计算(CCG)部门,所以一知道这部分业务又对应着多大的亏损数字。
有趣的是,英特尔甚至不再讨论部署在阿贡国家实验室“Aurora”超级计算机中的Ponte Vecchio GPU了。在这部分业务上,英特尔开始集中精力主推Gaudi 2和Gaudi 3产品。相信不久之后,我们就会听到关于搭载Gaudi矩阵数学引擎和Gaudi胖以太网通道的Falcon Shores融合GPU的消息了……
根据我们的计算,英特尔的“真实”数据中心业务缩水了19%、至517亿美元;营业利润减少了一半,至8600万美元,只占总体收益的1.7%。说句诛心之论,这跟英特尔数据中心业务的顶峰时期根本无法相提并论:该业务在2020年第二季度的销售额为90.6亿美元,营业利润为34.3亿美元,约占总收益的37.8%。
发布于:北京
相关推荐
为拯救至强CPU业务,英特尔寄希望于AI推理类负载
英特尔至强CPU Max系列:整合高带宽内存(HBM)和至强处理器内核
英特尔甩出视觉推理新杀器,性能超英伟达,大秀首款云端AI商用芯
英特尔线上推四大新品,为5G基站定制通用SoC,第二代至强处理器已卖3000万片
英特尔发布第三代至强®可扩展处理器,XPU战略蓝图又进一步
大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?
英特尔要全速改变命运
CES 2020 | 对话英特尔高管:硬件创新是基础,5G 需要“杀手级应用”
深度解析:AI倒逼下的英特尔
AI计算“大练兵”成绩出炉:谷歌、英伟达、浪潮分获各任务最好成绩
网址: 为拯救至强CPU业务,英特尔寄希望于AI推理类负载 http://m.xishuta.com/newsview96128.html