首页 > 科技快讯 > 超异构计算时代“炼金术”，开发者表示：惊艳

超异构计算时代“炼金术”，开发者表示：惊艳

晰数塔互联网快讯
2021-08-25 18:45

本文来自微信公众号“CSDN”（ID:CSDNnews），36氪经授权发布。

当计算创新进入超异构时代，跨越半个世纪的英特尔从稳中求精到进中快速突破，由被动化主动。伴随其首任CTO 帕特·基辛格的强势回归，英特尔开始大刀阔斧快速推进技术发展，不断刷新半导体行业，惊喜连连：

在制程工艺上，帕特·基辛格于不久前立下 Flag，要在四年内重新夺回芯片制造优势，让英特尔的制程性能再度领先业界。在战略上，英特尔发布“IDM 2.0”战略，开放代工，面向大规模制造的全球化内部工厂网络，提高供货能力，打造世界一流的代工业务英特尔代工服务。这不，英特尔最近刚拿下国防部尖端芯片代工服务大合同，也算是首战告捷。

在技术上，英特尔在 2021 年架构日上重磅揭晓了面向CPU、GPU、IPU 的重大技术架构创新，对此，开发者纷纷表示：这次英特尔火力全开啊！

持续转型，加码超异构计算

据 IDC 发布的《2020 全球计算力指数评估报告》显示，计算力指数平均每提高 1 个点，数字经济和 GDP 将分别增长 3.3‰和1.8‰。随着数据的质和量的急速变化，算力已然成为数字经济的关键生产要素。

然而在英特尔架构日上，英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja Koduri 透露，当前我们面临巨大的算力需求，预计到 2025 年将需提升 1000 倍，四年内增加 1000 倍相当于摩尔定律的 5 次方。英特尔要在制程工艺、封装、内存和互连等技术领域，需要实现至少 4 倍左右的摩尔定律提升，其中架构则是将这些技术结合起来的“炼金术”。

早在 2018 年，英特尔首次向业界明确 XPU 异构愿景：由标量（Scalar）、矢量（Vector）、矩阵（Matrix）、空间（Spatial）组成的 SVMS 架构，分别对应 CPU、GPU、加速器和 FPGA，从而进行多种异构组合。

在过去一年里我们看到，英特尔步履不停地从 CPU 转向XPU 转型，不断推动超异构计算时代发展，如英特尔发布 FPGA、推出 AI 加速芯片 Habana、数据中心首款 GPU SG1、第三代英特尔至强可扩展处理器 Ice Lake。在最新路线图中，英特尔通过创新的晶体管、互连和封装技术，从而持续扩展摩尔定律的边界。由此可见，英特尔正持续加强硬件、架构、封装、制程、软件等能力的同时，加强大规模生产制造能力，以领先的创造力和前瞻战略部署以巩固龙头地位。当然成果斐然：

据 Gartner 发布的《2020 年全球半导体分析报告》显示，2020 年全球半导体收入总计 4662 亿美元，相比 2019 年增长 10.4％。其中，英特尔以 727.6 亿美元稳坐龙头，其半导体收入增长 7.4％。

在本次大会上，英特尔发布十年来重大的架构升级改造，涵盖 CPU、GPU 、IPU 架构，并深化IDM2.0 战略：发布首个性能混合架构 Alder Lake，搭载两款新一代 x86 内核以及英特尔硬件线程调度器；全新数据中心架构 Sapphire Rapids；全新的独立游戏图形处理器（GPU）架构；全新的基础设施处理器（IPU）；英特尔迄今为止最高的计算密度、数据中心 GPU 架构 Ponte Vecchio。

性能混合架构 Alder Lake，一代神级 CPU 出世！

本次英特尔推出 x86 能效核和性能核微架构，揭露了未来 CPU 发展的关键一步：

能效核（E-Core）作为高度可扩展的 x86 微架构，采用 Intel 7 制程工艺设计，满足开发者从低功耗移动应用到多核微服务的全方位计算需求。能效核通过低电压能效核降低整体功率消耗，为更高频率运行提供功率热空间。

相比英特尔第六代微架构 Skylake，在单线程性能下，能效核能够在相同功耗下实现 40% 的性能提升，或在功耗不到 40% 的情况下提供同等性能。与运行四个线程的两个 Skylake 内核相比，四个能效核所提供的吞吐量性能，能在功耗更低的情况下同时带来80% 的性能提升，而在提供相同吞吐量性能时，功耗减少 80%。

性能核（P-Core）可提高执行并行性，降低时延，提升通用性能，还帮助支持大数据集和大型代码体积的应用程序。据了解，性能核不仅是英特尔迄今为止性能最高的 CPU 内核，在 CPU 架构性能上实现阶梯式提升，将推动未来十年的计算发展。相比第 11 代英特尔酷睿处理器架构，在通用性能的 ISO 频率下，针对大范围的工作负载实现了平均约 19% 的改进。

英特尔研究院副总裁、英特尔中国研究院院长宋继强表示，很多人误认为这两款架构中一款是为低性能一款是为高性能而打造，其实并非如此，这两者的性能都很好，只是侧重不同的优化方向。能效核将能效 I/O 的吞吐量优先考虑，通过提高处理多种任务来保证比较好的功耗，以能耗比作为优化的目标。能效核从移动的笔记本到台式机，可做不同的配置，形成多种不同的产品。性能核作为当前英特尔性能最高的内核架构，针对更高的集成密度、主频和更短的计算延迟。

英特尔发布首款性能混合架构 Alder Lake，不是简单地将更多内核封装到更小的芯片上，而是英特尔第一次转向全新的混合架构，它集成性能核和能效核，带来跨越所有工作负载类型的显著性能提升。Alder Lake 基于 Intel 7 制程工艺打造而成，它采用了单一、高度可扩展的SoC 架构，支持从超便携式笔记本、发烧级、商用台式机的所有客户端设备，预计今年内可出货。

4 月，英伟达推出了其首款基于 ARM 的 CPU Grace，其最大创新点在于把 CPU 与 GPU 之间的通信速度提升 10 倍，但假如单纯提升两个计算核心之间的通信速度在实际应用中可能不会有较好的效果。对比英特尔的矩阵加速技术，如上一代至强三代处理器的 VNNI 技术在实际应用中，能将 3D 头像建模应用的性能提升 4 倍多，还可在 NLP 上使Transformer 模型的训练速度提升 3 倍，英特尔最新的 AMX 矩阵加速指令集，在基准测试中比 VNNI 快 7 倍。

在这种情况下，Alder Lake 想在云计算领域更多拓展的话，可能需要在多租户的场景中给出自己的答案，如 Grace 中 CPU 和 GPU 必须轮流访问主存储器，意味着要争夺数据总线的使用权，不同租户之间的界限如何划分就很值得商榷。Alder Lake 也是这样，同样是 1 核的云主机 ECS，这 1 核到底是能效核还是性能核的算力，需要虚拟化技术介入进行调度。

英特尔在这方面有充分考虑，为使性能核和能效核与操作系统无缝协作，引入英特尔硬件线程调度器技术，处理中集成专用的 MCU 用来监控当前处理器内核的运行情况，以监测到每个线程的特征。如果与操作系统配合好，一轮的信息采集工作仅需要 30 微秒就能完成，而传统的调度器可能需要 100 多毫秒才能判断出结论。当前，硬件线程调度器与 Windows 11 进行优化，除此以外，似乎还没有其它底层调度平台针对硬件线程调度器技术进行改造。

CSDN 技术博主马超评价道，Alder Lake 几乎对前代 x86 架构从上到下的全面升级，其颠覆效应非常明显：

能效核、性能核入云让人期待：之前英特尔采用使用睿频技术，通过调节主频来进行能耗的优化。这次英特尔颇令人惊喜的是能效核支持 AVX 指令集，还能在性能保持一样的情况下，将能耗控制在前代的 40%，这样的设计入局云计算就非常合理。

在 AI 训练等场景中，在初始的数据清洗、数据整理、以及神经网络结构建立过程中对于算力的要求不算高，假如支持一定的矩阵加速的话，能效核完全可以应对，这同时给性能核以休整的机会，两个核的协同作战更丰富了云计算领域的应用。

面向未来的融合计算平台：近几年来，CPU、GPU、FPGA、ASICs 等芯片共同构成 IT 技术栈的算力底层，然而每种结构的芯片似乎都不能单独承担重任。而 Alder Lake 宛如 CPU、GPU、FPGA、ASICs 等多架构融合体系，是 CPU、GPU 与协处理器的混合体，堪称融合式计算平台的典范。

超异构计算时代“炼金术”

在XPU战略下，英特尔打造出全面创新的软硬件产品，致力用技术铸造超异构计算时代“炼金术”：

在推进超异构进程中，英特尔推出面向数据中心的下一代英特尔至强可扩展处理器 SapphireRapids 和迄今为止拥有最高的计算密度 Ponte Vecchio。

Sapphire Rapids 可为数据中心提供可观的计算性能，并对工作负载进行优化，以在云、微服务和AI等弹性计算模型上提供高性能。基于 Intel 7 制程工艺技术，采用性能核和硬件加速器，加上英特尔的嵌入式多芯片互连桥接（EMIB）封装技术，在保持单晶片CPU接口优势的同时，可扩展性良好。

作为英特尔迄今为止最复杂的 SoC，PonteVecchio 基于 Xe HPC 微架构，采用多种先进的半导体制程工艺、英特尔变革性的 EMIB 技术以及 Foveros 3D 封装技术，提供业界领先的每秒浮点运算次数（FLOPs）和计算密度，以加速 AI、HPC和高级分析工作负载。如今，Ponte Vecchio 已走下生产线进行上电验证，开始提供限量样品，预计将于 2022 年面向 HPC 和 AI 市场发布。

英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja M. Koduri 表示，Ponte Vecchio 是堪比登月难度创新后的一款产品，包含 1000 亿个晶体管，提供业界领先的浮点运算和计算密度，以加速人工智能、高性能计算和高级分析工作负载。

对于这两款芯片的区别，宋继强表示，英特尔会采用不同的技术组合来应对不同的需求，SapphireRapids 采用性能核加上不同的专用硬件加速器，整合为异构方案，再通过 EMBI 集成，因此其产品可满足通用云计算厂商的要求。而 Ponte Vecchio 是给业界要冲顶的超算中心使用，基于Xe HPC 微架构，应用到最先进的 Foveros 封装技术，每个 Xe 核有 8 个矢量和矩阵引擎。

在显卡上，Xe HPG 于去年英特尔架构日中首次亮相，今年 Xe HPG 采用全新的 Xe 内核，专为游戏发烧友而生。其硬件产品将涉及多代，不仅包括首代基于 Xe HPG 微架构的 Alchemist SoC（DG2），还将包括 Battlemage、Celestial 和 Druid 的后续几代产品。

Alchemist 系列产品将于 2022 年第一季度上市，并且采用全新品牌名称英特尔锐炫（Intel Arc）。据相关数据显示，在密集型游戏中，该显卡使得吞吐量提高了 15%，最高达 80%，游戏加载时间缩短了 25%。值得一提的是，英特尔不是自己制造 Alchemist 芯片，而是依靠台积电的 N6 为其推出芯片。英特尔在独立显卡设计和制造策略的变革，将增加在当前英伟达、AMD 独立显卡市场里的竞争机遇。

在 IPU 上，英特尔认识到“单一产品无法满足所有需求”，因此对其 IPU 架构进行深入的研究，推出首个 ASIC IPU——Mount Evans 和 IPU 参考平台 Oak Springs Canyon。

除了硬件，在软件上英特尔推出 oneAPI，提供了一个开放、规范、跨架构和跨厂商的统一软件栈，让开发者能够摆脱专有语言和编程模型的束缚，提高了开发人员的生产力和创新能力。拥有超 20 万次用户安装，300 多个应用程序运行。

宋继强表示，这些架构产品的发布正是印证了英特尔之前对超异构计算理念的设想。如从PonteVecchio 复杂的 SoC 设计可看出，在实现过程中存在许多不同的挑战，我们需要不同的技术来配合实现。在应对未来不同数据对计算、传输、存储等需求时，必须要用不同的架构、不同的异构集成方式，来做出不同种类的定制芯片方案解决。未来我们将持续从这方向发力，组合更多不同种类的处理器核、加速器，这给我们构筑超异构计算战略较大的信心，相信未来还有更多种类的异构集成产品出现。

创新与开放双管齐下，英特尔乘势而上

展望未来，我们所面临的艰巨计算挑战，必须通过创新的架构和平台来解决。

在本次干货十足的架构日发布会上，英特尔为开发者和企业带来一针强心剂：对于全球数十亿的 PC 端用户而言，Alder Lake 作为高性能混合架构客户端 CPU，采用两款不同的 x86 内核和创新硬件线程调度器，彻底革新英特尔的多核架构；SapphireRapids 为数据中心架构设定了新标准，具有异构计算基础设施的架构基础，搭配最高的计算密度和内存带宽；PonteVecchio 作为现阶段英特尔先进技术的集大成者，为百亿次级运算提供英特尔最高水平的计算密度和带宽；可跨领域无缝工作的统一编程模型oneAPI正被全球开发者广泛使用。

在落实 IDM 2.0 战略中，英特尔彰显了双向开放性，一是对外开放自家的技术能力；二是引入台积电等第三方代工厂商。

下一步，凭借在制程、封装、设计成熟的垂直整合技术和经验，从子芯片、主板、系统到数据中心，从边缘和终端设备到网络、再到云，英特尔又将为我们创造哪些意想不到的惊喜？

据悉，在 10 月的 Intel Innovation峰会上，英特尔即将发布更多让人惊艳的技术和产品，不妨拭目以待吧！