February 23, 2024

打造AI时代基础设施,Arm 更新 Neoverse 产品路线图

从小型传感器到大型数据中心,全球都在拥抱人工智能 (AI)。AI 正应用于教育、就业、制造、医疗、交通等方方面面。而作为全球应用普及的架构,Arm 是运行 AI 的基石。在基础设施领域,通用 CPU 已不再能满足需求。亚马逊云科技 (AWS)、微软和英伟达等头部科技企业纷纷针对其从芯片到软件和系统的整个堆栈进行重新设计与优化,以满足 AI 这个要求更高的新工作负载所需的性能、效率和总体拥有成本 (TCO) 需求。

Arm更新Neoverse路线图

Arm 控股有限公司近日宣布推出新一代 Arm Neoverse技术,其中包括通过性能效率更优异的N系列新IP扩展Arm Neoverse计算子系统 (CSS) 产品路线图。与 Neoverse CSS N2 相比,Neoverse CSS N3 的每瓦性能可提高20%。此外,Arm还首次将计算子系统引入性能优先的V系列产品线,新的Neoverse CSS V3基于全新的 Neoverse V3 IP打造,与此前的 Neoverse CSS产品相比,其单芯片性能可提高 50%。

Arm 更新 Neoverse 产品路线图赋能 AI 基础设施

Arm 还展示了下一代 V系列(CSS Vega)和 N 系列(CSS Ranger)平台的代号:“Adonis”对应的可能是Neoverse V4,“Dionysus”对应的可能是N4。目前可以看到E系列的E3已经在路线图中,但还没有具体的介绍,而下一代的代号是“Lycius”。

作为一套经优化、集成和验证的平台,Neoverse CSS 汇集了构成系统级芯片 (SoC) 核心的关键技术。借助 Neoverse CSS,Arm 为寻求差异化优先、SoC 优化和加快上市进程的合作伙伴打造了健全的起点。由于Arm与生态伙伴的合作程度比起其他计算供应商都还要深入,因此 Neoverse CSS 旨在为重要的工作负载优化其 TCO,并为芯粒 (Chiplet) 等新兴关键技术提供支持。

Neoverse CSS 已广受头部云服务提供商、初创公司等业内各类企业青睐,并采用于云计算、网络、数据中心基础设施,以及 AI 等多样化的应用中。Microsoft Azure Cobalt CPU 便是基于 Neoverse CSS 所打造的产品之一。

Arm Neoverse CSS N3

Arm N3是Arm平衡、高能效 CPU 内核系列中的最新产品,可以提供8~32个核心。其32核心版本功耗可低至40W TDP,但Arm没有透露这个数据基于哪种制造工艺节点实现。

Arm宣称N3的每瓦特性能比N2 核心高出 20%。

Arm Neoverse CSS V3

Arm Neoverse V 作为高性能核的代表在过去几年中备受关注,亚马逊和英伟达都推出了令人瞩目的产品。Neoverse V3代号为Poseidon,Arm声称是每个插槽的性能提高了50%——当然,只是相对于N2系列。另外,在V系列这里没有提及功耗限制。

Neoverse V3 面向云、HPC、AI与机器学习负载,每个集群有 64 个核心,每个插槽最多有 128 个核心。

Neoverse V3内存控制器支持DDR5/LPDDR5,甚至HBM。支持 PCIe Gen5、CXL 3.0,也包括支持UCIe或定制化的片上PHY——换言之,如果客户可以整合加速器,类似于英伟达的Grace Hopper SuperChip那样。关于这种互联特性,我们放在后面专门展开。

Arm Neoverse V3和N3的性能

Arm提供了Neoverse V3和N3在典型负载方面的性能参考。与AMD、Intel竞品的对比暂且忽略。有趣的对比是相对上一代产品,大多数工作负载的性能提升在10%~20%的水平,这说明Arm在架构改进方面的步伐其实并不大,也开始进入“小步快跑”的成熟阶段。

Neoverse V3和N3最明显的应用性能提升来自AI数据分析。Arm曾表示,通过核心升级和软件优化,它可以在XGBoost等算法上取得巨大进展。XGBoost是一个可拓展的提升树(Tree boosting)算法,被广泛用于数据科学领域。

其他实质性的架构升级方面,V3改进了与Arm网状结构的连接方式,用CMN-S3 取代了CMN-700,但目前我们缺乏这方面的细节。

Arm的Chiplet策略

Arm也在努力建立自己的Chiplet生态系统——Arm Chiplet System Architecture(Arm芯粒系统架构)。CSA旨在让客户能够更轻松地在其产品中混合和匹配芯粒,CSA不仅限于协议兼容性,还解决系统管理、DMA、安全性和软件兼容性等问题。

客户希望将AI加速器等IP与处理器更高效率地整合在一起,Chiplet是一个经过验证的方案。实际上,处理器芯粒也可以被集成到其他封装当中,譬如AMD已经在Instinct MI300系列当中做的那样。回顾前面曾经提到的,Neoverse可以匹配低至8内核的芯片。与高成本、高性能的大芯片设计相比,较小规模的芯片可以更灵活地整合到其他设计当中。

为了让合作伙伴能够快速且成功地交付定制解决方案,Arm 稍早推出了Arm全面设计 (Arm Total Design) 生态项目,旨在汇集合作伙伴致力于无缝交付基于 Neoverse CSS 的定制 SoC。Arm全面设计生态项目已吸引超过 20 家来自各方技术合作伙伴的加入,从验证 IP、定制固件,到在全球先进的工艺节点上打造芯粒。

结语

Arm在移动市场的统治力是难以挑战的,但在服务器领域,它经历了许多挫折。从2016年首个Arm架构CPU内核进入服务器领域开始(Cavium ThunderX),Arm生态系统已经取得了长足的进步。微软、亚马逊、英伟达先后推出了令人尊敬的产品,夯实了Arm在服务器领域的影响力。

0 comments:

VxWorks

Blog Archive