February 20, 2024

2024年计算趋势:云原生和高效计算

内容概要

问题与现状:

  • 传统服务器市场受到按核心计费的限制,但许多应用实际上更需要核心数量而非单纯的核心速度。
  • 云原生计算发展迅速,以满足更多高功率AI服务器的需求,同时降低数据中心的占地面积和碳排放。

各个供应商情况:

  • AMD:自2017年以竞争性能核心重新进军服务器市场以来,其EPYC处理器在服务器市场上获得了一定的份额,具有较高的性能和核心数量。
  • Ampere:推出了Altra和Altra Max芯片,采用Arm Neoverse N1核心,专注于提供低功耗的整数性能。即将推出的AmpereOne具有更高的核心密度。
  • Intel:准备推出Sierra Forest处理器,提供最多144/288个核心,并致力于在保持x86兼容性的同时,实现每核心的低功耗指标。计划于2024年上半年发布。
  • NVIDIA:推出了Grace超级芯片,最多可搭载两个芯片组,共计144个核心,并配备LPDDR内存。虽然功耗高,但在某些应用中可能实现更低的功耗。

未来趋势:

  • 云原生能效计算可能在未来3-5年内占据服务器CPU市场的75%。行业应该加速行动,将计算放置在合适规模的平台上。
AMD EPYC 9754 Bergamo 与 Ampere Altra Max M128

我们将深入探讨云原生与高效计算这两大主题。尽管称谓各异,但无可否认,它们将成为2024年仅次于人工智能的蓬勃发展之后的第二大计算趋势。随着现代性能核心的飞速发展与不断壮大,数据中心正迎来一个新的潮流,那就是采用更小、更高效的核心进行计算。

变革已在悄然进行……即便你尚未察觉

让我们从基础知识开始说起。自2017年AMD以竞争性能核心重新进军服务器市场(以及台式机市场)以来,每个核心的性能和核心数量几乎如AI繁荣前的幻灯片般迅速增长。因此,核心变得更大,缓存大小扩大,芯片尺寸也随之增大。每一代芯片的性能都更上一层楼。

AmpereOne A160 30 (2023 年 Computex)

然而,很快人们便发现了服务器行业的一个不为人知的秘密:如果你按照核心许可软件来计费,那么快速的每核心性能固然是优点,但许多应用程序实际上更需要核心数量,而非单纯的核心速度。如今,较小的高效核心在性能上已经能够与2017-2021年间主流的Skylake/Cascade Lake Xeon相媲美,但它们可以以更高的密度被整合进系统中。

考虑下面这个在行业中十分常见的示例场景:

以每个虚拟机(VM)的vCPU区块平均遮蔽率为22%的24核心48线程的CPU示例VM主机

在此情境下,我们手头有多个由开发人员精心打造的应用程序。这些应用程序各自需要一个虚拟机(VM)来运行,而每个VM则通常配置有2至8个核心。尽管这些应用需保持全天候在线,但它们并非计算密集型任务。举个例子,有些应用程序可能是一个提供特定业务功能的网站,但用户访问量并不大。此外,这些工作负载大多部署在云实例、虚拟机或容器中。随着行业逐渐摒弃按核心或按套接字许可的虚拟化管理程序,单纯追求核心数量多、速度快但利用率低的情况变得毫无意义。

因此,行业开始意识到需要生产成本更低的芯片,这些芯片追求的是高密度而非单一核心性能。一个有效的思考方式是,尝试将那些过去多年来在2-8核VM中运行的小型业务线应用程序的最大数量实例,以尽可能少的方式部署在尽可能少的服务器上。除了这些,还有诸如nginx Web服务器、redis服务器等常见应用。另一个例子是,一些在线游戏实例需要为每个用户分配一个核心,在数据中心中即使这个核心的配置相对较低。有时,拥有更多的核心确实意味着更好的性能。

Intel DCAI 2023年3月更新:Sierra Forest的HTOP与Stress Ng测试 一旦传统虚拟化管理程序摆脱
了按核心/套接字许可的限制,核心数量成为关注焦点。如何在一个芯片上容纳尽可能多的核心,以及如何在机架中部署这些高密度的芯片包,成为亟待解决的问题。另一个引人注目的趋势是,核心时钟速度正在逐渐降低。如今,频率在2-3GHz范围内的CPU往往比那些P-core服务器频率超过4GHz、台式机CPU频率超过5GHz的CPU更为高效。这得益于电压频率曲线的优化。如果目标是增加核心数量而非追求单核心的最高性能,那么将每核心性能降低25%,同时将功耗减少40%或更多,意味着这些应用程序能以更低的功耗提供同等服务。
AMD EPYC Bergamo

降低功耗的重要性不言而喻,尤其在AI基础设施建设中尤为突出。以我们参观的49ers利维斯体育场为例,那里展示了数据中心如何在不增加占地面积的情况下,通过扩展制冷设备来满足需求。这正是体育分析所需AI服务器的典型应用场景。

在不增加数据中心占地面积的前提下,为满足更多高功率AI服务器的需求,云原生计算逐渐走出云端。将原本运行在2017-2021年间至强Xeon服务器上的应用程序迁移到现代云原生核心,尽管每核心性能相当,但系统密度可增加4-5倍,同时功耗增加约两倍。随着新一代CPU的推出,密度数据正以惊人的速度增长。

我们在《英特尔第五代至强可扩展处理器发布》一文中详细阐述了这一现象。

我们还展示了同一时代的服务器与现代P-core服务器之间的整合方式。若您对云原生CPU市场上的主要参与者还不够了解,以下是一个简要的概述,供您在为数据中心或合作场所选购产品时参考。

AMD EPYC“Bergamo”和Siena

AMD EPYC“Bergamo”作为AMD进军云原生计算领域的先锋,其配置可谓强大,最多可搭载128个核心/256个线程,成为目前公开可用的x86服务器CPU中密度最高的一款。

AMD EPYC 9754 Bergamo

AMD在P-core设计中作出了几项创新调整:移除了L3缓存,降低了最大全核频率以减少总体功耗,并额外优化了核心尺寸。这一系列改动使得Zen 4核心IP在保持性能的同时,实现了更小的L3缓存和晶片面积。晶片面积的缩小意味着能够在一个CPU中集成更多的核心。

AMD EPYC Zen 4c

虽然市场上对Bergamo的关注度很高,但AMD还有另一款名为Zen 4c的芯片。AMD EPYC 8004系列,代号“Siena”,也采用了Zen 4c架构,但内存通道数量减半,PCIe Gen5 I/O接口减少,且仅支持单路操作。

AMD EPYC Siena(2023年 Hot Chips)

对于那些正在考虑从流行的双路16核Xeon服务器升级的组织来说,Siena平台提供了一个诱人的选择。通过转向单路64核配置,这些组织可以在保持每U功耗预算不变的同时,利用1U服务器将每U的核心数量翻倍。

AMD EPYC 8534PN 正面视图

AMD将Siena定位为边缘/嵌入式部件,但我们应认识到这实际上是顺应了当前一代云原生处理器的发展趋势。

Ampere Altra Max / AmpereOne

Arm在这个领域一直引领着巨大的变革。目前,唯一供应Arm服务器CPU的厂商是Ampere,该公司由众多前英特尔至强团队的精英领导。

Ampere Altra Max M128 30 的正面特写

Ampere拥有两款主要芯片,分别是Ampere Altra(最多可达80核)和Altra Max(最多可达128核)。这两款芯片采用相同的插槽设计,因此大多数服务器都能够兼容其中任何一款。其中,Max是稍后推出的产品,支持最多128核的配置。

Supermicro ARS 210ME FNR:搭载Ampere Altra Max Arm的服务器

在这个背景下,云原生计算成为了关注的焦点。Ampere并没有过分追求强大的浮点计算能力,而是选择了Arm Neoverse N1核心,专注于提供低功耗的整数性能。实际上,大量工作负载,如提供网页服务,主要受到整数性能的驱动。尽管这些核心可能并不适合构建Linpack Top500超级计算机,但它们却非常适合应用于Web服务器。云原生计算的理念在于构建核心和服务器,以便在更低的功耗下运行工作负载,而无需作出太多妥协。这正是Arm和Ampere所追求的目标。

Ampere Altra Max M128 30 配备 2x NVIDIA A100 80GB PCIe卡

接下来,我们将迎来AmpereOne的发布。这款产品已经开始发货。

Supermicro Ampere AmpereOne(2023年 Computex)

AmpereOne采用了定制设计的核心,每插槽最多可达192个核心。

从 Ampere Altra 到 AmpereOne 的产品演进

假设您购买了一台配备AmpereOne的服务器,您将获得比AMD EPYC“Bergamo”服务器更高的核心密度(192核 vs 128核),但线程数会较少(192线程 vs 256线程)。如果您使用1 vCPU的虚拟机,AmpereOne将表现出更高的密度。而如果您选择使用2 vCPU的虚拟机,那么Bergamo将更具优势。由于SMT(同时多线程)可能会引发一些安全性问题,因此在云端应用中,SMT一直是一个挑战。

Intel Sierra Forest 预览

接下来,市场上将迎来Intel Sierra Forest。这款Intel的新云原生处理器将提供最多144/288个核心。而可能更为重要的是,它致力于在保持x86兼容性的同时,实现每核心的低功耗指标。

Intel Sierra Forest:288核心

Intel正计划将其高效的“E-核心”系列引入到至强市场。我们在嵌入式领域以及像Alder Lake-N这样的低功率产品线中,已经见证了E-核心性能的显著提升。在Alder Lake-N中,每个芯片的世代性能提升超过了2倍。现在,Intel正将其产品线细分为P-核心和E-核心,分别用于计算密集型工作负载和高密度扩展计算。

Intel Granite Rapids 与 Sierra Forest 下一代 CPU:HC35_Page_04

预计Intel将在2024年下半年推出Granite Rapids,作为当前第五代至强“Emerald Rapids”中所有P-核心设计的升级版。而Sierra Forest作为首个全E-核心设计的一代产品,计划于2024年上半年与大家见面。Intel已经宣布,下一代Clearwater Forest将继续推出全E-核心产品线。我必须说,这确实是我多年来一直期待的一次发布。

NVIDIA Grace 开辟新篇章

在这里,我们简要介绍一下 NVIDIA Grace 超级芯片。这款芯片最多可搭载两个芯片组,共计 144 个核心,并配备 LPDDR 内存。

NVIDIA Grace Superchip(GTC 2023)

尽管其功耗高达 500W,且采用 Arm Neoverse V2 性能核心,人们或许不会立即将其视为“云原生”处理器,但 Grace 超级芯片确实具备一些独特之处。其显著特点在于,Arm CPU 与内存被紧密封装在一起。因此,这 500W 的功耗实际上是同时供给 CPU 和内存的。对于某些主要受限于内存带宽而非核心数量的应用程序来说,Grace 超级芯片相较于其他一些云原生产品,实际上可能实现更低的功耗。尽管这些产品获取不易且价格显著提升,但关于它们是否真正属于云原生范畴的争论仍在进行中。然而,如果我们的定义是在更小、更高效的占地面积上完成相同的工作,那么 Grace 超级芯片在某些工作负载方面确实可以归入这一类别。

结束语

若你对我们关于第二至第五代英特尔至强服务器整合的探讨感到热血沸腾,那就请拭目以待吧。

第五代 Intel Xeon Scalable:32核心的Emerald Rapids芯片近距离特写

尽管许多人正热衷于构建人工智能基础设施,但在现有计算占地面积缩减75%或更多的项目中,这绝对是可行的。这意味着能为新的人工智能服务器腾出更多空间、功率和冷却资源。此外,从碳排放的角度来看,采用更新且功耗更低的架构来托管基础应用无疑是明智之选。

目前,行业在CPU计算方面面临的一大挑战是:在未来3-5年内,云原生能效计算将占据服务器CPU市场的25%还是75%。我个人的直觉是,很可能是75%,甚至应该是75%。然而,组织的行动似乎有些迟缓。因此,在STH,我们将推出一系列文章,旨在助力打破组织惯性,将计算放置在合适规模的平台上。

0 comments:

VxWorks

Blog Archive