January 30, 2024

英伟达的GPU升级计划

最近,Nvidia发布了2025年AI GPU的产品路线图。新的GPU旨在延续Nvidia在AI领域的主导地位,在ChatGPT震撼世界之后,AI市场开始起飞。

路线图中最令人惊讶的是Nvidia计划每年都发布GPU。Nvidia H100于2023年发布,比其前身A100晚了两年。分析人士表示,Nvidia没有对手能真正挑战它,而且每年升级GPU的速度也给竞争对手带来了压力。

Intel已经处于落后位置,计划于2025年推出的Falcon Shores GPU, AMD的MI300于2023年底推出。即使是Nvidia的客户(如OpenAI)也在考虑开发自己的AI芯片,因为运行AI的成本非常高昂。

Tirias Research首席分析师Kevin Krewell表示:“Nvidia可能正在加快其路线图,因为它希望拉开自己与竞争对手、甚至是客户之间的距离,许多客户现在都在设计自己的AI芯片。”

Nvidia H100已经获得了溢价,下一代GPU的价格可能会更高。部署AI工作负载的客户,比如游戏玩家,将会花钱购买最新、最好的硬件。

芯片发展也处于拐点,这使得Nvidia每年都有可能升级GPU。从架构角度来看,Nvidia在集成处理、IO、内存、通信及封装方面,还有许多变量和选项可以发挥作用。Krewell表示:“半导体市场也正在进入一个chiplet的新时代,这可能会改变Nvidia设计芯片的方式。”

年度升级还包括CPU和网络产品。这种升级节奏可能不适用于AI芯片竞争对手,这些公司仍在努力寻找芯片客户。

新路线图

Nvidia的新路线图列出了与计算和通信相关的年度产品。它将基于x86芯片的GPU和基于定制ARM处理器设计的GPU、CPU区分开来。

对于和x86相关的GPU,Nvidia H100 GPU的继任者将是H200,将于2024年发布。同年,Nvidia还将发布B100 GPU,最终在2025年发布X100 GPU。

该路线图还列出了基于Ada Lovelace架构的l40的继承阵容。l40是H100的精简版,但在AI训练和推理方面比上一代A100 GPU要快。Nvidia正在引导急需H100 GPU的客户购买L40S GPU。

L40S的继任者将是2024年的B40和2025年的X40。路线图显示了用于“X86企业和推理”的L40S-B40-X40阵容,这意味着它针对推理进行了优化。

Nvidia CPU路线图提供了其ARM处理器的年度升级,可以与上面提到的GPU配对。

据推测,目前拥有HBM3E内存的GH200将于2024年上市,并与H200 GPU绑定。GB200也将于2024年推出,设计用于B100 GPU。GX200将于2025年推出,专为X100 GPU设计。

Nvidia将为AI训练增加NVLink互连,提供ARM CPU和相关GPU之间的高速连接。GH200NVL (H200 GPU)和GB200NVL (B100 GPU)将于2024年上市,GX200NVL (X100 GPU)将于2025年上市。

Databricks负责生成式AI的副总裁Naveen Rao表示,CPU与大模型的关系要小得多,但Nvidia的ARM CPU和GPU包是AI训练的绝佳组合。Rao之前是AI初创公司MosaicML的CEO,这家公司2023年初以13亿美元的价格被Databricks收购。

Rao补充说,IntelCPU中的AMX等技术也可能非常相关,但它们需要更大并能够大规模实现多芯片扩展。

新的路线图还将其用于Infiniband接口的Quantum产品的网络带宽从2024年的400G增加到2026年的1600G,主要用于以太网和超大规模基础设施的Spectrum-X。Nvidia的DGX系统同时使用Infiniband和以太网网络技术。

Chiplet如何定义路线图

从历史上看,Intel每年都会升级芯片,要么采用新的制造技术,要么采用相同制造工艺的新功能。但随着缩小制造节点变得具有挑战性,这一速度放缓了。

Real World technologies首席分析师David Kantor表示,芯片设计目前正处于一个拐点,FINFET等传统技术正在失去动力。传统的芯片设计侧重于将所有组件集成到单个芯片中,一个新兴趋势是将SoC和芯片分解成Chiplet,或更小的计算、I/O和通信单元,它们可以组装在2.5D或3D封装中。

Nvidia拒绝就其下一代GPU发表评论。但业内专家表示,Nvidia在GPU、DRAM、I/O和SRAM集成方面有很多选择可以探索,并提出了许多芯片外观的可能性。到2025年,Nvidia还可能选择Intel作为X100的制造合作伙伴。

此次升级的H200芯片包括新型HBM3E内存。Nvidia去年发布了GH200芯片,并在路线图中将其与H200 GPU连接起来。

在H200之后,Nvidia可能会开始使用chiplet,将GPU模块化成块,在一个封装中可以选择CPU、加速器和互连。各个模块可以使用不同工艺制造。

例如,B100和B40芯片的计算块和内存可以在台积电的N3工艺上制造,而SRAM块可以在较老工艺上制造。N3不能很好地扩展到GPU的SRAM和模拟部分,因此集成这些在老的制造工艺上制造的模块将是一个优势。

到2025年,Intel的18A工艺将上线,并可能超过台积电,而Nvidia可能会和Intel的晶圆厂合作来生产X100。Nvidia已经在Intel的下一代处理器上制造了测试芯片,CEO黄仁勋对结果感到满意。预计到2025年,台积电将从N3转向两纳米的N2。Intel和台积电都将在这些节点上采用gate-all-around技术。

0 comments:

VxWorks

Blog Archive