戴尔公司最近透露,Nvidia即将推出的代号为Blackwell的H200 AI GPU将具有高达1000W的功耗,相比前一代产品增加了40%的能耗。他们准备重新设计散热方案,作为全球最大的服务器生产商之一,戴尔的工程技术能力还是值得信任的。戴尔这些评论也间接反映出Nvidia下一代计算GPU可能搭载的一些独特架构特性。
戴尔的首席财务官Yvonne McGill表示:“我们对H200及其性能提升幅度感到非常兴奋,同样对B100和B200的性能也抱有高度期待。我们认为,这正是展现我们工程技术实力的绝佳机会。在处理每GPU 1000瓦特的能量密度时,我们的热管理经验表明,实际上并不一定需要采用直接的液体冷却技术。”
目前,我们对Nvidia的Blackwell架构的详细规划还知之甚少,但根据散热效率的基本规则,即芯片介质面积每平方毫米的散热通常不超过1W,可以对其进行一定的推测。
Nvidia当前的H100 GPU采用了定制的4nm级制程,已实现大约700W的功耗,同时包含了HBM内存的功率,芯片面积达到814平方毫米,几乎达到了每平方毫米1瓦特的散热极限。这种芯片已经采用了台积电的定制4nm级性能增强工艺技术。
Nvidia的下一代GPU很可能采用更高级的性能增强工艺技术,我们猜测可能是3nm级工艺。考虑到芯片的功耗及其所需的热量散发,我们有理由相信Nvidia的B100可能采用了公司首次尝试的双芯片设计,以增加表面积来更有效地处理产生的热量。AMD和Intel已经采用了多芯片的GPU架构,Nvidia的这一做法也与行业趋势相一致。
在面对高性能AI和HPC应用时,性能的衡量不仅仅是FLOPS(每秒浮点运算次数),同样重要的是实现这些FLOPS所需的功率及冷却产生的热能的能力。对于软件开发者而言,关键在于如何高效利用这些FLOPS;而对于硬件开发者,挑战在于如何冷却产生这些FLOPS的处理器。戴尔看起来很有自信在这块技术上超越同行,这也是其首席财务官公开讨论Nvidia下一代Blackwell GPU的原因所在。
McGill提到:“随着明年B200的推出,我们将有机会充分展示我们的工程技术能力、快速反应能力及作为行业领导者的能力。无论是流体化学性能、连接技术、进行的遥测工作还是电源管理,我们的努力都将使我们能够在市场上大规模推广这种令人难以置信的计算能力,从而利用市场中将会出现的巨大计算密度和能力。”
0 comments:
New comments are not allowed.