March 13, 2024

英特尔Gaudi 2竟然比英伟达H100快56%

近日,Stability AI发布了一篇新的博客,描述了一场Intel Gaudi 2与NVIDIA H100及A100 GPU加速器之间的AI性能比较结果。结果显示,Intel的方案不仅性价比突出,也为追求快速且现成解决方案的客户提供了一个值得考虑的选择,与NVIDIA的产品相比具有相当的竞争力。

在这项对比中,Stability AI借助其开发的包括Stable Diffusion 3在内的模型,对比了来自Intel和NVIDIA的AI加速器的性能表现。在采用了2B参数版本的测试中,Intel Gaudi 2 AI加速器在与NVIDIA H100 80GB GPU的比较中,速度有56%的优势,而与A100 80GB GPU相比,更是实现了2.43倍的速度优势。

在进一步扩展至32个节点(合计256个加速器)的规模测试中,Intel的解决方案显示出了3.16倍的性能领先优势,每秒每设备能处理49.4张图像,而A100解决方案仅为15.6张。

虽然Gaudi 2在训练任务上表现优异,但NVIDIA凭借其Tensor-RT优化技术在推理任务上依然占据优势。尤其是在处理Stable Diffusion 3 8B模型的任务中,A100 GPUs的图像生成速度比Gaudi 2快40%。但值得注意的是,在基于基础PyTorch的推理测试中,Gaudi 2的推理速度与Nvidia A100相近。经过TensorRT优化后,A100的图像生成速度将比Gaudi 2快40%,这表明随着进一步的优化,Gaudi 2很快就能在这一领域超越A100。

在第二个模型Stable Beluga 2.5 70B(一种对LLaMA 2 70B进行了微调的版本)的测试中,256个Intel Gaudi 2 AI加速器在未经额外优化的情况下运行PyTorch时,达到了116,777 tokens/秒的平均吞吐量,比运行TensorRT的A100 80GB方案快了28%。

测试结果说明,除了绝对的硬件性能之外,软件及对特定加速器的优化在提升性能中的重要作用。即使是最先进的硬件,如果没有坚实的软件基础来发挥其全部潜能,其性能也难以达到最优。

Intel的首席执行官Pat Gelsinger和首席商务官Christoph Schell在2023年12月14日于纽约举办的“AI Everywhere”活动上首次对外展示了下一代Intel Gaudi 3 AI加速器。这款针对深度学习和大规模生成AI模型设计的产品,预计将于明年推出,标志着Intel在AI加速器领域的进一步进化,展现了其成为NVIDIA有力竞争者的潜力,预示着AI市场将迎来更加多元化的选择。

0 comments:

VxWorks

Blog Archive