March 13, 2024

吊打英伟达的AI芯片出现了,完全碾压

Cerebras Systems是一家位于美国加利福尼亚州的科技公司,专注于开发硅片级(wafer-scale)计算技术,以加速人工智能(AI)和机器学习(ML)应用的研发和计算效率。该公司成立于2015年,由一群拥有深厚芯片设计和计算背景的专家共同创办,目标是解决传统硬件在处理大规模AI模型时遇到的瓶颈问题。

Cerebras Systems的核心产品是晶圆级引擎(WSE),这是一种创新的处理器设计,通过将整个硅片直接转化为单一巨大的处理器,从而大幅提升计算性能和效率。这种设计与传统的基于小片硅芯片的处理器截然不同,后者通常在一个硅片上切割出多个芯片来单独封装。Cerebras的方法极大地减少了芯片之间的数据传输延迟,提高了能效比,并且在AI和ML任务中实现了前所未有的计算速度。

Cerebras Systems最近推出了其第三代旗舰产品——WSE-3晶圆级引擎芯片,该芯片以900,000个专为AI优化的核心,以及高达24万亿参数的训练能力,荣获全球最大AI芯片的称号。WSE-3的最大亮点在于其规模极其宏大。如上所述,这家公司就一直在干这个事情,这款芯片就是一整片硅晶圆。Cerebras的这款产品的规格令人瞠目结舌:4万亿晶体管、900,000 AI核心、高达125 PetaFlops的AI峰值性能、44GB的高容量片上SRAM,外加根据需求可选的1.5TB、12TB或高达1.2PB的外部内存配置。

WSE-3采用的是台积电先进的5纳米制程技术,其规格远超市面上公认的顶尖AI芯片——NVIDIA H100。NVIDIA H100的尺寸为826mm²,而WSE-3则高达46,225mm²,几乎是前者的57倍。两款芯片尽管均采用台积电5纳米工艺节点,但WSE-3以其令人震惊的900,000个AI优化核心遥遥领先,是H100的52倍之多。

在性能上,WSE-3同样展现出强大的数据支持:其内存带宽达到惊人的21 Petabytes每秒,是H100的7000倍;Fabric带宽达到214 Petabits每秒,是H100的3715倍。与上一代产品WSE-2相比,WSE-3在核心数量上提升了2.25倍(900K比400K),SRAM容量提高了2.4倍(44 GB比18 GB),在相同的封装体积内实现了更高的互连速度及54%更多的晶体管数量(4万亿比2.6万亿)。

WSE-3的设计目标是运行下一代的大型AI模型,其单芯片就能训练的模型规模相当于GPT-4、Gemini的十几倍。这得益于其能够在单一逻辑内存空间内存储高达24万亿个参数,训练大型AI模型时无需分区或重构。以训练1万亿参数模型为例,使用WSE-3的速度相当于传统GPU处理10亿参数模型的速度。

如果把四颗WSE-3芯片并联工作,能在短短一天内完成700亿参数模型的训练任务。此外,该芯片还支持最多2048路的互连,这意味着可以在一天之内完成如Llama这样700亿参数模型的训练。

除了WSE-3芯片,Cerebras Systems还推出了CS-3 AI超级计算机。这款系统能够训练的模型比GPT-4和Gemini还要大10倍,得益于其庞大的内存池。CS-3 AI解决方案为企业和大规模用户设计,相比当下主流的GPU,其提供了远远胜出的性能效率。

自成立以来,Cerebras推出了几代WSE产品,每一代在性能、核心数量、存储容量和能效比方面都有显著的进步。其产品主要面向科研机构、政府和大型企业,特别是那些需要大量计算资源来训练复杂AI模型的用户。Cerebras的解决方案已经在药物发现、气候模拟、语言理解等多个领域展现出巨大的应用潜力。

Cerebras的这些创新技术不仅开辟了AI研究的新天地,也巩固了其在高性能计算领域的领导地位。64台CS-3 AI系统将用于支撑Condor Galaxy 3超级计算机,该机型将提供8 ExaFlops的AI计算性能,在保持相同功耗和成本的前提下,实现性能的翻倍提升。Cerebras尚未透露WSE-3芯片的定价及供货详情,但预计其价格将远超NVIDIA H100 GPU美元标价。

0 comments:

VxWorks

Blog Archive