在人工智能(AI)领域,工作任务有两大类:训练和推理。训练阶段对大规模的计算力和内存容量有着极高的需求,但对于访问速度的依赖相对较小。推理阶段则截然不同,AI模型必须以极致的速度运行,目的是为了能够向终端用户提供尽可能多的Token,以此来加快回应用户指令的速度。长期低调的AI芯片初创公司Groq,近日在提供超高速推理处理方面取得了进展。公司研发的语言处理单元(LPU)专门设计用于处理诸如GPT、Llama和Mistral等大型语言模型(LLM)。
Groq的LPU基于张量流处理器(TSP)架构,是一种单核心单元,具备750 TOPS的INT8计算能力和188 TFLOPS的FP16计算能力,支持320x320融合点乘矩阵乘法以及5120个向量算术逻辑单元(ALU)。借助80 TB/s的带宽及230 MB的本地SRAM容量,Groq的LPU展现出了巨大的并行处理能力和优异的性能,近日在科技圈内引发了广泛的关注。在服务Mixtral 8x7B模型时,Groq的LPU能够达到每秒480个Token的处理速度,成为业内最快的推理处理速度之一。在处理Llama 2 70B模型(4096Token的上下文长度)时,Groq能够实现每秒300个Token的处理速度;而对于更小的Llama 2 7B模型(2048Token的上下文长度),Groq的LPU的输出速度可达每秒750个Token。根据LLMPerf的排行榜,Groq的LPU在推理大型语言模型方面超过了基于GPU的云服务提供商,在Token吞吐量和首个Token响应时间(延迟)上,Groq位居行业前列,实现了最高的吞吐量和次低的延迟。
作为对比,目前免费版本GPT-3.5-turbo的ChatGPT的输出速度约为每秒40个Token。当前的开源LLM,如Mixtral 8x7B,在大多数基准测试上已经超越GPT-3.5,其运行速度现在几乎可达每秒500个Token。随着Groq等公司的快速推理芯片开始变得更加普及,反应缓慢的聊天机器人的日子正在逐渐成为过去。这家AI初创企业对NVIDIA、AMD和Intel提供的推理硬件构成了直接的威胁。虽然Groq的LPU提供的性能已经得到证明,但目前还没有在行业内得到广泛采用。
看到越来越多的初创公司在硬件领域取得创新和突破,确实令人振奋。这些进步不仅标志着技术发展的不断加速,也预示着整个行业将迎来更多的变革和惊喜。对于行业内的大公司而言,这些创新既是机遇也是挑战。它们促使这些公司不断审视和升级自己的技术,以保持竞争力。同时,初创公司的突破也改变了大公司对技术的垄断,为大众提供了更多选择,加速了新技术的普及和应用。
对于用户来说,这一趋势意味着能以更低的成本使用到新技术。随着技术解决方案的增多和竞争的加剧,价格将变得更加亲民,而技术的进步又会使产品更加强大、高效。这样的发展环境不仅能让最终用户受益,通过减少对特定供应商的依赖,还能提高整个行业的健康度和创新能力。
未来,我们可以期待科技行业将持续以这种健康而充满活力的方式发展,为世界带来更多的可能性。
0 comments:
New comments are not allowed.