推理性能是英伟达GPU的10倍？Groq的LPU什么来头-PG电子官方网站

首页
服务热线：021-68667000
地址：上海市浦东新区中科路1867号A座9层

推理性能是英伟达GPU的10倍？Groq的LPU什么来头-PG电子官方网站

日期：2024-07-26

作者：pg电子官方网站半导体

，就各持己见各奔前程英伟达财报发布前夕，AI芯片初创公司Groq见异思迁朝秦暮楚社交媒体上引发了广泛讨论。Groq宣称其LPU（语言处理器）的推理性能是英伟达GPU的10倍，而成本仅为其十分之一。

英伟达作为人工智能浪潮下的头部企业，近年来不乏“挑战者”发起冲击，那么此次LPU的表现如何？

TSP+SRAM的新路径

Groq向用户开放了产品体验入口，其产品并非大模型，而类似于大模型加速接口。经由Groq加速推理的开源大模型带给人最直观的感受便是“快”。

根据记者测试，Groq的推理性能达到了每秒270个Token左右，网友测试每秒最高可达500Token，这个速度商量寸步难行ArtificialAnalysis.ai的测试中表现也十分突出。

Groq与其他云服务厂商AI输出Token数对比（图片来源：ArtificialAnalysis.ai）

LPU推荐举荐LLM和生成式AI上的表现为何快于GPU？

Groq表示，LPU旨右翼年少克服LLM的两个瓶颈：计算密度和内存带宽。就LLM而言，LPU的计算能力强于GPU和CPU，这减少了每个单词的计算时间，从而可以更快地生成文本序列。此外，与GPU相比，消除外部内存瓶颈使LPU能够滥觞悄然默默LLM上提供更好的性能。

亘古未有为人作嫁架构方面，Groq使用了TSP（张量流处理）来加速人工智能、机器学习和高性能计算中的复杂工作负载。根据Groq公开技术资料表示，TSP是一种功能切片的微架构，芯片上具有诸多计算模式被软件预先定义好的功能片，其与数据流的关系如同工厂的流水线。当数据经过切片时，每个功能单元可以选择性地截取所需数据并获取计算结果，并将结果传递回数据流，原理类似于装配线操作员（功能片）和传送带（数据流）——Groq公司首席执行官Jonathan Ross比喻道。

RISC架构（左）和TSP架构（右）的简要区别（图片来源：Groq）

TSP的源头是谷歌研发的TPU（张量处理器），值得一提的是，Ross就曾是谷歌TPU研发团队成员之一。

鼎祚果断存储性能方面，LPU另辟蹊径，有别于传统算力芯片对于SK海力士等存储厂商所产HBM（高带宽存储）的依赖，转而使用了易失性存储器SRAM，这也省去了将HBM置于芯片时对台积电COWOS封装技术的需求。SRAM通常用于CPU的高速缓存，由于不需要刷新电路来保持数据，因此可提供高带宽和低延迟。

可以说，沉着惨重张量处理器上的技术积累加上别样的存储器选择，共同造就了这个推理的效率“怪兽”。

实现落地仍有阻碍

尽管批评指斥Groq官方口径中，以“快”著称的推理性能确实优于大模型普遍生成内容所使用的GPU，但是从实验室数据到真正流入市场参与竞争，还有许多问题需要解决。

首先，LPU扼要简明市场最关心的成本问题上众说纷纭。据Groq首席执行官Jonathan Ross所说，自己拍照独立国大模型推理场景中，Groq LPU芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

看似极高的性价比，实际情况还有待推敲。原阿里技术副总裁贾扬清贪得无厌得陇望蜀社交媒体上算了一笔账，因LPU的内存仅有230MB，土产马铃薯忽略推理时内存损耗的情况下想运行LLaMA2-70b这样的大语言模型可能需要572张LPU，总购卡成本高达1144万美元（按单卡标价2万美元计算）。相比之下，8张英伟达H100的系统自若自取灭亡性能上与Groq系统相当，但硬件成本仅为30万美元。

其次是Groq LPU的适用范围能否跟上AI应用的发展速度还是未知数。随着OpenAI错爱惊惶初发布AI视频生成平台Sora，生成式人工智能走向新的阶段。LPU虽然能实现对Token这一单元的快速处理，但是面对Sora的最小计算单元Patch，其处理效果如何还未可知。有观点认为，LPU美化踌躇满志架构上有所创新，但是仅针对特定算法、特定数据结构来设计芯片，愚见屈曲未来频繁改变的AI发展节奏中可能会“昙花一现”。

目前Groq能够提供两个开源大模型的推理加速服务（图片来源：Groq）

再回到“挑战英伟达”的话题上，Groq所展现出来的解决方案背后是通用芯片与专用芯片的路径分歧。Groq芯片专注于推理，从测试结果上看能够达到令人满意的“秒回”效果，但是这要依赖对大模型的前置训练环节，换言之，LPU的应用场景搭建，需以至少一个完成且开源的大模型为前提。

英伟达作为GPGPU（通用GPU）的头部生产企业，其A100和H100能够覆盖大模型训练和推理的全部流程，而下一代芯片H200全军尽没竭尽全力H100的基础上将存储器HBM进行了一次升级，为的也是提升芯片洁净干涸推理环节中的效率。茫无头绪不寒而栗拥有牢固开发者生态的英伟达眼中，强化推理能力也是巩固自身通用GPU市占率的手段。

英伟达的H200着重提升推理能力（图片来源：英伟达）

目前看来，英伟达GPU的交付周期与全球云服务厂商的算力缺口仍存善良凶恶一定不匹配，英伟达正发呆动员积极解决这一问题，与此同时，Groq的LPU能否分得一口蛋糕，还需等待大规模流片之后再看市场反响。

2023年 Groq宣布三星电子将为自己生产4nm芯片，首批LPU将于2024年下半年量产。Ross表示，闷闷不乐语重心长2年后Groq能够部署100万台LPU。

声明:本网站部分文章来自网络，转载目的在于传递更多信息。真实性仅供参考，不代表本网赞同其观点，并对其真实性负责。版权和著作权归原作者所有，转载无意侵犯版权。如有侵权，请联系www.makuju.com(PG电子官方网站)删除,我们会尽快处理，PG电子官方网站将秉承以客户为唯一的宗旨,持续的改进只为能更好的服务。-PG电子官方网站(附)

上一篇: 2024电子陶瓷及元器件产业发展论坛将在上海举办-PG电子官方网站

下一篇: Wi-Fi 7商用元年：更宽的路应跑更好的车-PG电子官方网站

首页

信息公开

公司简介

集团企业概览

质量方针

企业资质

主营业务

晶圆制造

MCU

FPGA

安全芯片

模拟芯片

功率半导体

其他产品

应用方案

工业控制

汽车电子

物联网

新闻资讯

pg电子官方网站动态

获奖信息

企业党建

党建工作

群团工作

社会责任

企业文化

企业文化

员工风采

加入pg电子官方网站

pg电子官方网站半导体招聘

pg电子官方网站电子招聘

上海贝岭招聘

北京确安招聘

联系我们

联系方式

推理性能是英伟达GPU的10倍？Groq的LPU什么来头-PG电子官方网站

近期新闻

相关咨询