
(本文作家为 硅谷101更是亚洲最大的在线娱乐公司之一,aj九游会官网拥有欧洲马耳他(MGA)和菲律宾政府竞猜委员会(PAGCOR)颁发的合法执照。,钛媒体经授权发布)
文 | 硅谷101
在AI算力求霸期间,英伟达凭借GPU市值一齐狂飙。但如今,它的蛋糕正在被极少点分食——2024年,苹果论文清晰Apple Intelligence全部由TPU锤真金不怕火;2025年,Anthropic签下数十亿好意思元订单,购买TPU锤真金不怕火Claude;近期,Meta与谷歌签署数十亿好意思元契约,租用TPU跑Llama。
TPU一直是谷歌低调的“自家兵器”,在往常十年里驱动着简直全部中枢居品。直到TPU锤真金不怕火的Gemini 3打了一场漂亮的翻身仗,东说念主们才运转重新凝视:这套从搜索推选系统中长出来的定制芯片,究竟藏着若干玄妙?
本期硅谷101以视频播客的神色录制,主播泓君邀请到前谷歌TPU工程师Henry。他在2018年至2024年间深度参与了三代TPU的研发,也见证了大模子期间TPU的环节转型。他将从硬件架构、软件生态、出产供应链博弈三个维度,一层层揭开TPU的好意思妙面纱。
TPU与GPU有着完全不同的假想玄学。Henry用“活水线”与“大厨们”来譬如两者的架构各异:GPU发祥于图形处理,接受SIMT架构,如合并个厨房里领有宽敞孤独念念考的大厨,不错并行处理多种任务。而TPU是专为机器学习矩阵商酌定制的加快器,通过芯片间互联(ICI)构建起3D Torus累积,让数千张芯片在用户感知中如合并张芯片般协同使命。
他认为TPU挑战GPU的契机在于——在软硬件深度协同下,TPU能够在已知任务负载时,对整颗TPU Pod进行全局算子交融与内存料理优化,将硬件性能“榨干”到极致。这种假想使得TPU在模子相对相识、需要大规模部署的场景中,能够已矣比GPU更低的推理成本。
可是TPU的短板也一样显着:
软件生态上,尽管TPU已向Anthropic、Meta等外部客户洞开,但其编译器具XLA仍是一个“黑盒”,外部团队很难孤独完成调优。产能方面,TPU高度受制于被英伟达紧紧锁定的HBM(高带宽内存)产能,以及台积电的CoWoS先进封装资源,且高度依赖博通买通供应链。更蹙迫的是,手脚一款专用ASIC芯片,TPU的通用性远不足GPU。当模子算法以月为单元迭代,每一代TPU都要去押注两三年后的时候走向。若明天模子范式发生变化,TPU还能一直赌对吗?以下是此次对话内容的精选:
01 TPU v.s GPU架构对决:谁更省钱?谁更强?泓君:好多东说念主不明晰TPU跟英伟达的GPU,有什么样的不一样。咱们不错先简便给听众先容一下。
Henry:领先TPU和GPU自己的架构是完全不一样的。GPU大众可能了解愈增加一些,因为最运转它是作念游戏的显卡,它是一个SIMT的架构(Single Instruction Multiple Threading),它是一个多线程单一提示的架构,不错证实成一个厨房里面同期安排着好多好多个大厨,他们每个东说念主都有孤独的念念考智力。是以你安排好多好多大厨的话,这样并行商酌智力就会相当相当强。
泓君:如果咱们一样用作念菜来譬如TPU的话,你合计它的经由跟GPU有什么不一样?
Henry:TPU和GPU最大的离别便是,TPU是一个针对机器学习的加快器。咱们知说念,机器学习任何的算法,里面的中枢便是矩阵商酌,包括最运转的CNN(卷积神经累积),到咫尺的Attention,到Transformer,到明天的架构。矩阵商酌这个东西短长常Compute Bound(商酌密集型)。TPU便是针对这个矩阵商酌格外作念了一个定制的加快器。用作念饭来譬如,TPU是一个活水线,毋庸安排那么多的大厨,它会把每一个智力都告诉你具体作念什么,比如说第一个东说念主会从雪柜里把菜给取出来给第二个东说念主,第二个东说念主连接作念加工传到第三个东说念主。你不错证实成是腹黑的泵血,每泵一次,它就会把血液传输到你身段的各个边缘。是以这样的话,中间它会少好多的援救和调控,是以能保证每一个商酌单元的使用率会更高一些。
泓君:在模子的锤真金不怕火上,这两种不同的架构各自的上风跟污点是什么?
Henry:我合计咫尺预锤真金不怕火,包括后头的推理,咱们在缓缓地从Compute Bound(商酌密集型)酿成Memory Bound(访存密集型),是以咱们咫尺对内存的要求短长常高的。SIMT架构有一个劣势,因为你需要孤独时去作念这样的商酌任务,是以在一直等数据搬运过来的过程中,有时就会有一些idle period(餍足周期)。是以这个过程当中就会导致它的矩阵商酌哄骗率莫得那么高,utilization rate(产能哄骗率)就会有下跌。
我合计TPU弥补了这个污点,咱们待会儿不错具体聊一下它软硬件的协同效应。TPU会保证它是一个满功率下的运行,它不需要恭候数据搬运的过程,它要么哄骗当地的缓存,把一些提前搬运过来的数据相通去哄骗,要么把带宽跑满,这样咱们不错使内存哄骗率能达到一个峰值。
泓君:是以用一句话来作念论断,你合计TPU跟GPU它们在模子的锤真金不怕火上谁更强,能优化若干?
Henry:我合计从预锤真金不怕火上来讲的话,咫尺GPU和TPU最大的离别便是——天然GPU咫尺也运转往阿谁标的去发展——因为TPU一直作念系统层面假想,它是一个大的商酌集群,而不是单卡单芯片去作念预锤真金不怕火。GPU可能很长一段时候都是单张卡的性能相当好,但是它莫得一个累积。TPU一直是主打TPU Pod,它是一个有几千张卡的协同锤真金不怕火的气象。它里面牵涉到了好多通讯,便是ICI,芯片间互联,它芯片与芯片之间通讯和累积,咱们叫作念3D Torus,一个拓扑的累积。它不错让几千张卡芯片在用户的嗅觉当中是一张卡的芯片,它中间锤真金不怕火遵守短长常高的,这样的话它的成本也不错打得下来。
泓君:我看新闻报说念说谷歌V7,便是你研发的这套Ironwood,它的芯片在物理参数上仍是相当接近GB200了。是以它如果在信得过的使命中,比如一样是锤真金不怕火一个Gemini的模子,一样的参数目,用GPU跟用谷歌的TPU,谁更省钱?
Henry:我合计这是很好的问题。我的证实是,将来如果说谷歌给其他大模子公司定制的话,我合计谷歌的性价比(TCO,Total Cost of Ownership)是更高的。当你知说念你的任务负载(Workload)是什么的时候,你就不错把柄你的任务负载去作念一些物理的芯片层面或软件层面的定制。诚然说它可能有点“黑盒”的嗅觉,当你统统的已知条款都笃定下来时,我合计TPU在施行条款下,它的锤真金不怕火遵守如故TCO,都会比GPU愈加遒劲。它的哄骗率更好的原因,是它的FLOPs(单元时候内作念若干次浮点式运算),因为TPU里面主要的架构便是矩阵商酌,是以它的软件和硬件不错保证它每个时候、每个商酌单元都有活在作念。
咱们的软件绝顶于匡助硬件说,我不会让你闲下来,每个时候点你都有使命,但是你具体作念什么活,是我告诉你的,你不需要精确地去估量或如何样。硬件层面说,咱们不会加好多的规定单元。这跟GPU很大的离别便是,咱们不需要任何的估量,它估量的那一层面绝顶于都是在软件层面去已矣的。是以绝顶于你把硬件变得更蠢了极少,绝顶于是一个机械式的劳顿,软件那处帮你把统统复杂贫苦都给处理掉。
是以Ironwood主要有两大突出。一个突出便是它把它的峰值FLOPs数值上跟GPU愈加接近了。另外一个点我合计相当蹙迫,便是它的内存带宽亦然有一个雄伟的晋升,它深信是用了更大的HBM,保证了一定的带宽。第二点便是这个HBM的带宽它能被软件充分地去哄骗起来。
02 TPU产能之困 HBM、封装、良率泓君:更高性能的HBM,从供应链的环节好找货吗?
Henry:相当难找。HBM有点把持的嗅觉,一共就三家公司把持这个出产,应该是SK hynix(海力士)、三星和Micron(好意思光科技)。英伟达一直是HBM最大客户,TPU一直绝顶于是一个次要客户。之前TPU一直莫得见解取得那么好的HBM,或者说那么大的订单。
谷歌TPU V7之前一直有一个产能的问题,第极少原因是V7之前咱们一直莫得一个对外的生态,更多是针对里面的部署使用,是以咱们莫得见解和Broadcom(博通)、TSMC(台积电),或者刚才所说的那几家HBM厂商去锁定一个很大的订单。
第二点,CoWoS属于TSMC的中枢产能。咱们不错证实成,咱们新一代的芯片都是跟以前完全不一样,因为咱们咫尺都作念一个co-design,咱们的HBM内存芯片和商酌芯片是两块孤独的芯片,通过一个2.5D stacking的封装把它封装成一个集成芯片。这个TPU Google我方作念不了,Broadcom也作念不了,它只可依赖于TSMC,是以TSMC给你分拨若干产能,你就能达成若干产能。
泓君:如果把咫尺产能的瓶颈转头一下,一块是CoWoS跟TSMC,在封装上的产能。还有一块是HBM,高带宽的内存供应,由三大把持巨头去把握。
Henry:还有极少便是良率。良率意味着,当你TSMC把一个wafer die(晶圆晶粒)出产出来之后,它上头这一块wafer上有若干是及格的芯片。因为TPU和GPU的制造理念是不太一样的。TPU主打芯片与芯片之间的通讯,这导致它中间的失败率会比GPU还要更高一些。它需要保证统统这个词系统里每张芯片性能大约是一样的,如果有杂沓不皆的话,它统统这个词系统跑起来的遵守就不会有那么的高。但GPU可能就不存在太大这样的问题。咱们都知说念GPU有我方阉割的版块,比如H100、A100,是以一朝良率不好的话,它不错往下跌级。但TPU因为是定制的芯片,不是通用的芯片。是以一朝你良率不行的话,这款芯片绝顶于报废了。
03 XLA软件黑盒:如何“榨干”硬件性能泓君:刚刚说到出产环节取决于你订单的量。Anthropic其实要采购谷歌100万颗TPU,亦然一个很大的订单。是以谷歌TPU咫尺看来仍是在“蚕食”TPU的市集份额。
Henry:Anthropic这一个订单确乎是挺大,我合计有好多个身分:第一,Anthropic和Google是一个相对内轮回,因为Anthropic好多投资方亦然Google的,它们是深度结合的关系。第二点,我合计Anthropic工程师的时候智力相当强,是以他们能用TPU来部署他们我方家的模子。咱们等会儿不错详备聊一下为什么TPU的部署在一般第三方客户上那么难。
泓君:是以Anthropic拿下这个订单,我合计亦然有好多身分在里面。那咱们就顺着连接讲一下Anthropic。它是不是跟谷歌的统统这个词软件生态关系系?因为在TPU上要搭一层软件,我听过Anthropic的好多东说念主最运转是在Google的,是以他们相当了解TPU上这一套软件生态部署。
Henry:文告这个问题之前,咱们不错先简便聊一下XLA。XLA你不错证实成黑盒,也不错证实成是一个Google的玄妙兵器。我合计XLA和CUDA最大的离别在于,XLA是一个静态的编译器。静态编译器指的便是,当你的任务负载是已知的或者给定的话,它不错在一个全局的TPU Pod,把它作念一个系统级的全局的优化。
优化分好多层面,我知说念的,他们会作念好多里面的算子交融,比如说你一个kernel里面有好多商酌,你还会把一些商酌合并到一个商酌单元、一个算子,这样的话你能更好地去哄骗systolic array(脉动阵列)里面的矩阵商酌的哄骗率。中间的远离你毋庸反复地存进内存再存出来,XLA会帮你自动作念这样的优化。它还会作念好多的内存料理,如何去更好地散布你的内存,它知说念TPU可爱如何从内存里面把数给读出来。这些东西都是跟硬件架构和一些具体的细节是相得益彰的。是以XLA证实过黑盒帮你去优化这样的一件事情。但问题便是,这个事情你是没见解很好地debug和规定的。
泓君:开辟者很难去用XLA这套系统,一个原因是编程言语他们不会对吧?它用的是什么编程言语?
Henry:XLA它是一个编译器,它表层是PyTorch、JAX和TensorFlow。绝顶于你的开辟者不错写任何一样的言语,然后它通过XLA不错帮你转机成TPU的Assembly code(汇编代码),便是TPU的提示。它中间是作念一个翻译加优化。是以它如果对应英伟达的话,对应的便是CUDA的统统这个词生态体系。
泓君:咱们知说念在GPU去锤真金不怕火模子的过程中,工程师每每会碰到bug,然后处分它需要在它软件的编译器上,比如说CUDA的生态上,去望望是哪个环节出了问题。咫尺如果是用谷歌的TPU出了问题,刚刚你也提到了XLA是一个黑盒,那是必须找谷歌的工程师来处分,如故他们我方就不错处分?
Henry:你不错证实成XLA是黑盒,但是它里面有好多的匡助你去debug的一些器具和功能。但它问题便是,你需要对硬件有一些了解才能更好地去分析它。它是不错debug的,但对工程师要求会更高一些。外部的开辟者很难孤独去向理一个或修补一个bug,不像CUDA有一个很好的生态你不错去向理。
咱们有好多软件组格外去对接不同的外部客户,有Apple、有Midjourney,然后Anthropic,我去职之前也外传,他们好多组短长常忙的。
泓君:是的,我昨天外传,用谷歌的TPU最大的团队其实不是Anthropic,最大的团队其实是苹果。苹果是因为庞若明之前在Google,他去苹果的时候,把谷歌的一整套带往常了,然后又径直用的TPU去锤真金不怕火他们的大模子。
Henry:对,我合计也牵涉到一个软件栈的迁徙。便是你要用TPU的话,必须要把原本的一套软件栈全部迁徙到JAX、XLA上。如果你不迁徙的话,你天然不错去作念,它能跑,但你就哄骗不到TPU那么好的性能和TCO。咫尺咫尺TPU比较GPU,它最大的上风便是它成本规定得很好,比较起芯片,它更多是依赖于软件。
04 定制芯片痛点:Transformer先发上风能握续多久?泓君:你合计Google的Gemini模子,因为它咫尺应该是市集上最佳的模子,它的锤真金不怕火出来跟TPU的关系有多大?能占决定性身分吗?如故算法是占决定性身分的一部分?
Henry:算法天然很蹙迫,因为我合计咫尺,独特是预锤真金不怕火,它CapEx很大。然后它算法我合计,DeepMind那处有相面前沿的算法。TPU能帮你去作念的一件事情是,当你有一个很好的算法之后,你提前跟TPU组交流好,我是如何样的一个算法,我如何样的任务负载,我给你去定制这样的一个加快器。这样的话我能匡助你在一个更短的时候更快地迭代,去测试这样一套算法。我合计这是一个很蹙迫的事情。如果说你的锤真金不怕火遵守很差的话,你需要花更长周期去考据一套算法是否能work。但TPU如果能把你的时候打下来,之后迭代速率你就会更快一些。
泓君:你们定制这样的一个芯片大选录多久经由?
Henry:我合计这是任何芯片公司的一个痛点。它们好多的时候都是在估量明天市集的变化,包括估量明天模子的变化。之前知说念的便是MoE(混杂大众模子),亦然很早就有这样的一个想法。MoE很长一段时候在TPU和GPU上跑的遵守都不是独特好,但是其后TPU和软件沿途增加了针对MoE的优化。
泓君:不错详备先容一下为什么之前MoE一直在TPU上跑不起来的原因?
Henry:因为它是一个2D torus。绝顶于每个TPU芯片只可跟它的邻居、相邻TPU芯片作念通讯。是以如果说你莫得一个All-to-All的通讯的话,这样中间就绝顶于你要找一个一又友,中间要经过好多个环节。这样的话有好多的败坏,好多的拥挤。
其后在V4的时候,TPU推出了一个3D torus,它用了OCS(光交换机),绝顶于这是一个软件可编程配置的交换机。你在一个TPU Pod节点,不错通过软件来更始你想通讯的阿谁TPU集群的旅途,这样的话就绝顶于一下子把MoE的痛点给处分了。之后MoE就在TPU上跑起来,遵守就会显着比之前高好多。
近万个TPU与ICI联结在一个Pod中 图片来源:Google Cloud
泓君:是以我证实这个迭代是以年来商酌的。量产的节拍一般是多久?半年打得下来吗?
Henry:打不下来,我合计每家公司的理念都不一样,TPU一直要作念旗舰的锤真金不怕火芯片或旗舰推理芯片,这对快速迭代要求会相当高,因为你每一代芯片都会塞很千般的需求。当你假想完,咱们会作念考据,然后再交给Broadcom去作念通讯上头的假想,然后在统统这个词package level作念考据,临了交给TSMC。我合计统统这个词经由最快也要两年到两年半、三年。
泓君:你刚刚提到谷歌仍是更新到V8了,这一款我证实它在假想上是两年以前就作念了。但是模子的更新,基本上每6个月就变化一次。也便是说,你要在两年赶赴估量这个模子往哪个标的走。押对了吗?
Henry:咫尺来讲,V7应该是押对了。这也不错讲明注解一下为什么之前TPU的芯片和GPU在纸面参数上是有挺大的距离的。因为之前TPU主要的任务负载是里面的一些推选和排序算法,它莫得猜度GPT出来之后,有这样大的算力需求,是完全不一样的任务负载。
泓君:运转把它统统的中枢肠能往大模子的预锤真金不怕火上调是哪一代?
Henry:应该便是V6运转的。V6运转作念了两个版块,一个是格外作念锤真金不怕火,一个格外作念推理。锤真金不怕火和推理本色上它们用的是合并套架构,推理不错证实成是锤真金不怕火芯片的一便条集,它不错有更小的运算单元,它不错有更小的内存,因为比较锤真金不怕火,推理不需要作念Back Propagation(反向传播),是以它中间不需要存储好多的副本。
泓君:差未几亦然在两三年以前运转养息这个标的的。其实GPT在2020年就有GPT-3放出来。谷歌阿谁时候它仍是运转签订到这是一个next big thing,它有去作念芯片上的养息或者GPU上的养息吗?
Henry:对,因为Transformer亦然Google建议来的,然后把柄这套架构,芯片组很早就知说念,如何去作念这一套架构的优化,包括Attention kernel。
泓君:我合计谷歌的TPU到咫尺它能在统统这个词模子预锤真金不怕火中性能推崇相当的优秀,亦然因为Transformer这套架构是谷歌发明的。然后从TPU的降生运转,它就一直走的是这条旅途。是以咱们其实也不错把TPU证实成一个针关于大模子预锤真金不怕火或者推理的ASIC,这样说是对的吧?然后你这个ASIC就一定要押对标的,它押到了Transformer。
Henry:对。咱们绝顶于是一个先发的上风。本色上ASIC和GPU,一个是通用性好,一个是通用性不好。一朝有个新的算法上的动态变调,你在TPU上就很难去已矣这样一件事情。即使你有先发上风,但后头的竞争会越来越热烈。这样的话,你的先发上风可能也会缓缓被蚕食。
是以说GPU胜就胜在它——因为咫尺模子迭代周期相当短,都是以月来作念单元。我合计有一个阶段便是GPU,因为它通用性好,是以GPU上去跑模子的迭代速率会比TPU更快一些。
泓君:那咫尺是哪个阶段?TPU更快?
Henry:咫尺V7嗅觉跟GPU Blackwell仍是是旗饱读绝顶了。但是我担忧的极少便是,这一套架构它的可膨大性到底有多强,万一将来有一个不同的范式,它如何去跟上GPU的法度。
一块Ironwood板卡 图片来源:Google Cloud
泓君:如果出现了雷同于不同于Transformer的新的架构,那TPU就不一定有GPU的推崇好。
Henry:是。
泓君:RL(强化学习)对TPU的影响会大吗?
Henry:深信会是不一样的任务负载,深信是会有影响的。我合计咫尺TPU的政策便是把芯片变得愈加通用,往这样一个标的去发展。绝顶于它矩阵单元不错处理千般任务负载的矩阵商酌,它也有格外讲求去向理一些寥落矩阵商酌的单元。它不错证实成把好多硬件上的一些商酌和内存模块化,来得当将来不同的范式。
泓君:是以从某种道理上来讲,亦然一个向通用性的和谐。
Henry:对,我合计之前以往几代芯片可能假想得莫得那么激进的原因亦然有一部分的考量。如果一朝假想得相当激进,你不错在Gemini上模子遵守晋升30%到40%,但万一有变化呢?万一有变化,那且归的话就会相当的晦气。是以我合计这是一种基于施行的和谐。
05 供应链命门:博通为何干键?泓君:我最近是看到一条新闻,说Google跟Meta也有一个这样的TPU采购契约,然后谷歌向Meta提供TPU的托管办事。
Henry:我合计它可能更多是依托于谷歌云,提供更多算力。软件侧的话,我去职之前也知说念有好多组在作念PyTorch和XLA的结合,但因为PyTorch算子的确太多了,如果不在硬件上原生地去提拔这些算子的话,性能推崇就会比较差一些。如果径直用谷歌云的话,你绝顶于是托管了,没见解作念好多底层的规定,性能就会有败坏。
泓君:这个败坏或者会在若干的百分比?
Henry:这便是我刚才说到模子哄骗率。如果你结合得相当好的话,能简直满气象地达到一个峰值FLOPs或峰值内存带宽。但是如果你用谷歌云来跑的话,你很有可能用到惟有50%到60%的哄骗率,但是你如故要付一样的钱。咫尺我知说念,径直购买TPU机架的惟有Anthropic,其他都如故谷歌云。
泓君:我能干到谷歌API接口的成本或者最运转惟有Open AI跟Anthropic的十分之一。同期,Anthropic最近的Claude Opus 4.5,它的API接口或者是下跌了67%。有媒体报说念把这部分归功于它是用谷歌的TPU锤真金不怕火的。
Henry:推理成本上确乎是这样的。Google咫尺的推理芯片成本确乎会比GPU要高不少,原因便是集群的推理,它的TCO就能打得下来。还有一个原因刚才莫得提到——GPU的集群它用的是NVLink、NVSwitch这样的一种通讯契约,这其实很烧钱,你不错证实成是一种基础设施税。你需要跟好多不同厂商去买这种交换机,然后部署在你的数据中心当中,这是一个很大的成本开支。Google因为它用了不一样的拓扑架构,它用了芯片与芯片之间径直通讯,它用的是铜,毋庸交换机,惟有在某些节点上用一些光学交换机,但也比较少,已矣了一样的通讯遵守。是以它在成本支拨上会比GPU要好好多。
泓君:是以在建数据中心的这一环,成本仍是拉开了。英伟达的主要成本是交换机,谷歌的主要成本是什么?是液冷吗?
Henry:液冷是一块。其实跟英伟达也差不太多。主要成本亦然它的一些SerDes(串行器/解串器),这种SerDes就绝顶于是把信号从一个芯片准确无误地传输到另外一个芯片。因为比较GPU,TPU更多依赖于SerDes的相识性,是以这一块老本支拨如故很高的。
TPU的液冷建树 图片来源:Google Cloud
泓君:谷歌跟Broadcom的结合会握续多久?是不是如果量大了,谷歌可能就我方作念了?
Henry:Broadcom平正便是它不错帮最大的客户去争取最大的产能,便是CoWoS和TSMC。是以说一直以来,TPU都是跟Broadcom去作念这样一个结合,咫尺我不合计会有很大的变调。但这样导致一个不好的问题便是,Broadcom的议价权会越来越大。如果相当依赖Broadcom,莫得一个备选的话,你在成本上就很难规定得下来。
泓君:是以谷歌它能径直跟CoWoS这一块来议价吗?决定的中枢要素是什么?
Henry:主要如故HBM。我证实Broadcom是一个中间的环节,它会把统统的东西全部帮你铺设好,然后交给TSMC去量产。是以我合计,第一你需要去拿到一个很好的HBM的产能,再通过Broadcom去跟TSMC争取一个好的CoWoS。
泓君:我外传咫尺统统这个词HBM的产能被英伟达把持了。
Henry:基本上是把持了。因为刚才也提到,咫尺咱们仍是缓缓从商酌密集型转向内存密集型,独特是像咫尺的Attention kernel,中枢便是一个你如何样去更快的从内存里把数据给搬运出来。明天几年的标的可能便是HBM能决定你的上限。如果你买不到好的HBM的话,那你的锤真金不怕火遵守就会大打扣头。
泓君:是以博通的主要中枢作用是在这一块?
Henry:博通主要的中枢作用是作念好多的通讯ICI(Inter chip interconnect)。咱们TPU团队主要假想它的前端。咱们绝顶于是把一张图纸给打印出来,然后Broadcom会把每个芯片之间物理上去联结起来,去布局这样一个拓扑的累积。你不错证实成脏活累活,也不错证实成这是一个相当吃教诲的,亦然时候壁垒相当高的中枢环节。
06 TPU十年进化史泓君:如果咱们用一句话来转头,你合计咫尺谷歌的TPU不错挑战英伟达的在GPU的把持地位吗?或者说至少是我去遏止一下英伟达在这个市集上完全的订价权?
Henry:莫得完全谜底,但我的论断是,在某些收尾的条款下,TPU是完全不错挑战GPU的。收尾条款便是大规模部署。因为TPU它主打便是走量。TPU其实不太擅长作念一件事情便是,它没见解针对一个单用户,比如说作念Agent,它就不太合适,因为它延伸会比较高一些。它必须在一个相当大的浑沌量下,比如有好多用户同期去调用这个接口,才能把成分内管开来。如果在大规模部署、模子相对比较相识,不需要好多的变动的情况下,它的合座的成本就会比较GPU有很大的上风。
泓君:综上咱们所说的,我试着转头一下TPU跟GPU的上风跟劣势。
合座来看,咫尺TPU在性能上,包括在模子的锤真金不怕火上,如果你用得好的话是不错把它跑满的,它可能会达到GPU的性能甚而是比它跑得更好。在数据中心的部署上,它是更省成本的,这个是它的一些中枢上风。同期,用了它你的推理成本不错裁减。
它的污点便是,领先咱们在软件的生态上,XLA如故一个比较难初学的中枢门槛,它莫得英伟达CUDA生态。另外极少,它在统统这个词的起量上,包括对HBM供应链的规定上,如故比较弱的。还有一个中枢的问题便是说,如果大众使用了TPU,但是你里面莫得独特懂的东说念主,它如故一个黑盒,便是你莫得见解用我方的工程师去把它调优,然后把它的性能跑满。如果用谷歌云的话,可能只可跑到50%到60%的性能。
在这种情况下,它跟GPU谁的性能更好,咫尺其实亦然一个很难说的话题。是以合座上咱们看到是这样的一个趋势。TPU最大的中枢问题便是说,明天如果统统这个词模子在架构跟算法上有升级,它雷同于一款专用的ASIC芯片,通用的GPU是更有上风的。但是如果你们的算法赌对了,你们便是有中枢上风的。我的转头准确吗?
Henry:相当精确。
泓君:其实咱们前边聊了这样多的TPU,你要不要跟大众再简便地回溯一下,谷歌是如何样去发明TPU的?它的历史是什么?然后谁是中间的中枢东说念主物?
Henry:咱们最运转TPU主如若针对里面CNN这个大模子的一个加快器。最运转第一代芯片仅仅一款推理芯片。最运转的初志便是大众发现,咱们里面有好多线上推选系统,但它的推理都是用CPU来作念推理。大众都知说念CPU的并行遵守短长常差的。那时候也没法用GPU,因为那时的GPU还莫得加入矩阵商酌单元。谷歌说为什么咱们不我方开辟一款只作念矩阵商酌的模子。是以这便是最运转的初志。Jeff Dean,包括其后图灵奖的取得者David Patterson深度参与了第一代模子的架构。
第二代芯片,便是一个相当旗舰的作念锤真金不怕火的模子,包括咱们其后知说念的AlphaGo、PaLM、Bard、早期的Early Transformer,包括其后Transformer,都是用了这一套架构去作念的锤真金不怕火。但那时候有一个比较大的问题便是,先有了硬件,但是软件还莫得跟上来,阿谁协同效应还莫得产生。中间咱们也建议了系统级的TPU Pod,一个拓扑的累积,这亦然奠定了咫尺TPU能有出色性能的基础。
在这期间咱们又针对推选和排序的算法加入了一个Sparse Core(寥落式的商酌单元),这也很好地处分谷歌里面的推选的一些任务负载。
然后V5、V6的话便是运转插足大模子期间了,是以咱们那时候针对Transformer作念好多的优化,中间还推出了一个推理的版块,因为推理市集需求相当大。
泓君:TPU刚刚降生的时候,还有一些独特好玩的故事。其时Jeff Dean是谷歌的首席科学家,2013年左右他是在一次里面的演示中,讲深度学习累积合如何样去在语音识别上有一个冲破性的进展,阿谁时候大众就发现,咱们需要的是GPU,而不是CPU。
其后他们就运转在里面去Demo这个事情。然后Jonathan Ross,咫尺仍是是英伟达的首席软件架构师了,因为英伟达收编了Groq,他其时里面演示的时候就放了两页PPT。第一页是,好音讯:这个GPU简直是使命了。第二页便是,坏音讯:咱们付不起这个钱。如果统统的用户他们给谷歌发三分钟的语音的话,那么其时谷歌统统这个词数据中心的成本会增加一倍,或者是数百亿好意思元,短长常大的一个量。这个其实亦然他们运转去辩论TPU的一个开首。接下来的故事便是AlphaGo打败围棋冠军李世石的时候,谷歌仍是在用TPU了,何况据说在他们的AI算法里面是放了四张TPU。
07 新星Groq:踩准每一次红利的编译器公司泓君:刚刚提到了Jonathan Ross,咱们要不要讲一下Groq?因为英伟达亦然把它收购了。然后它在推理芯片端,我牢记它最运转出来的时候,它的统统这个词性能推崇,包括它说的那些决议,在业界如故让好多东说念主动心。
Henry:对,我合计我当初也跟他们里面团队东说念主聊过。咫尺他们被英伟达收购,是踩准了每一个期间的红利,踩准了每一个很好的时候点。第一个时候点便是推理,第二个时候点是ASIC,第三个时候点便是本年是Agent元年,有好多智能体的爆发。Groq最佳的一个应用场景便是Agent,智能体。因为Agent智能体它对延伸的要求短长常高的,如果说你的延伸作念得很差的话,统统这个词帮你去作念这个任务的链条就会被拉到无尽长,关于单用户来讲短长常晦气的一件事情。是以Groq能很好地去处分或者说处分这样的一个问题。
Groq的芯片,因为Jonathan Ross最运转是TPU的编译器团队,是TPU compiler那处的一个雷同于首创东说念主。绝顶于他是带了一套相当熟悉的TPU的编译器XLA的教诲去创立了Groq。是以Groq你不错证实成它是一家编译器的公司,而不是一家芯片公司。因为它的芯片更多是为它的软件编译器办事的。它的硬件可能比TPU愈加单一,或者说没那么的智能一些。编译器在某种进程上决定了一切。它LPU里面每个时候点,每个商酌单元里面去作念哪些事情,它不错精确到每一个cycle,都是用编译器去笃定好的。一个笃定性相当高的事情。
Groq LPU 图片来源:Groq
泓君:你刚刚提到他们精确地踩到了每一个期间的红利点。第一轮是推理,第二轮是ASIC,第三轮是Agent。这三个时候点对芯片的要求有什么不一样吗?
Henry:Groq最运转就主作念推理,它不作念锤真金不怕火,它软件和硬件的架构决定了它作念不了锤真金不怕火。第二个ASIC的话,绝顶于它的成本愈加可控一些。
泓君:它是针对哪个标的的ASIC?
Henry:它是针对低延伸的ASIC,主如若作念低延伸。
泓君:是以咫尺Agent,我不错证实,比如说咫尺咱们用Agent合计延伸很低了,它如故有硬件层面的晋升的。
Henry:对。谷歌的TCO好的原因,便是有海量客户同期去用这样一个推理办事,它的浑沌量就会很高,但它不在乎尾部延伸。尾部延伸指的便是单用户用的话,它可能会有时候会快,有时候会慢极少,信托大众也都会有这样的体验。但是Groq,你一朝去用的话,它就会相当相当快。它的道理第一是它的SRAM静态无意存取存储器。第二,它是一个绝顶于你一个东说念主占用了相当多的LPU资源,而不是跟好多东说念主去分享。
泓君:它踩上的Agent红利是什么?
Henry:合适Groq去办事的场景,第一个是Agent,第二个是及时语音,还有一些高频的来往,这些场景对延伸要求会更高一些。我合计它便是主打一个市集的各异化。咫尺主流的市集都是作念这种大模子的推理和锤真金不怕火,它可能便是针对一些小规模部署的商酌集群作念这样的一个低延伸的性能优化。
泓君:你合计明天在统统这个词Agent的应用中,推理芯片它会是一个百花皆放的方式,如故说它依然是英伟达的GPU为主导的?
Henry:我合计自从客岁Deepseek出来之后,大众一下子发现如果你成本打下来之后,推理的需求短长常大的,会有好多不同档次的市集。天然Google和TPU深信会占据最高层,便是最大规模那些部署的,包括云、包括那些大模子的推理。中间和底下的一层,我合计会有更多的玩家,更多的参与者进来。
泓君:是以明天统统这个词芯片市集在推理端也会分层,然后分应用场景。
Henry:对。最大宗的需求如故这些大的巨头。你没见解说我要作念下一家英伟达,你基本上作念不到,因为它护城河的确太深了。你如若作念初创公司的话,只可作念一些尾端的客户。
好多东说念主都在商议TPU和GPU之间离别、孰优孰劣,但我合计明天深信是两者并存的。包括统统好多大厂都在自研我方家的芯片,岂论是推理如故锤真金不怕火。我合计你不成说GPU将来会一统山河或TPU会一统山河,我合计这个生态是一个相当健康的生态。有定制的环节,也有通用的环节,有通用的场景,也有定制的场景,也有垂类的场景。是以我合计将来是百花皆放的一个方式。是以一朝产能、各方面供应链都处分问题之后,我合计对用户来讲都是件善事情更是亚洲最大的在线娱乐公司之一,aj九游会官网拥有欧洲马耳他(MGA)和菲律宾政府竞猜委员会(PAGCOR)颁发的合法执照。,一下子把成本降下来之后,你能作念的事情就有无尽的可能。