kaiyun那么其他东说念主无论你有多富裕-Kaiyun· (开云)官方网站 登录入口
发布日期:2026-04-18 13:58 点击次数:137

(原标题:AI教练推理异日:开源与LPU驱动AI算力平权,推理成本杀青5倍下降)
近日,闻明播客20VC主播Harry Stebbings对Groq的创举东说念主、CEO Jonathan Ross进行了一次访谈。Jonathan筹商了当推理鸿沟远超教练后,Groq如何通过LPU架构杀青“算力民主化”的标的,Groq在近期书记的与沙特阿好意思的合营细节以及他创业中的履历。
Groq研发了全球首款AI推理芯片LPU(言语处理单元),而况其最新一代LPU于本年2月发布。在创立Groq之前,Jonathan Ross曾以"20%解脱名目"神色启动了自后成为谷歌TPU(张量处理单元)的研发使命,期间他联想并杀青了第一代TPU芯片的中枢架构。7年多前,Jonathan离开谷歌后初始了LPU的研发,以推动AI推理的鸿沟化。
Jonathan以为,AI推理的效用瓶颈并非单纯依赖算力鸿沟,而是需要均衡教练与推理的插足:一方面,LPU芯片的耗(仅为GPU的1/3)和低成本(比GPU低5倍以上)使得推理就业更易鸿沟化;但另一方面,算力基础设施的部署需直面电力供应,即全球数据中心产能弥漫与短期需求错配,和历久成本插足的双重挑战。
而就在2月24日,好意思国闻明TMT投资东说念主Gavin Baker在发布于酬酢媒体X的「异日AI竞争趋势」推文中指出,从预教练向推理为中心的谋略范式编削,本色上是AI投资答复率的再均衡。尽管这一瞥变速率远超预期,但其中枢逻辑澄莹:推理需求的爆发推动了对高效算力基础设施的需求。他强调,异日需要更多“本田级”(50-100兆瓦)推理数据中心——即地舆散布泛泛、针对低功耗和成本优化的中微型设施,而非依赖少数“法拉利级”(超1吉瓦)预教练超算。这一趋势将径直影响行业样式:传统GPU巨头可能因其在教练领域的摆布地位受到冲击,而省略提供无邪推理就业的厂商和旯旮谋略玩家将获取更谎言语权。
以下著行为访谈内容节选,由「亮堂公司」编译:
Harry:我想把节目分红两部分。第一部分谈谈面前的行业样式,第二部分久了探讨Groq,尤其是你们刚达成的多数来往——我以为许多东说念主对此存在诬告。先从Scaling Law初始吧,人人王人说Scaling Law将近失效了,但同期又看到以DeepSeek为代表的公司正杀青指数级创新。究竟Scaling Law的极限在那处?
Jonathan:Scaling Law在OpenAI发布的一篇论文中得到了极大的推动,中枢不雅点是模子参数越多,接管信息的才智越强。他们的图表炫夸,跟着参数目加多,模子性能提高趋近于对数增长,而非线性。这亦然为何有东说念主追求万亿级参数教练的原因。但有个要道问题:Scaling Law是假定悉数教练数据质料一样的情况下产生的性能大幅增长。但淌若咱们像教孩子一样教练模子:“1+1等于几?”“2×3是几许?”“双曲正切函数的二阶导数是什么?”这些简易和复杂问题的堆砌式教练并不智慧。咱们并未确凿训诫模子如何推理。确凿让模子进一步高效提高的是用合成数据进行教练,而不是质料搀杂的海量数据。
合成数据如何责罚模子效用困局
Harry:为什么合成数据比原始数据更好?
Jonathan:它使模子更智能。天然Reddit很好,但在特定领域,它包含的常识才智一定不如与一个有PhD的巨匠对话得出的收货。淌若你有更好的模子,模子能生成更优质的数据,就越可能产生与巨匠交流获取的效用。通过反复迭代教练——用模子生成的合成数据再教练模子,逐步筛选出正确部分并优化,去掉有误的部分,可冲突传统教练的低效。
Harry:但谋略效用如故会有个上限?
Jonathan:有吗?表面上可能存在数学极限。举例谋略机科学中的“大O复杂度”标明,不同算法责罚吞并问题的行为数各别弘远。比如排序1000个数时,快速排序需要约1万步(n log n),而冒泡排序需要100万步(n)。乘法运算虽看似线性,但在底层杀青中言语模子仍需巨额中间行为。
无论多复杂的运算,表面上王人不错通过教练让模子径直记着即兴大的数值组合,从而减少推理行为。跟着教练数据量的加多,模子对特定场景的顺应性增强,但仍需保留部分通用推理才智。
Harry:淌若效用莫得天花板,模子性能的瓶颈在那处?下一步咱们会往那处发展?
Jonathan:模子需要教练、推理两者均衡。教练使其更具“直观性”,意味着它的想维流不错径直得出谜底。推理部分不同,推理则依赖系统性算法,是大O复杂度的部分。是以它们是两个想考体系:快想考、慢想考,就像丹尼尔·卡尼曼的书里说的那样。两种系统的增长连结时,模子的性能才能获取几何式增长。
Harry:我再连接一下,淌若咱们有合成数据来复古模子教练......
Jonathan:模子会更具直观性,也即是能更快地得出谜底,就像国外象棋巨匠一样,一眼就能看出下一步奈何走。
Harry:合成数据的供应不是问题,瓶颈是什么?硬件质料?算力?如故算法?
Jonathan:硬件、算力、算法王人是,三者不可偏废。天然,东说念主们对瓶颈可能有所诬告。当今算力更像是“软瓶颈”——当算力充足时,数据与算法的不及才会显现。联想情况下应同步提高这三者。
Harry:除了对合成数据、算力、算法的诬告,你以为目下最无边的诬告是哪些,尤其在AI推理方面?
Jonathan:刚初始的诬告是教练的成本比推理更高,不外这个不雅点当今仍是捣毁了,每个东说念主王人剖析推理是异日很枢纽的基础设施。
Harry:东说念主们竣工连接了吗?当你看到英伟达股价在DeepSeek之后下落了15%,淌若他们确凿连接了推理的枢纽性,英伟达就不应该下落15%。
Jonathan:我以为下落更多是因为悉数东说念主王人再说英伟达股票不可能再涨了,他们正在寻找一个机会,标明“咱们错了,咱们要抛售”,但这只是商场的某种东说念主气博弈,与商场的称重机属性无关。
Harry:那么当今的创业者应该奈何构建业务?应该假定Scaling Law会延续吗?你如何忽视?
Jonathan:我会忽视以模子瓶颈会不休冲突的预期来开展做事。举例当今的模子有幻觉问题,因此,一个特意的AI医疗会诊公司或是AI法律公司会很艰难,然则你淌若一直作念这件事,算法翻新会镌汰幻觉率。
就像咱们一样。咱们在PMF出现之前仍是创业了7年,咱们的赌注是推理的鸿沟化。因为在运行大而重的模子后,推理将成为瓶颈。咱们提前作念出了正确的押注,是以当今的节拍刚好。咱们的使命是为“风口”作念好准备。这是最难的事情,因为也曾简直每个东说念主王人在告诉咱们,不要作念大言语模子。
Harry:你有莫得怀疑过我方?7年的恭候杰出漫长。
Jonathan:有过怀疑,但从莫得停驻来。原因是咱们以致在初始作念TPU之前就讲究,AI将是一种允许某些东说念主领有过度限度权和影响力的期间。淌若任由这种期间落入可能不是最符合的东说念主的手中,那么其他东说念主无论你有多富裕,也莫得真谛。这是最枢纽的期间。是以无论有多艰难,咱们王人别无采选,只可得胜。咱们的标的是在东说念主工智能时期保护东说念主类的自主性。淌若咱们作念不到这极少,不管有莫得怀疑,咱们王人会失败。
也曾有过一段时期,咱们的资金将要耗尽,那时咱们作念了一件咱们称之为“Grok债券”的事情,就像二战时期的“斗争债券”。
Harry:可能有东说念主不澄莹斗争债券。
Jonathan:斗争债券是好意思国二战的一种资金起首。好意思国政府制作了一些海报,上头写着“资助你的戎行”之类的内容。你不错购买这些债券,他们会支付你一定的答复。
那时咱们的资金将近用罢了,与其假装坚韧,咱们采选向职工坦诚,告诉他们咱们快没钱了。咱们但愿他们能用股权来换取薪水。咱们以致把斗争债券的像片拍下来,把上头的翰墨换成了“Grok债券”。
咱们讲究每个东说念主王人会离开,接洽词,约莫80%的职工参与了进来,其中50%的东说念主以致将薪水镌汰到了法律轨则的最低圭臬。自后,当咱们筹集到第一笔3亿好意思元的融资时,咱们的银行账户里的钱以致比通过“Grok债券”简约下来的钱还要少。淌若不是因为这些,咱们果真会耗尽资金。那一段照实杰出重荷,我知说念每个创举东说念主王人履历过。
AI推理的异日:动力效用与成本重构
Harry:当推理的枢纽性远远逾越教练,那会是一个若何的宇宙?
Jonathan:我以为最简易的行为是把LPU或GPU比作职工。淌若你有足够的LPU或GPU,你不错像领有职工一样完成使命。不外有极少不同,它们不会离职去别的场地,你也不需要从头培训它们。一朝你的模子达到了一定的才智,它就会恒久保握至少那样的才智,对吧?你不错从中获取一致性。但当今想象一下,你是一家初创公司,与其出去招聘100个东说念主,你只招聘10个,然后部署相等于90个职工的算力。这是一种竣工不同的想考方式,因为你的Capex或一些情况下的Opex开销仍是不错替代部分职工的使命了。
就推理而言,为了让你了解一下咱们的扩产情况,咱们从2024岁首的约莫640个芯片提高到年底的逾越4万个,本年咱们预测逾越200万个,来岁即是另一个数目级了。
Harry:产能方面有担忧吗?这个扩产速率很惊东说念主。
Jonathan:咱们会将咱们合营的Fab产能打满,但我不会露出具体数字。
来岁的GPU产能膨胀将杰出依赖三星、海力士和镁光的高带宽内存(HBM),宇宙上只须这3家公司分娩HBM。这类特种内存产量有限且成本上流,是主要制约身分。
但咱们在创立Grok时在架构上有了新的启发,绕过了HBM瓶颈下的产能困扰。无人不晓,摩尔定律每18到24个月像时钟一样准时地将晶体管数目翻倍,意味着算力翻倍;而咱们不雅察到芯片的数目也在每18到24个月翻倍,不是2倍,而是4倍。因此咱们问我方:淌若领有无尽数目的芯片,咱们能在架构上作念出什么不同的采选?谜底很显著:与其用GPU依赖外部内存,让单个GPU需反复拆解和重建谋略经过,不如使用巨额的LPU,将模子的悉数参数保留在芯片中,同期咱们让谋略指点过数百以致数千个LPU芯片并握续流动,举例用600或3000个芯片运行一个模子。
Harry:这如何改变动力诳骗效用?
Jonathan:LPU通过架构优化将能耗镌汰至GPU的三分之一。因为单元token能耗镌汰了。这好比你试图将一吨煤从城市的一边运到另一边,你是用摩托车如故用货运火车更高效?摩托车每次使用的能量更少,但它需要更多的来去次数,因而会滥用更多的总能量。这亦然大多数东说念主的一种诬告:以为旯旮谋略的能耗更低,但现实上旯旮谋略动力效用低于数据中心机划。在数据中心机划就像用货运火车运载,能同期完成许多任务。而且不需要从外部内存读取数据,也就无谓为此耗能。
再讲讲为何LPU如斯节能:芯片里物理导线有宽度,给导线充电设为 “1”,放电设为 “0”,访佛给电容器充放电,这一过程会耗能。导线越长,需电荷越多。当HBM在这,数据在另一个芯片上,芯片间传输比特时,导线要反复充放电,距离长且导线更宽。而把内存置于芯片内,传输距离短,导线更细,耗能就少许多。
Harry:异日咱们将同期使用LPU和GPU?如何分拨它们的使用场景?
Jonathan:伊始,异日教练应该在GPU上进行,但推理其实不错不使用GPU了。英伟达应卖出他们分娩的每一个GPU用于教练,但目下他们约莫40%的商场是推理。淌若咱们部署巨额低成本的推理芯片,你会发现GPU的销售数目保握不变——推理越多,你需要的教炼就越多,反之亦然。
另一种用例是,由于咱们的LPU现实上比GPU快得多,咱们以致尝试过将模子的一部分在咱们的LPU上运行,让其余部分在GPU上运行,这会加快通盘过程,并使GPU更具经济性。但现实上东说念主们仍是部署了许多GPU,咱们接洽过的一个用例是向他们出售一些咱们的LPU......
Harry:这刚巧亦然我的问题:淌若我提前很久就买了GPU,但比及我拿到它们并安设好时,它们简直仍是过期了。
Jonathan:对。咱们与一些客户交谈过,他们提前一年多就下了GPU订单,也支付了用度,但仍然莫得拿到居品。
但咱们最近在帮沙特阿拉伯的部署中,从协议订立到在他们里面系统中提供第一个token,只用了51天。
Harry:你们奈何作念到的?51天简直令东说念主惊奇。
Jonathan:部分原因是咱们的架构更简易。咱们莫得许多其他硬件组件。咱们也不使用交换机在芯片之间勾搭,只是将芯片径直接入另一个芯片,芯片即是交换机。咱们也不需要作念采集调校。
「与英伟达并非竞争干系」
Harry:为什么英伟达在LPU上莫得更积极主动?
Jonathan:你为什么以为他们不想更积极主动呢?
Harry:他们没提这件事。
Jonathan:他们为什么要提这件事?为什么要在该展示实力而不是脆弱性时挑剔他莫得的东西?
Harry:淌若想要保护鼓动价值,保护在华尔街心目中的率先形象,他们至少会说“咱们也在研究LPU”,对吧?
Jonathan:在英伟达领有LPU前,挑剔它实则会露出本人短板。上一次GTC,他们声称最新GPU比上一代快30 倍。从杀青方式看,有两条弧线,30倍的提高是从一条弧线结尾到另一条弧线结尾。但淌若把对比的肇始数值点变一下,提高的倍数值就会改变。说芯片比上一代快无尽倍,显著差别理。
这反馈出企业销售的一些问题。面前人人获取芯片有一定艰难,厂商销售时时依赖“规格目标”:以芯片速率、每秒TFlops等他们更擅长的规格为卖点进行销售,但最要道的方针应该是每token的成本、每token的能耗是几许,其他方针没那么枢纽。就像卖车时厂商可爱强调高转速,而确凿枢纽的是每加仑里程和现实车速。
Harry:是以你们并不把英伟达视为竞争敌手?
Jonathan:咱们之间并莫得确凿的竞争。英伟达不提供快速的token,也不提供低成本的token。但他们杰出好地完成了教练。他们在这方面跟任何东说念主王人拉开了差距。
淌若你去竞争,那意味着你莫得找到一个未责罚的客户问题。淌若别东说念主仍是责罚了这个问题。那你为什么还要花时分去责罚呢?
......
Harry:LPU比GPU低廉几许?
Jonathan:低廉5倍多。仅最新GPU中的内存成本就比咱们部署的每个芯片的竣工负载成本更高。此外,动力效用上,LPU每个token使用的动力约莫是GPU的三分之一。淌若以三年为周期看,咱们的成本中三分之一是Opex,主要包括动力和数据中心房钱,另外三分之二是Capex。总体上看,要产生一样数目的推理token,GPU需要的Opex就与咱们的Capex+Opex相等。
Harry:为什么英伟达的收入中有40%来自推理?为什么你们莫得占据更多的商场份额呢?
Jonathan:在2024年龄首,咱们只须640个芯片。到2024年底,咱们有4万个。你得保证质料,还得成本低、速率快,而且要有足够的产能。这即是咱们不使用HBM的最枢纽原因:解脱鸿沟瓶颈。GPU使用的是与你的手机一样的制造工艺分娩的,你手机中的硅片与GPU中的硅片是一样的。独一区别在于内存,但内存是制造中最艰难的部分,是以它在鸿沟上是有限的。由于咱们幸免使用它们,是以咱们的扩产不错莫得松手。这对于推理来说很枢纽。
Harry:英伟达的毛利润率有几许?
Jonathan:70%到80%。
Harry:是以他们不错拿走70%到80%的利润,而况与你比较,他们不错极地面镌汰成本,就像你们也不错蹂躏他们的利润率一样。
Jonathan:但你也不错说咱们是对英伟达最大的利好之一,因为他们能以高利润率出售GPU用于教练,成本摊派到部署中。咱们将接办相对“薄利多销”的推理业务。他们的利润率不一定会因此受影响。
Harry:你说的低利润率是几许?
Jonathan:凭证来往会有不同,咱们在来往的前期约莫是20%,来往后期会得到更多。是以咱们后期会承担一些风险。
Harry:在后期得到更多的道理是?
Jonathan:咱们的来往中,咱们不为我方的Capex出资,而由合营伙伴来承担部署的资金,但咱们用合理的IRR来偿还这部分资金,收益的大部分如故归合营伙伴。也即是说,一朝咱们达到了一定的IRR,其他东说念主能为咱们摊派成本。
是以,咱们不仅在芯片上有创新,还在买卖模式上进行了创新。咱们的收入上限取决于咱们能部署几许,而不是咱们有几许钱。当我接洽咱们能作念什么时,这竣工取决于咱们能把鸿沟扩到多大。
数据中心投建罗网与电力供需错配
Harry:你们部署的松手是什么?只是取决于有几许芯片吗?
Jonathan:基本上是了。这里你问到对AI的诬告,我以为其中一个即是对于电力的。照实存在芯片和电力之间的不匹配,但这部分是因为它们中间需要数据中心。数据中心并不难建,而建造电力设施其实更难。
正由于这中间需要匹配机制,你会看到超大鸿沟云就业商四处驰驱,说:“我需要1吉瓦(GW)的电力”,然后他们会向60个潜在的数据中心斥地者盘问。你就会听到许多复书:这里要1GW,那里要1GW,还有那里也要1GW。已而之间,似乎有60GW的需求,而这只是从最初的1GW那儿传出来的。
当今,全球约莫有15GW的数据中心产能,比面前的需求量多了一倍多。我确凿讲究的是,东说念主们当今正在建造更多的电力设施。异日3到4年,东说念主们会说:“我建造了这样多电力,但莫得东说念主使用它。这竣工是奢侈,咱们再也不会这样作念了。”
然后,之前说过每18到24个月芯片数目会翻倍,3到4年后,你将把15GW翻倍2次,有那么多电力可用吗?将会发生的是,由于目下的不匹配和一样不畅,咱们当今会稍稍过度斥地,尔后又会减少斥地,终末再回到现实需求。这即是我最大的担忧,3到4年后,电力将成为一个硬瓶颈。
Harry:那为什么咱们进入一个推理比教练大20倍的宇宙,还会出现数据中心供不应求?
Jonathan:很常见的一个问题是许多在建的数据中心王人是假的。每个东说念主王人以为建数据中心即是房地产。但数据中心不是房地产。
当今行业里的一个常见见笑是,有东说念主对你说:“我将为你提供100兆瓦(MW)的容量,我将在3个月内完成。你兴隆签约吗?”然后你问:“你的粗浅运行时分是几许?”他们会说:“我不知说念,取决于电网。”
“等等,你的发电机在那处?”
“我还莫得订购它们。”
“你知说念发电机的委用期是90天吗?”
“啊,果真吗?”
然后下一个问题是:“你的水从那处来?”
“等等,数据中心需要水。我以为它只是一堆芯片。”
诸如斯类,有许多东说念主不知说念我方在作念的现实上是什么。
Harry:(笑)既然建造数据中心需要时分,那咱们有宗旨提前建造它们吗?
Jonathan:是的,淌若你教练一个模子,你会预期在约莫6个月内摊派成本。淌若你要部署芯片,一般预期在3到5年内摊派成本。有些更倾向于3年,有些更倾向于5年。淌若你要建造一个数据中心,你可能在挑剔10到15年的事,因为接洽一座电力设施的时分维度是10到15年。这里存在一种不匹配,即融资需乞降现实需求之间的不匹配。
教练模子、芯片部署还少见据中心这三类订单没法在容或周期上达到调节。因为一项设施越通用,其答复时分也越长,但各方王人但愿承担最小的风险。当今数据中心的斥地需要7年的合营容或,在通盘生态系统中就竣工不匹配了。
这亦然咱们与沙特阿好意思合营在沙特配置一个新实体的原因,他们有才智历久资助这些名目。他们有历久视角,有高信用评级。
Harry:当你说到沙特阿好意思的资金才智,这亦然诬告所在。东说念主们以为这是一轮15亿好意思元的融资。这并不是一个融资轮次对吧?
Jonathan:对,咱们不是筹资15亿好意思元。15亿好意思元其实是咱们通过来往获取的收入。
Harry:来往结构是若何的?
Jonathan:合营从客岁初始,咱们部署了19000个芯片,用时约莫51天。那么咱们本年能作念什么?是以他们初始在沙特建一些数据中心和电力设施。来往的结构就像我之前说的,他们为咱们承担在数据中心部署芯片的开销,咱们凭证部署后赚到的钱来偿还这部分开销。这个来往有点像债务,但沙特阿好意思参与了上行收益;而咱们在名目前期就不错获取利润。
开源架构将推动AI推理鸿沟化
Harry:这如何影响你们所能作念的事情?
Jonathan:咱们不再受制于成本。有一个对于Groq的一个诬告:有篇论文说咱们弗成在收取最廉价钱的情况下盈利。伊始,咱们不错收取更高的用度。第二,咱们居品的利润孝敬度(contribution margin)当今很可不雅。据我所知,咱们是独逐一家确凿靠运行这些开源模子获利的公司。因为基于开源模子,每个东说念主在风险投资资金的复古下王人有才智参与商场份额的竞争,就像Uber那样。咱们我方获利,同期也不错通过可不雅的IRR让咱们的合营方获利。
另外,咱们也在与一些闭源模子提供商合营。举例咱们与Play AI合营了闭源语音模子,咱们不错从中获取收入分红;但问题是,由于模子快速商品化,许多其他的闭源合营商失去了收入。
Harry:你们的价钱会跟着摆布才智的镌汰/加多而变得更低廉/更贵吗?
Jonathan:咱们但愿保握利润率大致不变,同期价钱下降,就像杰文斯悖论的力量一样,咱们如故但愿通过扩大咱们的鸿沟杀青相对薄利多销,在东说念主工智能时期保护东说念主的自主性。
咱们的标的是到2027年底,至少提供全球一半的AI推理算力。为了杀青这一标的,咱们需要让东说念主们莫得任何原理不将他们的模子运行在咱们的平台上,也不会让东说念主们因为特地收费而不使用咱们平台上的模子。我不休告诉团队,当咱们以指数级速率增万古,你赚取几许利润仍是不枢纽了,枢纽的是在商场中占据一隅之地并有价值。
作家:罗宾
出品:亮堂公司kaiyun