谈及AI芯片,公众首先映入脑海的往往是GPU的身影。
GPU在训练和运行大AI模型方面一直占据主导地位,其强大的并行处理能力让它在处理复杂计算任务时游刃有余。
然而由于一些原因,炙手可热的GPU正在面临一些挑战与局限性,使其 “AI宠儿” 的地位逐渐受到动摇。
01 风口上的GPU
关于GPU市场格局变动的原因,可归结为以下三大要素:
第一点,GPU已成为AI芯片领域竞争的核心焦点。目前,英伟达所产出的GPU主要被各大科技巨头所垄断。
近日,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计。
其中微软目前拥有75万至90万块H100 GPU,预计到2025年这一数字将飙升至250万至310万块。谷歌的表现同样强势,现阶段掌握了100万至150万块H100,明年预计增加到350万至420万块。Meta拥有55万至65万块GPU,预计未来一年将增长至190万至250万块。此外,亚马逊当前拥有25万至40万块GPU,预计将在2025年达到130万至160万块。而新兴公司xAI也在迅速崛起,预计从10万块H100增长至55万至100万块。
这些数据充分反映出大型企业对AI算力的争夺已趋于白热化,尤其是微软和谷歌。
此外,Melius Research的分析师Ben Reitzes的报告显示,这些巨头正在特别购买英伟达的GB200芯片,其中微软下单量在70万至140万块之间,谷歌为40万块,亚马逊则购买了36万块,OpenAI也不甘示弱,至少拥有40万块GB200芯片。
科技巨头包揽英伟达GPU的同时,直接导致了中小型企业在获取GPU资源上面临严峻挑战。
第二点,GPU价格的飙升使得这些科技巨头在采购芯片时需要支付更高的成本。
据投行Raymond James的分析师估计,H100售价为2.5万至3万美元。就算是价格、订购数量都按照区间的低端进行计算,微软也需要花费超过180亿美元用于购买GPU。
微软、亚马逊、谷歌等科技巨头正在全球范围内加速布局AI算力,以维持其市场竞争力。据报道,这些公司在AI相关项目和数据中心上的投资已超过400亿美元,并预计未来十年的支出将达到1万亿美元。
在众多花钱的项目中,购买GPU便是各家的当务之急。
日前,埃隆·马斯克的人工智能初创公司xAI已经向英伟达成功下单,订购了价值10.8亿美元的GB200 AI芯片,并凭借这笔巨额交易获得了优先交付的权利。
高昂的售价让科技巨头们压力倍增,叫苦不迭。
第三点,从另一角度来看,即便科技巨头暂且将成本因素置于次要地位,英伟达本身的供应不足状况仍使这些科技巨头忧心不已。
目前,英伟达的GPU垄断了约80%的AI半导体,制造在台积电进行。在后续的流程中,会利用CoWoS进行封装,但是CoWoS的产量目前是一个瓶颈。
另外,在CoWoS中,GPU周围放置了多个HBM(高带宽内存),这些HBM是堆叠的DRAM,也被认为是瓶颈之一。
在产能不足、巨头哄抢、售价高昂的背景下,大大小小众多企业开始积极探寻英伟达 GPU 的替代品,试图破解AI芯片市场的一家独大的现状。
AMD首席执行官苏姿丰(Lisa Su)也在前不久表示,随着行业将精力集中于更加标准化的模型设计,将有机会构建更多在可编程性和灵活性方面要求不那么高的定制芯片。这种芯片将更加节能、体积更小、成本更低。
“目前,GPU是大语言模型的首选架构,因为GPU在并行处理方面非常高效,但在可编程性方面有所欠缺,”苏姿丰说。“五年多后它还会是首选架构吗?我认为情况会发生变化。”
苏姿丰预计,五年或七年时间内GPU还不会失势,但会出现GPU以外的新势力。
那么,除了GPU,还有哪些类型的芯片能够胜任AI计算的任务呢?
02 AI芯片的另外两种主流选择
在近两年的技术浪潮中,另外两种芯片——FPGA与ASIC,也逐渐走进了大众的视野。
FPGA(Field Programmable Gate Array,现场可编程门阵列),是一种半定制芯片。用户可以根据自身的需求进行重复编程。FPGA 的优点是既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点,对芯片硬件层可以灵活编译,功耗小于 CPU、GPU;缺点是硬件编程语言较难,开发门槛较高,芯片成本、价格较高。FPGA 比 GPU、CPU 更快是因为其具有定制化的结构。
ASIC(Application Specific Integrated Circuit特定用途集成电路)根据产品的需求进行特定设计和制造的集成电路,其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于GPU、FPGA,但初始投入大,专业性强缩减了其通用性,算法一旦改变,计算能力会大幅下降,需要重新定制。
从成本角度看,GPU、FPGA、ASIC 三种硬件从左到右,从软件到硬件,通用性逐渐降低、越专用,可定制化逐渐提高,相应的设计、开发成本逐渐提高,但是单位成本理论性能越高。
从运算速度来看,由于GPU架构固定,硬件原生支持的指令也固定。而FPGA和ASIC则是可编程的,因此,GPU的运算速度要逊色于FPGA和ASIC。
从功耗和时延角度来看,GPU的功耗远远大于FPGA和ASIC。GPU时延也高于FPGA、ASIC。
FPGA与ASIC的适用场景也不尽相同,就边缘AI而言,FPGA确实展现出了更高的适用性;ASIC的主要优势在于其针对特定任务的高度优化,这通常会导致更高的性能和更低的功耗(在大量生产时),也正因此,在AI计算应用中,业内对于ASIC的呼声似乎要略高于FPGA。
03 多家机构,看好ASIC
12月,博通的定制ASIC和英伟达GPU引起广泛讨论。
摩根士丹利12月15日发布研报《AI ASIC 2.0:潜在赢家》,认为ASIC凭借针对性优化和成本优势,有望逐步从英伟达GPU手中争取更多市场份额。
随着生成式AI应用的迅猛发展,全球AI计算需求呈现爆炸式增长。报告预计,到2027年,云端AI半导体市场规模将达到2380亿美元,而在乐观情境下甚至可能达到4050亿美元。
摩根士丹利预计,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,年复合增长率达到34%。
尽管英伟达的AI GPU性能卓越,但摩根士丹利认为,云服务提供商如谷歌、亚马逊和微软,仍在积极推动ASIC设计。这背后的 驱动力 主要有两个。
首先,是优化内部工作负载。 通过开发自定义芯片,CSP可以更高效地满足其内部AI推理和训练需求。
其次,是更好的性价比。 报告指出,虽然英伟达的GPU具备强大的计算性能,但其硬件价格高昂,特别是在AI训练过程中。相比之下,ASIC的单位成本更低,尤其是在大规模使用后。
巴克莱的另一份报告则预计,AI推理计算需求将快速提升,预计其将占通用人工智能总计算需求的70%以上,推理计算的需求甚至可以超过训练计算需求,达到后者的4.5倍。英伟达GPU目前在推理市场中市占率约80%,但随着大型科技公司定制化ASIC芯片不断涌现,这一比例有望在2028年下降至50%左右。
04 国际龙头,各自布局 博通,是AI市场的“新任宠儿”
截至12月13日收盘,美股又一家万亿美元市值芯片公司诞生。当天博通股价大涨超过24%,市值首次突破1万亿美元大关,也成为继英伟达和台积电之后,全球第三家市值过万亿美元的半导体行业公司。
博通股价大涨是在公司公布了好于预期财报之后。博通全年业绩显示,2024财年,全年营收达516亿美元,同比增长44%,其中AI和VMware两大业务板块成为核心增长引擎。
ASIC定制服务是博通半导体业务的一项重要收入来源,特别是在AI的驱动之下,博通来自与AI相关的ASIC定制服务营收正快速增长。
博通CEO陈福阳在近日的财报电话会上预测称,目前的三大科技客户将在2027财年花费600亿至900亿美元购买博通供应的人工智能组件。
业界分析,博通ASIC芯片的大客户包括谷歌、Meta;近期市场消息显示,苹果也有计划开发AI服务器芯片,合作方很有可能也是博通。
不仅如此,从美国目前对中国的禁售条款来看,ASIC芯片似乎始终被排除在外,博通也因此持续受益。
随着博通为云计算厂商定制更多AI芯片,这些厂商可能减少对英伟达芯片的依赖,有市场投资者担心英伟达未来的芯片需求可能有所缓解。
Marvell受到追捧
与博通业务模型类似的Marvell也在近日受到资本市场追捧。
12月初,Marvell已经发布了2025财年第三财季财报,期内公司实现营业收入15.16亿美元,同比增长7%、环比增长19%。其中数据中心相关收入同比增长98%、环比增长25%,这是公司旗下所有业务中唯一实现同比收入增长的业务类型。
Marvell总裁兼CEO Matt Murphy指出,这主要来自于AI定制化芯片需求支撑,此外还有云服务客户对于互联产品的持续性需求。预计这种趋势将延续到2026财年(约指2025公历年份)。
仅在12月,Marvell先是官宣与亚马逊云(AWS)扩大战略合作,宣布一项为期五年、跨代际产品的合作计划,涵盖Marvell旗下定制AI芯片、DSP、数据中心互联光模块、以太网交换机解决方案等多种类型,以支持AWS推进在数据中心计算、网络和存储等方面强化产品能力。不久还宣布推出业界首款3nm高速(1.6Tbps)互联平台。
博通和Marvell有类似的产业定位,并不聚焦于GPU这类通用的大规模并行计算芯片设计研发,而是更专注于帮助有芯片定制化需求的主流云服务厂商进行产品设计。这也是ASIC芯片相关业绩高速成长的原因。
谷歌,自研TPU
Google 早在 2013 年就秘密研发专注 AI机器学习算法芯片,并用于云计算数据中心,取代英伟达 GPU。
这款TPU自研芯片2016年公开,为深度学习模型执行大规模矩阵运算,如自然语言处理、计算机视觉和推荐系统模型。Google 其实在 2020 年的资料中心便建构 AI 芯片 TPU v4,直到 2023 年 4 月才首次公开细节。
值得注意的是TPU是一种定制化的 ASIC 芯片,它由谷歌从头设计,并专门用于机器学习工作负载。
2023年12月6日,谷歌官宣了全新的多模态大模型Gemini,并丢出了另一个重磅炸弹——全新的自研芯片TPU v5p,它也是迄今为止功能最强大的TPU。
随后在今年5月,谷歌又宣布了第六代数据中心 AI 芯片 Tensor 处理器单元--Trillium。
据悉,除了英伟达所占据的80%市场,其余20%的绝大部分由各种版本的谷歌TPU所控制。谷歌自身不出售芯片,而是通过其云计算平台租用访问权限。
微软:推出基于Arm架构的通用型芯片Cobalt、ASIC芯片Maia 100
2023年11月,微软在Ignite技术大会上发布了首款自家研发的AI芯片Azure Maia 100,以及应用于云端软件服务的芯片Azure Cobalt。两款芯片将由台积电代工,采用5nm制程技术。
Cobalt是基于Arm架构的通用型芯片,具有128个核心,Maia 100是一款专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片,用于云端训练和推理的,晶体管数量达到1050亿个。这两款芯片将导入微软Azure数据中心,支持OpenAI、Copilot等服务。
负责Azure芯片部门的副总裁Rani Borkar表示,微软已开始用Bing和Office AI产品测试Maia 100芯片,微软主要AI合作伙伴、ChatGPT开发商OpenAI,也在进行测试中。
不过,微软并不认为自己的 AI 芯片可以广泛替代英伟达的产品。有分析认为,微软的这一努力如果成功的话,也有可能帮助它在未来与英伟达的谈判中更具优势。
除了前述几家公司,Meta等科技行业领导者正积极加快自主研发芯片的步伐。这些努力不仅限于ASIC领域,还包括FPGA和RISC-V等多个方向,旨在降低对英伟达技术的依赖。
在科技行业中,不单单是这些头部企业有所动作。摩根士丹利在相关报告里对全球 ASIC 供应链展开了梳理,并且确定了六大潜在的优势方:
ASIC供应商方面,除了博通,Alchip(世芯电子)和Socionext也被视为ASIC市场的潜力股。其中,Alchip由于与AWS的深度合作,预计将在2026年显著提升市场份额。
电子设计自动化工具方面,Cadence有望实现结构性增长。
代工厂方面,台积电及其供应链伙伴将从ASIC设计与制造的快速增长中受益。
测试服务方面,Advantest是AI芯片测试领域的领先者,其在AI设备测试方面的专注将为其带来显著增长。
HBM方面,三星电子是非英伟达HBM市场份额领先者,将从ASIC需求增长中获益。
05 苹果,屡试“新果”
今年7月,苹果公司发布iPhone AI的首个预览版,随后发布论文,称其人工智能模型是在谷歌的TPU(张量处理单元)上训练的。论文中介绍了为支持Apple Intelligence功能而开发的基础语言模型,包括一个设计用于在设备上高效运行的约30亿参数模型和一个基于私有云计算的云侧大模型。
近日,苹果公司在亚马逊的AWS Reinvent大会上又高调宣布将使用亚马逊自家定制的AI芯片进行模型训练。根据苹果机器学习与人工智能高级总监Benoit Dupin的说法,苹果正在评估亚马逊最新的Trainium2芯片,尤其是其在预训练“苹果智能”(Apple Intelligence)模型方面的潜力。
这一迹象表明,在训练尖端人工智能方面,大型科技公司正在探索除英伟达GPU以外的其他替代方案。
长久以来,人工智能训练主要依赖于价格高昂的英伟达图形处理器。 然而,云服务提供商与初创企业正积极研发成本更低的替代方案,并探索可能实现更高效处理的新途径。苹果采用定制芯片的做法,或许在向其他企业传递一个信号: 非英伟达的训练方案同样也能奏效。
本文来自微信公众号 ,作者:丰宁,36氪经授权发布。
还没有评论,来说两句吧...