【文/观察者网专栏作者 潘攻愚】
“即使我们竞争对手的产品免费给到客户,我们还是比他们要便宜。”
在2024年3月份SIEPR 经济峰会的主题演讲中,英伟达CEO黄仁勋这样回答斯坦福大学查尔斯·R·施瓦布经济学名誉教授约翰·肖文 (John Shoven)的提问。
这一席话当时在半导体圈引起了轩然大波。竞争对手的产品免费送,居然还比英伟达的GPU贵?那岂不是对手们要大肆赔钱才能和英伟达竞争?
黄仁勋在公众场合一贯谦逊节制,但也偶露峥嵘,那一次,他可能实在是忍受不了发问人对英伟达竞争态势的质疑,语调有些“浪”了。他口中所谓的竞争对手,乍一看上去说的是AMD或者英特尔,但仔细品味,是说给另一个领域的竞争对手听的,即ASIC(专用芯片)的战场。
须知,英伟达在高性能GPU(HPC和AI加速器领域)就在全球吃掉了接近450亿美元的盘子,而ASIC市场2023年满打满算也只有200亿美元,前者的高垄断性看起来暂时不用担心以博通、Marvell为代表定制化芯片对其市场份额的侵蚀。
但你要说黄仁勋不着急那肯定是假的。AI大潮的推动下,比如TPU在Google Cloud上的应用,或者亚马逊AWS的Trainium/Inferentia让不少公司在考虑ASIC方案。2023年就有风传英伟达也想进入ASIC这个领域,为美国诸多CSP(云服务商)提供定制化服务。
OpenAI也在“背刺”英伟达?
据路透社近日报道,OpenAI正在通过开发其首款自家人工智能芯片,以减少其对英伟达芯片的需求。路透社还声称OpenAI将在近几个月内确定其芯片的最终设计,并将方案交由台积电进行流片测试。
多年以来,OpenAI一直是英伟达的大主顾之一。他们考虑非通用性GPU方案,无异于是对英伟达的一种背刺。
OpenAI的训练和推理任务高度依赖英伟达的高性能GPU(如 A100、H100)。OpenAI在2020年的论文中曾提到,GPT-3的训练使用了约1万块V100 GPU。不过,OpenAI并未公开披露其从英伟达采购的GPU具体数量,这类信息通常被视为商业机密或涉及合作伙伴协议,因此外界难以获得准确数据。
除了采购GPU,他们之间的合作模式还有两点需要指出:OpenAI 深度依赖英伟达的CUDA并行计算平台和cuDNN加速库,以最大化GPU在深度学习任务中的性能;英伟达OpenAI还有间接合作,通过合作伙伴(如微软Azure、亚马逊AWS)为OpenAI提供云GPU资源,支持其弹性计算需求。
英伟达首个DGX H200给到OpenAI
OpenAI在思考用更专用硬件ASIC的可能,步微软Maia AI芯片和谷歌TPU的后尘,主要也是苦英伟达久矣。
英伟达通用高端GPU不仅价格昂贵,而且功耗极高,且有很强的定价权,损伤了OpenAI的“自尊心”和财务毛利率,而且某种程度上削弱了其振臂一呼搞“星际之门”的话语权和领导权。
OpenAI敢迈出这一步,也是看到了商用实地落地的可能性——踩着谷歌TPU的辕辐前进。
TPU是谷歌专门为机器学习(尤其是神经网络训练和推理)而设计的ASIC,从硬件到软件全栈优化,避免了GPU的通用计算冗余。
谷歌单芯片TPU v4的FP16性能约275 TFLOPS,而英伟达H100的FP16算力为400 TFLOPS,看起来差距巨大,但TPU v4可以用“打群架”的方式避免单打独斗的劣势,而且,TPU的专用推理硬件在低延迟场景中表现更优。
虽然英伟达高端GPU也需要HBM,但TPU采用的HBM高带宽内存与计算单元紧密耦合,减少数据搬运开销,英伟达GPU需通过显存管理优化才能避免瓶颈。
另外还有很重要的一点,就呼应到了本文开头的话题:成本。
在谷歌云平台,TPU的按需计费成本可能低于同等算力的GPU实例,尤其对长期训练任务或批量推理更具性价比。TPU作为托管服务,用户无需关注底层硬件运维,而自建GPU集群需投入更多运维资源。
这一切,加速了OpenAI与英伟达软脱钩的念想,双方有了某种程度上的离心力。
尽管如此,采用ASIC方案的局限性依然十分明显,TPU绑定了特定框架(TensorFlow/JAX),而GPU支持更广泛的开源工具和私有化部署,而且,ASIC一旦流片无法修改,而GPU可通过架构升级和软件优化适应新需求。
英伟达GPU的“专用特性”
黄仁勋在业界以危机感嗅觉著称,他的名言“要时刻为企业一个月内破产做好准备”享誉全球,他不断督促自己洞察一切可能的挑战和危机。
ASIC的冲击,他也洞若观火。
在最近这两代(Grace Hopper和Blackwell)的AI加速器中,他其实已经用了“通用+专用”的混合架构。他明白,AI训练/推理、科学计算等场景对算力需求爆炸式增长,通用架构难以满足能效和性能要求。专用硬件可显著降低大模型训练成本(如Blackwell的FP4/FP6支持稀疏计算)。
国内某知名GPU图形渲染供应商市场主管告诉心智观察所,通用芯片性能提升趋缓,通过领域专用架构(DSA)实现差异化会成为必然选择。
Grace Hopper和Blackwell正在不断增加专用硬件单元,比如针对深度学习矩阵运算优化(FP16/FP8精度、稀疏计算)的Tensor Core专用于光线追踪的硬件加速的RT Core,针对大规模AI集群做了通信优化(如Grace Hopper的芯片间互连),Blackwell架构还直接面向大语言模型(LLM)做了硬件加速Transformer引擎。
这一切的一切都说明英伟达看到了谷歌TPU、亚马逊Trainium等专用AI芯片的威胁,迫使英伟达通过专用化巩固技术壁垒。
仍然需要指出的是,英伟达的高端GPU确实在向领域专用架构(DSA)演进,但其本质仍是以通用性为基础、通过专用模块提升关键场景效率的混合模式,与ASIC的完全固化设计有本质区别。
还没有评论,来说两句吧...