在今年的云计算产业盛会AWS re:Invent上,亚马逊云科技(AWS)少见地公布了大量关于硬件基础设施及芯片的细节信息,包括自研服务器CPU Graviton系列、自研AI芯片Trainium系列、AI超级服务器、最大AI服务器集群等。
这场开诚布公的分享,既让我们窥得这家全球最大云计算巨头深厚的硬件基建功底,也让我们饱览了从CPU研发策略、先进封装、背面供电、AI芯片脉动阵列到芯片互连、AI网络的各种底层技术创新。尤其是对于云计算基础设施、数据中心芯片设计从业者而言,其中有很多值得细品的经验和思路。
大会期间,亚马逊云科技计算与网络副总裁Dave Brown还与智东西等少数媒体进一步就基础设施与芯片研发的策略和细节进行交流。他告诉智东西,Trainium3基本上所有设计都会围绕生成式AI,AWS已披露Trainium3是其首款采用3nm工艺的芯片,算力上一代的2倍、功耗降低40%,但目前透露技术细节可能为时尚早。他还剧透说亚马逊云科技预计明年会逐步发布更多细节。
一、CPU设计理念:不为基准测试而造芯
亚马逊云科技的自研服务器CPU和AI芯片均已在其数据中心落地,被许多知名IT企业采用。连苹果都是其座上宾,在构建Apple Intelligence等AI服务的背后用到了Graviton3、Inferentia2、Trainium2等亚马逊云科技自研芯片。
据Dave Brown分享,亚马逊云科技数据中心里用到的服务器CPU中,过去两年有超过50%的新增CPU容量是其自研服务器CPU芯片Gravtion。全球最大购物节之一亚马逊Prime Day有超过25万个Graviton CPU支持操作。
在2018年,亚马逊云科技看到Arm核心发展变快,萌生了结合这种技术曲线与亚马逊云科技客户需求开发一个定制通用处理器的念头。Graviton由此诞生,其推出和落地也带来了Arm芯片真正进入数据中心的时刻。
今天,Graviton被几乎每个亚马逊云科技客户广泛使用。90%的前1000个Amazon EC2客户都开始使用Graviton。
Graviton4是当前最强大的亚马逊云科技自研服务器CPU,每个核心提供30%更多的计算能力,vCPU数量和内存是上一代的3倍,尤其适用于大型数据库、复杂分析等要求最高的企业工作负载。
Dave Brown强调说,在设计芯片时,亚马逊云科技不是奔着赢得基准测试,而是专注于实际工作负载性能。
在他看来,业界热衷于优化基准测试,就像是“通过100米短跑来训练马拉松”。实际工作负载的行为与整洁的基准测试截然不符,它们是混乱的、不可预测的,真实工作负载遇到的问题可能与微基准测试完全不同。
比如,理论上,Graviton3的性能比Graviton2提高了30%,但测试Nginx时性能提升多达60%,因为亚马逊云科技极大减少了分支错误预测。Graviton4也类似,微基准测试分数比上一代提高了25%,运行真实MySQL工作负载的表现则足足提高了40%。
现代CPU就像一个复杂的汇编管道,前端获取和解码指令,后端执行指令。
在评估性能时,亚马逊云科技会查看不同工作负载对CPU微架构的压力,比如工作负载是否对前端停摆敏感,前端停摆受分支数量、分支目标或指令等因素的影响,或者后端停顿受L1、L2和L3缓存中的数据以及指令窗口大小的影响。
对于每一代的Graviton,客户都可以简单地切换到最新的实例类型,并立即看到更好的性能。
在安全性上,亚马逊云科技还加密了Graviton4与Nitro之间的PCIe链路,做到更极致的全流程安全防护。
二、高性能芯片设计的关键黑科技:先进封装与背面供电
几年前,封装还很简单,基本上是一种封装单个芯片并将其连接到主板的方法。但现在这个方案变得先进很多。你可以把先进封装想象成用一种叫做中介层(interposer)的特殊设备把几个芯片连接在一个封装里。
中介层本身实际上是一个Chiplet,它作为一个微型主板,提供了连接芯片的能力,其带宽是普通PCB主板的10倍。
Graviton3和Graviton4都采用了先进封装技术。Graviton4有7个Chiplet,中间大芯片是计算核心,外围更小的芯片做一些事情,比如允许芯片访问内存和系统总线的其他部分。通过分离计算核心,亚马逊云科技有效地将Graviton4的核心数量增加50%。
这种方法对Graviton非常有帮助,但引入AI芯片设计中会遇到一些挑战。
2018年,看到加速器实例和深度学习趋势后,亚马逊云科技决定构建AI芯片。其首款自研AI芯片是2019年的Inferentia,能够切实降低小型推理工作负载的成本,比如亚马逊Alexa通过迁移到Inferentia节省了大量资金。
2022年,亚马逊云科技推出了其首款自研AI训练芯片Trainium1,并实现可将在Trainium1上运行的工作负载节省约50%。
亚马逊云科技高级副总裁Peter DeSantis在re:Invent大会现场展示了Trainium2的封装,里面有两颗计算芯片并排放在中间。其计算die的晶体管数量是Trainium1计算die的2.2倍。
想在一个系统上获得最多的计算和内存,要用先进的封装或制造技术来制造大芯片。Trainium2上就是这样做的。但这遇到了第一个工程极限——芯片制造有尺寸限制,在800平方毫米左右。
每个计算芯片旁边的两颗芯片是HBM内存堆栈,每个计算芯片Chiplet通过CoWoS-S/R封装与两个HBM堆栈通信。通过堆叠芯片,可将更多内存装入相同区域,从而减少消耗、释放的能量。
那为什么不能把封装做得更大呢?这就是第二个限制所在。
今天的封装实际上被限制在最大芯片尺寸的3倍左右。假如将计算芯片和HBM取出,可以看到中间层,下面有用来连接芯片和中介器的微凸点。
这是亚马逊云科技旗下Annapurna芯片团队制作的一张图片。他们沿着紫色的线仔细切出了芯片的横截面,然后用显微镜从侧面放大图像。左上角是计算芯片,旁边有HBM模块,HBM模块层都位于一个薄的连续晶圆上。芯片和中间层顶部之间的电连接非常小,每个大约是100μm,比细盐粒还小。
而要让芯片保持稳定连接,就必须得限制封装大小。
同时,Trainium2还引入了背面供电,把电源线挪到晶圆背面,以减少布线拥塞。
半导体利用微小电荷的存在或不存在来存储和处理信息,当芯片遇到电压下降时,它们通常得等待到供电系统调整。芯片在完成计算任务需要提供大量的能量,为了在低电压下传输所有的能量,需要使用大电线,减少电路传输长度,从而来避免所谓的电压下降。
三、打造最强AI硬件猛兽,背后的技术秘方
训练更大的模型,需要构建更好的AI基础设施、更强大的服务器集群。这要求有更好的AI芯片和AI网络。
在re:Invent大会上,亚马逊云科技着重公布了几个重磅AI硬件产品。
一是亚马逊和Anthropic正在合作构建的Project Rainier,一个拥有数十万颗Trainium2芯片的超级服务器集群。这个集群将具备Anthropic目前用于训练其领先的Claude模型的集群5倍的计算能力。
二是能训练和部署世界上最大模型的Trainum2超级服务器。它连接了4个计算节点,集成了64个Trainium2芯片,将峰值算力扩展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,将单个实例的计算、内存和网络性能提高4倍。
三是亚马逊云科技迄今做机器学习训练最高能效的服务器——Trainium2服务器。一个Trainium2服务器容纳有16个Trainium2芯片,可在单个计算节点提供20.8PFLOPS的计算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2实例也正式可用,可提供比当前GPU驱动的实例高出30%~40%的性价比。
这些Trainium2芯片通过超快的NeuronLink互连技术连接在一起。
在芯片设计上,Dave Brown讲解了CPU、GPU、NPU三类芯片微架构的不同。
CPU针对大量复杂逻辑的快速执行,每个缓存对应控制引擎和执行引擎。
GPU主要用于数据并行,控制单元较少,执行单元多。其运算过程会涉及一些数据在缓存和HBM内存之间的倒换。
为了减少无效的内存占用,亚马逊云科技Trainium芯片采用的是脉动阵列(Systolic Arrays)架构,与谷歌TPU如出一辙,直接传递计算结果,能够降低内存带宽需求。
在生态建设上,亚马逊云科技提供了一个其自研AI芯片的专用编译语言新Neuron Kernel接口(NKI),用于方便开发者直接对其AI芯片进行深度调试,从而更充分地挖掘芯片性能。
单芯片的性能强,在实际落地中未必管用。要支撑起业界最大的大模型训练和推理,必须能够提高大量芯片互连时的系统级算力利用率。
亚马逊云科技自研的NeuronLink芯片到芯片互连技术可将多个Trainium2服务器组合成一个逻辑服务器,带宽为2TB/s,延迟为1μs。
与传统高速网络协议网络不同的是,NeuronLink服务器可以直接访问彼此的内存,从而创造出一台“超级服务器”。
Peter DeSantis也花时间科普了一下为什么大模型推理越来越重要,以及它对AI基础设施提出了怎样的新要求。
大模型推理有两种工作负载——预填充(prefill)和token生成。预填充是输入编码,其中处理提示和其他模型输入,为token生成做准备。这个过程需要大量的计算资源来将输入转换成传递给下一个进程的数据结构。完成后,计算出的数据结构将被传递给第二个推理工作负载,由它生成token。
Token生成的有趣之处在于,模型按顺序生成每个token,一次一个。这对AI基础设施提出了非常不同的要求,每次生成token时,必须从内存中读取整个模型,因此会对内存总线产生大量需求,但它只使用少量的计算,几乎与预填充工作负载完全相反。
这些工作量差异对AI基础设施意味着什么呢?一旦token开始生成,只需要以超过人类阅读速度的速度生成它们。这不是很快,但当模型越来越多地用于agentic工作流,在进入工作流的下一步之前,需要生成整个响应。所以现在客户关心的是快速预填充和快速token生成。
对真正快速推理的渴望,意味着AI推理工作负载也寻求使用最强大的AI服务器。这两种不同工作负荷是互补的。预填充需要更多的计算,token生成需要更多的内存带宽,所以在同一个强大的AI服务器上运行它们可以帮助实现出色的性能和效率。
这就解释了亚马逊云科技力推自研AI服务器及集群的核心驱动力。
四、如何构建AI网络?10p10u架构、定制光纤电缆及插头、混合式路由协议
云网络需要快速扩展以适应增长,亚马逊云科技每天向全球数据中心添加数千台服务器。但AI的扩展速度更快。
据Peter DeSantis分享,亚马逊云科技的云网络在可靠性方面已经做到99.999%。AI工作负载对规模、速度、可靠性的要求更甚。如果AI网络经历了短暂的故障,整个集群的训练过程可能会延迟,导致资源闲置和训练时间延长。
如何在云网络的创新基础上构建一个AI网络呢?亚马逊云科技打造了10p10u网络。
10p10u的物理架构与传统CLOS网络架构区别不大,亮点是实现了10Pbps传输带宽、10μs网络延迟,连起来后组成可用于训练的超级集群。
下图展示了亚马逊云科技在不同网络结构中安装的链接数量,其中10p10u在过去12个月已安装超过300万条。
结构如下图所示,采用简化的无电缆机箱设计,左侧是8张Nitro卡,右侧是两颗Trainium2加速器。
大量的光缆进入机架,要构建这样的密集网络结构,需要非常精确的互连交换机,并要应对复杂性大大增加的挑战。
针对布线复杂问题,亚马逊云科技研制了一些特殊的光纤电缆、光纤插头,并针对超大规模集群打造了一种全新网络路由协议。
其中一个创新是开发了一个定制的光纤电缆Fiber optical trunk cable。可以把它当成一根超级电缆,它将16根独立的光纤电缆组合成一个坚固的连接器,能够大大简化组装过程,消除连接错误的风险。
使用主干连接器将在AI机架上的安装时间缩短了54%,而且做到看起来更整洁了。
还有定制光纤插头——Firefly Optic Plug。
这个巧妙的低成本设备就像一个微型信号反射器,支持在机架到达数据中心之前进行全面测试和验证网络连接。这意味着服务器到达时,不会浪费任何时间调试、布线。
此外,即使是微小的灰尘颗粒,也会显著降低完整性并造成网络性能问题。而Firefly Optic Plug具有双重保护密封功能,可防止灰尘颗粒进入光纤连接。
最后一个挑战是提供更高的网络可靠性。
亚马逊云科技对光链路的可靠性做了很多优化,将失败率降低到0.002以下。
AI网络中最大的故障来源是光链路。光链路是微型激光模块,在电缆上发送和接收光信号。这些失败不可能被完全消除,因此需要考虑如何减少失败的影响。
每个网络交换机都需要数据来告诉它们如何路由数据包。在AI网络中,这个地图可能需要考虑数十万条路径。每次光链路出现故障,映射就需要更新。
如何快速而可靠地做到这一点?最简单的方法是集中管理映射。
优化网络听起来很吸引人,但当网络规模庞大时,中央控制就会成为瓶颈。检测故障会很困难,交换机更新可能非常缓慢,而且中央控制器是单点故障。这就是为什么大型网络通常使用BGP和OSPF等协议去中心化的原因。
然而去中心化的方案也不完美。在大型网络中,当链路出现故障时,网络交换机需要花费大量时间进行协作,并为网络找到新的最优映射。
也就是说,在面对超大规模集群组网时,集中式和分布式的传统路由协议都面临挑战。
面临次优选择时,则需要开辟一条新的道路。对此,亚马逊云科技研发了一种全新的混合式网络路由协议SIDR(Scalable Intent Driven Routing),通过将集中式和分布式控制的优势相结合,能在很短时间内重新规划网络路径,为超大规模集群提供更好的快速故障检测、响应和恢复能力。
SIDR可以简单理解成让中央计划者将网络分解成一个结构,这个结构可以下推到网络中的所有交换机。这样它们看到故障时,就能做出快速、自主的决定。 结果,SIDR能在1秒内响应故障,而且在亚马逊云科技网络上做到比其他替代方法快10倍。其他网络可能还在重新计算路线,10p10u网络已经恢复工作了。
结语:云大厂自研芯片的风向标
作为在自研芯片落地上最成功的云计算大厂之一,亚马逊云科技的芯片设计经验、自研芯片对云业务的实际影响、迭代与创新方向一直备受关注。在接受智东西等媒体采访期间,Dave Brown也总结了亚马逊云科技自研芯片的一些关键优势,包括成本低、规模大、落地快、稳定可靠等。
成本上,如果选用Trainium2可将成本较H100降低50%,那么这对客户或许是很有吸引力的点。
规模上,亚马逊云科技的规模确保其芯片能够正常运行,会在推出Trainium前做大量测试,确保芯片一旦推出就一定会成功,不会出现硬件需要撤回的情况。
规模大还意味着更容易获得所需的产能。Dave Brown提到亚马逊云科技与英特尔、台积电等企业的合作顺利,认为台积电到美国凤凰城投资建厂是明智之选。亚马逊云科技致力于实现供应链多元化,是台积电的最大客户之一,也一直与英特尔紧密合作,互相帮助进行设计创新,预计不会受领导层变动的影响。
落地上,亚马逊云科技有专门团队,负责立即能将芯片放到服务器中,中间不存在一两个月的耽搁延误,因此能缩短落地时间,有足够好的芯片来支持客户进行大语言模型的训练。
还有完整的产品组合和可靠服务。亚马逊云科技提供不仅仅是芯片,还包括存储、Kubernetes服务器、API、安全、网络等,这样丰富的组合拳是其他供应商难以提供的。在稳定性上,亚马逊云科技同样具备优势,在及时诊断和修补遇到的问题、确保服务不受影响方面已经深得云服务客户的信任。
生成式AI浪潮推动下游市场对更高性能、高性价比、灵活可定制的AI基础设施提出了强需求。而亚马逊云科技在AI基础设施底层技术与工程上的探索与创新,正为业界提供一个既能适应客户业务需求、降低系统复杂性又能提高供应链话语权的出色参考范本。
还没有评论,来说两句吧...