GPU超越了CPU。这也意味着,在计算领域,专用计算打败了通用计算。然而,尽管专用计算的优势日益明显,仍有一部分初创公司坚持走通用计算的道路,力图通过创新突破当前架构的瓶颈,重新定义处理器的未来。在这个日益分化的计算时代,通用计算是否依然有机会与专用计算一较高下?一些雄心勃勃的初创公司正在投入巨资和大量的研发力量,试图通过开发全新的通用处理器架构来挑战现有格局。
通用处理器的黄金时代
回顾过去,通用处理器(CPU)曾在计算领域主宰了数十年。在70年代到90年代,CPU曾是几乎所有计算任务的主力。
1971年,英特尔发布了4004处理器,这是世界上第一款商用微处理器,标志着计算机技术的一个新纪元。随后,英特尔在1974年发布的 8080 处理器,以及其后续的 x86 架构,为个人计算机(PC)提供了强大的处理能力。
1981年,IBM个人计算机(IBM PC)的发布,将基于 x86 架构的通用处理器推向了全球市场。
进入1990年代,随着互联网的崛起和计算需求的多样化,Intel 和 AMD 等公司继续推动 x86 架构 的发展,通用处理器的市场份额不断扩大。英特尔的 Pentium 处理器系列(1993年推出)标志着高性能计算的到来。此外,90年代的企业级服务器和数据中心也开始大量采用基于 x86 架构的通用处理器。这一时期,通用处理器不仅在桌面和办公应用中占据主导地位,也逐渐成为服务器、数据中心以及高性能计算(HPC)领域的主力。
从 2000年代后期开始,随着 GPU 和专用加速器(如 TPU、FPGA)的崛起,计算界的天平开始发生倾斜。
进入AI时代,计算需求呈现出爆炸式增长。深度学习等AI算法对计算资源的需求远远超过了传统应用。GPU凭借其高度并行的架构,在训练和推理大规模神经网络方面表现出色,成为了AI训练的“标配”。这一时期,GPU在图形处理、科学计算以及机器学习等领域的表现,逐渐超越了传统的CPU。与此同时,各种专用集成电路(ASIC)也在不断涌现,针对特定AI算法进行优化,进一步提升了计算效率。
尽管GPU和ASIC在特定领域的优势非常明显,但它们也有不可忽视的缺点。首先,GPU 和 ASIC 是专为某些特定任务设计的,缺乏通用性和灵活性。如果面对复杂的计算任务或需要多种计算能力的应用,GPU 和 ASIC 就显得不那么高效。此外,GPU 和 ASIC 的开发和生产成本较高,且其硬件架构通常与现有的计算环境不兼容,这使得大量企业在进行硬件更新时面临着较高的技术门槛和经济成本。
正是这些缺口,令一些初创公司找到了弯道超车的着力点。在AI时代的快速洗礼下,数据中心的挑战和痛点愈发凸显:居高不下的功耗、较低的服务器利用率以及难以跟上需求的处理器性能。
初创公司Tachyum:各种PU大乱炖,能成吗?
初创公司Tachyum提出了一种大胆的愿景:将超大规模数据中心转变为真正的通用计算中心。
他们是如何做的呢?Tachyum推出了一种新型通用处理器,将CPU、GPGPU 和 TPU的功能统一到单个单片设备中,无需昂贵且耗电的加速器,而是通过使用与软件可组合性和服务器资源的动态重新分配相一致的简单同质软件模型来最大限度地提高利用率,以此来满足云和 HPC/AI 工作负载的高需求。该架构速度更快、功耗降低10倍、成本仅为竞争产品的 1/3。
下图是早期(2022年)Tachyum公司对Prodigy架构的构思,它集成了128个自定义的 64 位 CPU 核心,运行频率最高可达 5.7 GHz,有十六个DDR5内存控制器,支持最高DDR5-7200,和64条PCIe 5.0 通道。CPU、内存控制器和I/O通过Tachyum自定义设计的10 Tbps非阻塞全网状互联网络连接在一起。Prodigy提供了一种尖端的“系统芯片”设计,平衡了高性能的CPU 核心、内存、I/O和互联子系统。
Prodigy设备架构图(来源:Tachyum Prodigy架构白皮书,2022)
Prodigy采用独特的“半芯片(half-chip)”设计,使得这款128核的设备可以作为两个独立的64核设备工作,每个设备配备8个DDR5内存控制器、32条PCIe 5.0通道、独立的电源平面,并具备单独启动的能力。这带来了多个好处。首先,从客户的角度来看,两个功能设备可以部署在一个单一封装中,节省成本、板空间和功耗,并为系统和板设计者提供灵活性。从运营的角度来看,这种架构为Tachyum提供了更高的64核芯片良率。如果“北半部分”出现问题,可以将芯片旋转180度,“南半部分”将成为正常工作的 64 核设备。
Prodigy设备布局主要功能模块(来源:Tachyum Prodigy架构白皮书,2022)
Tachyum在白皮书中指出,处理器性能停滞不前的根本原因是处理器硅片上的线路延迟增加。随着硅片工艺的缩小,晶体管的速度加快,但线路的速度却减慢了,我们现在正处于性能受到线路延迟限制的阶段。由于线路的电阻率是线路横截面积的函数,因此电阻率会随着工艺缩小的平方而增加,工艺几何尺寸每减小10 倍会导致电阻率增加100倍,这与线路延迟成正比。业界的方法是从铝互连转换为铜互连并使用低 K 电介质,这确实有所帮助,但线路延迟仍然是限制处理器性能一代一代提升的主要因素。
为了解决过去二十年中由于工艺缩小导致晶体管加速但导线变慢,从而导致处理器性能停滞的问题,并且最大化性能、可扩展性和灵活性、最小化总拥有成本(TCO),Tachyum 为其Prodigy处理器开发了新的指令集架构(ISA)。该架构结合了RISC(精简指令集和CISC(复杂指令集)的特点,但没有包含许多 CISC 处理器中常见的复杂和/或变长的低效指令。所有指令的宽度为 32 位或 64 位,其中一些指令还包括内存访问,以优化性能。Prodigy ISA 包含大量的向量和矩阵指令,这些指令优化了向量和矩阵运算的性能和效率。新ISA通过将执行单元感知(execution unit awareness)引入指令集架构,从而使Prodigy微架构和 Prodigy 编译器能够协同工作,避免了执行单元之间消耗大量功耗的数据传输,并减少了芯片内延迟。
最初Prodigy系列处理器包括128核、64核和32核的型号,而在最新的产品披露中,Prodigy对其产品构想进行了全面的升级:Prodigy SKU家族包含192核、96核、48核多个型号,适用于从超算到大规模AI、超大规模数据中心和边缘服务器等各类应用。TDP(热设计功耗)范围从48核入门级的150 W,到顶端型号的950W。
Prodigy各型号的规格(来源:Tachyum)
Prodigy的竞争卖点在哪里呢?据该公司白皮书的分析,其统一架构通用处理器直接与CPU和GPGPU竞争。
下图显示了Prodigy、Nvidia H200 GPU和 ntel Xeon 8380 CPU之间的正面对比,展示了 Prodigy 通用处理器如何与CPU和GPU架构直接竞争。比较结果表明,与 H200 GPU 和 Intel Xeon 8380 CPU 相比,Prodigy 在多个工作负载和数据类型下提供了更高的性能和每瓦性能。
具体而言,Prodigy比 Intel Xeon 8380拥有3倍的CPU核心数,主频是8380的2.5倍,内存带宽约为8380的20倍。Prodigy的Specrate 2017整数得分是8380的4倍,而 Prodigy 的FP64峰值性能是8380的30倍。
与Nvidia H200比较,Prodigy的16条DDR5-7200通道和带宽放大技术提供了约 2TB/sec 的带宽,同时保留了支持大内存和扩展性的灵活性,DIMM 可提供较大的内存支持。H200 使用 HBM3 提供 3 TB/sec 的带宽,但将内存足迹限制为 80GB 的固定内存。Prodigy 和 H200 都支持从 FP64 到 FP8 的多种数据类型,并且都支持 4:2 稀疏性。但与 H200 不同,Prodigy 除了支持 4:2 稀疏性外,还支持 8:3 超稀疏性,提供了更高的性能,仅有轻微的精度折衷。此外,Prodigy 拥有更大的缓存,减少了对 DRAM 带宽的需求。Prodigy 还支持 TAI(Tachyum AI),一种新的数据类型,能提供更大的性能提升。
为了全面了解 Prodigy的能力,一个1.6万亿参数的Switch Transformer 需要 52 个 NVIDIA H200 80GB GPU(每个成本为 41,789 美元)和7个Supermicro GPU服务器(每个成本为 25,000 美元),总成本为 2,348,028 美元。而该公司声称,一个配备 2TB DDR5 DRAM的Prodigy单个插槽系统可就以容纳和运行如此大的模型,成本仅为23,000美元,这仅是英伟达方案成本的1/100。如果真如此,这将是一个颠覆性的通用处理器。
理论上都很美好,但是目前Tachyum公司最大的问题是,尚没有实际的产品出来。Prodigy的推出时间一再延迟,今年推明年。Prodigy通用处理器最初计划于2019年推出,并于2020年上市。然而它不断推迟,推迟到2021年,然后是2022年,然后是2023年。最新的消息是,据该公司称,采用5nm工艺的Prodigy处理器将于明年流片和量产。一个小插曲是,此前该公司还起诉了EDA公司Cadence,说他们的设计未能满足性能目标。
据报道,Tachyum已收到一份大型采购订单,用于构建一个大型系统。据Tom's Hardware报道,Tachyum还计划于 2026 年发布 Prodigy 2,这是一款使用 PCIe 6.0 和 CXL 的 3nm 处理器,以及高带宽内存 (HBM) 3 RAM。
我们也希望明年真的能见到这款强大的通用处理器。
Ubitium:通用RISC-V微处理器
德国初创公司Ubitium,这家公司成立于2024年。创始人的履历颇丰:董事长/联合创始人Peter W Weber层就职于英特尔、德州仪器、Siliconix等;首席执行官/联合创始人Hyun Shin Cho;首席技术官/联合创始人Martin Vorbach在大学期间创办了自己的第一家微处理器公司。他创办了可重构处理器(FPGA)领域的领军企业 PACT XPP Technologies。PACT 的技术已授权给所有美国主要半导体公司,马丁名下拥有200多项专利。
Ubitium旨在通过引入完全与工作负载无关的通用处理器架构从根本上改变计算格局。首席技术官Martin Vorbach花了15年时间开发这一通用处理器架构。Ubitium的通用处理器架构代表了计算行业的一次重大创新,它挑战了现有的处理器设计范式。
还没有评论,来说两句吧...