存储大厂,开卷CXL

根据 Yole Group 的最新分析报告,由于人工智能服务器的需求超过了其他应用,HBM 在整个 DRAM 出货量中所占的份额预计将从 2023 年的约 2% 上升到 2029 年的 6%

HBM 市场有多火?

根据 Yole Group 的最新分析报告,由于人工智能服务器的需求超过了其他应用,HBM 在整个 DRAM 出货量中所占的份额预计将从 2023 年的约 2% 上升到 2029 年的 6%,由于 HBM 价格远高于 DDR5,就收入而言,其份额预计将从 2024 年的 140 亿美元攀升至 2029 年的 380 亿美元——而此前该份额已从 2023 年的约 55 亿美元逐年飙升了 150% 以上。

Yole Group 表示,内存供应商已经增加了 HBM 晶圆产量,预估产量从 2022 年的每月 44,000 片晶圆 ( WPM ) 增加到 2023 年的 74,000 WPM,并可能在 2024 年增至 151,000 WPM。

在 HBM 这一蓬勃发展的市场中,虽然只有三个玩家,但竞争之激烈,超出了许多人的想象。简而言之,旱的旱死涝的涝死,排行第一的海力士在技术和市场上遥遥领先,拿走了最多的利润,排名第二的三星正在积极发起进攻,又拿走了一部分,至于第三的美光,由于技术路线的判断失误,市场份额较小,目前还处于一个追赶状态,短期内恐怕很难贡献大额利润。

而最新的新闻也从侧面证明了这种差距。SK 海力士在 2 月确认,自己在过去几个月的 HBM 销量创下了新纪录,同时带动第四季度实现盈利,并预测产业即将复苏,SK 海力士副社长金起台(Kim Ki-tae)指出,生成式 AI 服务日益多样并持续发展,作为 AI 存储解决方案的 HBM 需求也出现爆炸性成长。

更重要的是,他提到今年海力士旗下 HBM 已经全部售罄,虽然 2024 年才刚开始,但公司为了保持市场领先地位,已开始为 2025 年预作准备。‘

2024 年刚开始,SK 海力士就已经在考虑 2025 年的 HBM 市场了,隔壁三星和美光所背负的压力也是巨大,在追赶技术和市场的同时,他们在思考,能否绕开 HBM 这项技术,从另一个方向去抢占 AI 市场呢?

此时,CXL(Compute Express Link)再度进入到了内存厂商的视线当中。

AI 存储新方向?

据报道,为了增强在 AI 存储芯片领域的竞争力,三星计划在下个月于硅谷举行的 MemCon 2024 全球半导体会议上展示其对被称为 HBM 下一代技术的 CXL DRAM 的技术和愿景。

在 3 月 26 日至 27 日举行的为期两天的活动中,三星执行副总裁韩镇满 ( Han Jin-man ) 将致开幕词。此外,该公司执行副总裁将在题为 " 在 AI 时代引领 HBM 和 CXL 创新,实现高内存带宽和高容量实现 " 的主题演讲中分享三星的 CXL 技术和愿景。

CXL 是何方神圣,能让三星如此重视,将它视作 HBM 的替代呢?

先来简单介绍下这项技术的来龙去脉吧。CXL ( Compute Express Link ) 技术是一种高速、大容量中央处理器(CPU)到设备以及 CPU 到内存连接的开放标准,专为高性能数据中心计算机而设计。其建立在串行 PCI Express(PCIe)物理和电气接口的基础上,包括基于 PCIe 的块输入 / 输出协议(CXL.io)以及用于访问系统内存(CXL.cache)和设备内存(CXL.mem)的新高速缓存一致性协议。串行通信和池功能使 CXL 内存在实现高存储容量时能够克服常见 DIMM 内存的性能和插槽封装限制。它最初由英特尔、AMD 和其他公司联合推出,并得到了包括谷歌、微软等公司在内的大量支持。

CXL 技术的背景可以追溯到 PCIe ( Peripheral Component Interconnect Express ) 技术,PCIe 是用于连接计算机内部组件的一种标准接口技术。PCIe 设备可以发起一个 DMA 来访问内存,只要知道目标物理地址即可。在 CXL 之前就有以 IBM 牵头的 OpenCAPI,ARM 为代表支持的 CCIX,AMD 等支持的 GenZ 和 Nvidia 自行提出的 Nvlink 等等多种协议。虽然 PCIe 已经有了很多改进,但其难以满足现代计算机处理器和加速器之间的高带宽、低延迟通信需求。于是,CXL 技术应运而生。

2019 年 3 月 11 日,基于 PCIe 5.0 的 CXL 1.0 规范发布,其允许主机 CPU 使用缓存一致性协议访问加速器设备上的共享内存,改进后的 CXL 1.1 规范则于 2019 年 6 月发布。

2020 年 11 月 10 日,CXL 2.0 规范发布。新版本增加了对 CXL 交换的支持,以允许将多个 CXL 1.x 和 2.0 设备连接到 CXL 2.0 主机处理器,同时将每个设备汇集到多个主机处理器,采用分布式共享内存和分解存储配置,此外它还实现了设备完整性和数据加密,不过,与 CXL 1.x 相比,带宽没有增加,因为 CXL 2.0 仍然使用 PCIe 5.0 PHY。

2022 年 8 月 2 日,CXL 3.0 规范发布,其基于 PCIe 6.0 物理接口和双倍带宽的 PAM-4 编码;新功能包括具有多级交换和每个端口多种设备类型的结构功能,以及增强的点对点 DMA 和内存共享一致。

2023 年 11 月 14 日,CXL 3.1 规范发布,新规范对横向扩展 CXL 进行了额外的结构改进、新的可信执行环境 enhancements 以及对内存扩展器的改进。

从 2019 年到 2023 年,CXL 经历了高速的发展,其应用涉及服务器端,以及存储产品与解决方案端这两大层面。在过去 2 年时间里,实际上已经有许多厂商发表 CXL 相关元件、产品,以及成套解决方案,但有个现实问题制约影响了 CXL 的发展:由于英特尔、AMD 这两家处理器厂商的拖延,导致服务器端迟迟未能实际支持 CXL 协议,以致无法形成完整 CXL 应用环境。

直到 2022 年底到 2023 年初,终于迎来转机,伴随着 AMD 发布第四代 EPYC(代号 Genoa),盒英特尔发布第四代 Xeon Scalable(代号 Sapphire Rapids),新款处理器平台上线终于将 CXL 带到服务器端,补上了 CXL 应用环境缺失的环节。

经过数年的发展,目前 CXL 的生态已经相当完整与丰富。在元件层级的芯片供应商与设计商,有 Astera Labs、Cadence、 Marvell、Microchip、Rambus、Synopsys、Montage Technology、Mobiveil、 SmartDV、Xconn 等,它们发布了对应的 CXL 控制器(Controller)、定时器(Retimers )、交换器(Switch)产品。

而系统层级,目前有三星、SK Hynix、美光,Astera Labs,以及台湾的世迈科技(SMART Modular Technologies),推出扩展存储类型的 CXL 产品。另外,还有 Elastics.cloud、IntelliProp、UnifabriX、SK hynix、三星 / H3 Platform、Panmnesia,发布或展示了存储池类型的 CXL 解决方案。

其中,三星作为 CXL 联盟的董事,在推广 CXL 上可谓是不遗余力。

2021 年 5 月 11 日,三星宣布推出了业界首款支持新的 Compute Express Link ( CXL ) 互连标准的内存模块(基于 128 GB DDR5),其表示,这款基于 CXL 的模块与三星的 DDR5 技术集成,将使服务器系统能够显着扩展内存容量和带宽,从而加速数据中心的人工智能 ( AI ) 和高性能计算 ( HPC ) 工作负载。

与内存通道有限的传统 DDR 内存不同,三星支持 CXL 的 DDR5 模块可以将内存容量扩展到 TB 级,同时大幅减少内存缓存导致的系统延迟。除了 CXL 硬件创新之外,三星还整合了多种控制器和软件技术,如内存映射、接口转换和错误管理,这将使 CPU 或 GPU 能够识别基于 CXL 的内存并将其用作主内存。

而在 2022 年 5 月 10 日,三星又发布了 CXL 内存模块的 512 GB 版本,新款 CXL DRAM 采用专用集成电路 ( ASIC ) CXL 控制器构建,是首款配备 512GB DDR5 DRAM 的产品,与上一代 128GB 版本相比,内存容量增加了四倍,系统延迟减少了五分之一。

随后,三星还推出了其开源可扩展内存开发套件 ( SMDK ) 的更新版本。该工具包是一个综合软件包,允许 CXL 内存扩展器在异构内存系统中无缝工作——使系统开发人员能够将 CXL 内存整合到运行人工智能、大数据和云应用程序的各种 IT 系统中,而无需修改现有应用程序环境。

2023 年 5 月 12 日,三星宣布开发出业界首款支持 CXL 2.0 的 128 GB DRAM,新的 CXL DRAM 支持 PCle 5.0 接口(x8 通道)并提供高达每秒 35GB 的带宽,其表示,与英特尔的密切合作,最终在英特尔至强平台上实现了这一里程碑式的进步。

值得注意的是,三星所推出的 CXL 2.0 DRAM 模块,其中搭载了来自中国澜起科技的控制器芯片,澜起科技早在 2022 年 5 月就发布全球首款 CXL 内存扩展控制器芯片(MXC),2023 年 8 月,澜起科技是全球首家进入 CXL 合规供应商清单(CXL Integrators List)的 CXL 内存扩展芯片厂家。

2023 年 12 月 26 日,三星宣布针对开源软件提供商 Red Hat 的 Enterprise Linux 9.3(即 RHEL 9.3)优化了 CXL 内存,并在 Red Hat KVM 和 Podman 环境中验证了内存识别、读写操作。其表示,这将使数据中心客户能够使用三星的 CXL 内存,而无需对其现有硬件进行额外调整。

三星在 CXL 上的持续不断的投入,让它成为了目前 CXL 内存厂商中的领头羊。

AI 的宠儿

三星如此看重 CXL,除了在下一代先进标准上占据主动权的心思外,CXL 在人工智能上的优势也是它全力以赴的重要原因。

近年来,随着数据吞吐量的快速增长,现有计算系统的极限已不堪重负,人工智能数据吞吐量每年增长十倍,而现有计算系统的内存容量不足以处理急剧增长的数据量,HBM 解决了带宽问题,但却无法同时解决容量扩展的问题。

目前,一个中央处理器(CPU)最多可容纳 16 块 DRAM(最多 8 TB),这个数字远远小于处理人工智能和机器学习中使用的海量数据存储所需的容量。随着人工智能时代的日益临近,对支持快速接口和易扩展性的内存平台的需求变得越来越明显,而基于 CXL 的新型 DRAM 模块可能是未来人工智能时代中前景最为广阔的内存解决方案之一。

与传统接口相比,CXL 的 DRAM 模块最大的优势,就是所谓的可扩展性,而其他方面的优势,同样不容小觑。

首先是强大的内存扩展能力,与固态硬盘(SSD)这种外置存储设备类似,CXL 内存扩展器安装在插入固态硬盘的位置时,可以扩展 DRAM 容量。换句话说,只需改进接口,就能扩大 IT 系统的 DRAM 容量,而无需修改或完全改变现有的服务器结构。

而后是简化数据处理,内存扩展器的一个主要优势是高效的数据处理。通过扩展更高的带宽,它可以让不同的设备共享内存,更有效地利用它们的资源。它们可以通过共享公用内存区域,像使用主内存一样使用加速器的内存。没有自己内部内存的设备也可以利用主内存,将其作为自己的内存使用。

最后是加速计算速度,CXL 内存扩展器的一个关键功能是最大限度地减少因数据吞吐量增加而导致的延迟问题(或延时)。内存扩展器同时利用加速器和 CPU 来提高系统计算速度,支持更流畅、更快速的数据处理。

CXL 种种优势,让它在人工智能时代来临之际成为了新宠儿,虽不及 HBM 耀眼,但其前景之广阔,并不逊色于后者多少。

据市场研究公司 Yole Group 10 月 12 日预测,到 2028 年,全球 CXL 市场预计将达到 150 亿美元(约合 20.1 万亿韩元)。虽然目前只有不到 10% 的 CPU 与 CXL 标准兼容,但预计到 2027 年,全球所有 CPU 都将兼容 CXL 接口。

而 CXL 市场的核心是 DRAM。Yole Group 预计,到 2028 年,120 亿美元(即 CXL 市场总收入的 80%)将来自 DRAM,在当今以数据爆炸为特征的人工智能时代,PCIe 等现有计算标准限制了 DRAM 模块的简单安装,并阻碍了物理可扩展性,CXL 解决了这些挑战,未来有望驱动 DRAM 市场新一轮的发展。

有意思的是,SK 海力士与美光也看到了 CXL 的潜力,并已经成为了 CXL 联盟的会员,但它们在这一技术上的进度,与三星相比,还存在着一定的差距。

2022 年 8 月 1 日,SK 海力士开发了首款基于 DDR5 DRAM 的 CXL(Compute Express Link)内存样品,该样品的外形尺寸为 EDSFF(企业和数据中心标准外形尺寸)E3.S,支持 PCIe 5.0 x8 Lane,使用 DDR5 标准 DRAM 并配备 CXL 控制器。同年 10 月,海力士又在 OCP 全球峰会上推出了业界首款基于 CXL 的计算内存解决方案 ( CMS ) 。

对比三星,海力士在 2023 年 9 月才展示了自己首款 CXL 2.0 产品,落后三星约四个月。不过海力士自己倒是非常上心,SK 海力士总裁在 2023 年 10 月还强调了 CXL 市场的重要性,他说:" 我们正在大力投资基于 CXL 的新兴存储技术的发展,可以起到第二、第三个 HBM 的作用。"

美光虽然正式进入 CXL 市场较晚,但在这项技术上的发展也不容小觑,2023 年 8 月,美光在 FMS 2023 大会上宣布推出首款用于服务器的 CXL 2.0 内存扩展模块的样品,该模块搭载 128 GB 和 256 GB DRAM,并使用 PCIe 5.0 x8 接口连接到 CPU。在新标准支持这方面,美光反而比海力士早了约 2 个月。

除了三大内存厂外,CXL IP 的重要性也愈发凸显,据 HTF MI Research,预计到 2029 年,CXL IP 市场将达到 8.923 亿美元,复合年增长率为 37.6%。目前提供 CXL IP 的公司包括 Cadence、Synopsys、Rambus ( PLDA ) 等;面对广阔前景,国内厂商也开始涉足这一领域,据悉,问道以芯已推出支持 20TB 级别内存拓展的 CXL2.0 IP。

截至目前,许多业内人士对 CXL 接口的概念还很陌生,虽然内存厂商出于 AI 的需求快开始踊跃推出样品并量产,但具体的应用还是较少,远不如 HBM 那样火热。

写在最后

就 2024 初来看,CXL 标准落地仍有许多障碍需要克服。三星开发的 CXL 2.0 DRAM 与现有标准相比,可扩展性有限。开发与 GPU、CPU 和 DRAM 兼容的 CXL 交换设备、设计 CXL DRAM 模块以及快速开发支持软件等挑战都是当务之急。

而建立生态系统也同样重要。CXL 领域的知名企业包括与拥有 CXL 3.0 设计资产和集成解决方案的全球半导体公司合作的韩国初创企业 Panmesia,以及拥有 CXL DRAM 控制器设计技术的中国的澜起科技,业内人士指出:" 要在 CXL 3.0 中实现理想的可扩展性,仅仅停顿在部分技术开发上是不够的,必须要有涵盖整个生态系统的整体技术。"

好消息是,截至目前,CXL 内存扩充模组的应用环境已经较为完善,主要的内存厂商均已推出自家的 CXL 内存扩充模组产品,虽然现在的服务器只能支持 CXL 1.1 标准,但基本上已经可以连接与运行,等到下一代也就是支持 CXL 2.0 服务器上线后,就能更好地利用它的优势,从而实现这一标准的普及。

在 2024 年年初,我们可以用一句话来形容,就是万事俱备,CXL 只欠应用这场东风了。

当然,关于 CXL 竞争依旧不可避免,有韩国业内人士表示," 虽然公众不知道,但三星电子和 SK 海力士都‘全力以赴’确保在 CXL 技术方面取得领先地位,就像他们对 HBM 所做的那样。"

卷完了 HBM,内存厂商又瞄上了 CXL,一场新的内存战争,即将展开。