2023年至2025年間,HBM(高帶寬內存)作為AI基礎設施構建中不可替代的關鍵器件,迅速成為全球AI芯片企業(yè)的剛需。

尤其在AI訓練、高性能計算領域,HBM3/3e成為高端算力芯片的標配,包括英偉達GH200、AMD MI300系列及國內頭部芯片等。但受限于制裁壓力、制造門檻和成本考量,部分國產AI芯片仍采用GDDR6、DDR4/5等通用顯存方案,并結合本土封裝技術(如高容量芯粒堆疊)以在帶寬和容量之間尋求平衡

HBM的優(yōu)勢在于帶寬高、功耗低、延遲小——為萬億參數級大模型提供數據快速通道。

它是一種將內存芯片垂直堆疊起來的高帶寬存儲技術,不像傳統(tǒng)DDR那樣通過主板上的銅線連接CPU,而是使用一種叫做硅中介層(interposer)的超薄硅板,把CPU和多個HBM芯片堆棧緊密連接起來。這樣做的好處是,數據傳輸距離更短、速度更快、能耗也更低。

每個HBM堆棧內部通過微小的通孔(TSV)連接成一個整體,通常采用較成熟的制造工藝,比如28納米。

目前HBM通路上,跑在前面的企業(yè)主要是SK海力士和三星,2024年合計市場份額超過90%。壟斷的直接后果,就是價格暴漲。且優(yōu)先供貨對象也牢牢握在英偉達、微軟、AWS等手中。

最新消息是,SK海力士作為No.1率先量產HBM4,采用2048個I/O端口實現了帶寬翻倍,同時采用10nm級工藝和MR-MUF技術解決了散熱與堆疊難題。第二名的三星也在積極研發(fā)新一代 HBM4 DRAM,不過換了個方向——去探索邏輯芯片集成和混合堆棧,試圖在性能與成本間找到平衡。但HBM4的容量上限,目前達到64GB,難以滿足萬億參數模型的內存需求。高昂的成本和功耗進一步限制了其在大規(guī)模推理場景的應用。

此外,HBM的制造門檻極高。它不是普通的DDR或GDDR,需要先進的TSV(硅通孔)堆疊工藝、微凸點鍵合、高精度封裝測試,以及極高的良率控制。具備這種能力的廠商寥寥無幾,這也是HBM國產化進程緩慢的根本原因。

HBF路線分化——HBF(高帶寬閃存)來了

在AI基礎設施持續(xù)爆發(fā)的背景下,除了HBM之外,一個新趨勢逐漸浮現——以HBF(High Bandwidth Flash,高帶寬閃存)為代表的新形態(tài)內存技術,正試圖為AI系統(tǒng)提供另一種經濟可用的方案。

HBM的重點是提高每瓦帶寬和每平方毫米帶寬(這兩者都是移動設備的重要制約因素),同時保持與現有解決方案的競爭力。HBF的重點是大幅提升內存容量(每美元、每瓦和每平方毫米),同時提供具有競爭力的帶寬。

理解一下就是,HBM(高帶寬內存)和HBF(高帶寬閃存)在內存技術的發(fā)展路徑上,兩者設計不同,HBM的出現重點是為了提升單位功耗(每瓦)和單位面積(每平方毫米)的帶寬密度,滿足移動設備、顯卡等對高帶寬和低功耗的雙重要求。而HBF則轉向解決大模型時代最核心的痛點——內存容量不足。

其設計重點是在不犧牲帶寬前提下,顯著提升單位成本、單位功耗和單位面積的內存容量,讓 AI GPU 能以更低成本支持TB級別的模型訓練與推理需求。

近期閃迪與SK海力士聯盟,就是嘗試在提供相似帶寬的前提下,HBF的容量是HBM的十倍以上,約768GB。

兩者分別服務于“算的快”和“裝的多”兩種不同任務場景,共同推動AI存力架構的演進。

不過HBF的挑戰(zhàn)依然存在——NAND的延遲仍高于DRAM,需要依賴接口優(yōu)化和算法補償。更重要的是,其生態(tài)尚未成熟,GPU廠商的參與是成敗關鍵。二英偉達當前仍押注HBM,但未來Rubin架構是否兼容HBF,可能決定這一技術的命運。

另外值得注意的是,HBF并非提升內存帶寬的唯一方案。群聯電子的aiDAPTIV+通過軟件優(yōu)化,將SSD作為GPU的擴展內存,讓小顯存設備也能處理大模型任務。不過區(qū)別在于,HBF面向超大規(guī)模模型訓練,軟件方案則更適合消費級以及資源受限的中小企業(yè)和邊緣計算。

不過在我們觀望HBF時,本周據《日經新聞》報道,鎧俠在與英偉達正在聯合開發(fā)可直連到GPU的SSD,是專為AI服務器量身定制,旨在部分取代HBM作為GPU的內存擴展器,2027年左右實現商業(yè)化。新款SSD的隨機讀取性能將提升至約1億IOPS,英偉達的目標是2億IOPS,因此鎧俠計劃疊兩塊,而且SSD接口標準將支持PCIe 7.0。

還有就是CXL的出現,重點起到了降本增效的作用,當然它跟HBM也不是競爭關系,但可以作為補充選擇。CXL(Compute Express Link)是異構計算互聯協議,允許 CPU/GPU與外部設備(包括存儲、加速器、內存池)之間實現低延遲的共享訪問。

未來高端系統(tǒng)或許會采用HBM+CXL的分層內存架構,以平衡性能、容量與成本。HBM作為熱數據層,憑借其超低延遲和高帶寬,直接綁定GPU/CPU,用于存儲模型參數等高頻訪問數據,確保AI訓練和實時推理的極致性能。

而CXL則作為冷數據擴展層,通過內存池化技術,動態(tài)加載低頻訪問數據(如訓練數據集),突破HBM單芯片≤64GB的容量限制。

最后

未來幾年,AI內存技術的競爭將愈發(fā)激烈。無論是HBM的持續(xù)迭代,還是HBF的生態(tài)突圍,亦或是軟件方案的優(yōu)化,最終目標都是為AI提供更高效率、更低成本的內存支持。

這場革命不僅關乎技術本身,更將重塑AI產業(yè)的格局——從超大規(guī)模云服務商到邊緣設備制造商,每個參與者都需要在這場變革中找準自己的位置。

更多HBM話題內容,歡迎鎖定2025年11月18日即將在北京召開,以“釋放數據潛能,加速智能涌現”為主題的2025中國數據與存儲峰會,敬請期待!

分享到

崔歡歡

相關推薦