如果你見過Nvidia公司最近宣布的下一代(2016ish) Volta圖形卡 (使用了一個(gè)堆疊的DRAM設(shè)計(jì),據(jù)稱可提供1TB/s的帶寬),那么看到上圖的HMC說明圖,你或許會(huì)覺得有點(diǎn)眼熟。

該HMC方案當(dāng)中擁有四到八個(gè)內(nèi)存層,每個(gè)內(nèi)存層都擁有數(shù)百萬個(gè)處于定義組(倉庫)中的內(nèi)存單元,并配備復(fù)雜的支持邏輯(倉庫控制器)、旨在全方位控制內(nèi)存單元并提供面向內(nèi)部通交叉交換機(jī)制的接口……HMC擁有16套彼此獨(dú)立運(yùn)作的倉庫體系,目的在于讓每個(gè)體系實(shí)現(xiàn)穩(wěn)定的10GB/s(即80Gb/s)真實(shí)內(nèi)存帶寬。邏輯層還支持外部接口、交叉交換、內(nèi)存調(diào)度器、內(nèi)置自測試(簡稱BIST)、邊帶信道以及眾多可靠性、可用性及可服務(wù)性(簡稱RAS)功能。

堆疊式芯片的幾大難題

難題一:能夠控制制造精度決定產(chǎn)品能否成功:邏輯層通過貫穿整套結(jié)構(gòu)的通道實(shí)現(xiàn)與各DRAM層的連通或者對(duì)話,也就是所謂硅通孔(簡稱TSV)機(jī)制。這給制造工藝設(shè)計(jì)師帶來了不少難題,因?yàn)橛糜谶B接底層與三層之間的硅通孔長度與用于連接底層與四層之間的硅通孔長度幾乎沒什么差別??刂浦圃炀瘸闪水a(chǎn)品成功的必要前提,因?yàn)橐坏┻B通的層數(shù)出現(xiàn)偏差、整個(gè)多層模板就會(huì)徹底報(bào)廢,由此帶來的損失要遠(yuǎn)高于單層DRAM晶圓。

HMC的方案展示:利用硅通孔(TSV)作為貫穿各層的通道

難題二:硅通孔技術(shù)能否與自身經(jīng)過的DRAM層絕緣:這些硅通孔技術(shù)必須完美地與自身經(jīng)過的DRAM層相絕緣——這又是另一個(gè)制造層面的難題。

難題三:DRAM層在硅通孔貫穿位置不能存在內(nèi)存單元。

難題四:層數(shù)越多,我們所需要的硅通孔數(shù)量也越多,這就讓芯片層設(shè)計(jì)師的工作變得愈發(fā)復(fù)雜。

硅通孔讓訪問進(jìn)入“大規(guī)模并行”時(shí)代

硅通孔則使訪問進(jìn)入“大規(guī)模并行”時(shí)代。HMC設(shè)備中的DRAM非常獨(dú)特,其設(shè)計(jì)目的在于支持十六個(gè)獨(dú)立的內(nèi)存空間。每套內(nèi)存空間提供10Gb/s穩(wěn)定內(nèi)存帶寬,因此立方體的整體帶寬可達(dá)到160GB/s。在每套內(nèi)存空間當(dāng)中,各DRAM層都擁有兩個(gè)存儲(chǔ)單元,相當(dāng)于2GB設(shè)備中總計(jì)包含128個(gè)存儲(chǔ)單元、4GB設(shè)備中總計(jì)包含256個(gè)存儲(chǔ)單元。這給系統(tǒng)性能帶來了巨大影響——與以鎖步方式運(yùn)行存儲(chǔ)單元的常規(guī)內(nèi)存相比,新方案擁有更低的查詢延遲以及更出色的數(shù)據(jù)響應(yīng)可用性。

美光公司還表示,其HCM的160GB/s帶寬相當(dāng)于DDR2模塊的15倍,功耗則比現(xiàn)有技術(shù)低出達(dá)70%。它所占據(jù)的空間也比RDIMM低出約九成。

HMC生態(tài)系統(tǒng)

目前,HMC聯(lián)盟共有八位主要開發(fā)成員,包括Altera、ARM、IBM、SK海力士、美光、Open-Silicon、三星以及Xilinix。HMC 1.0規(guī)格目前已經(jīng)制定并正式公布,且擁有超過一百家企業(yè)計(jì)劃采用這套方案。

這些企業(yè)能夠利用HMC作為“近內(nèi)存”,即將其安裝在處理器附近;或者作為“遠(yuǎn)內(nèi)存”,即使用向外擴(kuò)展HMC模塊以實(shí)現(xiàn)更高的能源效率。

分享到

tangrong

相關(guān)推薦