1997年,第一套使用Intel處理器的Teraflop(浮點(diǎn)運(yùn)算次數(shù))系統(tǒng)一共使用了9,298顆CPU,占用空間達(dá)到72個(gè)服務(wù)器機(jī)柜。而今,英特爾至強(qiáng)融核協(xié)處理器提供1Teraflop的性能之需要一塊卡,占用1個(gè)PCIe插槽(寬度為雙插槽)。
可能有人會(huì)說,NVIDIA在數(shù)年前的T10(Tesla C1060/M1060的代號(hào))就達(dá)到了1Teraflop,不過當(dāng)時(shí)可是單精度浮點(diǎn)性能,雙精度需要除以8。也就是說Xeon Phi相當(dāng)于達(dá)到了當(dāng)今GPGPU計(jì)算能力的主流水平,不過它的優(yōu)勢(shì)主要并不在這里。
上面的照片拍得有些不清楚,我們具體解釋下。第一項(xiàng)“性能、性能功耗比”,對(duì)于一般并行化計(jì)算,CPU擅長(zhǎng)而加速器(GPGPU)和Xeon Phi不擅長(zhǎng);高度并行化計(jì)算則是后兩者擅長(zhǎng),通用CPU的表現(xiàn)一般。
接下來的“硬件特定編碼”和“限制因異構(gòu)產(chǎn)生的總擁有成本(TCO)”方面,加速器處于劣勢(shì),因?yàn)镹VIDIA和 AMD的GPU上面運(yùn)行的程序都要用CUDA等開發(fā)環(huán)境重新編寫,與x86 CPU軟件完全是兩碼事;而Intel Xeon Phi盡管也需要重新開發(fā)應(yīng)用,但由于眾核架構(gòu)中使用了超過50個(gè)P54C(當(dāng)年的Pentium 75-133的代號(hào))核心,總的來說還能沿用x86指令集的編程體系。
Xeon Phi的制造工藝采用了Intel當(dāng)前最先進(jìn)的22nm 3-D柵極晶體管,并支持最新的Intel軟件開發(fā)產(chǎn)品。對(duì)于Linux操作系統(tǒng)這一點(diǎn),今天我與英特爾服務(wù)器平臺(tái)產(chǎn)品經(jīng)理張振宇先生進(jìn)行了確認(rèn)—— Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運(yùn)行的,BIOS等方面需要做一些小的改動(dòng),但為了兼容大量傳統(tǒng)x86應(yīng)用目前還沒有推出這樣的平臺(tái)。
這一點(diǎn)讓我們想起了NVIDIA計(jì)劃在其未來GPU中加入ARM,以便獨(dú)立啟動(dòng)Linux OS,但現(xiàn)狀是——適合,或者說這些協(xié)處理器能夠運(yùn)行的應(yīng)用還比較有限。也有媒體朋友與我討論:如果主板上取消CPU插座和相關(guān)電路,能夠降低系統(tǒng)的構(gòu)建成本,但Xeon Phi會(huì)不會(huì)影響Xeon的出貨量呢?計(jì)算發(fā)展的趨勢(shì)也許不以人的意志而轉(zhuǎn)移吧。
現(xiàn)在Xeon Phi宣布了2款產(chǎn)品:3110和5110P,后者現(xiàn)已發(fā)貨(限制對(duì)部分客戶),前者還要等到明年上半年。Xeon Phi 5110P峰值雙精度浮點(diǎn)計(jì)算性能為1010 Gigaflop(1.01Teraflop),配備8GB GDDR5內(nèi)存——帶寬320GB/s,225W TDP(熱設(shè)計(jì)功耗)采用被動(dòng)散熱設(shè)計(jì)。宣稱針對(duì)內(nèi)存密集型應(yīng)用。
再看Xeon Phi 3100,性能只比5110P略低一點(diǎn),6GB GDDR5內(nèi)存的帶寬為240GB/s,價(jià)格也低于5110P。而3110的TDP卻高達(dá)300W,因此分為主動(dòng)和被動(dòng)散熱兩種外形設(shè)計(jì)。
據(jù)Intel介紹,Xeon Phi 3100的核心數(shù)量有所精簡(jiǎn)(內(nèi)存總線的位寬應(yīng)該也是如此),通過較高的頻率來彌補(bǔ)性能,這又讓我們想起了GPU。于是3100就不太適合大型HPC等密集型應(yīng)用,因?yàn)榧词贡粍?dòng)散熱對(duì)氣流和供電的要求也提高不少。基于工作站的單機(jī)/小型集群環(huán)境應(yīng)該更合適些吧。
下面,我們列出來自不同行業(yè)的客戶在Xeon Phi產(chǎn)品測(cè)試階段的第一手應(yīng)用體驗(yàn)(一共是4家)。
中國石化石油物探技術(shù)研究院
位于涿州的中石油東方地球物理勘探有限責(zé)任公司
中科院計(jì)算所
中科院過程工程所曾經(jīng)是NVIDIA Tesla在國內(nèi)最早批量應(yīng)用的客戶之一,筆者曾經(jīng)在現(xiàn)場(chǎng)見到惠普xw8600工作站+雙Tesla C870的配置。