至強(qiáng)融核不出 GPU高性能計(jì)算誰與爭鋒
比特網(wǎng) 發(fā)表于:12年11月15日 12:00 [轉(zhuǎn)載] 比特網(wǎng)
今天我想有不少人已經(jīng)看到新聞了,最新一輪的HPC TOP500名單已經(jīng)公布。作為全球高性能計(jì)算行業(yè)的風(fēng)向標(biāo),我們在以前可能看到的更多是新一代使用CPU(比如Intel Xeon E5)、GPGPU(如NVIDIA Tesla)的系統(tǒng)有多少套上榜之類的亮點(diǎn)。而本次英特爾的至強(qiáng)融核(Xeon Phi)協(xié)處理器一共有7套上榜,并且最高排名第七,這或許宣告著一個(gè)新時(shí)代的來臨——單純依靠通用處理器來構(gòu)建HPC系統(tǒng)的時(shí)代即將過去,而Xeon Phi也正式對以NVIDIA GPGPU為代表的異構(gòu)計(jì)算發(fā)起挑戰(zhàn)。
在本月2日的中國科學(xué)院計(jì)算技術(shù)研究所——英特爾聯(lián)合實(shí)驗(yàn)室揭牌儀式上,計(jì)算所所長孫凝暉博士也表達(dá)過類似的觀點(diǎn)。(詳見:“HPC TOP500只是競賽 異構(gòu)計(jì)算志在數(shù)據(jù)中心”一文)
1997年,第一套使用Intel處理器的Teraflop(浮點(diǎn)運(yùn)算次數(shù))系統(tǒng)一共使用了9,298顆CPU,占用空間達(dá)到72個(gè)服務(wù)器機(jī)柜。而今,英特爾至強(qiáng)融核協(xié)處理器提供1Teraflop的性能之需要一塊卡,占用1個(gè)PCIe插槽(寬度為雙插槽)。
可能有人會說,NVIDIA在數(shù)年前的T10(Tesla C1060/M1060的代號)就達(dá)到了1Teraflop,不過當(dāng)時(shí)可是單精度浮點(diǎn)性能,雙精度需要除以8。也就是說Xeon Phi相當(dāng)于達(dá)到了當(dāng)今GPGPU計(jì)算能力的主流水平,不過它的優(yōu)勢主要并不在這里。
上面的照片拍得有些不清楚,我們具體解釋下。第一項(xiàng)“性能、性能功耗比”,對于一般并行化計(jì)算,CPU擅長而加速器(GPGPU)和Xeon Phi不擅長;高度并行化計(jì)算則是后兩者擅長,通用CPU的表現(xiàn)一般。
接下來的“硬件特定編碼”和“限制因異構(gòu)產(chǎn)生的總擁有成本(TCO)”方面,加速器處于劣勢,因?yàn)镹VIDIA和 AMD的GPU上面運(yùn)行的程序都要用CUDA等開發(fā)環(huán)境重新編寫,與x86 CPU軟件完全是兩碼事;而Intel Xeon Phi盡管也需要重新開發(fā)應(yīng)用,但由于眾核架構(gòu)中使用了超過50個(gè)P54C(當(dāng)年的Pentium 75-133的代號)核心,總的來說還能沿用x86指令集的編程體系。
Xeon Phi的制造工藝采用了Intel當(dāng)前最先進(jìn)的22nm 3-D柵極晶體管,并支持最新的Intel軟件開發(fā)產(chǎn)品。對于Linux操作系統(tǒng)這一點(diǎn),今天我與英特爾服務(wù)器平臺產(chǎn)品經(jīng)理張振宇先生進(jìn)行了確認(rèn)—— Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運(yùn)行的,BIOS等方面需要做一些小的改動,但為了兼容大量傳統(tǒng)x86應(yīng)用目前還沒有推出這樣的平臺。
這一點(diǎn)讓我們想起了NVIDIA計(jì)劃在其未來GPU中加入ARM,以便獨(dú)立啟動Linux OS,但現(xiàn)狀是——適合,或者說這些協(xié)處理器能夠運(yùn)行的應(yīng)用還比較有限。也有媒體朋友與我討論:如果主板上取消CPU插座和相關(guān)電路,能夠降低系統(tǒng)的構(gòu)建成本,但Xeon Phi會不會影響Xeon的出貨量呢?計(jì)算發(fā)展的趨勢也許不以人的意志而轉(zhuǎn)移吧。
現(xiàn)在Xeon Phi宣布了2款產(chǎn)品:3110和5110P,后者現(xiàn)已發(fā)貨(限制對部分客戶),前者還要等到明年上半年。Xeon Phi 5110P峰值雙精度浮點(diǎn)計(jì)算性能為1010 Gigaflop(1.01Teraflop),配備8GB GDDR5內(nèi)存——帶寬320GB/s,225W TDP(熱設(shè)計(jì)功耗)采用被動散熱設(shè)計(jì)。宣稱針對內(nèi)存密集型應(yīng)用。
再看Xeon Phi 3100,性能只比5110P略低一點(diǎn),6GB GDDR5內(nèi)存的帶寬為240GB/s,價(jià)格也低于5110P。而3110的TDP卻高達(dá)300W,因此分為主動和被動散熱兩種外形設(shè)計(jì)。
據(jù)Intel介紹,Xeon Phi 3100的核心數(shù)量有所精簡(內(nèi)存總線的位寬應(yīng)該也是如此),通過較高的頻率來彌補(bǔ)性能,這又讓我們想起了GPU。于是3100就不太適合大型HPC等密集型應(yīng)用,因?yàn)榧词贡粍由釋饬骱凸╇姷囊笠蔡岣卟簧;诠ぷ髡镜膯螜C(jī)/小型集群環(huán)境應(yīng)該更合適些吧。
下面,我們列出來自不同行業(yè)的客戶在Xeon Phi產(chǎn)品測試階段的第一手應(yīng)用體驗(yàn)(一共是4家)。
中國石化石油物探技術(shù)研究院
位于涿州的中石油東方地球物理勘探有限責(zé)任公司
中科院計(jì)算所
中科院過程工程所曾經(jīng)是NVIDIA Tesla在國內(nèi)最早批量應(yīng)用的客戶之一,筆者曾經(jīng)在現(xiàn)場見到惠普xw8600工作站+雙Tesla C870的配置。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.