國家超級計(jì)算天津中心 劉光明主任
NVIDIA公司PSG全球副總裁Shanker Trivedi
今年1月,天津經(jīng)濟(jì)技術(shù)開發(fā)區(qū)、國家超級計(jì)算天津中心以及NVIDIA(英偉達(dá))公司正式舉行簽署儀式,三方將共同打造聯(lián)合實(shí)驗(yàn)室。該實(shí)驗(yàn)室意在提升國內(nèi)超級計(jì)算機(jī)技術(shù)整體水平,培養(yǎng)更多的超級計(jì)算機(jī)技術(shù)人才,從而有力帶動(dòng)中國的科技進(jìn)步和經(jīng)濟(jì)、社會發(fā)展,并且推動(dòng)CUDA,OpenACC,Cloud Supercomputing技術(shù)的開發(fā)和應(yīng)用。借此契機(jī),本站記者有幸采訪到了國家超級計(jì)算天津中心劉光明主任與NVIDIA公司PSG全球副總裁 Shanker Trivedi,來關(guān)注一下專家對未來超級計(jì)算機(jī)的展望與分析。
天河一號A采用領(lǐng)先的CPU+GPU計(jì)算架構(gòu)
“國防科技大學(xué)2005年到2007年就在研究,用通用CPU與GPU加速器結(jié)合,當(dāng)時(shí)自己做了一個(gè)流處理器,結(jié)合起來之后發(fā)現(xiàn)有很大一類高性能計(jì)算機(jī)的應(yīng)用,像流體力學(xué)、氣動(dòng)力學(xué)、FFT、CFD的東西,包括還有很多算法都適合這種結(jié)構(gòu),解決很多復(fù)雜的數(shù)學(xué)問題,這種結(jié)構(gòu)是適用的。”國家超級計(jì)算天津中心劉光明主任表示。
此后,在2009年天河一號做第一期的時(shí)候,當(dāng)時(shí)因?yàn)橐鲆粋€(gè)實(shí)用性能比較高的系統(tǒng),所以就選用了AMD的GPU來替代當(dāng)時(shí)國防科技大學(xué)自己研究的流處理器,這樣就誕生了當(dāng)時(shí)的天河一號,這個(gè)機(jī)器當(dāng)時(shí)排名是世界第五,亞洲第一。
后來國防科大發(fā)現(xiàn)了Tesla 2050,因?yàn)锳MD的GPU沒有ECC校驗(yàn),而Tesla有ECC校驗(yàn),所以在2010年的時(shí)候,做了升級,GPU換成了NVIDIA的,同時(shí)高速互聯(lián)系統(tǒng)換成國防科大自己的銀河高速互聯(lián),同時(shí)強(qiáng)化了操作系統(tǒng),升級了之后又做了一些優(yōu)化,便誕生了舉世矚目的天河一號A。
天河一號A的GPU計(jì)算節(jié)點(diǎn)
國產(chǎn)處理器飛騰入駐天河一號A
談到硬件方面,劉主任表示:整體上這個(gè)系統(tǒng)分成兩部分,一部分是Intel的CPU加上 NVIDIA的GPU構(gòu)成了一個(gè)現(xiàn)在新的系統(tǒng),這個(gè)系統(tǒng)在整個(gè)所有天河系統(tǒng)的7/8,另外1/8的部分是用國防科大自己的CPU,即:飛騰1000。這套系統(tǒng)應(yīng)該說是實(shí)驗(yàn)優(yōu)化的環(huán)境,有很多科技計(jì)算的程序,一些應(yīng)用都在這上面做測試,做實(shí)驗(yàn),有一些應(yīng)用也是一種實(shí)際的應(yīng)用,不斷的調(diào)試、測試和完善。
GPU異構(gòu)已經(jīng)成為當(dāng)今HPC的潮流
談到GPU近幾年的飛速發(fā)展,NVIDIA公司PSG全球副總裁Shanker Trivedi顯得非常興奮。Shanker認(rèn)為,天河一號A向全世界證明了異構(gòu)超級計(jì)算是一個(gè)非常好的科學(xué)計(jì)算,也是超算中心發(fā)展的方向。接下來全世界超算中心紛紛采用了GPU加速并行計(jì)算這樣的體系結(jié)構(gòu),像美國的高性能超算中心、德國的超算中心,都是在其國家或者地區(qū)最大的系統(tǒng),這些系統(tǒng)都紛紛的采用了GPU加速并行計(jì)算,而傳統(tǒng)的超級計(jì)算CPU只貢獻(xiàn)了整個(gè)高性能計(jì)算的10%左右,甚至還要更小,但是GPU貢獻(xiàn)了大部分,甚至是80%、90%,很多很多都是計(jì)算性能是從GPU貢獻(xiàn)出來的。
異構(gòu)系統(tǒng)能夠極大降低功耗
應(yīng)用方面,Shanker表示現(xiàn)在有300個(gè)以上應(yīng)用軟件。大量的應(yīng)用軟件,解決科學(xué)問題的工具已經(jīng)可以在CPU+GPU這樣的異構(gòu)體系上運(yùn)行。未來高性能加速計(jì)算的方向,已經(jīng)是一個(gè)超算的新紀(jì)元,這些進(jìn)步是大家公認(rèn)的,被科學(xué)界,被學(xué)術(shù)界,被產(chǎn)業(yè)界廣泛采用的一個(gè)體系結(jié)構(gòu)。
關(guān)于未來的發(fā)展,Shanker認(rèn)為有一點(diǎn)非常非常重要,因?yàn)槟柖梢延?jì)算機(jī)每十年漲一千倍,現(xiàn)在漲一千倍不是玩笑,但是同時(shí)電力消耗非常非常大,現(xiàn)在NVIDIA可以用新的異構(gòu)計(jì)算加速的方式,為未來大大的節(jié)省超算中心構(gòu)建的成本,同時(shí)節(jié)省功耗,降低能源功耗,節(jié)省費(fèi)用。
天河一號A推動(dòng)了國內(nèi)超算應(yīng)用
一直以來,超算中心面臨的最大問題就是閑置,如何能夠提高使用效率已經(jīng)成為迫在眉睫的問題。相比之下,國家超級計(jì)算天津中心在應(yīng)用方面做的還是非常不錯(cuò)的。據(jù)劉光明主任介紹,天河一號A這種異構(gòu)結(jié)構(gòu)的幾個(gè)典型應(yīng)用還是頗具代表性的,最典型的石油勘探數(shù)據(jù)處理,經(jīng)過天河一號A,已經(jīng)完成了具有自主知識產(chǎn)權(quán)的石油三維歷史偏移。
此類軟件過去掌握在國外公司手上,購買價(jià)格非常高,核心的部分還不外賣?,F(xiàn)在通過天河一號A,從2011年年初開始跟東方物探進(jìn)行合作,持續(xù)做了兩年的時(shí)間,整體性能從通用CPU的版本上升到CPU+GPU的版本,整體性能提升了大概六倍。
同時(shí)超算中心在這個(gè)基礎(chǔ)上又做了一個(gè)基于計(jì)算系統(tǒng)做的優(yōu)化,磁盤的數(shù)據(jù)處理系統(tǒng)變成一個(gè)基于內(nèi)存的。另外包括現(xiàn)在的氣動(dòng)力學(xué),大飛機(jī)的仿真,還包括一些典型的應(yīng)用,包括還有一些源的分析等等這些,現(xiàn)在應(yīng)用都不錯(cuò)。
聯(lián)合實(shí)驗(yàn)室助力區(qū)域發(fā)展
國家超級計(jì)算天津中心此次跟NVIDIA成立一個(gè)聯(lián)合實(shí)驗(yàn)室,主要是兩個(gè)方面,一個(gè)方面就是在異構(gòu)結(jié)構(gòu)上,用NVIDIA一些新的軟件提升用戶使用的效率。第二個(gè)層次,基于天河一號A新的通信處理技術(shù)、硬件和軟件,針對當(dāng)前熱門的云計(jì)算,物聯(lián)網(wǎng),智慧城市以及三網(wǎng)合一,這些方面超算中心要跟NVIDIA進(jìn)行深度合作。落在濱海開發(fā)區(qū),帶動(dòng)本地高端信息產(chǎn)業(yè)的發(fā)展,也做一個(gè)示范,帶動(dòng)我們國家在這些領(lǐng)域的快速發(fā)展。
天河一號A的誕生不僅僅是當(dāng)年的全球第一名,也為我國超級計(jì)算機(jī)發(fā)展注入了一針強(qiáng)心劑,由此極大帶動(dòng)了國內(nèi)超算的飛速發(fā)展,此外還在應(yīng)用方面有了長足的進(jìn)步。從HPC行業(yè)整體形勢來看,CPU+GPU已經(jīng)成為了一種新趨勢,所帶來的是超高的性能和更低的能耗,這一點(diǎn)是傳統(tǒng)基于CPU的系統(tǒng)所無法比擬的。除此之外,我們更加關(guān)注異構(gòu)環(huán)境的編程與軟件,經(jīng)過多年來的耕耘,也看到了NVIDIA在 CUDA和OpenACC等方面的進(jìn)步,但進(jìn)一步的發(fā)展還是需要更多企業(yè)與用戶來共同推動(dòng)。硬件方面,GPU的功耗問題一直是業(yè)內(nèi)關(guān)注的焦點(diǎn),相信更多的產(chǎn)品類型、更低的功耗將會成為新一代GPU的發(fā)展方向,讓我們拭目以待!