圖為曙光"云計(jì)算"解決方案拓?fù)浣Y(jié)構(gòu)圖

中國(guó)地質(zhì)大學(xué)(武漢)云計(jì)算平臺(tái)是由曙光5000A在基礎(chǔ)架構(gòu)上進(jìn)行了創(chuàng)新和改進(jìn),采用HPP(Hyper Parallel Processing)體系架構(gòu),融合了Cluster和MPP兩種計(jì)算機(jī)的優(yōu)勢(shì);曙光5000A的計(jì)算節(jié)點(diǎn)以TC2600系列刀片產(chǎn)品為主,也可以配置曙光其他服務(wù)器產(chǎn)品。既可以使用全限速無(wú)阻塞的Infiniband 網(wǎng)絡(luò)構(gòu)建通訊網(wǎng)絡(luò),也可以使用冗余萬(wàn)兆級(jí)聯(lián)的分區(qū)無(wú)阻塞Ethernet互聯(lián)網(wǎng)絡(luò);配置存儲(chǔ)系統(tǒng),既可以配置簡(jiǎn)單易用的DAS存儲(chǔ),又可以構(gòu)建高性能的FC或Infiniband SAN存儲(chǔ),提供較高的聚合I/O帶寬等。

計(jì)算子系統(tǒng)高性能計(jì)算節(jié)點(diǎn)部分共包括92個(gè)曙光CB65-F刀片服務(wù)器,共提供了736個(gè)2.6GHz處理器核心和1.5TB內(nèi)存,另外還提供了兩臺(tái)胖計(jì)算節(jié)點(diǎn),具備超強(qiáng)的計(jì)算能力,理論峰值運(yùn)算速度高達(dá)8.87Tflops(每秒8.87萬(wàn)億次浮點(diǎn)運(yùn)算)。

曙光提供的存儲(chǔ)子系統(tǒng)硬件部分是基于目前業(yè)界領(lǐng)先的高速I(mǎi)nfiniband互聯(lián)之上的全局共享并行IO架構(gòu),包括4個(gè)數(shù)據(jù)服務(wù)器、1個(gè)元數(shù)據(jù)服務(wù)器、一套12T的一級(jí)實(shí)時(shí)存儲(chǔ)和一套二級(jí)備份存儲(chǔ),軟件部分基于成熟的Lustre并行文件系統(tǒng),數(shù)據(jù)塊分散存儲(chǔ)于4個(gè)存儲(chǔ)管理節(jié)點(diǎn),降低數(shù)據(jù)丟失風(fēng)險(xiǎn)。和曙光集群管理軟件結(jié)合,對(duì)文件系統(tǒng)部署、文件系
統(tǒng)管理、文件系統(tǒng)快速恢復(fù)提供良好支持。(下圖為存儲(chǔ)結(jié)構(gòu)示意圖)

圖為中國(guó)地質(zhì)大學(xué)(武漢)高性能計(jì)算平臺(tái)存儲(chǔ)結(jié)構(gòu)示意圖

由于地質(zhì)學(xué)的特殊性,曙光為其云計(jì)算平臺(tái)設(shè)計(jì)了三套互聯(lián)網(wǎng)絡(luò)!基于Infiniband的高速通信網(wǎng)絡(luò)和基于千兆管理維護(hù)網(wǎng)絡(luò)和千兆作業(yè)調(diào)度網(wǎng)絡(luò),IB網(wǎng)絡(luò)和千兆以太網(wǎng)專(zhuān)網(wǎng)專(zhuān)用并互為備份。

管理診斷子系統(tǒng)和高集成度硬件控制單元也是此套方案亮點(diǎn)之一,新一代曙光5000A超級(jí)計(jì)算機(jī)系統(tǒng)具備業(yè)界最為完善的管理、診斷系統(tǒng)設(shè)計(jì)。全新管理平臺(tái)包括內(nèi)嵌于服務(wù)器節(jié)點(diǎn)的高集成度服務(wù)器硬件控制單元以及功能全面的管理軟件系統(tǒng)Gridview HPC 2.0
服務(wù)器硬件控制單元集成了IPMI2.0、KVM over IP、虛擬媒體、散熱控制以及電源管理等功能,能夠?qū)Ψ?wù)器節(jié)點(diǎn)實(shí)現(xiàn)硬件級(jí)別的全面資源管理。服務(wù)器硬件控制單元完全獨(dú)立于操作系統(tǒng),通過(guò)RJ45端口接入千兆管理網(wǎng)絡(luò),配合Gridview管理軟件實(shí)現(xiàn)對(duì)全部硬件資源的統(tǒng)一監(jiān)控和管理。

大規(guī)模視頻切換系統(tǒng)基于SKVM over IP技術(shù),支持本地視頻維護(hù)以及基于網(wǎng)絡(luò)的遠(yuǎn)程診斷,并具備極強(qiáng)的擴(kuò)展能力,是目前業(yè)界作為領(lǐng)先的視頻管理解決方案。

圖為GRIDVIEW管理界面

除了安全性能,在散熱設(shè)計(jì)上為了滿(mǎn)足中國(guó)地質(zhì)大學(xué)(武漢)超高密的系統(tǒng)散熱要求,服務(wù)器內(nèi)部設(shè)計(jì)了多處專(zhuān)用散熱通道,每個(gè)通道保障不同部件的散熱。通過(guò)獨(dú)立散熱通道,對(duì)部分發(fā)熱量的部件形成隔離空間,強(qiáng)制形成前后空氣對(duì)流,避免對(duì)周?chē)考纳嵊绊?。整個(gè)系統(tǒng)風(fēng)扇采用冗余結(jié)構(gòu)設(shè)計(jì)、能快速識(shí)別并能快速更換損壞風(fēng)扇,有效保障系統(tǒng)的穩(wěn)定性和系統(tǒng)良好運(yùn)行環(huán)境。

中國(guó)地質(zhì)大學(xué)(武漢)學(xué)院采用92臺(tái)刀片式服務(wù)器CB65-F作為計(jì)算節(jié)點(diǎn),峰值性能達(dá)到8.87Tflops。

CB65-F是曙光公司最新研發(fā)的新一代刀片式服務(wù)器產(chǎn)品,并專(zhuān)為HPC進(jìn)行優(yōu)化設(shè)計(jì),單節(jié)點(diǎn)linpack效率超過(guò)80%。其在國(guó)內(nèi)擁有大量部署,如下圖所示為CB65-F的系統(tǒng)結(jié)構(gòu)圖,兩顆處理器通過(guò)AMD Hypertransport總線(xiàn)直接實(shí)現(xiàn)互聯(lián),互聯(lián)帶寬高達(dá)8GB/s。每個(gè)處理器通過(guò)集成的內(nèi)存控制器訪(fǎng)問(wèn)四通道內(nèi)存系統(tǒng)。南橋芯片基于高性能的HT2100,實(shí)現(xiàn)2個(gè)高速PCIEx8和2個(gè)千兆以太網(wǎng)擴(kuò)展。

除上述硬件外,中國(guó)地質(zhì)大學(xué)武漢學(xué)院選用曙光8-way 64位服務(wù)器A950系統(tǒng)作為胖計(jì)算節(jié)點(diǎn)。共采用2臺(tái)曙光8-way A950服務(wù)器、16顆AMD 64位2.5GHz shanghai CPU構(gòu)建胖計(jì)算節(jié)點(diǎn),提供640G flops的主頻峰值計(jì)算能力。曙光A950的優(yōu)勢(shì)在于CPU以及內(nèi)存的擴(kuò)展能力,系統(tǒng)支持最多達(dá)32個(gè)CPU的并行編程,并行支持所有的編程模式(共享變量和消息傳遞),具有極高的編程可移植性。同時(shí)系統(tǒng)64位和32位的全方位的支持使得其再開(kāi)發(fā)和使用高性能計(jì)算機(jī)軟件更加容易,可移植性更強(qiáng)。8P系統(tǒng)中采用交叉互聯(lián)架構(gòu)實(shí)現(xiàn)相距最遠(yuǎn)的兩顆處理器之間最大hops數(shù)由直連架構(gòu)4跳減為3跳,由此大大降低了CPU訪(fǎng)存時(shí)延:

 圖為A950八路64位服務(wù)器系統(tǒng)總體結(jié)構(gòu)圖
中國(guó)地質(zhì)大學(xué)為了測(cè)試運(yùn)行環(huán)境,對(duì)運(yùn)行大型機(jī)的機(jī)房環(huán)境及設(shè)備運(yùn)行環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測(cè):

中國(guó)地質(zhì)大學(xué)(武漢)分院表示:學(xué)院云計(jì)算平臺(tái)的建立,對(duì)我國(guó)地質(zhì)勘探等研究領(lǐng)域的貢獻(xiàn)不可估量。感謝曙光高性能計(jì)算在地質(zhì)研究領(lǐng)域多年來(lái)積累的豐富經(jīng)驗(yàn),正是出色的技術(shù)實(shí)力和行業(yè)經(jīng)驗(yàn)的結(jié)合,幫助了中國(guó)地質(zhì)大學(xué)(武漢)云計(jì)算平臺(tái)的搭建與實(shí)際應(yīng)用的需求。

分享到

zhabin

相關(guān)推薦