HPC集群系統(tǒng)的選擇指標(biāo)
比特網(wǎng) 發(fā)表于:10年10月14日 09:46 [轉(zhuǎn)載] 比特網(wǎng)
HPC集群系統(tǒng)的選擇指標(biāo)
Linpack是最常被提起的性能指標(biāo),因?yàn)槿虻腍PC TOP500排行榜和中國(guó)TOP100排行榜都是以它為標(biāo)準(zhǔn)對(duì)HPC系統(tǒng)進(jìn)行排名,企業(yè)用戶在選購(gòu)HPC時(shí)也非常關(guān)心Linpack值,同時(shí)也由于中國(guó)近兩年來(lái)的HPC集群都創(chuàng)造了Linpack中國(guó)新高,因此更加引起了用戶關(guān)注。
不過(guò)這一僅僅注重硬件性能的說(shuō)法早已遭受質(zhì)疑,英特爾中國(guó)服務(wù)器產(chǎn)品事業(yè)部產(chǎn)品經(jīng)理顧凡曾多次堅(jiān)持"超級(jí)計(jì)算機(jī)只是個(gè)工具,高性能計(jì)算應(yīng)當(dāng)回歸應(yīng)用"的觀點(diǎn),而來(lái)自863高性能計(jì)算機(jī)評(píng)測(cè)室主任、清華大學(xué)計(jì)算機(jī)學(xué)院副主任陳文光教授也認(rèn)為,這兩個(gè)指標(biāo)還不是很夠,以峰值為導(dǎo)向的測(cè)試很有可能造成這與實(shí)際應(yīng)用不是很匹配,所以還要看應(yīng)用的性能。
陳文光介紹說(shuō),傳統(tǒng)的評(píng)測(cè)室僅在系統(tǒng)驗(yàn)收階段進(jìn)行測(cè)試,而全過(guò)程測(cè)試則是力求在設(shè)計(jì)和購(gòu)買(mǎi)、實(shí)施與驗(yàn)收等各個(gè)階段盡早發(fā)現(xiàn)系統(tǒng)存在的問(wèn)題,減少損失,評(píng)測(cè)方案主要包括:評(píng)測(cè)設(shè)計(jì)方案是否滿足需求、購(gòu)買(mǎi)什么樣的處理器、內(nèi)存多大等問(wèn)題。
面向應(yīng)用的高性能計(jì)算測(cè)試:
購(gòu)買(mǎi)評(píng)估的時(shí)候,系統(tǒng)還不存在:能否對(duì)處理器、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)、功耗等都進(jìn)行完整的測(cè)試?
首先請(qǐng)各家系統(tǒng)供應(yīng)商提供所構(gòu)建高性能計(jì)算機(jī)的一個(gè)節(jié)點(diǎn)進(jìn)行測(cè)試,測(cè)試僅對(duì)處理器和內(nèi)存的選取提供指導(dǎo)意見(jiàn),網(wǎng)絡(luò)存儲(chǔ)等指標(biāo)由其它輔助方法確定。網(wǎng)絡(luò)現(xiàn)在一般是40Gbps的Infiniband連接方案,但是是否全連接按照預(yù)算和使用模式來(lái)確定,I/O存儲(chǔ)按預(yù)算和應(yīng)用的I/O要求來(lái)選擇高端或者中高端產(chǎn)品。
應(yīng)用測(cè)試階段:選取哪些應(yīng)用進(jìn)行測(cè)試?選取的標(biāo)準(zhǔn)使什么?如何把評(píng)測(cè)結(jié)果歸結(jié)為性能指標(biāo)?
選取思路:重要客戶的代表性應(yīng)用, 5-10個(gè)即可覆蓋一個(gè)高校網(wǎng)格計(jì)算的典型應(yīng)用。英特爾HPC架構(gòu)師陳健在接受筆者采訪時(shí)曾表示,這個(gè)步驟主要由用戶完成,畢竟最后的應(yīng)用肯定用戶最了解,現(xiàn)在一般在選擇應(yīng)用作為測(cè)試的石油行業(yè)應(yīng)用時(shí),通常會(huì)選擇地震資料處理軟件GeoEast、Geodepth、GeoCluster等作為測(cè)試對(duì)象,主要的應(yīng)用是地震資料解釋、油藏模擬,而選擇的原則是真實(shí)、有代表性、可重復(fù)。
如何選擇處理器?
當(dāng)應(yīng)用確定后,也會(huì)進(jìn)行相應(yīng)的處理器選擇。如果該用戶多以計(jì)算密集型應(yīng)用為主,那么英特爾至強(qiáng)5600系列服務(wù)器處理器會(huì)是一個(gè)很好的選擇,至強(qiáng)5600系列處理器采用32nm制程工藝,這是英特爾處理器中首批采用該工藝、并最多集成了六個(gè)內(nèi)核的芯片產(chǎn)品。除此之外,該系列處理器集成了上一代產(chǎn)品的智能計(jì)算特性,如使用英特爾睿頻加速技術(shù)、英特爾超線程技術(shù)等。
在具體的時(shí)鐘頻率和功耗方面,至強(qiáng)5600系列中高端四核型號(hào)的最高主頻可達(dá)3.46GHz,封裝功耗為 130w;高端六核型號(hào)的主頻可達(dá)3.33GHz,封裝功耗問(wèn)95w。低電壓版的四核及六核處理器功耗僅為40w和60w,該系列處理器已經(jīng)成功打破12 項(xiàng)與雙路系統(tǒng)相關(guān)的性能紀(jì)錄。
而用戶如果多為內(nèi)存敏感型應(yīng)用,則可以選擇以至強(qiáng)7500為基礎(chǔ)搭建的胖節(jié)點(diǎn)進(jìn)行測(cè)試。憑借相當(dāng)于至強(qiáng)處理器 7400系列8倍的內(nèi)存帶寬,以及每個(gè)處理器搭配的16根內(nèi)存插槽帶來(lái)的相當(dāng)于前一代產(chǎn)品4倍的內(nèi)存容量提升,至強(qiáng)7500系列在四路服務(wù)器平臺(tái)中能夠支持高達(dá)1TB的內(nèi)存容量,而整體性能平均比上一代產(chǎn)品提高三倍之多。
至強(qiáng)處理器7500系列是首款具備機(jī)器校驗(yàn)架構(gòu)恢復(fù)功能的至強(qiáng)處理器產(chǎn)品,該功能可讓處理器與操作系統(tǒng)和虛擬機(jī)管理器協(xié)作,將系統(tǒng)從致命的錯(cuò)誤中恢復(fù)出來(lái)。而此前此功能僅用于安騰處理器和一些RISC處理器產(chǎn)品中。
測(cè)試程序規(guī)模:可在一個(gè)節(jié)點(diǎn)上執(zhí)行,可以放在一個(gè)節(jié)點(diǎn)的內(nèi)存里執(zhí)行執(zhí)行時(shí)間大概在1000s左右,清華大學(xué)在氣象預(yù)報(bào)領(lǐng)域應(yīng)用多一些,選取這樣的應(yīng)用程序來(lái)測(cè)試,因?yàn)樵u(píng)測(cè)本身也與開(kāi)銷(xiāo),因此不用選取耗時(shí)過(guò)長(zhǎng)的應(yīng)用。
測(cè)試技巧:采用相對(duì)性能法,將測(cè)試程序在一個(gè)參考系統(tǒng)上的執(zhí)行時(shí)間作為參考時(shí)間,將測(cè)試程序在待測(cè)系統(tǒng)上的執(zhí)行時(shí)間與參考時(shí)間的比值作為該測(cè)試程序在該系統(tǒng)上的性能;系統(tǒng)的整體性能為所有測(cè)試程序在該系統(tǒng)上性能的幾何平均。
陳文光教授認(rèn)為,對(duì)于這種評(píng)測(cè)應(yīng)當(dāng)避免理論峰值、Linpack性能等性能指標(biāo)的不足,根據(jù)實(shí)際使用的應(yīng)用程序來(lái)測(cè)試,測(cè)試單個(gè)節(jié)點(diǎn)可以對(duì) CPU內(nèi)存選型給予很好的指導(dǎo),對(duì)網(wǎng)絡(luò)的選取已經(jīng)有相關(guān)技術(shù)可預(yù)測(cè)并行程序的性能。
要點(diǎn)指標(biāo):優(yōu)化及未來(lái)的移植成本
盡管本文所談的是HPC硬件的選擇,但是在選擇過(guò)程中絕不應(yīng)該放棄對(duì)軟件優(yōu)化以及軟件移植成本的考慮,陳健表示,HPC的選擇絕非硬件的單純?cè)黾,尤其如果要更換平臺(tái)的話一定要將軟件代碼以及軟件優(yōu)化、代碼移植的成本和日后應(yīng)用考慮進(jìn)去。
考慮到全球超級(jí)計(jì)算機(jī)Top500榜單的分布優(yōu)勢(shì),以及筆者對(duì)國(guó)內(nèi)能源行業(yè)的應(yīng)用狀況了解,擁有一套共用工具的英特爾架構(gòu)會(huì)是理想的選擇。
這套工具也是為什么在這期Top500榜單中基于英特爾處理器的系統(tǒng)能取得靠前的位置的一個(gè)原因。剛剛上任的英特爾公司高性能計(jì)算業(yè)務(wù)總經(jīng)理Rajeeb Hazra介紹說(shuō),如果大家也跟蹤過(guò)此前的Top500 的話就會(huì)發(fā)現(xiàn),排名靠前的系統(tǒng)趨勢(shì)已經(jīng)從只跑一個(gè)應(yīng)用、負(fù)載一個(gè)應(yīng)用,到現(xiàn)在負(fù)載越來(lái)越多不同的應(yīng)用。
因?yàn)镮/A架構(gòu)系統(tǒng)跨多個(gè)應(yīng)用程序的能力非常強(qiáng),服務(wù)于多個(gè)不同應(yīng)用特征程序能力非常強(qiáng)。隨著TOP500排名靠前的系統(tǒng)會(huì)越來(lái)越多用于承載多應(yīng)用,IA架構(gòu)的系統(tǒng)應(yīng)當(dāng)呈現(xiàn)出上升的趨勢(shì)。
英特爾有一個(gè)非常大的優(yōu)點(diǎn)就是能夠隨時(shí)傾聽(tīng)用戶的聲音,無(wú)論是至強(qiáng)搭建的HPC集群還是MIC要解決的并行應(yīng)用,他們注意到了一個(gè)問(wèn)題,那就是能不能提供一套工具,將這看起來(lái)不同的平臺(tái)上的應(yīng)用編程環(huán)境統(tǒng)一起來(lái)。
英特爾希望無(wú)論對(duì)至強(qiáng)還是一個(gè)集成眾核的架構(gòu)的用戶來(lái)說(shuō),用來(lái)進(jìn)行代碼優(yōu)化、應(yīng)用調(diào)優(yōu)的是同一套工具,用來(lái)協(xié)調(diào)多核以及眾核的任務(wù),前任高性能計(jì)算業(yè)務(wù)總經(jīng)理Richard Dracott認(rèn)為,"只有軟件這部分才是我們的核心價(jià)值,因?yàn)槲覀儠?huì)幫助客戶用集成眾核的產(chǎn)品去適應(yīng)高度并行的應(yīng)用,并且在代碼方面付出極少的代價(jià)。"
而陳文光老師的測(cè)試方法也正好是"真實(shí)的應(yīng)用程序性能最重要"的體現(xiàn),不過(guò)無(wú)論是哪種方法,根據(jù)實(shí)際性能選擇硬件都應(yīng)當(dāng)是最應(yīng)該被優(yōu)先關(guān)注的一點(diǎn)。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.