傳統(tǒng)“云”方案的挑戰(zhàn)

但是,如何有效利用云的方式取決于應用,對于計算密集型和I/O密集型的高性能計算應用,傳統(tǒng)的云計算解決方案往往束手無措,其主要的障礙包括:

1.I/O瓶頸

當前許多云架構(gòu)建立在服務器虛擬化技術(shù)之上。由于虛擬機的I/O實現(xiàn)機制不同,在許多系統(tǒng)平臺上會嚴重影響應用的網(wǎng)絡延遲和訪問帶寬,造成額外的資源需求,降低了整體運算性能。對于一些基于MPI的并行程序,其性能甚至可以相差數(shù)倍。

2.數(shù)據(jù)瓶頸

高性能計算通常需要對大量的非結(jié)構(gòu)化數(shù)據(jù)進行訪問,由于云計算環(huán)境中所提供的計算平臺具有多樣性和靈活性的特點,需要考慮為不同平臺提供統(tǒng)一的高速數(shù)據(jù)訪問性能、全局命名空間和多種應用訪問協(xié)議支持,同時支持和計算資源快速分配相匹配的數(shù)據(jù)管理功能。根據(jù)應用需求,存儲容量應當能夠動態(tài)增加或移出,確保信息始終可用。

3.管理瓶頸

傳統(tǒng)的高性能計算,其資源一般相對固定,通常通過資源和負載管理軟件來提高資源的利用率,在云計算環(huán)境中,資源上限遠大于一般應用的需求相比, 如何有效地結(jié)合負載管理和資源配送,提高總體系統(tǒng)利用率和用戶服務質(zhì)量,同時滿足特定應用高峰時間的需求,是構(gòu)建高性能計算云所必需考慮的問題。

因此,對于高性能計算中心來說,需要結(jié)合其自身的應用特點和云計算平臺的優(yōu)勢,通過虛擬化技術(shù)和自動化技術(shù),同時支持物理機和虛擬機環(huán)境,實現(xiàn)硬件資源和軟件資源的統(tǒng)一管理、統(tǒng)一分配、統(tǒng)一部署、統(tǒng)一監(jiān)控和統(tǒng)一備份,打破單個運算對資源的獨占,提供動態(tài)的高性能計算服務平臺。

高性能計算云的構(gòu)成

高性能計算云包含以下關(guān)鍵組成技術(shù):

1.統(tǒng)一的用戶和服務管理平臺

需要提供統(tǒng)一的云計算服務管理門戶,進行整體資源管理和服務流程管理,使平臺管理員和用戶可以進行自助式的各項服務管理操作,包括資源池的管理,資源管理和監(jiān)控,用戶服務的開通、停止、變更,用戶管理,資源使用情況統(tǒng)計,服務申請及狀態(tài)查詢,能耗與節(jié)能策略管理、操作系統(tǒng)鏡像和軟件包管理等等。

根據(jù)高性能計算應用的特點,系統(tǒng)應提供不同的應用模板來支持不同分布式應用(如Hadoop,MPI集群)的快速部署,以及服務器之間的關(guān)聯(lián)關(guān)系,如IP地址的指向,端口的匹配等等。

2.統(tǒng)一資源池管理

在傳統(tǒng)的計算資源管理模式中,管理員需要考慮每一個計算資源、每一個應用系統(tǒng)的配置情況,需要考慮每一個應用系統(tǒng)所需要的各種計算資源,包括服 務器、存儲、網(wǎng)絡、應用系統(tǒng)等等,這種管理模式的管理成本高,也讓管理員的工作變得非常復雜,需要人為考慮和干預的過程非常多,容易造成管理上的失誤。同 時,管理員很難對數(shù)據(jù)中心內(nèi)的計算資源和應用系統(tǒng)進行全盤考慮,不利于數(shù)據(jù)中心的整體優(yōu)化。

云在對計算資源的管理模式上采用池化的辦法,通過服務器、存儲、網(wǎng)絡等虛擬化技術(shù)將計算資源按照不同的標準組織成不同的資源池。在一個資源池 內(nèi),可以包括服務器、存儲空間、網(wǎng)絡端口等。這樣,在一個資源池中我們就可以為某一個應用系統(tǒng)提供所需要的所有資源。通過云計算的自動化功能,云計算的管 理員可以方便、快速地在資源池中定制化地選擇應用系統(tǒng)需要的計算資源配置,并在使用結(jié)束后進行快速回收。

3.支持物理機和虛擬機環(huán)境的動態(tài)部署引擎

為了提供計算所必需的高性能,需要同時提供包括虛擬機和物理機環(huán)境的快速、動態(tài)部署功能,并支持專用的高性能、低時延計算網(wǎng)絡,如Infiniband、萬兆以太網(wǎng)等。

在整體方案中,通??梢詣澐忠徊糠仲Y源進行虛擬化,從而提供一個共享的開發(fā)測試環(huán)境給用戶,便于用戶在正式提交作業(yè)之前進行程序的調(diào)試和試運 行。在一些具體的應用場景上,針對一些對性能要求很高的計算任務,虛擬化帶來的性能開銷不可忽略,因此可以考慮在不虛擬化的情況下進行資源的分配和管理。

4.靈活的服務接口

最終用戶可以通過云計算管理平臺獲取自己項目獨占的計算資源,包括硬件、應用軟件和操作系統(tǒng)等,用戶可以在計算資源上按照自己的需求進行個性化 調(diào)整。另外,用戶也可以通過云計算管理平臺部署的計算資源上的作業(yè)管理系統(tǒng),以排隊的方式和其他用戶共享計算資源,來進行作業(yè)的運算。

根據(jù)多年的探索和實踐,IBM正在積極地與行業(yè)領(lǐng)先的獨立軟件開發(fā)商、企業(yè)以及高校合作,將私有云計算平臺擴展到高性能計算領(lǐng)域。通過高性能計算云管理套件,可以將獨立的高性能計算資源連接成一個私有云,從而幫助用戶更高效地利用他們的高性能計算資源。其參考架構(gòu)如下圖所示,獨立的高性能計算資源連接成一個私有云。

為實現(xiàn)更智慧的計算平臺,需要采用新的方法來設計和建設高性能計算中心,以便做到專為數(shù)據(jù)設計,針對任務進行調(diào)優(yōu),并且在云中管理。

分享到

zhabin

相關(guān)推薦