圖2-1 Platform HPC軟件組件圖表

在開始任何軟件應(yīng)用之前,所有節(jié)點(diǎn)都要安裝操作系統(tǒng)和應(yīng)用軟件,這個功能是通過配置引擎提供的。在這里,用戶創(chuàng)建或者使用一個預(yù)先設(shè)定的配置模板,這個模板描述了計(jì)算節(jié)點(diǎn)軟件需要的特性。這個配置引擎通過一個選定的網(wǎng)絡(luò)接收啟動請求,給系統(tǒng)安裝相應(yīng)的操作系統(tǒng)和應(yīng)用軟件,安裝完成之后,就可以運(yùn)行系統(tǒng)和目標(biāo)應(yīng)用了。

盡管計(jì)算圖像可以運(yùn)行應(yīng)用軟件,但是對這些圖像的訪問通常是被任務(wù)調(diào)度器(Platform LFS)控制的,它作為一個工作負(fù)載管理器運(yùn)行。這個調(diào)度器的功能是確保在計(jì)算節(jié)點(diǎn)上的計(jì)算資源不被序列化的訪問過度消耗。

這個調(diào)度器的屬性通常是在安裝過程中定義的,可以配置這個調(diào)度器,將不同工作負(fù)載分配提交給任務(wù)代理之一(Platform LSF代理),這個任務(wù)代理在接收到任務(wù)調(diào)度器的請求時開始特定的工作負(fù)載,系統(tǒng)中有多個任務(wù)代理,每個操作系統(tǒng)圖像上有一個。

這個監(jiān)控和資源代理向配置代理和任務(wù)調(diào)度器返回每個操作系統(tǒng)圖像的系統(tǒng)狀態(tài)報告,并提供一個機(jī)制,在發(fā)生故障的時候發(fā)出警報,確保任務(wù)只在可用且有資源的操作系統(tǒng)圖像上進(jìn)行調(diào)度。

網(wǎng)絡(luò)門戶則為管理員提供了一個易于使用的機(jī)制,來控制和監(jiān)控整個集群,同時對于用戶來說,它提供了對系統(tǒng)易于使用的訪問,以進(jìn)行任務(wù)提交、管理和報告。

分享到

lihongliang

相關(guān)推薦