浪潮超算助中國農(nóng)牧第一品牌溫氏集團加速基因研究
?三大問題困擾種豬基因組研究
譜寫和研究種豬基因組序列并非易事,如何盡可能快的處理海量的基因組數(shù)據(jù)是困擾種豬基因組研究的第一道坎,也就是如何有效降低時間成本的問題。以溫氏集團聯(lián)合其他機構(gòu)繪制的種豬全基因組序列圖譜為例,需要先將基因組隨機打碎,然后進行測序,最后進行拼接。并且為保證拼接結(jié)果的精確性,上述過程需要重復(fù)8-10次,涉及到海量的基因數(shù)據(jù),高性能計算系統(tǒng)已成為數(shù)據(jù)分析中必備的基礎(chǔ)設(shè)施。
同時,高性能計算系統(tǒng)的設(shè)計構(gòu)建不能一概而論,需要根據(jù)基因研究的數(shù)據(jù)量大小、用戶量多少等具體需求有針對性的進行構(gòu)建。在基因組研究中,有的課題組數(shù)據(jù)量相對較少,但是科研項目卻涉及到生物信息分析,需要配置小型的分析平臺;有的課題組有1-2臺測序儀,數(shù)據(jù)量中等,至少需要一套十幾個節(jié)點的計算設(shè)備。在數(shù)據(jù)分析中,基因組研究軟件種類繁多,不同類別的軟件應(yīng)用特征各異,如何在一套系統(tǒng)中讓軟件的效率最高,最大限度的發(fā)揮系統(tǒng)的性能至關(guān)重要。因此在配置系統(tǒng)方案時要考慮核心應(yīng)用或是關(guān)鍵應(yīng)用的應(yīng)用特征,如序列比對、序列拼接應(yīng)用IO吞吐大,內(nèi)存容量需求高,針對這類應(yīng)用要按需配置系統(tǒng)資源。
此外,在滿足基礎(chǔ)硬件設(shè)施的前提下,溫氏集團還關(guān)心軟件的運行或使用情況。在基因組研究中會涉及到如序列比對、序列拼接、結(jié)構(gòu)預(yù)測、功能注釋等眾多分析類別,大概涵蓋數(shù)十種軟件,安裝調(diào)試軟件就會耗費大量的時間,且多數(shù)據(jù)軟件需要在Linux的操作系統(tǒng)下,以全命令行的方式運行,使用起來很不方便,因此便捷化和統(tǒng)一的管理部署在基因組研究中顯得尤為重要。
浪潮超算為基因組研究提供有力硬件支撐
針對溫氏集團對于原有高性能系統(tǒng)集群改造升級的需求,浪潮在系統(tǒng)設(shè)計構(gòu)建集群過程中,結(jié)合數(shù)據(jù)的產(chǎn)出量、軟件應(yīng)用等特征,為溫氏集團設(shè)計構(gòu)建的超算系統(tǒng)采用“瘦節(jié)點+胖節(jié)點”結(jié)合的混合架構(gòu)、Infiniband專用計算網(wǎng)絡(luò)、以太網(wǎng)管理網(wǎng)絡(luò)方案和浪潮-TStor并行存儲系統(tǒng)。這種胖瘦結(jié)合的節(jié)點架構(gòu),搭配IB計算網(wǎng)絡(luò)和并行存儲,能更好的滿足不同計算任務(wù)的需求,充分發(fā)揮系統(tǒng)效能。
其中,瘦節(jié)點主要進行比對、注釋,snp查找等內(nèi)存需求相對較小、計算相對密集的計算,本次根據(jù)溫氏集團需求,浪潮采用了NX5440M4刀片服務(wù)器做計算節(jié)點,該服務(wù)器具備高密度、高擴展特性,在8U機箱空間內(nèi)可以放置20臺NX5440M4。
胖節(jié)點主要進行拼接等內(nèi)存消耗較大的操作,采用浪潮明星產(chǎn)品八路服務(wù)器TS860G3,配置8顆目前X86體系中計算速度快的Intel Xeon E7-8860V3系列處理器,搭配1TB內(nèi)存,滿足大型序列拼接應(yīng)用需求。
在網(wǎng)絡(luò)方面,由于基因計算中的多數(shù)應(yīng)用帶寬較大,對延遲的要求高,浪潮采用Infiniband網(wǎng)絡(luò)方案,IB網(wǎng)絡(luò)相對于以太網(wǎng)的最大優(yōu)勢就是極低的延遲,端到端的延遲最少可達200納秒,而以太網(wǎng)經(jīng)過優(yōu)化也僅到3微秒左右??梢栽跐M足網(wǎng)絡(luò)需求情況下節(jié)省用戶的系統(tǒng)構(gòu)建成本。
存儲系統(tǒng)則采用浪潮專業(yè)并行存儲,能夠保證生物信息學(xué)數(shù)據(jù)的安全可靠,最大限度地提升存儲的讀寫帶寬,保證基因相關(guān)應(yīng)用對存儲中數(shù)據(jù)的頻繁讀寫的性能,通過lustre并行文件系統(tǒng)能提供完善的管理界面,并通過用戶配額管理工具實行資源按需分配,保障溫氏集團的多個客戶端使用需求。
浪潮G1000基因一體機軟件對基因應(yīng)用對癥下藥
除了超算系統(tǒng)設(shè)計構(gòu)建之外,浪潮還為用戶提供了浪潮G1000基因一體機軟件,這款基因一體機軟件針對生物基因應(yīng)用定制化開發(fā),可以解決傳統(tǒng)高性能系統(tǒng)跟生物基因應(yīng)用軟件契合度不高、不能充分發(fā)揮集群性能、軟件效率不高等問題,使研究人員專注于基因研究,從繁瑣的集群維護和配置中解放出來。
浪潮G1000基因一體機整合和預(yù)置多種常用的生物信息流程,如全基因組重測序分析流程、外顯子分析流程等,流程會進行定時更新和升級。用戶直接選擇預(yù)定義的流程,確定參數(shù)和數(shù)據(jù)集后即可提交任務(wù)。以全基因組重測序分析為例,所涉及的BWA、Samtools、GATK和ANNOVAR等多種軟件可以按照預(yù)定義的工作流程自動執(zhí)行。
浪潮G1000基因計算平臺
溫氏集團相關(guān)負責(zé)人介紹,與傳統(tǒng)的解決方案相比,浪潮G1000基因一體機方案無論從經(jīng)濟性、易用性和高效的計算能力等各方面都具有較大優(yōu)勢,能夠幫助我們快速部署和高效實施基因組研究應(yīng)用。