挑戰(zhàn)一:數(shù)據(jù)量和計(jì)算能力的不匹配
一個(gè)細(xì)胞里有23對(duì)染色體,一個(gè)細(xì)胞的染色體拉開有兩米長(zhǎng),上面有30G個(gè)的基因序列。面對(duì)如此龐大的人類基因組序列數(shù)量,如何才能在有效的時(shí)間內(nèi)對(duì)基因序列進(jìn)行測(cè)試、比對(duì)和研究?
王丙強(qiáng)談道,測(cè)序儀全速運(yùn)轉(zhuǎn)每天所產(chǎn)生的數(shù)據(jù)超過10 TB。華大基因現(xiàn)在已經(jīng)有20個(gè)PB的存儲(chǔ)了,這些數(shù)據(jù)怎么計(jì)算?計(jì)算能力的匹配是個(gè)大問題。
最初,華大基因試圖采用CPU來壓縮數(shù)據(jù)的方法來解決問題,但是文件大小超過幾個(gè)GB甚至TB的時(shí)候,CPU就受不了。因此,華大基因開始考慮另一個(gè)方式——用NVIDIA Tesla GPU來加速數(shù)據(jù)的壓縮。通過與天津超算中心合作,把大部分重點(diǎn)的計(jì)算內(nèi)容都放到天河一號(hào)A上運(yùn)行。
挑戰(zhàn)二:臨床診斷要求高時(shí)效性
人類的基因中專有基因大概是小于5%,剩下90%都是非編碼的區(qū)域,非編碼區(qū)域就是奧秘所在。不同的人基因組99.9%是一樣的,只有剩下百分之零點(diǎn)幾不一樣,這才是真正值得關(guān)注的地方。如果基因變異發(fā)生在非編碼區(qū)域,可能會(huì)引起致命的后果。對(duì)于華大基因的基因研究工作來說,最基本的工作就是基因序列比對(duì),通過基因序列的比對(duì),來觀察出不同基因獨(dú)特的地方,是否有變異。
基因測(cè)序和比對(duì)也是臨床診斷中經(jīng)常用到的,如果說兩個(gè)星期出診斷結(jié)果,這是很多患者所不能接受的。因此,基因測(cè)序用在臨床診斷時(shí),時(shí)效性要求較高。然而,人類基因組測(cè)第一個(gè)人的基因組用了13年的時(shí)間,投資30億美金。
為了提升分析速度,華大基因從2010年開始跟英偉達(dá)合作,把一些生物信息的軟件放到GPU上去運(yùn)行。
王丙強(qiáng)把基因測(cè)序過程分為三個(gè)步驟:第一步是用到測(cè)序儀進(jìn)行測(cè)序。并把測(cè)序儀測(cè)出的原始數(shù)據(jù)做處理,經(jīng)過GPU處理,然后傳到計(jì)算中心去分析處理。第二步和第三步是做基因序列的比對(duì),把人的基因與科學(xué)上比較準(zhǔn)確的人的基因組作比對(duì),看有哪些不同的地方。
據(jù)王丙強(qiáng)介紹,在第二步和第三步的過程中,華大基因都用到了NVIDIA GPU進(jìn)行加速。
在NVIDIA Tesla平臺(tái)上,設(shè)計(jì)開發(fā)了針對(duì)基因信息數(shù)據(jù)的高效壓縮工具,同時(shí)針對(duì)造成分析瓶頸的計(jì)算任務(wù),如序列比對(duì)、變異檢測(cè)等基本工具,利用GPU技術(shù)進(jìn)行加速,從而提高分析效率,并降低數(shù)據(jù)存儲(chǔ)和計(jì)算分析的成本。
王丙強(qiáng)舉例說明了GPU對(duì)于基因研究所起到的加速作用,如果人的DNA上有一個(gè)點(diǎn)發(fā)生基因突變,過去在自己的計(jì)算中心做,需要好幾年才能完成,搬到天河一號(hào)上以后,通過NVIDIA Tesla GPU加速,只要5個(gè)多小時(shí)就能完成。
挑戰(zhàn)三:軟件和人才
軟件一直以來都是高性能計(jì)算非常關(guān)鍵的一個(gè)部分,計(jì)算能力再?gòu)?qiáng),如果軟件層面無法充分調(diào)用這些計(jì)算資源也是枉然。
在基因研究領(lǐng)域,最重要的兩個(gè)算法就是——海量數(shù)據(jù)的壓縮技術(shù)、序列對(duì)比和尋找基因變異。
數(shù)據(jù)壓縮方面,按照基因數(shù)據(jù)的特點(diǎn),采用以列為主的分塊壓縮方式,NVIDIA針對(duì)Tesla GPU設(shè)計(jì)了一組壓縮算法,以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達(dá)到10倍的性能提升。減少了處理時(shí)間,也間接提高了數(shù)據(jù)傳輸效率,降低存儲(chǔ)成本。
序列比對(duì)和尋找基因變異基因研究和臨床醫(yī)療應(yīng)用中兩個(gè)重要的分析步驟。兩者也是主要的計(jì)算瓶頸,特別在臨床應(yīng)用上具有更高的時(shí)效性要求。為此,借助NVIDIA Tesla平臺(tái),開發(fā)了應(yīng)用于序列比對(duì)的SOAP3/SOAP3-DP,以及分別用于個(gè)體和群體基因變異分析的GSNP和GAMA。
SOAP3/SOAP3-DP設(shè)計(jì)了新的索引數(shù)據(jù)結(jié)構(gòu),針對(duì)Tesla GPU架構(gòu)做了充分優(yōu)化,性能是其它主流軟件的數(shù)十倍,并且具有更高的準(zhǔn)確率和比對(duì)率。解決了基因研究中最基本的分析瓶頸,同時(shí)提高了后續(xù)基因變異分析的準(zhǔn)確度。
GSNP與其前身相比,采用稀疏表達(dá)格式優(yōu)化數(shù)據(jù)結(jié)構(gòu),同時(shí)運(yùn)用Tesla GPU實(shí)現(xiàn)高通量數(shù)據(jù)并行,原來處理一個(gè)人的數(shù)據(jù)需要三天以上的時(shí)間,GSNP僅需2小時(shí)左右,從而使得個(gè)體變異檢測(cè)初步達(dá)到快速臨床應(yīng)用的要求。
GAMA引入GPU的并行計(jì)算技術(shù)對(duì)多個(gè)位點(diǎn)進(jìn)行處理,加速計(jì)算過程。五百人規(guī)模計(jì)算分析,用普通計(jì)算機(jī)需要超過4年時(shí)間才可能完成,如果將計(jì)算在多塊GPU上并行進(jìn)行,可以使計(jì)算時(shí)間縮短到數(shù)小時(shí)。這一效率的提升使得生物學(xué)家可以加快解析基因變異與疾病關(guān)系的步伐。
最后,王丙強(qiáng)談到了人才招聘的相關(guān)問題。他表示,目前GPU計(jì)算的人才招聘還是存在一定困難,但是他相信,隨著學(xué)校相關(guān)課程的開設(shè),以及GPU應(yīng)用的越來越廣泛,這方面的人才也會(huì)越來越多。
附圖: