生物通 發(fā)表于:13年08月01日 11:31 [轉(zhuǎn)載] DOIT.com.cn
云計算已經(jīng)成為了一個十分熱門時尚的詞語,但具體在各研究領域中的應用還是個模糊的概念,近期來自軍事醫(yī)學科學院放射與輻射醫(yī)學研究所的研究人員發(fā)表綜述文章,闡述了云計算服務模式及其優(yōu)點,并以宏基因組分析應用 PathSeq 為例介紹使用云計算的步驟, 最后給出私有云構(gòu)建與云計算應用中的一些建議。
生物醫(yī)學正邁入大數(shù)據(jù)時代. 從 1977 年 Sanger測序法的問世到當前下一代測序(next-generation sequencing, NGS)技術(shù)的日漸成熟, 測序通量不斷提升而成本顯著降低. HiSeq 2000 單次運行可產(chǎn)生200 G數(shù)據(jù)量, 即以約 30倍的覆蓋度同時對 2個人類基因組重新測序, 且費用低于 1 萬美金. 不僅下一代測序分析面臨大數(shù)據(jù)存儲與計算的挑戰(zhàn), 公共醫(yī)療對大數(shù)據(jù)存儲的需求也日漸增長, 美國公共醫(yī)療衛(wèi)生領域的數(shù)據(jù)總量在2009年已達434 PB(1 PB=250字節(jié)), 并以每年至少 35%的速度增長, 其中絕大多數(shù)是需要長期保存的醫(yī)學影像數(shù)據(jù), 以及醫(yī)療健康檔案。
大數(shù)據(jù)浪潮為生物醫(yī)學帶來了前所未有的機遇, 將根本性的改變生物醫(yī)學基礎研究和醫(yī)療實踐,但同時生物醫(yī)學領域數(shù)據(jù)爆炸式的增長也對海量數(shù)據(jù)的存儲和分析提出新的挑戰(zhàn)。
云計算是一種利用互聯(lián)網(wǎng)即可隨時隨地、按需便捷地訪問共享資源池的模型, 其體系架構(gòu)可分為 3 層: 核心服務、服務管理和用戶訪問接口。資源和功能服務化是云計算的核心理念, 硬件基礎設施、 平臺和應用程序都能以服務的方式通過網(wǎng)絡交付給用戶。
傳統(tǒng)醫(yī)療信息系統(tǒng)中的 IT 基礎設施往往是分散部署的, 由不同機構(gòu)或部門單獨維護和使用, 無法做到對基礎設施的統(tǒng)籌管理和醫(yī)療信息的有效共享, 這在無形中增加了患者的醫(yī)療成本. 而將云計算技術(shù)應用于醫(yī)學影像資料、 電子健康檔案等大數(shù)據(jù)的整合和管理, 對于推進醫(yī)療信息化建設有至關重要的作用。
研究人員綜述了云計算在生物醫(yī)學領域的最新研究進展, 首先闡述云計算服務模式及其優(yōu)點, 列舉基于云計算的大數(shù)據(jù)分析工具, 并以宏基因組分析應用 PathSeq 為例介紹使用云計算的步驟, 最后給出私有云構(gòu)建與云計算應用中的一些建議, 希望為基因組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學等生物醫(yī)學領域提供新的海量數(shù)據(jù)處理方法和思路。
文章最后指出,隨著下一代測序、 生物質(zhì)譜和醫(yī)學成像等醫(yī)學技術(shù)的迅猛發(fā)展, 人們可以更加深入地剖析疾病的成因, 分析藥物的有效性和毒性. 在通往個性化醫(yī)療的道路上, 海量數(shù)據(jù)處理是關鍵難題。云計算將大量計算資源、存儲資源和軟件資源虛擬化, 形成規(guī)模龐大的共享資源池, 可有效解決生物醫(yī)學對 IT 資源的彈性需求。
目前, 國內(nèi)云計算領域覆蓋面廣、參與單位多, 但仍與國外有相當大差距, 不僅缺乏類似EC2的彈性計算服務, 也缺乏類似 Galaxy 的成熟的生物醫(yī)學數(shù)據(jù)分析平臺. 此外, 云計算的服務可靠性、標準化和隱私安全等問題亟待解決. 盡管如此, 利用云計算解決海量數(shù)據(jù)處理難題仍是未來發(fā)展趨勢。