中國科學院院士,陳潤生

會上,中國科學院院士,陳潤生先生發(fā)表了,名為《基因組,大數據與精準醫(yī)學》的主題演講。他從基因組、大數據與精準醫(yī)學三個方面全面闡述了大數據對于醫(yī)療行業(yè)的應用,并指出精準醫(yī)學是組學大數據跟醫(yī)學的結合,就是把近年來從基因組開始,人們在分子水平上了解那一信息運用到實踐當中來,這樣的過程就成了精準醫(yī)學。這樣的大數據包括基因組、蛋白組、帶學組等等這些組學數據用到當前的醫(yī)療實踐當中。

以下陳潤生院士的演講實錄:

首先祝賀咱們這個大數據中心的成立,它將為整個大數據事業(yè)的發(fā)展,特別為促進我們國家醫(yī)療大數據的整合作出重大的貢獻。我今天主要跟大家交流一下關于大數據跟精準醫(yī)學方面的一些個人的理解。

大家知道2015年1月20日美國總統(tǒng)在發(fā)表發(fā)言首先提出要開展精準醫(yī)學的研究,精準醫(yī)學就開始在全世界傳播開來,在座的有衛(wèi)計委的領導,這個消息很快傳播到國內,國家的主要領導人,習總書記、李克強總理也都有重要的批示,來推動我國精準醫(yī)學的開展,所以在2015年的年終就布置了關于以精準醫(yī)學命名的重大專項,然后2016年第一批的項目就開始啟動了。第二批的項目正在評審當中,所以這樣的話就使得精準醫(yī)學在我們國內也在蓬勃的開展。我下面主要就精準醫(yī)學談四個方面的我個人的一些看法。

大家知道所謂精準醫(yī)學實際上首先就是來自對人類遺傳密碼的破譯,這就是一段人類遺傳密碼。我們知道我們每個人,每個細胞里面在座的都是醫(yī)學大數據相關的專家,對這個非常清楚。每個人都有一份遺傳密碼,總得量是3×10的總次方,是一條線的??梢韵胂筮@么長的一段密碼將包含我們生長發(fā)育和遺傳的主要信息,這也是自上個世紀90年代開始破譯的,破譯以后就使得人類在生命活動當中的知識深入到很多水平。

什么是精準醫(yī)學?我第一個談的精準醫(yī)學的核心是什么?國內很多專家都對精準醫(yī)學提出了各自的看法,當然這些看法都是非常有益的,但是要實現精準醫(yī)學它的核心是什么?我覺得精準醫(yī)學的本質其實可以概括為一句話,精準醫(yī)學就是組學大數據跟醫(yī)學的結合,就是把近年來從基因組開始,人們在分子水平上了解那一信息運用到實踐當中來,這樣的過程就成了精準醫(yī)學。這樣的大數據包括基因組、蛋白組、帶學組等等這些組學數據用到當前的醫(yī)療實踐當中,一定會提高醫(yī)療實踐的效率,提高診斷的效率,提高治療的效率。

因此未來的趨勢將是很清楚的,不管大家同意與否、接納與否,大數據將很快的應用到大家的生活當中來,一定會蜂擁到所有臨床單位。這個趨勢是很明朗的,精準醫(yī)學告訴我們一件事就是大數據要來了。大數據跟醫(yī)療有關的一定會很快的進入到所有的醫(yī)療單位,為醫(yī)療的效率服務。所以精準醫(yī)學的核心其實就是非常明確的一件事,就是把組學大數據納入到臨床醫(yī)學當中來,這實際上是自上世紀90年代由人類基因組破譯而產生的所謂的轉化醫(yī)學、個體化醫(yī)學等等的一個概括和總結,實際上就是上世紀90年代整個分子生物學的進展納入到臨床醫(yī)學當中的一個表現,所以精準醫(yī)學的內涵是非常明確清楚的,就是組學大數據介入到臨床實踐當中來這么一件事。

第二個我要說的既然這個事情那么明確,它為什么會引起各個領導人,包括美國很多西方發(fā)達國家,也包括我們國家很多領導人重視精準醫(yī)學?這個大數據進入到臨床實踐當中來,除了能夠提高醫(yī)療效率之外,會不會帶來哪些本質的東西?這些本質的東西足以使得各國領導人關心,到底精準醫(yī)學的深遠意義在什么地方?我們也可以用一句話來說,精準醫(yī)學實際上它的本質意義在于精準醫(yī)學可以推動健康醫(yī)療體系的概念發(fā)生本質的變化,也就是說精準醫(yī)學可以促進人們在醫(yī)療體系的概念上發(fā)生根本的變化。我們知道,現在的醫(yī)療體系的概念是什么?是診斷治療,現在的醫(yī)療體系是以病人為對象,以醫(yī)院這樣的治病的設施為核心,以大夫作為實施者來實現的這樣一個以診斷治療為核心的體系。

而精準醫(yī)學,大數據的介入將使得我們醫(yī)療體系發(fā)生什么樣的變化?大家可以想像,未來由于大數據的介入,這個時候整個醫(yī)療的對象不再是哪一個病人的具體個人,而是面對全民,面對全部生長周期,就是生活在我們國家或生活在世界上每一個人,從生到死整個過程他的健康狀況都可以由精準醫(yī)學的發(fā)展而得到評估,得到預測,得到干預。這樣的話就使得這個疾病有可能延緩發(fā)生,有可能發(fā)生的輕一點,有可能根本不發(fā)生。那么這樣一個過程大家可以看到,這個是非常大的差別?,F在是以診斷治療為主,未來由于精準醫(yī)學的推動,將以健康保證為主。

這樣一個本質的變化一定會體現在生產的發(fā)展上,也就是說伴隨著精準醫(yī)學概念的深入普及,相應的產業(yè)會得到發(fā)展。因此有人估計到2018年,很快一兩年之內,伴隨著精準醫(yī)學的產業(yè),可以得到2千億美金的規(guī)模,相當于萬億人民幣,所以在任何國家里面它會對GDP有一定影響,所以這樣一個醫(yī)療本質概念上的變化而導致產業(yè)上的變革,一定會引起各國領導人的關心,所以從這種意義上來講精準醫(yī)學是有深遠意義的,而不是僅僅是單純停留在為醫(yī)療提高一定的效率,而更深遠的是改變整個醫(yī)療體系的概念,從而推動新興的相關產業(yè)的發(fā)展,而這個產業(yè)規(guī)模是巨大的。

因此,各國領導人都把精準醫(yī)學研究已經成為新一輪國家科技競爭和引領國際發(fā)展潮流的戰(zhàn)略制高點,就把精準醫(yī)學提高到國策戰(zhàn)略的高度來看待。美國大家知道已經開展了所謂精準醫(yī)學計劃,他的計劃的核心當然我不重復了,這個PPT留下供大家參考。這樣的話我們知道美國要測100萬自然人的整個的遺傳密碼,目前測了68萬人,進展很快。我們知道在奧巴馬離開總統(tǒng)位置之前,特意又追加了18億美金來推動美國精準醫(yī)學的研究,所以在美國是積極促進精準醫(yī)學的發(fā)展。

同樣在歐盟跟他的成員國,包括英國、法國也都在推動精準醫(yī)學計劃。英國大家知道要測10萬個腫瘤和罕見病病例,這都是10萬、100萬量級的。日本也在推動他的精準醫(yī)學。那么精準醫(yī)學將在哪些方面來促進新的產業(yè)的發(fā)展,我想精準醫(yī)學概念上的轉變至少在如下四個方面來推動產業(yè)上的創(chuàng)新發(fā)展。

第一個,海量的生物樣本庫和數據庫產業(yè)的發(fā)展。大數據將來的依托就是大量的海量的數據庫,它的來源就來自于大量的樣本。我們知道精準醫(yī)學是伴隨著大的隊列,大的海量樣本的測量,所以第一個產業(yè)當然要推動百萬量級的海量的樣本量的建立。過去的樣本都是小的,你要測一百萬人,要得到一百萬人活體樣品,讓他有效的搜集,有效的搜集合適的測序樣品,有效的保存到數據庫里面,所以第一個測序產業(yè)就是海量的樣本庫和數據庫產業(yè)的發(fā)展。

第二有了這些樣本當然要測量,以測量基因組為主的各種各樣的測序行業(yè)的發(fā)展,包括測量基因組序列,測量蛋白序列,代謝產物的序列等等一系列的,大概有人估計到2018年光是測序產業(yè)的發(fā)展可以到117億美金,我自己估計恐怕要比這個數量要大得多,因為我們知道現在國際上正在發(fā)布一個新的測序系統(tǒng),這個系統(tǒng)將有希望使得我們測一個人的遺傳密碼能夠可以達到只花700塊人民幣這樣的水平,如果是這樣的話每個人都可以,相當于一個醫(yī)院的常規(guī),所以很多醫(yī)院都可以測自己的數據。所以這個是一個非常巨大的數,當然不僅僅是基因組,還有轉錄組、蛋白組,所以推動第二個產業(yè)就是以基因組為代表的組學數據的獲取行業(yè)。這個行業(yè)目前國內有成百上千個小的公司已經成立了,正在推動測序產業(yè)的發(fā)展。

第三這是一個非常重要的值得關注的產業(yè),我個人覺得雖然艱苦,但是這個性能價格比非常好的產業(yè),就是基于海量數據的測量結果,挖掘跟疾病相關的新的分子標的,我們知道現在用的分子Mark很少,而且不準,我們將來挖掘新的分子標的,同時發(fā)現新的藥物設計的靶點。這個產業(yè)大家知道,你獲得一個新的靶點,設計一個新藥往往都是百億美金數量級的。所以第三個產業(yè)將推動挖掘新的疾病診斷的分子Mark和新的藥物設計靶點的這樣一個所謂深度挖掘的大規(guī)模信息,這也是我們健康大數據工作者的核心目標。

第四就是伴隨概念轉變而產生的適應精準醫(yī)學的各種各樣的設施,這個設施大概是千億美金數量級,所以大家可以看到這將是一個巨大的新興的產業(yè)。而我知道目前圍繞著四個方面國內實際已經動起來了,很多的公司成百上千的已經成立了。我們國家精準醫(yī)學的發(fā)展目標,在座的有衛(wèi)計委的,他們正在推動主導這個方面的發(fā)展。我們精準醫(yī)學的發(fā)展目標是和國際一致的。

第三個要講的實現精準醫(yī)學要有哪些基礎。精準醫(yī)學的是先有那些方面的準備,哪些是新的。有兩個方面,第一是要獲取組學數據并挖掘組學數據的內涵,也就是說第一個基礎就是得到這些組學數據,同時用各種辦法挖掘組學數據當中的跟疾病,跟生長發(fā)育相關的生物學的含義。這實際上用到兩個方面的東西,一個是組學大數據測量的技術,一個是組學數據挖掘的技術,所以第一個技術是要把當代國際上兩大科學前沿有機的融合起來,一個就是組學的獲取手段,一個是大數據的挖掘手段。有了這個以后,我們就能獲得在分子水平上跟疾病相關的大量的知識。有了這些知識我們就掌握分子水平的很多很多信息。

然后第二個基礎就是要建立我們獲得組學數據那些變異跟疾病臨床表現之間的關系,要假設這樣一個橋梁,這就是要把基因型跟表現型連起來,基因型就是挖掘出來的組學數據的變化,表現型就是疾病的表型,把這連接起來,這需要發(fā)展大量的生物信息,生物網絡和知識,這兩個組合起來了我們精準醫(yī)學相關的手段就有了,然后我們應當緊密的結合當代臨床的影像學、生化學、醫(yī)生的知識緊密結合起來,就能做到精準醫(yī)學有效的為當前的臨床服務,而不是把精準醫(yī)學的發(fā)展和當前的臨床對立起來,這樣的想法是錯誤的。

第四個我要講的也是我樂意多說幾句的,就是精準醫(yī)學既然從概念上來講有變革,能促進新的產業(yè)的發(fā)展,現在走到哪一步?我個人覺得目前精準醫(yī)學才剛剛上路,為什么這樣說?因為在精準醫(yī)學的概念下,我們還有太多的挑戰(zhàn),還有巨大的困難,還有太多的問題沒有解決。那么我們才剛剛走上精準醫(yī)學的路,只有這些問題克服了,精準醫(yī)學才能更好的實施。在這里有很多的困難,根據時間的關系我舉一兩個例子來說明精準醫(yī)學遇到的挑戰(zhàn)。

第一個挑戰(zhàn)在組學方面就是說我們可以測基因組,測轉錄組,我們對基因組的了解當前是什么狀態(tài)?我自己覺得我們在我們的基因組當中存在大量暗物質,基因組當中存在大量的暗信息,也就是說我們自己對自己的遺傳密碼了解還是初步階段。這是我們的遺傳密碼,現在我問的問題是當前集中全世界在這個領域科學家的智慧,集中我們所有的知識,我們能解讀這個遺傳密碼的部分,從根本規(guī)律上能解讀的不超過3%,這就是基因組當中尊崇中學法則,編碼蛋白的部分,所以你現在即使花五六百塊錢,今年年底可以花七百塊錢測了遺傳密碼,能讀懂的就3%,97%都讀不懂,如果這都讀不懂精準什么?本身就讀不懂,它的變化當然就更不懂,所以目前我們真正能夠有用的部分。所以大家很多人都在炒一個概念,說要測高端人群檢測自己的遺傳密碼。我告訴大家不是沒有用,有用的部分只有3%,97%你是解決不了的,那么你測了以后存著,存到哪年能解釋了。

所以我們現在要真正的能夠充分做到精準的話,就要不斷地來提高我們對另外的97%的解讀,也就是說我們要了解遺傳密碼當中那97%我們稱作遺傳密碼當中的非編碼序列,這非編碼序列總的結合占到人類遺傳密碼的97%,這些東西隨著它不斷地解讀,我們就會不斷地做到精準。那么現在我們能解讀的部分大約是3%,因此我們才剛剛起步,這只是從基因組這個角度來講的。

這一點我只引一篇文章,這個問題如此之明確,不用引太多的文獻。大家去查一查2010年12月17日的文獻,如果在自然科學領域里選10個人們最關心的問題,第一個出現的就是我剛才講的人類遺傳密碼當中的暗物質,我自己更傾向暗信息,所以這實際上是離我們最近的10年科技界對突出問題的看法,就是我們自己的遺傳密碼。

經過我們的努力很容易可以測了,但是我們知道規(guī)律的只是極小的一部分,大量的部分占97%的部分是暗的。在這里可以看到它說我們僅僅知道1.5%,那充其量是3%,換句話說大部分的遺傳密碼我們可以測量,但不能解釋,這就是整個目前精準醫(yī)學當中遇到的第一個挑戰(zhàn),就是我們對自身的遺傳信息大的部分依然從規(guī)律上并不了解。

下面我稍微展開一點給大家舉一些例子,大家知道從遺傳密碼來講,我們的97%都是非編碼序列,迄今為止我們并不了解它的規(guī)律。但是我給大家看一下這個伴隨著人類基因組模式的其他生物學遺傳密碼,最上邊是大腸桿菌,它是單細胞的生物,只有一個細胞,連核都沒有,這個時候它的原盤代表它的遺傳密碼,紅色的部分代表編碼蛋白質的部分。對于一個如此低的生物,測完它的遺傳密碼了,換句話說對一個非常低等的生物把遺傳密碼測完了就大致知道它怎么活著,怎么運作,制造哪些蛋白。上面中間的酵母Yeast它已經歸類到紅色部分減少了變70%,而非編碼部分增加到28%。我們再看最上面最右端的coli是只有960個細胞的多細胞生物,這是它的遺傳密碼當中已知規(guī)律的部分,紅色的部分,減少到遠遠小于5%,只有28%。

這個時候你看編碼蛋白質的已知規(guī)律的部分減少到17%,編碼部分增加到82%,下面的只有1.5%到2%,這和我們常規(guī)的意識完全不一致。我們可能想生物從簡單到復雜肯定是基因越來越多,恰恰相反,生物越復雜我們不知道規(guī)律的非編碼的部分所占的比例越來越大,所以從進化的邏輯來講我們不知道規(guī)律的這一部分一定具有重要的生物學功能,而且特別一定會跟生物的高級部分緊密相關。所以從遺傳密碼來講,我們可以得到一些結論,這97%雖然我們不知道規(guī)律,但一定是重要的。

第二個有人就開始問了,說你這部分它是重要的,除了它有遺傳密碼之外,第二個重要的東西就是它要活動,要發(fā)放信息,要用生物學的行話來講有轉錄組來產生。所以進入21世紀以后,全世界幾十個實驗同時在非編碼里面找有沒有轉錄產物,這個結論百分百肯定所有的編碼都有轉錄產物。這個意義上來講自本世紀最初的事件以后科技界不懷疑97%不僅有重要作用,而且每時每刻都在工作,所以非編碼序列,我們知道曹院長自己就做了很多非編碼的工作,所以非編碼就成為目前非常重要的研究熱點。

下面我給大家舉幾個非常簡單的例子,雖然我們的97%不知道,但是我們也得到一些信息,這某些點,某些小的轉錄本來到97%的是具有重要的點。幾個跟腫瘤有關的例子,第一個例子叫PCGEMI,這個轉錄本由于不造蛋白。下一個His-1,這個轉錄本導致白血病,第三個MALAT-1,這個是導致非小細胞肺癌的一個致癌因素,大家知道目前肺癌是我們國內增速最快的,也是發(fā)病率第一位的腫瘤,而80%以上的非小細胞肺癌。我剛才講的三個例子,在這種情況下大量腫瘤的診斷和治療是缺失的,腫瘤目前治療的困難也是非常重要的原因之一。

下面我們再舉三個自己跟腫瘤相關的工作。第一個工作,我和賀杰(音)一塊做的,找到了三個來自97%的異組分子標記。第二個工作,我們自己發(fā)現了一個TCF7,這個東西可以保持腫瘤細胞的干性。第三個工作,我們發(fā)現長非編碼,這個是可以跟所謂固有免疫系統(tǒng)的活性相關的,這個工作我們還正在進行深入,將來有機會也跟曹院長來請教,反正抗癌跟免疫系統(tǒng)相關的有一大堆的非編碼LA在起作用。這些說明97%跟健康疾病有關,但是這些東西并沒有納入到診斷醫(yī)療的事業(yè)當中來,所以我們精準醫(yī)學還需要很多工作要做。

H19是在非編碼區(qū)里的一個非常重要的東西,如果它能正常存在的話,可以像P53那樣通過類似細胞消亡的途徑來使得癌細胞消亡。所以我們知道實際上這幾個例子雖然只是支幾的例子,但是說明在97%里面從疾病的診斷里面來講有一個影像,這些東西作為整體迄今為止我們并不知道,所以當然我們并不能做到精準。

大家一定會問你說的這些例子,能不能告訴我在那97%里有多少好的東西沒有發(fā)現?大家知道在編碼的序列里面大約3%里面我們可以確定大約基因數是25000左右,97%類似基因的東西,我剛才舉了五六個例子,你能不能說明在那里估一下,到目前為止我們知道在人里面來自97%的所有元件的克隆還沒有實現,這是屬于倫理學、法律學的原因,但是我所說的是可以進行參照的,就是日本的在小鼠做的全長的轉錄本的克隆得到了181000個,其中編碼蛋白質的轉錄本僅有2000個,其余約161000個轉錄本全部歸屬于非編碼RNA。

當然在這個領域大家知道,曾經在2006年這兩位美國科學家獲得了非編碼諾貝爾獎勵,如果大家再開大一點的玩笑,我統(tǒng)計過遺傳密碼那3%的研究大約造就了50個左右諾貝爾獲得者,現在還有97%我們不了解,大家知道97%比3%大得多。所以我們在座的還有爭取個上千個諾貝爾獎金的領域,所以這還有一個領域,雖然對于精準醫(yī)學來講是挑戰(zhàn),但是對于創(chuàng)新來講確是巨大的機會。所以我們知道,我們這個精準醫(yī)學不僅僅推動醫(yī)學概念的轉化,促進了生產的發(fā)展,也為我們創(chuàng)新推開了一扇門,提供了一個無限大的機會。

所以我想精準醫(yī)學一個挑戰(zhàn)就是我們對組學數據的認識上還有巨大的差距,但是這個東西提示我們在這個97%的非編碼序列的研究一定會為疾病的診斷與治療提供全新的方向,為全新的藥物設計和研發(fā)提供新的平臺,一定會為動植物新品種、新性段的培育提供新的可能。所以這可以看到挑戰(zhàn),同時也是機會。

我再稍微講講關于數據方面的幾個挑戰(zhàn)。大家知道其實不僅僅是組學,大數據伴隨組學的介入,企事業(yè)存在各種層次的重要的挑戰(zhàn)。第一個挑戰(zhàn)就是計算量大、數據量大。我們知道大數據從IT行業(yè)來講是用四個V定義的,我們的組學數據肯定符合四個V,但是我們的大數據除了數據量大之外具有兩個特點,一個是目前迄今為止我們知道的增速最快的數據,就這個數據的增速比我們所知道這個人類的活動當中產生的其它數據都增速快,所以就遇到如何適應如此快速度的,就是加速度如此快的數據怎么處理?這個數據還沒有處理完,比它多得多的數據就來了,這是一個特點。

第二個特點就是它的信噪比不好,就是它存在很多測量不足。最好的基因組數據用Q20大約測序錯誤率是千分之一,蛋白組錯誤率就更高了。第二個數據源的缺點是缺失值,大家知道對于一個完備結合的缺失就帶來極大的缺點。

所以我們組學大數據的挑戰(zhàn)第一個是伴隨海量數據,必須了解這個海量數據是增速極快,同時數值源的信噪比不好但有缺失值。

第二是來自樣本的困難,雖然我們數據量很大,但是解決一個具體問題的時候,比方說解決某一個腫瘤,這個時候你所取得的樣本量實際上是大大受限的。我們知道由于分子數據的引入,任何一種疾病包括某一種特殊的腫瘤,在基因組的變異位點總是千數量級的。在座很多醫(yī)療專家一定會知道真正取樣本數是受限的,這就帶來一個問題,我們知道在座的搞數據建模的一定知道,我們要使得一個母體的模型能夠得到確切的解,邊界條件一定和自變量的數要匹配,如果有2000個自變量,外界的樣品數邊界條件應當大于2000,這樣系統(tǒng)才是收斂的,這是數學的基本東西,我發(fā)現很多幫助大家去做生物信息處理的人從來不考慮數學的邊界,不考慮這些問題,然后從外面拿了一個程序在計算機上調通了,管你什么數據一下就得到結果了。不收斂的情況下增加一個樣本結果完成變了,因為系統(tǒng)不收斂,是開放的,所以第二個來自樣本的問題更大,大家知道我們必須實的要考慮的體系自變量和取得的樣品相匹配,換句話說邊界條件要大于內部自變量,這是數學當中的基本規(guī)律,但是很多人并不清楚。

怎么解決這個問題?兩種途徑,一個大樣本。所以美國要做一百萬人,自變量是一萬我做一百萬人,就能保證系統(tǒng)是收斂的,能得到某些有效參數,這是一個辦法,但是這樣的行為只能是國家行為,不可能哪個人,當然這個國家行為必須集成統(tǒng)一,否則的話是沒用的。所以第一個辦法是增加樣本量,但是這個不是任何一個實驗室能做到的。第二個辦法是任何一個實驗室都能做到,也是我們生物信息專家發(fā)揮專長的地方,要采取合適的系統(tǒng)建模。什么意思?就是把你的這個大的系統(tǒng)充分的優(yōu)化成子系統(tǒng),讓每一個子系統(tǒng)的變量足夠的小,能夠跟你邊界條件匹配,這是顯示生物信息學家建模功底的考驗。這是第二個問題就是我們的樣本量小。

除此之外大家知道,其實我們對同一種疾病在微觀水平上變異并不產生在一個位點上,查肝癌,查肺癌,同樣的宏觀表現一樣,但是微觀的不在一個變化。如果你在臨床上找到一個宏觀臨床非常好的樣品,你非常滿意了,比如有一百個,然后去查微觀的變化,不再一個點上,可能這一百個在宏觀的分析非常好,在微觀上可能落到十個點上,有的點頻度是5%,有的在6%。所以實際上在分子水平看來,你的樣品是按照頻度分布的,并不是宏觀上的一種疾病,微觀的表型也是這樣的。你本來覺得取一百個不錯了,但是實際上一被位點一分的話就沒幾個了。

所以我們正在討論從精準醫(yī)學上其實要討論一些醫(yī)學哲學的概念,共同疾病在組學水平上什么是它的變化,你在宏觀上同一個肺癌,但是微觀是不同的位點,怎么看共同疾病什么指征能是它的同一種變化,如果找不到同一種疾病在不同位點的共同的變化藥廠就不能設計藥物。所以共同的疾病在分子水平上什么是它的共同變化,當然共同的疾病每個人可能有各自的表型,這是被大家一再講的,個體化醫(yī)療已經講的太多了,這很容易理解,但是我們必須要看到共同的疾病即使在位點上有不同,它一定還有在更高層次上一致性的東西,所以從分子考慮醫(yī)學的哲學來講,共同的疾病一定會找到在哪個層次上有共同的表型,而在哪個層次上有個性化的東西,使得我們還是可以采取共用和個性相結合的方案。

我們考慮的上面講的都僅僅是在對一個基因所引起的數據分析的問題,但是這些基因都不是孤立的,是互相關聯(lián)的。所以當你把整個分子水平數據用到一個地方來還要考慮一個復雜的網絡,這個網絡本身就進入復雜網絡的數據分析的階段。

大家知道這些網絡是動態(tài),因為生物是活的,人是活的,所以網絡每個節(jié)點的連接都是變的。另外它是有向的,往往在生物體里面是一個酶在作用。同時由于我上面的論述,所有網絡元件不僅是動態(tài)還有非編碼核算,所以是雙色的,所有的都是非線性的,這些問題也是所謂的精準醫(yī)學引進來的復雜的數學問題。我想這個復雜關系不僅僅是我們,也是數學家正在研究和解決的問題,所以這是更深一個層次的關于精準醫(yī)學遇到的數學或者信息分析當中的挑戰(zhàn)。

在更高層次上,我們剛才講的是單個基因,基因與基因之間的相互作用,這些東西都是精準醫(yī)學層面上,這些數據要和影像學、生化學的組合,就導致了更高層次的信息處理的問題,就是高度異質化數據的整合的問題。

最后一個問題是全局數據共享問題,這個問題我覺得是要接觸到最困難的問題,沒有全局的數據共享,就是我們國家在大數據時代做小數據的工作,你是體會不到大數據的意義。所以從這一點看來,不管是組學、生物學本身,還是從數據處理當中,都提出一些所謂嚴重的挑戰(zhàn),這些挑戰(zhàn)具有相當的學術上的難度,只有把這些問題逐漸克服,我們才能逐漸走向精準。但不管怎么說,這一條路,這一條概念是重要的,是會改變整個概念的,會促進新的產業(yè)的發(fā)展。但是只有在我們的努力下,才能一步步實現。我想利用這個機會我介紹這么多,希望大家批評,謝謝!

分享到

崔歡歡

相關推薦