醫(yī)院的數(shù)據(jù)規(guī)模約為幾十T;區(qū)域平臺是基于EMR(個人健康檔案)及EHR(個人電子病歷)建立的,其數(shù)據(jù)量比上述兩種系統(tǒng)的總和還要龐大,通常的市級區(qū)域衛(wèi)生平臺的一年的數(shù)據(jù)規(guī)模約為上百T。
數(shù)據(jù)類型:根據(jù)日趨完善的國家標準,各系統(tǒng)產(chǎn)生的數(shù)據(jù)格式也日趨標準,但由于醫(yī)療的業(yè)務系統(tǒng)諸多,數(shù)據(jù)類型也呈現(xiàn)多樣化趨勢。不僅僅具有病人主索引系統(tǒng)中的結構化數(shù)據(jù),PACS系統(tǒng)中還存在Dicom、JPG的文件,手術系統(tǒng)中還會有視頻文件,用于病歷中的XML文件也是醫(yī)療應用中重要的數(shù)據(jù)類型之一。
醫(yī)療大數(shù)據(jù)方案設計
對醫(yī)療數(shù)據(jù)的采集、存儲、分析、展示是曙光醫(yī)療大數(shù)據(jù)方案的核心立足點。下圖是曙光醫(yī)療大數(shù)據(jù)的設計模型:
該模型由大數(shù)據(jù)支撐平臺及大數(shù)據(jù)應用平臺構成。大數(shù)據(jù)支撐平臺是醫(yī)療大數(shù)據(jù)應用的基礎環(huán)境,利用大數(shù)據(jù)管理的手段對不同的基礎硬件、基礎軟件、開發(fā)平臺從架構上進行規(guī)劃,從而滿足醫(yī)療行業(yè)大數(shù)據(jù)應用平臺的需求。大數(shù)據(jù)應用平臺則通過建立一套信息化、標準化、智能化的決策支持應用系統(tǒng),可方便醫(yī)療管理機構及醫(yī)療服務機構進行衛(wèi)生管理和決策指導。曙光的醫(yī)療大數(shù)據(jù)系統(tǒng)主要為醫(yī)療衛(wèi)生規(guī)劃指導、監(jiān)督管理、資源協(xié)調(diào)、疾病防控等方面提供服務。
大數(shù)據(jù)支撐平臺
大數(shù)據(jù)支撐平臺包括基礎設施層、數(shù)據(jù)存儲層、數(shù)據(jù)處理層、應用層以及管理層。
基礎設施層由曙光專為大數(shù)據(jù)定制的服務器及網(wǎng)絡構成的集群組成,是構建大數(shù)據(jù)應用的硬件平臺。
數(shù)據(jù)源所涉及的對象包括醫(yī)療機構、社康、門診,以及區(qū)公衛(wèi)機構,醫(yī)療機構的HIS、LIS、PACS、CIS;社康HIS、CIS、CHSS以及公衛(wèi)疾控系統(tǒng)、傳染病上傳系統(tǒng)等數(shù)據(jù)構成總體架構最基本數(shù)據(jù)源,數(shù)據(jù)源通過醫(yī)療機構、社康、公衛(wèi)等的前置機進行采集,再通過前置機內(nèi)置路由網(wǎng)關傳輸?shù)綌?shù)據(jù)平臺,數(shù)據(jù)源層完成了各個分散系統(tǒng)的數(shù)據(jù)采集及傳輸。
數(shù)據(jù)存儲層則基于曙光并行數(shù)據(jù)庫系統(tǒng)以及曙光Hadoop發(fā)行版及標準數(shù)據(jù)庫實現(xiàn)。用來存儲從每個醫(yī)療數(shù)據(jù)源收集來的海量結構化和非結構化數(shù)據(jù),
數(shù)據(jù)處理層對數(shù)據(jù)進行處理,其處理內(nèi)容包含:數(shù)據(jù)清洗、數(shù)據(jù)校驗、數(shù)據(jù)轉換。處理對象包含標準數(shù)據(jù)及非標準數(shù)據(jù),處理的數(shù)據(jù)結構包括非結構化數(shù)據(jù)、半結構化數(shù)據(jù)及結構化數(shù)據(jù)(如非結構化數(shù)據(jù)的簡單分析–過濾和統(tǒng)計、基于計算模型進行結構化數(shù)據(jù)和非結構化數(shù)據(jù)的統(tǒng)一關聯(lián)和統(tǒng)計處理、復雜的分析和挖掘以及復雜問題的近似模糊求解等操作)。被處理的數(shù)據(jù)最終轉化成符合醫(yī)療衛(wèi)生信息化標準的衛(wèi)生綜合數(shù)據(jù),標準數(shù)經(jīng)過ETL后存入醫(yī)療中心數(shù)據(jù)倉庫,為大數(shù)據(jù)應用做數(shù)據(jù)準備。
數(shù)據(jù)應用層為大數(shù)據(jù)應用平臺提供類型豐富的訪問接口,包括Search API、Pig、Hive QL以及曙光專為用戶設計的SJDBC(類JDBC)和UDF(用戶自定義函數(shù))接口,方便用戶的使用。
曙光大數(shù)據(jù)支撐平臺針對醫(yī)療行業(yè)大數(shù)據(jù)應用特點,采用多項曙光創(chuàng)新的結構化與非結構化數(shù)據(jù)一體化處理、并行處理、SQL/MapReduce統(tǒng)一執(zhí)行引擎、分布式容錯及自動故障處理、復雜數(shù)據(jù)類型關聯(lián)分析、多IP通路負載均衡、處理任務斷點執(zhí)行、動態(tài)擴展等技術,從服務器、網(wǎng)絡、操作系統(tǒng)到軟件層逐層優(yōu)化,保證系統(tǒng)具有高性能、高可靠、易擴展、易使用等特點,同時曙光為大數(shù)據(jù)支撐平臺設計了圖形化的統(tǒng)一管理系統(tǒng),簡化用戶的管理和維護工作。
數(shù)據(jù)應用平臺
曙光醫(yī)療大數(shù)據(jù)應用平臺將醫(yī)療衛(wèi)生數(shù)據(jù)中心倉庫的數(shù)據(jù)經(jīng)過ETL后,集中到數(shù)據(jù)集市,數(shù)據(jù)集市中的數(shù)據(jù)經(jīng)過OLAP和數(shù)據(jù)挖掘分析引擎處理后,應用于大數(shù)據(jù)的報表展現(xiàn)、衛(wèi)生數(shù)據(jù)統(tǒng)計、決策分析、數(shù)據(jù)挖掘、疾病預警、預測等。通過應用系統(tǒng),提供給使用者直觀展示。
其應用方向可包括醫(yī)療收入、患者負擔、工作負荷、工作效率、疾病監(jiān)控等多個主題。各主題分析都基于大數(shù)據(jù)技術構建,通過采集不同醫(yī)療機構業(yè)務系統(tǒng)數(shù)據(jù),對各項醫(yī)療業(yè)務進行匯總統(tǒng)計、構成分析、對比分析、因素分析、增量函數(shù)分析等,并通過各種圖表形象、直觀的表達出來,能夠有效的反映醫(yī)療管理機構或服務機構的整體運營、管理等情況。同時有利于管理層正確分析并做出有效決策,強化醫(yī)衛(wèi)管理,優(yōu)化資源配置、控制不合理因素。
方案收益
該方案旨在建設一套信息共享化、決策智能化、管理科學化的醫(yī)療大數(shù)據(jù)應用系統(tǒng)。通過該系統(tǒng),可以對治療安全質量、醫(yī)療收入、患者負擔、工作負荷、工作效率、疾病監(jiān)控、在線監(jiān)管等多個角度進行探索。其有效地將醫(yī)療質量安全目標分解到具體監(jiān)控指標,通過管控指標的設置與分發(fā),事中進行環(huán)節(jié)質控與監(jiān)測,事后進行對標總結與PDCA持續(xù)優(yōu)化改進,使醫(yī)療管理從被動型、粗放型的管理,轉向前瞻性、主動性和精細化的管理。利用曙光的醫(yī)療大數(shù)據(jù)平臺可以:
輔助科學決策:充分利用區(qū)域平臺采集的大量醫(yī)療和衛(wèi)生數(shù)據(jù),采用先進的BI信息分析、挖掘、視圖展示等技術,進行數(shù)據(jù)多維分析和挖掘,趨勢、預測分析和規(guī)劃,為各級政府部門的科學決策提供及時、準確、全面的信息支撐,同時提高對深化醫(yī)療衛(wèi)生體制改革中各項任務實施情況的動態(tài)監(jiān)測和宏觀的調(diào)控能力;
實時、動態(tài)監(jiān)管:改變以往人工統(tǒng)計報表和人工填報評估系統(tǒng)來監(jiān)管和考核的方式,幫助政府衛(wèi)生主管部門更科學地、更有效地實施規(guī)劃、執(zhí)行、監(jiān)管等管理職能,對醫(yī)療機構進行實時和動態(tài)的監(jiān)管;
醫(yī)療信息服務:為醫(yī)療科研和其他機構提供醫(yī)療衛(wèi)生方面的數(shù)據(jù)分析、挖掘和信息共享服務。
優(yōu)秀的報表:報表數(shù)據(jù)統(tǒng)計查詢及時、快速,具備豐富的可視化表現(xiàn)形式(表,Dashborad , 儀表盤,駕駛艙,地圖GIS),多維分析,可以跨系統(tǒng)異構;
高效可靠的性能:處理大批量數(shù)據(jù)不延遲,數(shù)據(jù)庫查詢快,對業(yè)務系統(tǒng)無影響,不會影響其他系統(tǒng)的使用或者癱瘓;支持多維數(shù)據(jù)結構,具有大量數(shù)據(jù)進行分布式處理功能,同時系統(tǒng)能自動升級,異構跨平臺。