大數據時代 何處安放我們的元數據?
王振 發(fā)表于:13年06月09日 10:25 [編譯] DOIT.com.cn
我們需要收集,歸檔,研究的數據量是非常驚人的,但是如果我們能巧妙利用元數據,就能快速找到我們所需要的數據文件。不過,單獨存儲,研究元數據本身就是一個“大數據”問題,其中一個很重要的方面就是我們要把元數據存儲到哪里?
目前,我們已經被“瘋狂”的大數據包圍了,整個世界都在適應大數據,我們要了解如何使用大數據,如何為大數據設計相應的處理系統(tǒng),盡管如此,大數據仍然是一片深不可測的海洋。以我們的生活為例,在我們周圍到處都有攝像頭——商店外面,商店里面,十字路口,直升飛機上,銀行,還有人們的手機上。還有大量的傳感器——在街道上,在汽車里,在公園里,在橋上。還有一些特殊行業(yè)用的傳感器,比如說電力行業(yè),油氣行業(yè),醫(yī)院,網絡服務,網頁,天氣,海洋,軍隊,等等。它們無時無刻不在收集數據。而所有這些數據都有一個共同的地方——它們都需要元數據。
元數據是關于數據的數據。舉個例子,元數據可以包括傳感器位置信息(GPS坐標),特定時間的記錄信息,傳感器感應的方向,傳感器的固件以及傳感器的型號等等。
在對數據進行后期處理時,你可以用新得到的元數據信息給文件標上“標簽“。比如說照相機,可以用時間來作為元數據標簽,記錄有趣的事情(或許會和事件本身一起被記錄下來)。還有一些元數據標簽可以是其它相關的信息資源,比如說其它的照相機型號或天氣數據。
從中我們可以看出,元數據的使用依賴于其質量。如果元數據不精確,那使用相關的原始數據時就會出現(xiàn)問題,甚至會造成分析失敗。有一些元數據是人為制造的,不能自動生成,所以會有一定的錯誤率。
認識到什么樣的元數據對特定數據文件很重要,了解如何運用它們分析數據,這是非常重要的問題,而且這不僅僅涉及到技術解決方案,還有可能涉及到社會學和心理學的解決方案。
但是一個看起來很簡單的問題卻對元數據的使用造成重大影響,那就是——我們要把元數據存儲在什么地方?
何處安放你的數據?
在遇到這個問題時,我曾想過兩個方法。第一個是把元數據放到所有數據的中心位置。第二個方法是把元數據和它本身的數據放在一起。
許多研究和歸檔系統(tǒng)都采用第一種方法。它非常簡單,就是收集特定文件的元數據并存儲起來。這種方法廣泛用于數據庫中,你可以按照自己的需求搜索數據庫,尋找含有你感興趣信息的文件(在這里我們假設元數據是正確的,否則那就是另外一回事了)。
搜索的結果往往是找到文件的位置(文件全名以及文件訪問路徑),接著你就可以把文件復制到某些處于活動狀態(tài)的存儲設備中再進行進一步的分析。
集中元數據這種方法面臨的問題是元數據和文件之間的映射。舉個例子,當各種文件的元數據升級時,你就需要一種更新機制去升級集中元數據的服務器。理想狀態(tài)是,升級速度非?欤駝t,搜索數據就會過期。但是你怎么定義“快”呢?這取決于你的用戶和用戶模式。
這種更新機制有一個潛在的問題。如果數據庫和文件不同步怎么辦?比方說,當一個文件被移動,它在數據庫中的全路徑不再有效時怎么辦?
答案很明顯,數據庫也會失效,至少包含那個文件的數據庫會失效。不過令人感到欣慰的是,更新機制會告訴數據庫文件已經移動,數據庫會采取相應的措施,或者為新的位置創(chuàng)建元數據,或者升級現(xiàn)有的元數據對應文件新的位置。在一些案例中,升級窗口還會影響升級數據庫。
還有一點需要注意,就是數據庫本身的數據完整性。你需要利用備份,復制或其它相似的功能來進行數據保護。不要忘了數據庫主要功能是從中讀取數據,這就意味著你需要注意數據庫的大小,注意讀取錯誤。一些廠商會從消費級SATA硬盤中建立索引,當你讀取100GB的數據時,你就有可能遇到讀取錯誤。如果你借助RAID控制器建立存儲,你就有可能重建,而在重建過程中,你還有可能遇到新的問題。