三大關鍵趨勢都集中在如何推動數(shù)據(jù)庫經(jīng)理人所面對的可升級性挑戰(zhàn),而且這些挑戰(zhàn)的難度還在不斷增長。首先需要解決的問題是大家眾所周知的:數(shù)據(jù)量的快速增長。根據(jù)WinterCorp咨詢公司的市場調(diào)研顯示,最大的數(shù)據(jù)庫每隔兩年就會翻上三倍。
由此可見LGR的數(shù)據(jù)庫增長的是如何的迅速。到2012年將接近3PB的容量。包括零售業(yè),衛(wèi)生保健和金融服務公司運作的數(shù)百個其他類型的數(shù)據(jù)庫也將在接下來的幾年中達到PB的容量,上千家數(shù)據(jù)庫的容量將超過100TB。在很多情況下,競爭的壓力迫使企業(yè)收集和存儲更多的數(shù)據(jù),這樣他們就能更好的進行分析,了解,爭取和保留最具價值的用戶。
數(shù)據(jù)庫對時限的要求也愈發(fā)敏感。LGR數(shù)據(jù)庫中數(shù)據(jù)的周轉速度就是佐證:每天進出的數(shù)據(jù)記錄達到數(shù)十億條,幾分鐘之內(nèi)就能載入數(shù)據(jù)庫并且立刻就能發(fā)揮作用。如果移動電話用戶由于使用問題來電咨詢:"我們需要查證到底發(fā)生了什么,涉及什么問題等等,此時用戶還在電話那端"van Rooyen這樣說道"同時,你希望客服人員能知道用戶的使用記錄",只有這樣,問題才能很快得到解決,用戶能得到更好的服務,企業(yè)也能更好的運轉。
數(shù)據(jù)的高頻率使用也被稱為"運營商業(yè)智能",這不是個新興的概念。Teradata公司早在幾年前就推出了被稱作"戰(zhàn)術數(shù)據(jù)庫"的產(chǎn)品。IBM公司的動態(tài)數(shù)據(jù)庫也是采用即時數(shù)據(jù)的類似概念。但是企業(yè)所面臨的擴容壓力還是在不斷增長。
戰(zhàn)術數(shù)據(jù)庫幫助員工必須立刻做出決定。這些決定中有許多都是比較類似和重復性的。我應該向這名用戶提供什么服務?我該如何對待工廠發(fā)生的非預期性出貨?企業(yè)通過隨時更新的數(shù)據(jù)系統(tǒng)的做出決策,這樣就能得出更好的結論。
運營商業(yè)智能的概念對數(shù)據(jù)庫擴容影響深遠。它帶來了更大規(guī)模的用戶群;更高頻率的數(shù)據(jù)使用;最新數(shù)據(jù)的需求以及不能容忍任何宕機的業(yè)務流程支持。
第三種趨勢就是數(shù)據(jù)的復雜性日益攀升,數(shù)據(jù)查詢,工作負載和分析都急需擴容。當數(shù)據(jù)庫只從事比如預告更新和直接報告等簡單工作,他們能在不產(chǎn)生新問題的情況下穩(wěn)步增長。但當數(shù)據(jù)庫需要對復雜的非預期性查詢做出交互反應時,特別是要對上萬億條記錄執(zhí)行大規(guī)模的復雜連接,匯總,分類和計算時,擴容的需求就更加迫切。
多數(shù)現(xiàn)在的數(shù)據(jù)庫都要執(zhí)行復雜查詢,分析和報告。這些數(shù)據(jù)庫比過去實施的任務和計劃更加復雜多變,用戶要面對數(shù)千個表格,成百上千行還有數(shù)據(jù)之間交錯復雜的相互關系。
增長元素的多維化
要闡述多維增長現(xiàn)象沒有比易趣更好的例子了。易趣公司體系架構和運營部門資深總監(jiān)奧利弗.瑞伯杰表示,易趣公司數(shù)據(jù)庫執(zhí)行的查詢中大約有85%都是試探性的。這些查詢多數(shù)都來自終端用戶,數(shù)據(jù)庫管理員幾乎沒有機會來應用調(diào)整工具。瑞伯杰表示”這些查詢要用到搜索引擎,我們必須保證引擎的運轉”。
易趣公司的數(shù)據(jù)庫中包含了將近5PB的磁盤存儲空間,分布在主要系統(tǒng)和二級系統(tǒng)中,這兩個系統(tǒng)都能運行TB容量的數(shù)據(jù)。用于災難恢復的二級系統(tǒng)離主要系統(tǒng)的所在地有1,000英里的距離。每個系統(tǒng)都有公司數(shù)據(jù)庫核心數(shù)據(jù)的完整副本。兩個副本都每隔15分鐘就更新一次,24小時晝夜不停保持運轉,可以連續(xù)進行激活服務查詢。
每天都要超過5000名用戶進行將近1000萬次的查詢。每天日常更新的記錄數(shù)量從100億條到150億條不等。會涉及到數(shù)千個表格,查詢從簡單的查找到持續(xù)數(shù)小時的復雜分析都有可能。系統(tǒng)面對每個不同級別的工作任務都要采用不同服務級別來持續(xù)管理混合的工作負載。
系統(tǒng)擴容的增長速度也更加驚人:去年易趣的用戶數(shù)量增長了25%,查詢的數(shù)量翻倍。系統(tǒng)的規(guī)模在過去的四年中每年都至少翻了一番。
易趣的經(jīng)歷說明數(shù)據(jù)庫不僅是核心數(shù)據(jù)數(shù)量的增長。他們會立即向多維擴展,包括數(shù)據(jù)量,用戶的數(shù)量,查詢量,數(shù)據(jù)延遲和數(shù)據(jù)查詢的復雜性。基礎架構和支出的決策必須考慮到所有這些方面的增長因素。
規(guī)劃五步走
顯然不要向企業(yè)經(jīng)理人灌輸增長的多元化概念。他們將系統(tǒng)擴容作為簡化購買系統(tǒng)和數(shù)據(jù)庫能力的方法,這樣就無需擔心多維增長的問題。他們期望數(shù)據(jù)庫的增長不會導致成本的激增,企業(yè)商業(yè)活動的無理由中斷或者性能的巨大損失。
聽起來有些可怕是嗎?下面的五步走計劃能幫助大家應對愈演愈烈的數(shù)據(jù)庫增長和滿足企業(yè)對系統(tǒng)擴容的期望值:
1。開發(fā)量化需求。根據(jù)文件的量化需求來制定系統(tǒng)的,可測算的工業(yè)流程。這些需求應該包括數(shù)據(jù)規(guī)模的運轉評估,數(shù)據(jù)庫和工作負載的宏觀架構,服務級別的對象和運作進度表。這些關鍵性的輸入能為開發(fā)物理數(shù)據(jù)庫和評估可選對象提供大量的所需信息。
數(shù)據(jù)庫的宏觀架構涵蓋了大型表格的結構和可能的規(guī)模,最常用的相互關系的可能設置以及最具價值的數(shù)據(jù)的可能分布情況。工作負載的宏觀架構包括了10到25個查詢或者主要性能挑戰(zhàn)和預期頻率中所占的處理類型。
在進行評估時,關鍵的一點是對這些數(shù)據(jù)進行實踐,絕對的精確遠不及擴容要重要。正確的擴容就好比你要明白你是要建造一輛客車還是一輛貨車。不用太快決定這些事情:包含一組數(shù)據(jù)的文件,和決策者商量評估內(nèi)容,然后將他們用于管理流程和體系架構的決策當中。
2.預測長期需求。只要幾年時間,你的數(shù)據(jù)庫可能就會比現(xiàn)在所用的擴大幾倍。要對數(shù)據(jù)庫的長期需求做出正確的預測,將最新應用軟件,擴展的目標領域,數(shù)據(jù)細節(jié)的額外標準以及新用戶,新工具,新數(shù)據(jù)源等各種因素考慮在內(nèi)。長期需求應該定義出系統(tǒng)將如何與擴容的每個方向一起成長。
不要妄自推斷現(xiàn)有的增長率,因為他們無法反映出技術和支持主要新機遇的實踐活動的變化情況。在零售業(yè)領域,當銷售報表出爐時,數(shù)據(jù)擴容就會出現(xiàn)爆炸性增長,當網(wǎng)絡點擊數(shù)據(jù)也會增長數(shù)據(jù)庫容量。在供應鏈領域,如果RFID全面配置后,系統(tǒng)擴容的下一個大動作就將來臨。根據(jù)過去的趨勢進行推斷可能會讓未來趨勢的影響大打折扣。
3.關鍵風險確認。文件需求的流程無論是與廠商,用戶,文獻公司還是咨詢顧問有關,都應該提高風險意識:”如果不能及時載入數(shù)據(jù)就會損失金錢”或者”如果我們在周末出現(xiàn)宕機或故障,我們就完蛋了”。
并非所有的需求都是同等重要;要把優(yōu)勢兵力集中在那么對于企業(yè)目標至關重要的需求上。對于欺詐偵測應用軟件來說,不管任何情況下都要在幾分鐘載入數(shù)據(jù)或者幾秒內(nèi)接收數(shù)據(jù)是很關鍵的。除了高峰時間要實現(xiàn)這個目標是很簡單的,然而要定位欺詐的準確時間才是最關鍵的,否則就會花費很多的金錢。因此在高峰時段 快速提取數(shù)據(jù)成為關鍵因素。在其他領域,反應時間可能很重要,比如面向用戶的查詢等。如果在進行一個中等難度的查詢時用戶正和呼叫中心服務人員交談,那么可能要開一個兩秒鐘的窗口。這可能就成為一個風險。
當數(shù)據(jù)量小和使用明確時,需求就比較容易得到滿足,但是如果第二年數(shù)據(jù)量發(fā)生爆炸性增長會發(fā)生什么呢?竅門是關注流程的兩大特點:忽略那些可能導致業(yè)務損失的目標,忽略沒有證據(jù)支持的目標,因為這些都有風險。
4.根據(jù)目標決定解決方案。這一步很關鍵。根據(jù)需求可能面臨的主要風險去選擇解決方案,然后量體裁衣進行開始開發(fā)。
對于這個步驟,擴容和復雜性都是很現(xiàn)實的。不要忽略擴容的多向性。根據(jù)真實的完整數(shù)據(jù)庫運行工作負載的現(xiàn)實模擬,將未來三年內(nèi)可能涉及的應用軟件的運行情況都考慮在內(nèi)。
5.管理缺口。真實的分析和測試經(jīng)常能反映出數(shù)據(jù)庫無法滿足所有的需求。如果是這樣,在它成為問題之前就把現(xiàn)實情況傳達給決策者。通過對備選方案的評估,你可以使用備選方案進行真實數(shù)據(jù)的討論。在目前可行的預算下,用戶能接受4秒的反應時間嗎?或者他們將預算增加50%,反應時間就能提高到2秒?我們應該利用公司使用量不超過10TB數(shù)據(jù)的標準平臺或者花費3個月時間來評估其他的備選方案,如今我們是否了解數(shù)據(jù)庫里的數(shù)據(jù)可能在一年半時間里會超過100TB?
一項系統(tǒng)的工程方法會讓一切都盡在掌控。隨著數(shù)據(jù)庫需求朝著六個不可思議的方向快速膨脹,我們要為已有的成果提供備選方案。那里面臨更高的風險,你就要對那里的數(shù)據(jù)進行分析,測算和建立可靠的風險規(guī)劃。決策者要及時調(diào)整和討論數(shù)據(jù)庫的更新?lián)Q代,為可能的損耗做好準備。
實現(xiàn)擴容
為應對多元化數(shù)據(jù)庫增長而設計的新技術趨勢死面向高度并行體系架構的。上個月甲骨文公司宣布的Exadata Storage Server就是針對保護數(shù)據(jù)流免受風險侵襲而設計的,它能提高輸入/輸出深度任務的執(zhí)行速率。微軟公司也透露說他們將在新一代SQL服務器中融入去年早期收購所得的DATAllegro技術,從而改善服務器輸入/輸出帶寬和處理器并行處理能力。幾乎每家廠商都在積極開發(fā)低成本硬件設備。雖然大型的對稱多處理器服務器暫時不會從我們的視野中消失,但人們更加偏重和青睞可平面擴容的體系架構。
在二十世紀九十年代,常規(guī)的思維認為大規(guī)模并行處理還只是小生境體系架構,主要用于特殊時期的極端需求。但是大規(guī)模并行處理逐漸變的更加可靠,易于管理和可用,一時間幾乎每家廠商都對可升級性充滿期待。因此無論你是稱它為大規(guī)模并行處理,集群或者其他什么,并行體系架構都成為數(shù)據(jù)庫研發(fā)人員首選的方式,他們想通過并行體系架構來實現(xiàn)數(shù)據(jù)庫擴容和應對快速發(fā)展的體系架構。需要銘記的最重要的事情是企業(yè)的難題無法通過購買新的硬件設備或體系架構來解決。他們必須通過解決方案的需求決策來解決,然后執(zhí)行滿足這些需求的系統(tǒng)。
為了實現(xiàn)數(shù)據(jù)庫擴容,要遵循任何數(shù)據(jù)庫研發(fā)計劃的三個推薦:使用系統(tǒng)的管理流程來處理升級問題。避免升級管理中的七個想當然。重視量化需求和對研發(fā)周期的每個步驟進行測試和評估。有了系統(tǒng)的方法,你將實現(xiàn)企業(yè)的期望和擁有具備長期商業(yè)價值的可升級數(shù)據(jù)庫。