可以用一種替代方式來考慮這一數(shù)據(jù),即思考如果以全速讀取數(shù)據(jù),需要多少時間遇到不可讀區(qū)域。

Henry的第二個表格展示的內(nèi)容是:當(dāng)你使用一個或一個以上的設(shè)備,而且以最快速度讀取數(shù)據(jù)時,需要多久的時間就會遇到一個讀取錯誤。表二顯示了他統(tǒng)計的數(shù)據(jù),而且他還為250臺設(shè)備和300臺設(shè)備的計算結(jié)果增加了兩列。

 

這兩個表格顯示出當(dāng)你使用SATA或SAS磁盤時,你遠(yuǎn)東不可讀區(qū)域的最大容積值約為1PB,最小容積值約為110TB。即便有了這個統(tǒng)計數(shù)據(jù),你遇到硬錯誤的時候仍然很難進(jìn)行估算,因?yàn)橛插e誤對配置的依賴性非常大。

遇到一個硬錯誤通常意味著RAID控制器認(rèn)為驅(qū)動壞了,需要重建。為了訪問你想讀取的數(shù)據(jù),你需要等待重建才能實(shí)現(xiàn)。重建所需的時間可能非常長,而且依然取決于配置。

在此期間,需要讀取所有其他的驅(qū)動,這樣就會增加遇到另一個硬錯誤的可能性,還可能會丟掉RAID群組。結(jié)果便是,你需要對檔案數(shù)據(jù)做多個備份。

Henry在其文中指出副本的數(shù)量是一個開放性的問題。但是,最少也得準(zhǔn)備兩個到三個副本。“最少”二字意味著在存儲硬件中你需要準(zhǔn)備兩到三倍于這個檔案容積的空間。如果你的檔案占了1PB,那你就要準(zhǔn)備2-3PB的存儲空間。

便宜的檔案存儲是怎樣的呢?能實(shí)現(xiàn)0.25$/GB的檔案存儲嗎?

答案是檔案的存儲價格可以接近這個價格,但是同時存在風(fēng)險。要想顯著減少風(fēng)險,你需要兩到三個副本。0.25$/GB的檔案存儲成本會突然上升到0.50$/GB或0.75$/GB。這些還只是硬件成本。

你需要某類文件系統(tǒng)來保存這些數(shù)據(jù)。就低端配置而言,你只需創(chuàng)建兩到三個不一樣的使用免費(fèi)文件系統(tǒng)的存儲池。然后,你可以把檔案數(shù)據(jù)放到一個副本上,并使用rsync確保數(shù)據(jù)被復(fù)制到另一個存儲池。

如果你遇到一個硬讀取錯誤該怎么辦呢?這會觸發(fā)RAID重建。你可以使用其他副本保存這些數(shù)據(jù),但是這需要提前編程。而且你還要確保余下的副本是正確的。換言之,你要自己完成所有的編程和維護(hù)工作。而且這些工作全都是免費(fèi)的,是嗎?

如果是其他角度的話,還有文件系統(tǒng),許多文件系統(tǒng)是專屬的或者有商業(yè)支持,所以可為你處理這方面的事項。在這些文件系統(tǒng)中,數(shù)據(jù)被復(fù)制,用來確保存儲池中分布了兩到三個副本。出現(xiàn)硬讀取錯誤事件時,文件系統(tǒng)可以讀取數(shù)據(jù)的其他副本,同時重建后臺。后臺重建完成后,它就會對發(fā)到其他副本的數(shù)據(jù)進(jìn)行核查。不過,系統(tǒng)仍舊要讀取數(shù)據(jù),所以我們再次增加了出現(xiàn)硬讀取錯誤的幾率。

后臺會因此增加大量工作。所以你得弄個這樣的文件系統(tǒng)來減輕負(fù)載。

結(jié)語

檔案存儲不是你所以為的那么簡單。你要問問自己進(jìn)行檔案存儲的目的是什么,需要存儲的數(shù)據(jù)量是多少。最重要的是,你需要知道檔案數(shù)據(jù)的重要性。這幾個問題的答案對檔案的經(jīng)濟(jì)現(xiàn)實(shí)有極大影響。

你不能在機(jī)械旋轉(zhuǎn)磁盤上進(jìn)行大體積的檔案存儲,而且還只準(zhǔn)備一個副本,且希望數(shù)據(jù)不會丟失。表一中的硬錯誤率已經(jīng)對這一點(diǎn)表明清楚。

如果你不在乎會遇到有些數(shù)據(jù)無法讀取的情況,那么你可以購買硬盤做一個數(shù)據(jù)備份,或許可以達(dá)到廉價的效果。

但是,如果你的數(shù)據(jù)很重要,而且你又擔(dān)心出現(xiàn)無法恢復(fù)的讀取操作,那你就需要一個以上的副本。這也意味著你需要的硬件比你原以為的要多。例如,如果你想要一個1PB的檔案,你就需要2PB,3PB或更多空間。如果1PB的存儲硬件需要0.25$/GB,那么存儲三個數(shù)據(jù)副本所需的成本是0.75$/GB。

硬讀取錯誤率的影響以及所需的數(shù)據(jù)副本數(shù)量是很多人都不想面對的的經(jīng)濟(jì)現(xiàn)實(shí)。人們的期望是:檔案數(shù)據(jù)所需性能低,所以成本也低。但事實(shí)上,如果你想在機(jī)械旋轉(zhuǎn)磁盤上存儲大型檔案數(shù)據(jù),而且還要及時讀取這些數(shù)據(jù),且要減少數(shù)據(jù)丟失的風(fēng)險,那么你就需要多個數(shù)據(jù)副本。這樣所需的成本就會超出你的預(yù)期–但是這就是檔案存儲的現(xiàn)實(shí)。

分享到

zhenglei

相關(guān)推薦