Claspin在工作,綠色的說明是正常的

緩存是Facebook的基礎架構中最重要的功能之一,因為它保存了最接近Web服務器的存儲數(shù)據(jù),這也是為了向用戶盡可能快地提供內(nèi)容。因此,Cache是一個真正的關鍵點,它能讓用戶體驗變的更好。但是Lynch表示,社交網(wǎng)絡目前還沒有辦法的查找到出現(xiàn)故障的Cache服務器。

Facebook有兩個主要的緩存系統(tǒng):Memcache,這是一個簡單的后備高速緩存,它的智慧主要體現(xiàn)在客戶端;TAO,它是一個圖像緩存數(shù)據(jù)庫,使 用的是MySQL。不過這兩個系統(tǒng)之間,我們有成千上萬張圖表,其中一些被收集到顯示面板上,來顯示不同的延遲、請求速率和來自客戶端和服務器收集的誤碼率統(tǒng)計數(shù)據(jù)。這些圖表和顯示面板的大部分都來自Facebook“數(shù)據(jù)存儲操作”或者ODS的支持。這個工作是排在第一位的,但是隨著Facebook在規(guī)模上的不斷成長,一旦出現(xiàn)了錯誤,想找出哪一塊出現(xiàn)了問題就變得越來越難。所以,我開始思考編碼“tribal knowledge”,我們使用故障排除的方式,讓人們更容易的評估出緩存的狀態(tài),可以一目了然。

Lynch開發(fā)的算法可以對Cache“健康”的最重要指標進行排名,進過團隊的討論,最后決定使用熱圖,它可以捕捉1萬臺服務器的運行情況,并且能在一塊屏幕上顯示數(shù)據(jù)改變的結果。顏色變化是30個或更多的統(tǒng)計數(shù)據(jù)在后臺進行實時計算的結果。他稱這套工具為Claspin,現(xiàn)在在Facebook內(nèi)部廣為傳播,可以說這是在以工程為主導的公司成功的標志之一。

Facebook此次奉獻出一個很好的工具,不禁讓人想起了戴爾曾經(jīng)為了提高工廠生產(chǎn)率的那份狂熱的努力,從桌子的高度的設計到任何一個小配件安裝的細節(jié),所有的一切都考慮在內(nèi)。Facebook也在做著類似的事情,F(xiàn)acebook開發(fā)的這套工具有助于確保它在任何時候都能對網(wǎng)絡還有網(wǎng)絡帶來的廣告收入進行優(yōu)化。Facebook也在開發(fā)自己的Six Sigma或Kaizen。(

分享到

tangrong

相關推薦