云計(jì)算已經(jīng)成為,IT業(yè)發(fā)展的必然趨勢(shì)。而云計(jì)算對(duì)于搜索引擎來(lái)說(shuō)是最自然不過(guò),或者說(shuō)最順理成章應(yīng)該應(yīng)用的一項(xiàng)技術(shù)。在國(guó)內(nèi)百度做為最權(quán)威的搜索引擎公司,每天需要處理幾PB的數(shù)據(jù),于是對(duì)于云計(jì)算來(lái)說(shuō)數(shù)據(jù)中心有著密不可分的聯(lián)系。

數(shù)據(jù)中心面臨的一些問(wèn)題。

第一個(gè)是規(guī)模太大,我們會(huì)看到當(dāng)你一個(gè)單的節(jié)點(diǎn)數(shù)據(jù)中心超過(guò)10萬(wàn)臺(tái)的時(shí)候,你的日處理數(shù)據(jù)10P級(jí)的時(shí)候,對(duì)你數(shù)據(jù)中心的挑戰(zhàn)是非常大的。

第二個(gè)是我們自己要進(jìn)行標(biāo)準(zhǔn)化和模塊化的設(shè)計(jì),由于這個(gè)規(guī)模太大了,我不可能一次性啟用10萬(wàn)臺(tái),需要用模塊化啟用。

第三個(gè)是通過(guò)高功率的密度,降低功耗,使得總體運(yùn)行TCO成本最佳。

在供電系統(tǒng)上,其實(shí)最主要的目的是減少轉(zhuǎn)換的功耗,大家知道大部分傳統(tǒng)的數(shù)據(jù)中心都是兩路進(jìn)來(lái),通過(guò)UPS,大概功耗是10個(gè)損壞損失。我們采用了UPS ECO模式運(yùn)行。用HVDC offline供電,出現(xiàn)問(wèn)題的時(shí)候高壓直流設(shè)備供電。可能會(huì)減少5-6個(gè)轉(zhuǎn)換效率??照{(diào)系統(tǒng)上,免費(fèi)冷卻,氣流組織優(yōu)化,數(shù)據(jù)中心大部分電是用來(lái)制冷的,如果能提高工作溫度,像25度提高到30度,甚至更高,你的數(shù)據(jù)中心就不需要這么多的制冷量,這樣的話就能降低電源的消耗。但同時(shí)帶來(lái)一個(gè)問(wèn)題,你的服務(wù)器設(shè)計(jì)一定要耐高溫,要配合你的服務(wù)器定制。另外現(xiàn)在業(yè)界比較領(lǐng)先的水冷背板,引到服務(wù)器內(nèi)部的芯片級(jí)冷卻技術(shù)。

大規(guī)模的數(shù)據(jù)中心在建設(shè)過(guò)程當(dāng)中,特別是基礎(chǔ)建設(shè)過(guò)程當(dāng)中會(huì)面臨很多的問(wèn)題。比如自然環(huán)境的問(wèn)題,大家有可能去過(guò)美國(guó)的數(shù)據(jù)中心,為什么Facebook可以建這么低的數(shù)據(jù)中心,那個(gè)地方的空氣環(huán)境比較好,溫度和濕度都很好,都是非常適合的,在國(guó)內(nèi)找這樣的地方相對(duì)來(lái)說(shuō)不是那么容易,因?yàn)樗茈y讓多個(gè)因素都結(jié)合在一起。比如有的地方濕度和溫度都很好,空氣質(zhì)量也很好,但是面臨著基礎(chǔ)設(shè)施條件比較匱乏,總供電能力不足,以及運(yùn)營(yíng)商的傳輸,光網(wǎng)絡(luò)并不好?;蛘吖饩W(wǎng)絡(luò)由于當(dāng)?shù)厝瞬刨Y源短缺,在一個(gè)偏遠(yuǎn)地區(qū),一個(gè)干線網(wǎng)絡(luò)斷了,上海華東這個(gè)地方一個(gè)光纜掉了,運(yùn)營(yíng)商對(duì)他的搶修和修復(fù)時(shí)間是完全不一樣的。另外一個(gè)新的技術(shù)存在產(chǎn)業(yè)上下游配套的問(wèn)題。

在以前我們無(wú)論是做數(shù)據(jù)中心基礎(chǔ)建設(shè),做網(wǎng)絡(luò),做服務(wù)器的時(shí)候,每個(gè)層面都在考慮自己的需求。比如數(shù)據(jù)中心會(huì)考慮我的配電系統(tǒng)怎么樣,我的制冷怎么樣,我的空氣組織怎么樣,我一定要做到萬(wàn)無(wú)一失,上層怎么做我不管。同樣,服務(wù)器做的時(shí)候也是同樣的考慮。今天做云計(jì)算,當(dāng)我們把存儲(chǔ)和計(jì)算資源都集中起來(lái)之后,我們完全可以通盤考慮這樣的事情,我們的數(shù)據(jù)中心,我們的服務(wù)器,我們的網(wǎng)絡(luò),還有軟件系統(tǒng),它實(shí)際上是一個(gè)整體,如果這個(gè)整體能夠配合起來(lái),我們?cè)谌魏我粋€(gè)環(huán)節(jié)可能并不需要,或者一定不需要那么多的冗余,那么多的資源的浪費(fèi)。這樣的話不但提高效率,而且能夠大幅的降低成本。也就是說(shuō),在每個(gè)層面都有自己可以工作的事情,舉一個(gè)例子,如果我的網(wǎng)絡(luò)冗余,我的服務(wù)做到好的部署,同樣做到數(shù)據(jù)不丟失和無(wú)損失。如果我上層服務(wù)器設(shè)計(jì)非常合理的話,我是耐高溫的服務(wù)器,我的數(shù)據(jù)中心就不需要這么大的功耗把我的電力能耗都放到制冷上面,你通盤考慮的時(shí)候就會(huì)發(fā)現(xiàn)這件事情變得非常簡(jiǎn)單。

最后,不斷反復(fù)反復(fù)強(qiáng)調(diào)我們的觀點(diǎn)。一定是你的軟件要去適應(yīng)硬件,一個(gè)出色的軟件架構(gòu)師,或者是一個(gè)出色的硬件架構(gòu)師,是非常清楚的了解什么是當(dāng)今主流的非常通用的硬件架構(gòu)基礎(chǔ)上進(jìn)行他的系統(tǒng)和軟件設(shè)計(jì)。當(dāng)你通過(guò)軟件來(lái)進(jìn)行系統(tǒng)容錯(cuò)的時(shí)候你會(huì)發(fā)現(xiàn)你的平臺(tái)變得非常非常可移植,非常非常好擴(kuò)展。

網(wǎng)絡(luò)和系統(tǒng)平臺(tái)的一些思考和實(shí)踐。

一提到網(wǎng)絡(luò)很多人可能會(huì)想到網(wǎng)絡(luò)的話運(yùn)營(yíng)商一定是最好的,運(yùn)營(yíng)商一定是最強(qiáng)和設(shè)計(jì)最好的,但是互聯(lián)網(wǎng)的數(shù)據(jù)中心和運(yùn)營(yíng)商的傳統(tǒng)網(wǎng)絡(luò)是不一樣的。因?yàn)榇蠹铱梢钥吹剑\(yùn)營(yíng)商在從事云計(jì)算數(shù)據(jù)中心的時(shí)候其實(shí)也是不同以往建網(wǎng)絡(luò)的思路。你可以看到,他的網(wǎng)絡(luò)是多技術(shù)的,他可以去賣給用戶,你能看到大部分傳統(tǒng)電信運(yùn)營(yíng)商在傳統(tǒng)階段,大部分是帶寬的收入,為什么?因?yàn)樗棺约旱木W(wǎng)絡(luò)很火,他要做國(guó)際的VP業(yè)務(wù),他要把帶寬帶給用戶,他的網(wǎng)絡(luò)特點(diǎn)是多技術(shù)靈活,因?yàn)樗且痪€產(chǎn)品,他直接給公司帶來(lái)收入。而我們說(shuō)互聯(lián)網(wǎng)的數(shù)據(jù)中心他并不給公司直接帶來(lái)收入,它僅僅是一個(gè)公司底層的平臺(tái),它是為了承擔(dān)我們很多業(yè)務(wù)、很多流量的平臺(tái)。對(duì)互聯(lián)網(wǎng)數(shù)據(jù)中心來(lái)講,我們認(rèn)為互聯(lián)網(wǎng)數(shù)據(jù)中心的網(wǎng)絡(luò)它的目的就是要最佳的去支持和促進(jìn)公司產(chǎn)品和業(yè)務(wù)的快速發(fā)展。因?yàn)榛ヂ?lián)網(wǎng)發(fā)展是很快的,產(chǎn)品是需要快速的推出和迭代的。

在今天可能很多人會(huì)講網(wǎng)絡(luò)穩(wěn)定性的問(wèn)題。在今天云計(jì)算互聯(lián)網(wǎng)數(shù)據(jù)中心的領(lǐng)域我們是這么認(rèn)為的,網(wǎng)絡(luò)穩(wěn)定性根本不取決于網(wǎng)絡(luò)本身,因?yàn)橐粋€(gè)整體的概念,數(shù)據(jù)中心的基礎(chǔ)設(shè)施,網(wǎng)絡(luò)、服務(wù)器、應(yīng)用系統(tǒng),是個(gè)整體。很多人反應(yīng)是,這個(gè)整體是不是木桶效應(yīng),誰(shuí)最短誰(shuí)是瓶頸。在今天我不這么看,我認(rèn)為在整個(gè)整體里面取決于穩(wěn)定性的核心還是系統(tǒng),因?yàn)樵诮裉旌芏嘧鰝鹘y(tǒng)的電信行業(yè)會(huì)知道,以前的程控設(shè)備,到后來(lái)的SDH設(shè)備,穩(wěn)定性都是非常高的,可以說(shuō)硬件的穩(wěn)定性就是我心中的穩(wěn)定性。在很多年前毫無(wú)疑問(wèn),大家往IT設(shè)備上轉(zhuǎn)型,包括現(xiàn)在的語(yǔ)音設(shè)備,往IT設(shè)備上轉(zhuǎn)型,其實(shí)遠(yuǎn)遠(yuǎn)低于程控設(shè)備的,你不可能要求硬件的可靠性決定網(wǎng)絡(luò)的可靠性,更多取決于你的系統(tǒng)設(shè)計(jì)是不是合理,你的容錯(cuò)是不是合理。這是很早之前業(yè)界推出分布式的存儲(chǔ),分布式的表格輸出等等,他會(huì)使得應(yīng)用軟件對(duì)于整個(gè)系統(tǒng)的容錯(cuò),起到很至關(guān)重要的作用。

最后也是希望在未來(lái)云計(jì)算的浪潮中,行業(yè)內(nèi)部多分享,行業(yè)之間多交流,行業(yè)與產(chǎn)業(yè)多對(duì)話。

分享到

zhaohang

相關(guān)推薦