自2014年5月上市以來,京東集團每年的交易額都飛速增長,這背后是京東超過17.9萬名員工的不懈努力,如身著紅衣腳踏電動三輪的“京東小哥”,還有聲音甜美圓潤的京東客服,以及不善言辭悶頭苦干的工程師團隊……等等。除此之外,還有一批特殊的“員工”,它們支撐起了京東商城每天成百上千萬次正常訪問——數(shù)萬乃至數(shù)十萬臺IT設(shè)備,典型如服務(wù)器。
這數(shù)十萬臺設(shè)備分布在全國各地的數(shù)十個數(shù)據(jù)中心內(nèi),形成以華北北京、華東上海、華東宿遷、華南廣州為核心的4大區(qū)域總計10個可用區(qū)的整體布局,再輔以數(shù)十個遍布全國的小型IDC機房,由此成就了京東云——為京東集團業(yè)務(wù)提供IT支撐,并對外提供云服務(wù),為合作伙伴數(shù)據(jù)中心轉(zhuǎn)型提供幫助。
為探尋互聯(lián)網(wǎng)企業(yè)高速發(fā)展背后的秘密,考察其在數(shù)據(jù)中心方面的技術(shù)探索與成果,由E企研究院發(fā)起的“數(shù)字中國萬里行2019”活動華東區(qū)首站選擇了京東云最大的數(shù)據(jù)中心——位于江蘇省宿遷市駱馬湖畔的京東云華東數(shù)據(jù)中心——這也是京東云首個自建的數(shù)據(jù)中心園區(qū):總投資35億元,占地200畝,相當(dāng)于19個標(biāo)準(zhǔn)足球場面積之和;整體由4個云數(shù)據(jù)中心模塊和1棟綜合大樓組成,單個數(shù)據(jù)中心模塊約有4.5萬臺標(biāo)準(zhǔn)服務(wù)器安裝與部署能力。目前一期已于2016年投產(chǎn)運營,除了為京東商城提供支撐之外,還為京東數(shù)科、宿遷市政府、中國聯(lián)通與中國電信等客戶提供云服務(wù)。
挑戰(zhàn)與收益:為何巨頭青睞自建數(shù)據(jù)中心
數(shù)據(jù)中心是一個重資產(chǎn)行業(yè),僅建設(shè)就需要投入數(shù)十億元,如京東云華東數(shù)據(jù)中心僅一期建設(shè)就投入了15億元,這還不包括建成后的服務(wù)器等IT設(shè)備的采購成本以及投產(chǎn)之后的運營成本,以單個數(shù)據(jù)中心4.5萬臺服務(wù)器容量計算,每臺服務(wù)器300W(瓦特)為例,再加上冷卻系統(tǒng)的耗電(以年均PUE=1.3計),每年僅電費支出就以億元為單位(按江蘇省大工業(yè)用電價計算)。
但自建數(shù)據(jù)中心卻是邁入“巨頭”行列的入場券,縱觀國內(nèi)外的互聯(lián)網(wǎng)巨頭,無一不擁有自建數(shù)據(jù)中心,且隨著數(shù)字化進程的加快,他們也都在加速自己的數(shù)據(jù)中心建設(shè)。自建數(shù)據(jù)中心雖然投入巨大,但卻有其獨有的優(yōu)勢,作為IT的基礎(chǔ)設(shè)施支撐,自建數(shù)據(jù)中心所有環(huán)節(jié)都由自己掌控,可以按照IT的需求而設(shè)計建設(shè)。
僅就機柜供電來說,不同業(yè)務(wù)場景對供電的要求是不一樣,比如冷存儲場景單個機柜可能只需要3~5KW(千瓦)的供電就能滿足,計算密集型應(yīng)用單個機柜可能需要5~8KW的供電,現(xiàn)在火熱的AI技術(shù)所需服務(wù)器則要求機柜更高的供電能力。傳統(tǒng)租賃數(shù)據(jù)中心內(nèi)的機柜供電大約在3~5KW左右,供需之間的不平衡,必然造成不便和資源浪費。而京東云華東數(shù)據(jù)中心在機柜供電方面就有多種選擇,比如4KW供電能力的標(biāo)準(zhǔn)模塊、8KW的高密模塊以及12KW的微模塊機房,這為應(yīng)用部署提供了靈活性,同時又起到合理利用資源的作用。
IT在現(xiàn)代社會中所發(fā)揮的作用已經(jīng)毋庸多說,尤其是對于以京東為代表的互聯(lián)網(wǎng)企業(yè)而言,IT就是核心競爭力,如何保證IT不停頓、業(yè)務(wù)不中斷是頭等大事,尤其是數(shù)據(jù)中心規(guī)模日趨增大的情況下,一旦數(shù)據(jù)中心不可用,意味著其所承載的多個IT系統(tǒng)都將面臨中斷,對于云數(shù)據(jù)中心而言,還將影響大批用戶,其后果將是災(zāi)難性,幾乎無法用數(shù)字來衡量。
發(fā)展多年的傳統(tǒng)數(shù)據(jù)中心在可用性建設(shè)方面多個標(biāo)準(zhǔn)可以參考,但這可能并不完全契合互聯(lián)網(wǎng)云數(shù)據(jù)中心的可用性特點。以常見的美國數(shù)據(jù)中心行業(yè)Uptime機構(gòu)制定的Tier 4標(biāo)準(zhǔn)為例,其要求數(shù)據(jù)中心符合2N和物理隔離設(shè)計,這對于傳統(tǒng)數(shù)據(jù)中心而言,具有很好的指導(dǎo)作用。但并不太契合云數(shù)據(jù)中心的特點,云數(shù)據(jù)中心在單體數(shù)據(jù)中心之上再有“可用區(qū)域”的概念,通常由相隔數(shù)十公里的多個數(shù)據(jù)中心組成一個可用區(qū),當(dāng)某個數(shù)據(jù)中心故障后,其業(yè)務(wù)可由同一個可用區(qū)內(nèi)的另一個數(shù)據(jù)中心接管替代。這實際上在單體數(shù)據(jù)中心更高一級的層面實現(xiàn)了2N可用性。
互聯(lián)網(wǎng)巨頭們自建數(shù)據(jù)中心是“新(需求)舊(標(biāo)準(zhǔn))沖突”下為契合自身業(yè)務(wù)需求而進行的探索實踐,公有云提供商的云數(shù)據(jù)中心通常符合Tier 3標(biāo)準(zhǔn),部分系統(tǒng)使用Tier 4中的2N和物理隔離設(shè)計,也許從單個數(shù)據(jù)中心來看可能并未達到最高可用性,但從“可用區(qū)”層面來看,其實際上超越了Tier 4標(biāo)準(zhǔn),在一定程度上而言,與最高可用性等級的金融級數(shù)據(jù)中心“兩地三中心”理念頗有相似之處。
云數(shù)據(jù)中心建設(shè):自上而下,以業(yè)務(wù)為前提
傳統(tǒng)租賃數(shù)據(jù)中心建設(shè),除了極少數(shù)之外,大多是先有基礎(chǔ)設(shè)施,再對外承接業(yè)務(wù),所以同樣是為了滿足業(yè)務(wù)需求,但傳統(tǒng)租賃數(shù)據(jù)中心考慮到不確定的多種客戶需求,通常采用通用、成熟的標(biāo)準(zhǔn)化技術(shù),遵循主流標(biāo)準(zhǔn)進行建設(shè),供需不平衡在所難免。但互聯(lián)網(wǎng)云數(shù)據(jù)中心則是自上而下進行建設(shè),即先有業(yè)務(wù)需求,再自建數(shù)據(jù)中心。作為IT的承載,要探尋互聯(lián)網(wǎng)云數(shù)據(jù)中心的特點,必然要先了解其IT的特點。
喜歡定制是互聯(lián)網(wǎng)巨頭們的一大特點,自建數(shù)據(jù)中心也可看作是對數(shù)據(jù)中心進行定制。連數(shù)據(jù)中心都要定制,位于核心的IT進行深度定制也就不難理解了。京東云從IT硬件底層就開始進行定制,比如處理器,京東云華東數(shù)據(jù)中心內(nèi)的服務(wù)器就全面采用定制的第二代英特爾至強可擴展處理器,即代號為Cascade Lake的至強處理器。
相比于上一代SkyLake處理器,相同定位等級的Cascade Lake處理器多數(shù)擁有更高的主頻,即計算性能更好,這也是為什么互聯(lián)網(wǎng)巨頭們喜歡采用新硬件新技術(shù)的原因之一,這實際意味著每單位計算成本的下降,即相同的一塊錢可以買到更多的計算性能。當(dāng)然其前提是采購量大。互聯(lián)網(wǎng)巨頭,尤其是公有云服務(wù)提供商每年都有數(shù)萬臺乃至數(shù)十萬臺服務(wù)器的采購量,其收益自然不言而喻。而京東云不僅承載京東商城業(yè)務(wù),還對外提供云服務(wù),服務(wù)器需求量越大,從新產(chǎn)品中獲益當(dāng)然也就越多。
而定制處理器的好處在于,可以釋放處理器更多的計算性能,比如擁有更多計算核心,或者更高主頻,亦或是二者皆有。更多的計算核心或更高的主頻通常意味著更高的供電能力與更強的散熱需求,這也是自建數(shù)據(jù)中心的一大優(yōu)勢,能夠提供滿足IT所需的供電與散熱要求。
與定制處理器聯(lián)動的是對服務(wù)器的重新設(shè)計?;ヂ?lián)網(wǎng)與云業(yè)務(wù)都要求IT基礎(chǔ)設(shè)施能夠快速部署以滿足業(yè)務(wù)高速擴張的需求,也就是說可能在短期內(nèi)需要大量的服務(wù)器上線。如何縮短服務(wù)器上架時間?京東云采用了微模塊數(shù)據(jù)中心技術(shù)。
京東云華東數(shù)據(jù)中心內(nèi)部署的微模塊,采用地板下送風(fēng),并封閉冷通道
微模塊數(shù)據(jù)中心,通常是將數(shù)十個機柜相對而立,封閉中間的冷通道,然后按預(yù)先設(shè)計的機柜位置整體部署,以縮短部署周期。
從上圖可以看到,京東云微模塊數(shù)據(jù)中心依舊采用地板下送風(fēng)方式,這可能部署時間較早的緣故。實際上,在參觀第二個機房模塊的時候,我們發(fā)現(xiàn)京東云有更進一步的微模塊技術(shù),不再使用地板下送風(fēng)方式,而是在微模塊內(nèi)集成了精密行間空調(diào),冷凍水管直接進機房供給行間空調(diào);同時微模塊內(nèi)集成電源列頭柜。微模塊頂部布線,底部墊高,用于鋪設(shè)冷凍水供回水管道。
這樣的好處在于,一是可以縮短機房建設(shè)速度,微模塊內(nèi)集成了空調(diào)與供電,機房建設(shè)好之后只需鋪設(shè)冷凍水管道和主干電源線路,無需額外的施工;二是用現(xiàn)場拼裝代替了現(xiàn)場施工,大大降低了項目的復(fù)雜程度,同時避免出錯導(dǎo)致的重復(fù)施工;三是冷源(行間空調(diào))離熱源(服務(wù)器/網(wǎng)絡(luò)設(shè)備)更近并可靈活增減數(shù)量,可以滿足更高的功率密度。
對于京東而言,光有計算能力是遠遠不夠的,還需要高性能的存儲。在存儲方面,京東云率先大規(guī)模使用了英特爾公司的Optane系列SSD產(chǎn)品。SSD是當(dāng)代企業(yè)的共同選擇,但對于每天要承載數(shù)千萬乃至上億次訪問量的京東商城而言,只用SSD是遠遠不夠的。普通的企業(yè)級SSD通常讀寫性能不均衡,且寫性能相對較弱,還有全盤寫入次數(shù)限制,并不能完全滿足在線事務(wù)處理類應(yīng)用(即OLTP,典型以數(shù)據(jù)庫應(yīng)用為代表)。為了提升性能,京東云采用了Optane,雖然也被稱之為SSD,但Optane卻使用的是全新的材質(zhì),擁有更好的、更均衡的讀寫性能,且更低的響應(yīng)時間,無需擔(dān)心壽命等優(yōu)點。
供電與制冷:高可靠保證與綠色節(jié)能
建設(shè)數(shù)據(jù)中心的目的是為保證IT的持續(xù)安全穩(wěn)定地運行,除了數(shù)據(jù)中心選址要盡量避開地震、火山等地理位置,以及建筑本身的避震避災(zāi)能力設(shè)計之外,供電與冷卻系統(tǒng)設(shè)計成為關(guān)鍵。京東云數(shù)據(jù)中心采用一主一備兩路市電+UPS供電系統(tǒng)設(shè)計。
京東云華東數(shù)據(jù)中心內(nèi)的供電系統(tǒng):變壓器及配電柜。兩排供電設(shè)備間的巡檢通道有黃線警示,并鋪設(shè)有絕緣地板
京東云華東數(shù)據(jù)中心具有專屬的110KV變電站,其上一級來自兩個不同的220KV變電站專線。在110KV變電站內(nèi)設(shè)2臺變壓器,容量滿足整個數(shù)據(jù)中心園區(qū)的最大用電量。當(dāng)兩臺變壓器任意一臺檢修或發(fā)生故障時,另一臺完全滿足園區(qū)內(nèi)所有設(shè)備的正常用電需求。
UPS系統(tǒng)平??梢哉?,而當(dāng)遇到市電中斷的情況下,可以提供不低于15分鐘的供電能力,用以支撐柴發(fā)系統(tǒng)啟動,直到其穩(wěn)定運轉(zhuǎn)到既定功率。京東云華東數(shù)據(jù)中心一期中部署了總計8臺柴發(fā)并聯(lián),以N+1模式待命,以備當(dāng)兩路市電都故障情況下,為機房、冷站及照明系統(tǒng)供電。柴發(fā)油罐儲油量在無外部支援情況下可滿足發(fā)電機組超過12小時的正常穩(wěn)定運行,在此期間,緊急供油協(xié)議啟動并保證柴發(fā)系統(tǒng)能夠不限時間運轉(zhuǎn)。
柴發(fā)室內(nèi)的一組4臺柴油發(fā)電機,在建筑另一端則有另外一組4臺柴發(fā)
冷卻系統(tǒng)設(shè)計是自建數(shù)據(jù)中心的重中之重,因為數(shù)據(jù)中心冷卻系統(tǒng)是IT持續(xù)穩(wěn)定運行的關(guān)鍵因素之一,同時,一個優(yōu)異的數(shù)據(jù)中心冷卻系統(tǒng)還能帶來直接的成本節(jié)省。衡量數(shù)據(jù)中心效率有一個關(guān)鍵指標(biāo)——PUE,即數(shù)據(jù)中心的總能耗與用于IT的能耗之比,這個比值總是大于1的,越接近于1意味著其能效越好。
以京東云華東數(shù)據(jù)中心為例,數(shù)字中國萬里行團隊抵達宿遷正值“秋老虎”肆虐之際,室外氣溫約為34℃,據(jù)京東云數(shù)據(jù)顯示,綜合全年來看,華東數(shù)據(jù)中心一期的年均PUE低于1.3。這個PUE 1.3可簡單理解為,每當(dāng)包括服務(wù)器、存儲與網(wǎng)絡(luò)在內(nèi)的IT設(shè)備消耗1度電,數(shù)據(jù)中心內(nèi)其他如散熱、照明等系統(tǒng)還要同時消耗0.3度電。而在這0.3度電中,絕大部分都用于制冷。這一值也低于原本設(shè)計的PUE 1.35,別小看這0.05,對于京東云這種超大規(guī)模云數(shù)據(jù)中心而言,以4.5萬臺服務(wù)器計算,每年可節(jié)省數(shù)百萬元的電費支出。
京東云華東數(shù)據(jù)中心內(nèi)的冷站,顏色分明的管道標(biāo)識,藍色與綠色分別為冷凍水供回水管道;黃色與紅色為冷卻水供回水管道
京東云華東數(shù)據(jù)中心冷站主要由4臺700冷噸的離心式冷水機組以3+1形式構(gòu)成,用于承擔(dān)整個數(shù)據(jù)中心的制冷需求。市政補水系統(tǒng)及供回水管道均采用雙路一主一備設(shè)計,以保證空調(diào)的持續(xù)穩(wěn)定運行。為了預(yù)防兩路水源與冷水機組同時不可用,后備蓄水池與蓄冷罐當(dāng)然也必不可少。
京東云華東數(shù)據(jù)中心內(nèi)的蓄冷罐,共計4個蓄冷罐,總計可容納180立方米冷凍水
降低數(shù)據(jù)中心PUE不僅能夠?qū)崿F(xiàn)成本節(jié)省,還符合國家節(jié)能減排戰(zhàn)略。降低PUE的實質(zhì)在于減少冷卻系統(tǒng)的能耗,冷卻系統(tǒng)70%以上的能耗都用于冷水機組。所以實現(xiàn)PUE值降低最直接有效的手段就是盡量減少冷水機組的運行時間,而充分利用數(shù)據(jù)中心所在地的自然冷源。
京東云華東數(shù)據(jù)中心所在地宿遷,年均氣溫14.2攝氏度,無霜期較長,室外自然冷源條件充足,且室外設(shè)備被凍結(jié)故障的可能性小。所以京東云在冷凍水系統(tǒng)中增加了板式換熱器(簡稱板換),與冷水機組并聯(lián)。
在實際運行中,冷凍水系統(tǒng)在室外日平均溫度持續(xù)5天以上低于10℃時,開啟板換并關(guān)閉冷機,日平均溫度持續(xù)5天以上高于10℃時,再啟用冷機。并且,在傳統(tǒng)的Free Cooling技術(shù)基礎(chǔ)上,京東云增加了一套自主設(shè)計的氣候環(huán)境采集控制系統(tǒng),完全實現(xiàn)了制冷系統(tǒng)根據(jù)室內(nèi)外環(huán)境溫度、濕度、系統(tǒng)負荷大小、平滑連續(xù)的調(diào)節(jié)各組件運行狀態(tài),始終保持系統(tǒng)在最佳的效率區(qū)間。據(jù)京東云統(tǒng)計,全年可以”免費“使用自然冷源的時間超過180天,直接節(jié)約電費數(shù)百萬元。
在嘗到“甜頭”之后,京東云華東數(shù)據(jù)中心一期中的“小三期”中開始實驗間接蒸發(fā)冷卻技術(shù),相比于冷卻水系統(tǒng),間接蒸發(fā)冷卻技術(shù)可直接使用自然冷空氣進行換熱,不僅節(jié)約電費,還節(jié)約水費,更好的成本節(jié)省。同時,相比于冷凍水系統(tǒng)復(fù)雜的管道鋪設(shè),間接蒸發(fā)冷卻設(shè)備更符合模塊化設(shè)計理念,能夠加快數(shù)據(jù)中心的建設(shè)周期。
【作者: 曾智強 】