在阿里云看來,IBM當年關于未來世界可能只需要5臺主機的論斷,只是驗證了未來的不可測,阿里云在5年創(chuàng)業(yè)實踐中摸到了未來的門檻:未來上百億設備的服務端、千萬級的客戶都將在強力的云計算上面,大采用的是大規(guī)模的分布式計算架構,橫向擴展。
 
恒生電子已經看到了這樣的趨勢,這家98%的基金公司的管理軟件供應商,正在致力于在阿里云平臺上為傳統(tǒng)的軟件功能提供一種服務的交付模式,恒生網絡事業(yè)部首席架構師李文松表示,提供服務讓公司有機會獲得更多的中小型客戶,橫向擴展模式則可以提供更多的彈性和靈活性,并規(guī)避集中式架構面臨的天花板,更好地服務需求大規(guī)模資源的大客戶。
 
趨勢不可逆轉,IBM最新的POWER 8處理器,也已經轉而支持橫向擴展。然而分布式架構在最近幾年才獲得較快的發(fā)展,不像傳統(tǒng)縱向擴展架構那樣久經驗證,并且具有一整套成熟的故障排除方法論。這意味著用戶采用新架構的風險。這一點,王文彬自己就有深刻的體會。
 
王文彬在擔任淘寶副總裁時,不愿意用阿里云支持其聚石塔項目(電商開放平臺),而是要用原來的淘寶技術體系,但被負責技術保障的劉振飛“粗暴”地頂回去。而負責阿里金融的胡曉明也曾有同樣的想法和同樣的結果。其實,劉振飛自己最初對其淘寶技術保障部與阿里云運維團隊的合并也不是那么積極,因為“心里沒底”,但馬云做保:未來屬于云計算和大數據,新加入的王堅知道怎么做。
 
從IOE到云計算,從服務內部電商客戶到面向全行業(yè),王堅其實做得很辛苦,首先分布式計算確實有很多需要解決的基礎問題。阿里云計算有限公司資深總監(jiān)唐洪表示,小概率故障成為常態(tài)是飛天遇到的重要技術挑戰(zhàn)之一。“分布式計算中,當服務器規(guī)模達到一定程度時,任何小概率故障都有可能成為常態(tài)。”唐洪說。
 
這些小概率故障主要包括磁盤的故障、機器的故障和網絡的故障等。磁盤方面,以SATA磁盤3%的年故障率計算,5K機器每天壞4塊,100K機器每小時壞4塊。常見的機器故障問題有內存ECC錯誤,根分區(qū)只讀問題等等,如果有5K機器,每天會壞一臺,100K機器則是每小時壞一臺。網絡也會發(fā)生丟包、時斷時連等故障,阿里云集群受影響時間大約是每年每集群1小時。
對于企業(yè)業(yè)務系統(tǒng)來說,這些數字足以讓我們怵目驚心。但這只是問題之一,唐洪表示,飛天還面臨運營中的人為因素、多租戶環(huán)境(提升彈性和成本效益)的性能隔離等挑戰(zhàn)。
“云計算的本質是服務加上24小時的運維保障,”王文彬說,“這是一個365天24小時的共生關系,這對任何一家公司都是全新的挑戰(zhàn)。我們現在認識到這個挑戰(zhàn),我們還在路上。”
 
整個業(yè)界都還在路上。所以,浪潮一手做SmartRack,一手做天梭K1小型機,兩個市場都獲得不小的成功;IBM力推POWERLinux,卻也無意把AIX完全遷移到Linux環(huán)境。國內外的服務器廠商認為,橫向擴展和縱向擴展面向不同的工作負載,這與阿里云的觀點截然不同。
 
阿里云表示,將從三個方面來改進產品:建立更有效的客戶溝通渠道,解決基礎產品的穩(wěn)定性和完善基本開發(fā)者體驗。例如,針對小概率故障,阿里云特別開發(fā)了“華佗”系統(tǒng),進行快速甄別和自動化處理。
 
 
 
“雖然故障的事實無法改變,但我們的努力可以創(chuàng)在更少故障的未來!”王文彬引用杜勇《進步集》的話說。
 
要服務千萬級的客戶,其實還有上層應用的問題。傳統(tǒng)IT系統(tǒng),尤其是關鍵應用,都基于縱向擴展架構設計的,遷移到云,還是意味著遷移的成本和風險,所以,阿里云需要更多的努力,才有可能服務以后的千萬級客戶。不做應用的阿里云,多次強調要服務好開發(fā)者,王文彬認為這也要改進。
 
“我們要建立一個懂開發(fā)者的產品技術跟開發(fā)團隊,這方面以前我們做的不夠。”王文彬說,以前的平臺思維,使得阿里云團隊不夠理解開發(fā)者的需求。他承諾要與開發(fā)者進行更多的互動,從產品、技術和服務團隊來做好阿里云。
 
阿里云不惜自曝其短,雷霆認為這有三層含義:第一,我們牛叉的云平臺是一刀一槍拼出來的,把云計算做成公共服務是一項巨大的挑戰(zhàn),我們還不完美,但比別家的云更成熟;第二,我們是客戶導向的,對客戶坦誠,不粉飾太平,不做一錘子買賣,而是真正地和開發(fā)者一條心,要打造一個利益共同體;第三,我們會不惜代價迎難而上,開發(fā)者可以永久地解除后顧之憂。
 
自曝挑戰(zhàn),仍是瑕不掩瑜,阿里云飛天5k集群的牛叉是業(yè)界公認的,只支持天貓、淘寶、支付寶、阿里小貸等阿里巴巴集團業(yè)務這一項,已經足以征服客戶,讓他們視為首選的云服務平臺。李文松表示,在金融行業(yè),目前能夠真正從底層硬件到操作系統(tǒng)、數據庫、中間件,到上層應用,完整地實現自主開發(fā)、安全可控的技術,只有阿里巴巴做到了。目前,包括不少的金融客戶已經選擇了阿里云。
 
值得一提的是,目前阿里云沒有銷售團隊,沒為營銷花一分錢,靠的是客戶口碑相傳,客戶自動找上門,阿里云只需思考如何去滿足他們的需求,這又是典型的互聯(lián)網思維。道歉的王文彬談到這一點還是很自豪,在他看來,互聯(lián)網基因始終是阿里云不同于巨頭的云的根源之一。但正如前文所述,想要把云變成電一樣的服務,改變世界,阿里云還需要讓飛天更加完善。
 
愛迪生說,起碼我發(fā)現了1000多種材料不能做燈絲,但他試驗6000種材料失敗了9000多次才找到了碳化纖維,而且還可能借鑒了斯旺的成果。所以說,阿里云發(fā)現現有問題、明確目標相對簡單,解決問題的難度,可能不亞于開發(fā)飛天那樣的工程。
 
燈絲的試驗,失敗只屬于愛迪生,阿里云的責任更加重大,進步的速度與平臺上的客戶的利益息息相關。但王文彬有信心,明年的開發(fā)者大會上不用再談這些難題。“阿里做的事情哪一件是不難的?我們阿里云內部有一句話說,不難要你干什么?所以我們必須面對這些挑戰(zhàn),把這些問題解決。”王文彬說。
分享到

zhoujianding

相關推薦