微軟亞太研發(fā)集團(tuán)服務(wù)器與開發(fā)工具事業(yè)部高性能云計算部門經(jīng)理徐明強(qiáng)博士

IT168:您最近提到了一個有意思的觀點(diǎn),稱從2010年開始,云計算是高性能計算領(lǐng)域繼2003年X86集群大面積普及應(yīng)用以來的第二個拐點(diǎn)。為什么這么說?

徐明強(qiáng):云計算可以說是Beowulf集群故事的續(xù)集。集群剛出現(xiàn)的時候,很多人都說這是一種不實(shí)用的“玩具”,但是在高性能計算領(lǐng)域,玩具槍往往最終會變成真槍,看看今天的全球TOP500排行榜,集群系統(tǒng)已經(jīng)占據(jù)了90%的份額。大眾化的集群使得高性能計算沖破了國家實(shí)驗(yàn)室的封鎖、沖破了先進(jìn)國家的邊界,在世界各地、各行各業(yè)得到了廣泛的應(yīng)用——在今天全球7000萬科學(xué)家和工程師中,已經(jīng)有1500萬人使用上了高性能計算這個工具。

云計算:HPC產(chǎn)業(yè)的第二個拐點(diǎn)

不過,今天我們也看到,集群發(fā)展到現(xiàn)在也碰到了瓶頸,它并不能讓讓所有的工程師都能用上高性能計算。到了2010年,HPC云計算開始成為新的拐點(diǎn),微軟HPC市場部門做過初步的估計,到2017年,HPC云計算的節(jié)點(diǎn)總數(shù)將會達(dá)到40萬個。我們相信HPC云計算會最終實(shí)現(xiàn)讓所有工程師都能以按需分配的方式用上高性能計算的夢想??梢赃@么說,集群解決了“買得起”高性能計算機(jī)的問題,而云計算要解決的是當(dāng)前許多用戶“買得起,卻管理不起或管理不了”的問題。

IT168:為什么這幾年受到業(yè)界熱捧的GPU計算沒有成為您所定義的第二個拐點(diǎn)?

徐明強(qiáng):GPU對HPC市場的推動遠(yuǎn)遠(yuǎn)沒有達(dá)到當(dāng)年X86集群的影響力,它更多主要還是針對一些高端的、定制化的應(yīng)用。從微軟的角度和策略來看,是要想辦法降低高性能計算的門檻,所以我們認(rèn)為云計算會成為這樣一個拐點(diǎn),讓高性能計算得到進(jìn)一步的普及。

云計算推動HPC產(chǎn)業(yè)變革

IT168:那么云計算會給整個HPC產(chǎn)業(yè)結(jié)構(gòu)帶來怎樣的沖擊?在傳統(tǒng)的高性能計算領(lǐng)域,產(chǎn)業(yè)鏈中各個廠商的價值定位相對是比較明確的,硬件、系統(tǒng)軟件、應(yīng)用軟件廠商各施其職,之間的區(qū)隔也比較明顯,多年來形成了相對固定的一種產(chǎn)業(yè)價值分工格局。如果轉(zhuǎn)向云計算,這個產(chǎn)業(yè)價值鏈會發(fā)生什么樣的變化?今天的軟硬件廠商需要做出什么樣的改變才能在未來的競爭中存活與發(fā)展?

徐明強(qiáng):在回答這個問題之前,我們不妨先來看看2010年HPC的產(chǎn)業(yè)結(jié)構(gòu)。2010年整個全球高性能計算市場的規(guī)模達(dá)到588億美元,其中應(yīng)用占了三分之一,達(dá)187億美元,其次是服務(wù)器和服務(wù),操作系統(tǒng)在整個產(chǎn)業(yè)鏈中所占的份額其實(shí)很小。這也說明,操作系統(tǒng)是否免費(fèi),并不會影響到最終用戶在HPC上的投入。

云計算推動HPC產(chǎn)業(yè)變革

我們看到,云計算的普及會使上述產(chǎn)業(yè)格局發(fā)生翻天覆地的變化,現(xiàn)有的產(chǎn)業(yè)價值會轉(zhuǎn)到公有云運(yùn)營商身上,我用一個通俗的話來講,就是要做“瘦身”手術(shù)。這個手術(shù)需要開五刀:

第一刀是服務(wù)器,因?yàn)樵七\(yùn)營商采購服務(wù)器往往數(shù)以萬計,這種規(guī)模效應(yīng)會讓用戶在硬件成本上大幅節(jié)省;

第二刀開在硬件維護(hù)上,因?yàn)橛脩羰褂迷瀑Y源,不必再直接維護(hù)硬件,而運(yùn)營商由于是大量使用標(biāo)準(zhǔn)硬件,維護(hù)成本也會大大降低;

第三刀是在服務(wù)上,今天高性能計算系統(tǒng)的搭建實(shí)施還是比較難的,需要系統(tǒng)集成商,這部分價值也會轉(zhuǎn)到運(yùn)營商身上;

第四刀就是在微軟這樣的系統(tǒng)軟件廠商身上,因?yàn)橛脩舨槐貑为?dú)購買操作系統(tǒng),部分價值轉(zhuǎn)到運(yùn)營商;

第五刀在應(yīng)用上,過去ISV的很多投入都是在營銷上面,而在如果在Windows Azure的Marketplace上,它們可以利用云來實(shí)現(xiàn)軟件分發(fā),不用再找代理商或建分支機(jī)構(gòu),也能快速地在全球推廣軟件。

值得注意的是,這種轉(zhuǎn)型并不會讓整個市場縮水,但會給產(chǎn)業(yè)鏈中的不同角色帶來機(jī)遇與挑戰(zhàn)。比如系統(tǒng)集成商會變成云運(yùn)營商,成為云的Hoster;應(yīng)用代理商則會變身為高附加值的SaaS服務(wù)商;中間件如作業(yè)調(diào)度器則正在進(jìn)行整合,如Oracle收購SUN ,IBM收購Platform;硬件ODM廠商會加入OEM的隊伍,為云運(yùn)營商提供硬件。

IT168:在新的HPC云計算產(chǎn)業(yè)結(jié)構(gòu)中,微軟又會扮演怎樣的角色?

徐明強(qiáng):我們要扮演的角色是平臺服務(wù)商,目前是要為這個平臺上的三個主角提供四類場景服務(wù):

云計算推動HPC產(chǎn)業(yè)變革

一是幫助應(yīng)用開發(fā)商在Windows Azure Platform上快速啟用云應(yīng)用,跟以Amazon EC2為代表的IaaS相比,Azure 作為PaaS可以為用戶提供更全面、直接、簡化的服務(wù),用戶不必在購買了虛擬機(jī)之后還要自己去搭建集群、安裝作業(yè)調(diào)度器等;

二是幫助系統(tǒng)集成商使用Azure Appliance向公有云承載運(yùn)營商轉(zhuǎn)型;

三是幫助應(yīng)用廠商借助Windows Azure Marketplace構(gòu)建高效的軟件推廣和分發(fā)渠道,在全球?qū)崿F(xiàn)快速營銷;

四是幫助增值銷售商廠商利用Azure SDK和Billing付費(fèi)系統(tǒng)快速搭建SaaS平臺。

適合云計算的HPC應(yīng)用

IT168:我們也注意到業(yè)界對于高性能計算能否利用云來實(shí)現(xiàn)其實(shí)還是存在一些爭議,在您看來,什么樣的應(yīng)用適合用云來實(shí)現(xiàn)?

徐明強(qiáng):主要有兩類應(yīng)用,一種是容易并行化的應(yīng)用,比如金融風(fēng)險分析,要分析利率、匯率、石油價格等因素對金融產(chǎn)品定價的影響,把這些因素排列組合出來,有很多都是可以單獨(dú)并行運(yùn)算的作業(yè),這類應(yīng)用非常適合云計算。我這周二就在英國碰到一家倫敦的投行,他們要做投資的賠賺分析,希望2小時之內(nèi)能出結(jié)果,因?yàn)槭袌鲎兓芸?,一些突發(fā)事件會產(chǎn)生影響,越快得到結(jié)果就越好。但是現(xiàn)有的資源無法滿足計算需求,而他們的應(yīng)用正好是非常容易實(shí)現(xiàn)并行化的應(yīng)用,而且節(jié)點(diǎn)之間的通信比較少,通過從云中申請500個節(jié)點(diǎn)就得以實(shí)現(xiàn)。

第二種是大數(shù)據(jù)處理分析,一些用戶可以利用云中存儲的數(shù)據(jù)來進(jìn)行并行化分析。我們之前推出過LINQ工具,幫助.NET程序員利用一些非常簡單的SQL語句來處理數(shù)據(jù),后來的PLINQ(Parallel LINQ)可以在多核機(jī)器上運(yùn)行,現(xiàn)在又推出LINQ to HPC的版本,可以在多機(jī)上擴(kuò)展運(yùn)行,這會達(dá)到最佳的理想狀態(tài)。因?yàn)橐粋€節(jié)點(diǎn)再大,I/O終究會成為瓶頸,而如果擴(kuò)展到多機(jī)集群上,每個節(jié)點(diǎn)都有自己的I/O能力,會大大緩解壓力。

值得一提的是,對于MPI類的應(yīng)用,如果云中沒有Infiniband這種比較好的網(wǎng)絡(luò)設(shè)備,不太適合,延遲問題會比較嚴(yán)重?;旧?,我們看到金融保險的商業(yè)處理、渲染都比較適合HPC云計算,對于科學(xué)工程計算來說,使用量上可能相對少一些。比如,對于汽車設(shè)計公司來說,一個很大的顧慮是在云中計算能否確保新車型的保密。

IT168:除了這種數(shù)據(jù)安全風(fēng)險,影響HPC云計算發(fā)展是否還存在其他一些因素,比如性能是否夠用?

徐明強(qiáng):雖然現(xiàn)在單個虛擬機(jī)的性能可能要比物理機(jī)差一些,但我們可以通過多機(jī)來完成并行的作業(yè)。而且,對于那些從來沒有用過HPC的用戶,對易用性的要求比傳統(tǒng)用戶要高。實(shí)際上,有許多ISV都采用工作站客戶端+后臺計算服務(wù)的結(jié)構(gòu),來滿足海量低端用戶的需求。所以,高性能計算的ISV能否成功,已經(jīng)不在于在TOP500中能取得多少份額,而是在于底座的5000萬的用戶。

以微軟的Azure為例,我們曾經(jīng)做過分析,發(fā)現(xiàn)有20%的機(jī)時都是用在HPC上,這是一個非??捎^的量,這也是我們下決心要把HPC移植到Azure平臺上的原因。比如,我們有一個ISV僅一天的用量就多達(dá)4000個核。

IT168:不同的企業(yè)會使用不同的云計算服務(wù),有的用公有云,有的用私有云,有的用混合云。那么,微軟HPC公有云與企業(yè)私有云之間可以實(shí)現(xiàn)無縫集成或遷移嗎?

徐明強(qiáng):剛才提到過,到2017年,HPC云計算的節(jié)點(diǎn)總數(shù)將會達(dá)到40萬個。其中三分之二是企業(yè)用戶,非企業(yè)、全新用戶所需的節(jié)點(diǎn)數(shù)占三分之一。這也使得企業(yè)自身私有云與公有云的無縫集成會變得很重要。目前我們已經(jīng)聯(lián)合上海超算、上汽、泛云科技一起實(shí)現(xiàn)了HPC公有云與私有云的無縫遷移。由于上海超算和上汽的高性能計算系統(tǒng)都是基于Windows HPC Server,所以集成遷移過程非常順利。

適合云計算的HPC應(yīng)用

分享到

renxinbo

相關(guān)推薦