SC2017聯(lián)想四連冠
如此看來(lái),SC 2017還有哪些新看點(diǎn)呢?HPC和人工智能AI應(yīng)該是看點(diǎn)之一。
有多少人能夠把HPC和AI聯(lián)系在一起呢?實(shí)際上,HPC/大數(shù)據(jù)一體化一度成為HPC領(lǐng)域的熱點(diǎn)。熟悉技術(shù)的朋友知道,如今,所說(shuō)的人工智能AI,其實(shí)可以理解為以大數(shù)據(jù)處理為基礎(chǔ),結(jié)合神經(jīng)元網(wǎng)絡(luò)+機(jī)器學(xué)習(xí)的算法,既然如此,HPC、AI親密無(wú)間,也是自然而然的事。
SC2017聯(lián)想展區(qū)
HPC和AI相同點(diǎn)
·相同點(diǎn)之一,它們都需要巨大計(jì)算和處理能力。
·相同點(diǎn)之二,它們都需要高可靠性。可以簡(jiǎn)單計(jì)算一下,如今HPC集群規(guī)模動(dòng)輒上萬(wàn)臺(tái),如果單臺(tái)服務(wù)器的故障率是萬(wàn)分之一,這就意味Linkpack測(cè)試無(wú)論如何是完不成的,萬(wàn)分之一故障率,意味著HPC系統(tǒng)100%失敗。
·相同點(diǎn)之三,它們都需要借助GPU或者APU的處理能力,不用多解釋,請(qǐng)參閱神威·太湖之光的配置。
·相同點(diǎn)之四,它們都關(guān)注能耗,造得起用不起,這是HPC領(lǐng)域一直以來(lái)的話題。兩個(gè)維度,一個(gè)讓HPC更加節(jié)能;第二個(gè)就讓HPC做更多的事情,大數(shù)據(jù)、AI就是很好的對(duì)象,物盡其用。
看聯(lián)想如何拆招
HPC和AI能夠真正做到親密無(wú)間嗎?
今年4月,楊元慶提到聯(lián)想要投資1.2億美元在AI這個(gè)產(chǎn)業(yè)上,也因?yàn)檫@個(gè)承諾,目前有超過(guò)100位AI方面的科學(xué)家,在聯(lián)想位于美國(guó)莫里斯維爾、德國(guó)斯圖加特以及中國(guó)北京的創(chuàng)新中心投入AI的研究。每一個(gè)中心都有自己的特色,客戶可以連進(jìn)來(lái)使用這些中心,同時(shí)也會(huì)有專家?guī)椭龑?dǎo)客戶一起來(lái)完成其中的操作。這是一個(gè)開(kāi)放的架構(gòu),只要有想法,就可以利用此種架構(gòu)跟聯(lián)想的專家一起去做討論。
聯(lián)想將用戶的AI之旅分為三個(gè)階段:
·發(fā)現(xiàn):幫助發(fā)現(xiàn)人工智能在廣泛應(yīng)用中的潛能和優(yōu)勢(shì);
·開(kāi)發(fā):提供專為人工智能優(yōu)化的硬件和人工智能框架選擇,以加速人工智能應(yīng)用的開(kāi)發(fā);
·部署:利用簡(jiǎn)化的端到端解決方案和專業(yè)服務(wù)知識(shí),快速完成部署。
聯(lián)想數(shù)據(jù)中心業(yè)務(wù)集團(tuán)副總裁兼人工智能與高性能計(jì)算業(yè)務(wù)總經(jīng)理Madhu Matta表示:“AI是一項(xiàng)復(fù)雜的工作,它需要優(yōu)異的處理能力和一定程度的技術(shù)專業(yè)知識(shí)和人才,而此類資源往往是客戶最缺乏的。”為此,聯(lián)想創(chuàng)建了一個(gè)端到端生態(tài)系統(tǒng),能夠在AI的每一步使用進(jìn)程中為客戶提供重要支持。
聯(lián)想數(shù)據(jù)中心業(yè)務(wù)集團(tuán)中國(guó)區(qū)企業(yè)級(jí)營(yíng)銷(xiāo)產(chǎn)品營(yíng)銷(xiāo)總監(jiān)李煒表示:對(duì)比其他友商方案,聯(lián)想最大的優(yōu)勢(shì)就是自主研發(fā),以及對(duì)機(jī)器性能、可靠性的嚴(yán)格要求,因此能夠向用戶交付更好、更優(yōu)質(zhì)量的產(chǎn)品。
SD530和LiCO,為AI優(yōu)化
在聯(lián)想看來(lái),HPC如果想要滿足AI、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等工作負(fù)載需要,就需要在靈活、敏捷性加以提高,為此,聯(lián)想推出了兩款專為未來(lái)工作負(fù)載設(shè)計(jì)的卓越產(chǎn)品:
·用于ThinkSystem SD530的全新GPU :?支持最新基于NVIDIA Volta架構(gòu)的Tesla V100 GPU加速器和英特爾至強(qiáng)可擴(kuò)展處理器系列,ThinkSystem SD530可以按需調(diào)整,可以根據(jù)計(jì)算規(guī)模的需要靈活擴(kuò)展性,同時(shí)保持HPC系統(tǒng)可靠性和可用性。
通過(guò)采用全新Tesla V100,ThinkSystem SD530為AI應(yīng)用提供了一個(gè)強(qiáng)大選擇,適用于大規(guī)模訓(xùn)練工作負(fù)載和推理工作負(fù)載等的需要。
·智能超算管理平臺(tái)(LiCO):熟悉聯(lián)想HPC的用戶,對(duì)于LiCO肯定不陌生,這是一套這是一款功能強(qiáng)大的管理套件,同時(shí)這也是一套對(duì)外開(kāi)源的軟件;為了滿足AI應(yīng)用的需要,聯(lián)想強(qiáng)化了上一代LiCO的全部功能,更在HPC軟硬件平臺(tái)上整合支撐了各種深度學(xué)習(xí)應(yīng)用,融合了主流的人工智能框架,比如谷歌的Tensorflow、臉書(shū)的Caffe、微軟的MXNET等。
此外,LiCO分布式的資源調(diào)度系統(tǒng),可以從容應(yīng)對(duì)各種深度學(xué)習(xí)訓(xùn)練對(duì)于不同規(guī)模計(jì)算的需求,如:人臉識(shí)別、自然語(yǔ)言處理;LiCO所提供的任務(wù)模板可以讓初學(xué)者、專家、數(shù)據(jù)科學(xué)家,都能夠快速上手; 而LiCO提供的數(shù)據(jù)預(yù)處理、訓(xùn)練、參數(shù)調(diào)整、過(guò)程監(jiān)控、測(cè)試等端到端解決方案,更可以讓用戶能夠集中精力在AI算法和業(yè)務(wù)應(yīng)用,無(wú)需要為硬件集群管理分心。
ThinkSystem數(shù)據(jù)中心基礎(chǔ)設(shè)施和解決方案產(chǎn)品組合展示
為了控制能耗,聯(lián)想提供了第二代溫水水冷技術(shù),將水溫從45℃提升到50℃,冷卻效率從80%上升到了90%。技術(shù)之外,更加重要的是,聯(lián)想的溫水水冷是唯一一個(gè)有全球案例,而且做到非常大集群的產(chǎn)品,在國(guó)內(nèi)外都有成功案例,在參觀中可以看到一個(gè)城市都在使用聯(lián)想的水冷產(chǎn)品。
未來(lái)HPC要挑戰(zhàn)E級(jí)計(jì)算,聯(lián)想水冷技術(shù)將會(huì)是一項(xiàng)非常重要的技術(shù)。如今,以神威·太湖之光的計(jì)算能力,E級(jí)計(jì)算將是其規(guī)模的10倍,耗電量將需要一個(gè)中型發(fā)電站來(lái)專供,這還沒(méi)有考慮空間上的占用。而采用聯(lián)想溫水水冷技術(shù),就可以壓縮90%能耗和占地水平。應(yīng)該說(shuō),這也恰好滿足了AI應(yīng)用的需求。
小結(jié)
以智慧計(jì)算為依托,在推動(dòng)HPC商用化進(jìn)程中,AI讓多樣化、個(gè)性化、定制化的聯(lián)想HPC解決方案有了更多用武之地。可以預(yù)計(jì),AI市場(chǎng)的深入應(yīng)用也必將反哺HPC系統(tǒng)應(yīng)用,迎接E級(jí)計(jì)算的新突破。