【圖1】NVIDIA公司Tesla事業(yè)部的CTO Steve Scott

Steve Scott去年8月份加入NVIDIA公司,也是NVIDIA 全新Kepler架構(gòu)的總設(shè)計(jì)師,之前在克雷公司供職 19 年之久,在其中后六年里擔(dān)任高級(jí)副總裁兼首席技術(shù)官,負(fù)責(zé)確立克雷公司的技術(shù)方向以及制定系統(tǒng)架構(gòu)發(fā)展路線圖。他持有 27 項(xiàng)美國(guó)專利,這些專利涵蓋了互聯(lián)網(wǎng)絡(luò)、處理器微架構(gòu)、高速緩存一致性、同步化機(jī)制以及可擴(kuò)展并行架構(gòu)等領(lǐng)域。

高性能計(jì)算架構(gòu)未來(lái)走向混合

對(duì)于高性能計(jì)算中心來(lái)說(shuō),功耗是首當(dāng)其沖需要考慮的因素。Steve談到,雖然電路的每瓦特性能雖然仍在提升,但現(xiàn)在的提升速度是每年將近 20%,而過(guò)去每年近 70%。這意味著,隨著每一代芯片的發(fā)展,CPU的加速和存儲(chǔ)器速度的提升將使得能耗問(wèn)題越來(lái)越嚴(yán)重。因此,從能耗的角度來(lái)看,要在21世紀(jì)二十年代末實(shí)現(xiàn)百億億次級(jí) (Exascale) 計(jì)算,必須要在架構(gòu)有所突破。

此外,從HPC軟件和應(yīng)用程序的發(fā)展來(lái)看,未來(lái)絕大多數(shù)的HPC軟件和程序,都需要很好的單線程的計(jì)算能力、大容量的緩存,同時(shí)加上海量的并行計(jì)算能力。

Steve認(rèn)為,無(wú)論是從能耗與性能發(fā)展的矛盾來(lái)看,還是從HPC軟件發(fā)展的需求來(lái)看,未來(lái)的高性能計(jì)算必將走向混合計(jì)算的架構(gòu)。NVIDIA的GPU+CPU混合架構(gòu)、Intel的MIC+Xeon混合架構(gòu)、AMD的Fusion等都是混合架構(gòu)的典型代表。

【圖2】NVIDIA GPU+CPU混合計(jì)算架構(gòu)

Steve介紹道,在NVIDIA的混合架構(gòu)中,充分利用了GPU在能耗、并行計(jì)算方面的優(yōu)勢(shì)。為了改善應(yīng)用的每瓦特性能,NVIDIA將大部分工作轉(zhuǎn)到了專為吞吐量而優(yōu)化的核心上來(lái),僅使用快速 (但效率較低) 的 CPU 核心來(lái)處理常駐的串行工作。因?yàn)橐粋€(gè)核心無(wú)法做到既針對(duì)節(jié)能而優(yōu)化又針對(duì)快速的單線程性能而優(yōu)化,所以混合型架構(gòu)讓我們能夠把精力集中在使 GPU 核心越來(lái)越節(jié)能上來(lái),同時(shí)依賴 CPU 核心實(shí)現(xiàn)極高的串行性能。

Tesla三面修煉 誓破百億億次大關(guān)

作為NVIDIA在高性能計(jì)算領(lǐng)域的主打產(chǎn)品,Tesla從2007年6月開(kāi)始推出至今,五年多的時(shí)間,Tesla的定位也從個(gè)人高性能計(jì)算領(lǐng)域不斷轉(zhuǎn)向企業(yè)高性能計(jì)算領(lǐng)域。Steve在采訪中重點(diǎn)強(qiáng)調(diào),Tesla未來(lái)將在優(yōu)化能效(Power Efficiency)、簡(jiǎn)化編程和提升程序可移植性(Ease of Programming and portability)、應(yīng)用領(lǐng)域覆蓋(Application Space Coverage)等三個(gè)方面不斷加強(qiáng),最終突破百億億次級(jí)計(jì)算的大關(guān)。

在能效方面,GPU+CPU的架構(gòu)當(dāng)然具有得天獨(dú)厚的優(yōu)勢(shì)。Steve介紹道,為了改善應(yīng)用的每瓦特性能,NVIDIA將大部分工作轉(zhuǎn)到了專為吞吐量而優(yōu)化的核心上來(lái),僅使用快速 (但效率較低) 的 CPU 核心來(lái)處理常駐的串行工作。因?yàn)橐粋€(gè)核心無(wú)法做到既針對(duì)節(jié)能而優(yōu)化又針對(duì)快速的單線程性能而優(yōu)化,所以混合型架構(gòu)讓我們能夠把精力集中在使 GPU 核心越來(lái)越節(jié)能上來(lái),同時(shí)依賴 CPU 核心實(shí)現(xiàn)極高的串行性能。同時(shí),GPU本身的每瓦性能比也在不斷提升,Kepler GPU的每瓦性能比,相比Fermi提供了2倍左右,而將于2014年發(fā)布的Maxwell相對(duì)Fermi更是提高了6倍。

【圖2】Tesla未來(lái)的三大目標(biāo)

談到混合架構(gòu),編程是一個(gè)不可避免的問(wèn)題。架構(gòu)再好,如果應(yīng)用程序說(shuō)無(wú)法充分利用架構(gòu)的優(yōu)勢(shì),那一切都只是空談,基于混合架構(gòu)的編程也是當(dāng)前混合架構(gòu)發(fā)展所面臨的最大的難點(diǎn)之一。

Tesla的第二個(gè)目標(biāo)就是簡(jiǎn)化編程并提升程序的可移植性。對(duì)于NVIDIA而言,如何幫助用戶實(shí)現(xiàn)更加簡(jiǎn)單地在GPU+CPU架構(gòu)上進(jìn)行編程,這是需要重點(diǎn)考慮的。

Steve在采訪中介紹道,NVIDIA提供了CUDA框架和對(duì)OpenACC并行運(yùn)算的程序標(biāo)準(zhǔn),讓全球的開(kāi)發(fā)人員享受利用GPU運(yùn)算所帶來(lái)的好處。Steve還強(qiáng)調(diào),CUDA和OpenACC各有所長(zhǎng),分別適用于不同的編程場(chǎng)景,NVIDIA未來(lái)將同時(shí)支持CUDA和OpenACC。

CUDA(Compute Unified Device Architecture)比較適合從零開(kāi)始去寫(xiě)一個(gè)程序,用戶可以基于CUDA使用任何語(yǔ)言編寫(xiě)應(yīng)用程序。最新的CUDA 5也在10月份正式發(fā)布,NVIDIA在官方新聞稿中表示,CUDA 5可以讓開(kāi)發(fā)人員充分發(fā)揮NVIDIA GPU的加速性能,提供了對(duì)最新“開(kāi)普勒”家族的完整支持。

而OpenACC則比較適合已經(jīng)做完的程序。對(duì)于現(xiàn)有的程序,如果需要利用到GPU加速能力,可以無(wú)需重新編程,通過(guò)標(biāo)記的方式就可以利用到GPU的性能,但性能提升可能不如使用CUDA提升得那么明顯。

此外,Steve對(duì)記者表示,NVIDIA在全球有很多OpenACC的合作伙伴,提供OpenACC的編譯器。事實(shí)上,OpenACC的程序不只是支持GPU,像X86多核架構(gòu)也都是支持的,未來(lái)這些OpenACC的第三方的編譯器也將會(huì)支持英特爾MIC架構(gòu)、AMD的解決方案等等,這些廠商也將會(huì)支持這種標(biāo)記型的語(yǔ)言。

Tesla的第三個(gè)發(fā)展目標(biāo)就是應(yīng)用領(lǐng)域的覆蓋,從圖形計(jì)算領(lǐng)域走向通用計(jì)算領(lǐng)域也是GPU始終追求的目標(biāo)。

總之,NVIDIA希望通過(guò)Tesla來(lái)幫助用戶真正突破百億億次計(jì)算的大關(guān)。值得一提的是,可能在本月(11月)的SC12大會(huì)上公布的超級(jí)計(jì)算機(jī)TOP500中奪冠的泰坦(Titan)超級(jí)計(jì)算機(jī),就是使用NVIDIA Tesla K20 Kepler加速器與AMD的皓龍?zhí)幚砥飨嘟Y(jié)合,達(dá)到了20 PetaFLOPS的計(jì)算能力。Titan由2009年最快的超級(jí)計(jì)算機(jī)Jaguar升級(jí)而來(lái)。Titan的處理器核數(shù)僅高出Jaguar 30%,但借助圖形處理器的幫助,能在相同的200個(gè)機(jī)柜空間內(nèi)提升十倍的指令周期,耗電量從原本的7 megawat增長(zhǎng)至9 megawat,電源效率為原本的5倍,預(yù)計(jì)一年電費(fèi)為一千萬(wàn)美元。

“NVIDIA(英偉達(dá))的GPU加速技術(shù)并不僅僅是提供一個(gè)產(chǎn)品而已,而是一個(gè)正確的解決方案,同時(shí)也是一個(gè)商業(yè)的模式,給合作伙伴非常好的支持。這是一個(gè)可持續(xù)的商業(yè)模式。”Steve表示。

通往百億億次的道路不是一帆風(fēng)順的,異構(gòu)計(jì)算的出現(xiàn)為百億億次級(jí)計(jì)算提供了新的思路,而GPU+CPU的模式在能耗、并行性能方面具有天然的優(yōu)勢(shì),它究竟能否幫助用戶最先攻破抵達(dá)百億億次級(jí)計(jì)算的大關(guān),并享受到百億億次級(jí)計(jì)算的超強(qiáng)計(jì)算能力?這就要看NVIDIA和整個(gè)生態(tài)系統(tǒng)的修煉成果了。

分享到

tangrong

相關(guān)推薦