性能躍升:至強融核展現(xiàn)實力
DOIT原創(chuàng) 崔昊 發(fā)表于:12年11月27日 19:00 [原創(chuàng)] DOIT.com.cn
性能躍升:至強融核展現(xiàn)實力
上面我們已經(jīng)說到了英特爾“萬億次計算機計劃”的幾項重要宗旨,接下來,我們自然會在至強融核(Xeon Phi,為簡單起見,下面只稱至強融核)上面看到這一項目計劃所產(chǎn)生的影響,以及至強融核是如何從自身的特性上貫徹英特爾“萬億次計算機計劃”的。
談到性能和功耗比,英特爾至強處理器作為“高性能計算TOP500排行榜”上位列第一的處理器選擇,基本上每一代產(chǎn)品都會帶來極高的性能提升和功耗降低?偟膩碚f,我們會看到在同等對應的至強處理器每代更新上,會看到1.3-2.1倍不等的性能提升,而同時其功耗卻能夠更進一步的得到降低,可以說,至強E5本身已經(jīng)是不錯的高性能計算處理器。
但至強+至強融核的架構(gòu)顯然有將這一優(yōu)勢更進一步的可能性,我們都已經(jīng)見識到了協(xié)處理器在提升性能并保證功耗水平方面的巨大作用,尤其是對于越來越多的并行編程、并行計算來說,處理器+協(xié)處理器的方式顯然會更有效率,所以,至強融核所帶來的性能提升和功耗降低都將是十分明顯的。
首先,我們來看看至強融核兩個主要產(chǎn)品5110P和3100系列的性能表現(xiàn)。根據(jù)英特爾方面的數(shù)據(jù),5110P能夠提供1011 Gigaflops(即每秒1萬億次浮點計算)的雙精度浮點計算性能,3100系列則能夠肯定提供“超過1TeraFlops”的性能表現(xiàn),而這兩個皆為60核心的協(xié)處理器的性能水平,已經(jīng)達到了上文所談到的2007年英特爾CTO賈斯汀所展示的80核處理器的性能,當時賈斯汀談到其能夠?qū)崿F(xiàn)1TeraFlops的性能,而當時NVIDIA也展示了協(xié)處理器卡G80,其性能大約為520GFlops,如今的至強融核是這塊卡的兩倍。
在串行、并行的不同條件下,至強融核比至強運行在并行編程下還是有2.3x的優(yōu)勢
在并行編程的條件下,Joe Curley展示了至強融核的并行計算能力。在資料中,串行代碼通過英特爾至強處理器的處理時間為67.097秒,而通過代碼的并行化,至強處理器能夠獲得145倍的提升,僅需要0.46秒去完成并行代碼的工作。但如果將并行代碼運行在至強融核上,其結(jié)果僅為0.197秒,相比并行化處理器的至強處理器還要高出2.3倍。(后面會看到,這是一個SAXPY(Scalar Alpha X Plus Y)的例子)
顯然,60個超過1GHz性能的核心所能夠提供的并行計算效率是有較大提高的。至強處理器常見的六核心、八核心,核心數(shù)量差距最大甚至只有至強融核的十分之一,雖然其核心的頻率超過2GHz是至強融核的一倍多,但是如果能夠?qū)⒛切└⒅睾碎g通信、低延遲以及大量、重復簡單指令處理任務交給至強融核這樣的協(xié)處理器,其多核高并發(fā)的優(yōu)勢就能夠顯示出來——對于用戶來說,在不斷更新?lián)Q代的至強處理器之外,再針對并行模型獲得2-3倍的性能提升,是一件非常值得的事情,至少不需要去堆疊更多的至強處理器。
這就像在麥當勞排隊,至強處理器作為“星級服務員”能夠提供最佳的服務,適應各種不同顧客的需要,但是往往很多早餐的顧客只是為了點“6元早餐”或是一杯咖啡,此類的需求依靠普通的實習生就可以得到滿足:星級服務員+熟練實習生的組合能夠達到麥當勞餐廳的最少顧客等待,而不必把所有任務都交給星級服務員去做。
從技術上來看,至強處理器被設計用來應對更為復雜多變的負載,其中包括許多計算以外的考慮,比如設計預取和猜測執(zhí)行等提高指令的執(zhí)行效率,但這些邏輯組成并非為了簡單的雙精度浮點運算——也就是簡單的派發(fā)“6元早餐”,而眾核的至強融核核之間的核心帶寬更高、延遲低,適合處理那些互相邏輯關聯(lián)性不強的簡單數(shù)學計算。
比如說,在《眾核體系結(jié)構(gòu)下單核的設計與優(yōu)化》這篇論文中,作者就提到,像是基因序列對比就需要大量的數(shù)據(jù)對比,對于處理系統(tǒng)來說,片上可用的處理器核心數(shù)量越多,對提高此類任務的性能就越發(fā)明顯。
在不同的應用環(huán)境下,至強融核還是有一定優(yōu)勢的
在展示的資料中我們還能夠看到,至強融核對至強E5-2600系列處理器在SGEMM、DGEMM、SMP Linpack和STREAM Triad上2.9倍、2.8倍、2.6倍和2.2倍的性能提升,從性能上來看,至強融核在并行計算上所帶來的性能提升是非常顯著的,并且用戶能夠從中受益。
但我們也需要指出,所有這些性能的提升,都是在“并行編程”的前提下,也就是說,在大量應用程序仍然是串行模型的前提下,至強融核是無法發(fā)揮其最大的功效的,而至強處理器作為多核處理器,其同樣會受益于多核編程,比如說在上面展示的SAXPY例子中,細心的人就會發(fā)現(xiàn),至強E5通過并行化代碼獲得了145倍的性能提升,在并行的前提下,至強融核的性能只比至強E5提高了2.3倍。
這也就說明,并行化模型并非只會讓至強融核受益,同樣也會讓英特爾至強E5處理器受益,一旦程序進行并行化編譯,至強+至強融核能夠同時獲得極高的性能提升,這也就讓用戶通過使用至強融核更進一步的獲得了性能的提升。
至強融核已經(jīng)獲得大量OEM的支持,其中也包括國內(nèi)的曙光、大洋、浪潮、天地超云等,從這個名單上看,英特爾已經(jīng)將亦莊云基地的天地超云作為不錯的合作伙伴。