天河二號:“微異構架構”加速高性能計算應用
藍調(diào) 發(fā)表于:13年06月26日 11:46 [原創(chuàng)] DOIT.com.cn
人類疾病的研究和治療,需要高性能計算提供海量數(shù)據(jù)的分析處理能力;
汽車制造領域,需要借助高性能計算來降低研發(fā)成本,提升產(chǎn)品質(zhì)量降低,研發(fā)周期……
高性能計算發(fā)展到今天,已經(jīng)滲透到科技發(fā)展、人類生活、商業(yè)競爭的各個方面,然而,制約其發(fā)展的已經(jīng)不只是計算性能的問題了。如何控制能耗?如何提升核與核 之間的高度并行協(xié)作能力?如何在軟件層面把龐大的計算資源充分利用起來?如何提升應用程序從傳統(tǒng)單一架構到異構架構的可移植性等等,這一系列問題成為高性 能計算發(fā)展和應用的幾大“攔路虎”。
近日,第41屆國際超級計算機TOP500榜單在國際超級計算大會(ISC13)上公布(詳情請見https://www.top500.org/),中國超級計算機“天河二號(Milky Way2)”以33.86 PFlops的實測峰值榮登榜首。
“微異構架構”提升系統(tǒng)可編程性
盡管“天河二號”肩負著奪冠的重大使命,但與往常一些只為了奪冠的超級計算機有所不同,“天河二號”更重要的任務是應用——支持整個長三角地區(qū)的科學研究、企業(yè)計算,甚至一些大數(shù)據(jù)的應用。因此,它對于可編程性要求非常高。
從 系統(tǒng)架構上來看,“天河二號”整個系統(tǒng)采用了32000顆英特爾E5 2600 V2系列,加上48000英特爾至強融核協(xié)處理器。這樣的架構,英特爾將其稱之為“微異構架構”。什么是“微異構架構”?英特爾(中國)服務器平臺產(chǎn)品經(jīng) 理張振宇給出了這樣的解釋,“所謂‘微異構架構’就是采用單一編程模式的異構”。
這 聽起來似乎很有誘惑力,因為對于許多高性能計算的客戶而言,無論是“CPU+GPU”的架構還是“CPU+MIC”的架構,異構編程畢竟是一個老大難。微 異構架構并不是說CPU上的程序可以直接在CPU+MIC的架構上使用,張振宇進一步談道,“客戶需要先將應用程序在CPU上做并行優(yōu)化,之后才可以直接 移植到至強融核上,這里面的優(yōu)化技巧和方法需要學習和熟悉”。
英特爾高性能計算產(chǎn)品線全面開花
英 特爾每年都會在國際超級計算機大會上發(fā)布相應的新品,去年發(fā)布了5100P,今年又發(fā)布了五款新的至強融核產(chǎn)品,包括 7100系列的7120P,7120X,31系列的3120P和3120A,還有5100系列的5120D。其中,7100最高的性能可以達到1.2T雙 精度浮點計算。3100是最佳的性價比,5100是最通用的產(chǎn)品形態(tài),5120D是小型封裝,可以在OEM刀片系統(tǒng)里使用。
除了芯片之外, 英特爾在HPC的各個領域也都陸續(xù)推出了相應的產(chǎn)品,目前已經(jīng)形成了一個非常強大的產(chǎn)品線,包括Xeon Phi協(xié)處理器,英特爾Truescale和以太網(wǎng)的設備,同時還有正在研發(fā)的下一代互聯(lián)產(chǎn)品。此外,軟件方面,除了一些消息庫、并行軟件之外,英特爾今 年還發(fā)布了一款新的并行文件系統(tǒng)——英特爾企業(yè)版Lustre。
Lustre最初來源于卡耐基梅隆大學的的研究員Peter Braam在NASD項目研究工作,其優(yōu)勢在于其可擴展性和可靠性,同時可滿足大規(guī)模并行集群存儲系統(tǒng)上的I/O需求。Intel去年收購了超級計算機集 群解決方案文件系統(tǒng)Lustre的母公司W(wǎng)hamcloud。
“之前,在商業(yè)計算領域很少采用Lustre,因為它是一個開源軟件,在技術支持和體系架構方面都不是很好,英特爾推出的企業(yè)版Lustre針對英特爾平臺進行優(yōu)化和打包,同時為客戶提供定制化的服務,從而保證商業(yè)計算的可靠性和性能要求”,張振宇這樣談道。
Knights Landing針對應用特征設計的兩種“造型”
據(jù) 介紹,下一代英特爾至強融核處理器Knights Landing將采用14納米制程技術,非常值得一提的是,Knights Landing有兩種設計選擇,既可以插在CPU插槽上,也可以放在PCIe插槽上。這樣設計的初衷就是充分考慮應用特征,張振宇表示,“有一小部分應用 是百分之百高度并行的,這類應用可以很好地在眾核上運行,不需CPU做串行計算再把計算結果交過來,不需要協(xié)調(diào)的工作,針對這一類應用,可以把 Knights Landing直接做成處理器,把Knights Landing當Cluster來跑這類應用,性能會非常好”。