華中科技大學(xué)BSDE應(yīng)用成績(jī)突出
筆者與華中科技大學(xué)溝通了解到,華中科技大學(xué)對(duì)計(jì)算金融BSDE應(yīng)用優(yōu)化后,與優(yōu)化前的CPU串行程序狀態(tài)相比,性能實(shí)現(xiàn)了6萬(wàn)倍的提升,其中6萬(wàn)加速比的結(jié)果中有300多倍來(lái)自并行化、向量化、訪存等優(yōu)化,200多倍來(lái)自算法的優(yōu)化,充分展示了對(duì)應(yīng)用的深度了解。
華中科技大學(xué)獲ASC13大賽MIC應(yīng)用優(yōu)化獎(jiǎng)
從規(guī)則來(lái)看,參賽隊(duì)需要在3000瓦功耗限制下自行設(shè)計(jì)搭建超級(jí)計(jì)算機(jī)系統(tǒng),并進(jìn)行HPL、GROMACS、OPENCFD、WRF、BSDE 等5項(xiàng)優(yōu)化測(cè)試,在方案和策略方面,不同高校代表隊(duì)各具特色,構(gòu)建的超算平臺(tái)差異性很大,規(guī)模最大的采用了9個(gè)節(jié)點(diǎn),最小的采用了4個(gè)節(jié)點(diǎn),既有 CPU+GPU混合集群,也有全部采用MIC的眾核集群,尤其是BSDE應(yīng)用,其要求為基于單至強(qiáng)融核協(xié)處理器超算平臺(tái)的應(yīng)用并行化設(shè)計(jì)實(shí)現(xiàn)及性能優(yōu)化。
華中科技大學(xué)決賽現(xiàn)場(chǎng)
筆者深入了解到,華中科技大學(xué)通過(guò)研讀浪潮-英特爾中國(guó)并行計(jì)算聯(lián)合實(shí)驗(yàn)室的《MIC高性能計(jì)算編程指南》,對(duì)英特爾集成眾核(MIC)架構(gòu)的特點(diǎn)和應(yīng)用優(yōu)化方法有了全面的認(rèn)識(shí),采用至強(qiáng)融核協(xié)處理器應(yīng)用加速的實(shí)施:
在小規(guī)模算例上,采用在CPU上啟動(dòng)任務(wù),將全部計(jì)算過(guò)程以offload模式交由英特爾至強(qiáng)融核協(xié)處理器完成的方案,對(duì)于大的算例則采用CPU與至強(qiáng)融核協(xié)處理器協(xié)同計(jì)算,通過(guò)offload signal/wait方式將一部分計(jì)算任務(wù)交由至強(qiáng)融核協(xié)處理器異步完成。
另外,對(duì)于不同方案之間的臨界點(diǎn),則根據(jù)現(xiàn)場(chǎng)實(shí)測(cè)結(jié)果用MATLAB進(jìn)行曲線擬合分析得到。在以上方案的基礎(chǔ)上,華中科技大學(xué)還采用優(yōu)化數(shù)據(jù)訪問(wèn)方式、算法模型優(yōu)化等方法加快應(yīng)用運(yùn)行。
此外,他們還將應(yīng)用熱點(diǎn)中的多次計(jì)算任務(wù)合并成一次計(jì)算任務(wù),并提到循環(huán)外,避免重復(fù)計(jì)算,使用訪存的時(shí)間代替計(jì)算任務(wù)執(zhí)行的時(shí)間,大大提高了并行應(yīng)用性能。
由此,華中科技大學(xué)取得的成績(jī)表明對(duì)英特爾集成眾核(MIC)技術(shù)理解,充分掌握了相關(guān)并行編程模式和算法優(yōu)化技巧。基于英特爾集成眾核(MIC)架構(gòu)的加速技術(shù)具備高并行化和易上手的特點(diǎn)。