浪潮聯(lián)合美國某知名的互聯(lián)網(wǎng)公司對主流深度學習框架的測試結果
從測試結果來看,當運行AlexNet網(wǎng)絡時,Caffe性能最好,每秒可以訓練圖片張數(shù)達到4675張,16個GPU比單個GPU的加速比達到14倍。其次是MXNet,最后是TensorFlow。
當運行GoogLeNet時,MXNet性能最好,每秒可以訓練的圖片張數(shù)達到2462張,16個GPU比單個GPU的加速比達到12.7倍。其次是Caffe,最后是TensorFlow。
從這個評測來看,基于不同的網(wǎng)絡,所選擇最優(yōu)的框架是不一樣的。
基本上可以有大致的一個原則來選擇:我們會根據(jù)不同的場景和模型來選擇至少一種深度學習框架,目前很難說一種框架能在所有的應用場景中表現(xiàn)最優(yōu)。
如果是圖像方面的應用,主要采用Caffe、TensorFlow和MXNET這三種框架;
如果是語音的話,可以選擇CNTK;
自然語言處理的話可以采用PaddlePaddle。
針對大數(shù)據(jù)量的訓練,采用單機訓練的話時間會很長,有可能是幾周或幾個月訓練出一個模型,需要采用分布式框架。浪潮自研的深度學習框架Caffe-MPI,就實現(xiàn)了多機多GPU卡的并行訓練。通過實際測試,Caffe-MPI采用16個GPU卡同時訓練時,每秒處理效率達到3061張,較單卡性能提升13倍,擴展效率達到81%,性能將近是TensorFlow的2倍。
目前,浪潮Caffe-MPI框架目前已在Github開源,如果有需要可以免費下載使用。
當機器越來越多,怎么管理才高效?
人工智能深度學習訓練流程較長、開發(fā)環(huán)境較復雜,涉及數(shù)據(jù)準備和處理、特征工程、建模、調(diào)參等多個步驟及多個框架和模型,每個框架依賴環(huán)境不同且有可能交叉使用。同時,深度學習模型在訓練時往往耗時較長,短則數(shù)小時長則數(shù)天,以往在訓練完成后才意識到模型存在問題,大大耗費了用戶的精力和時間。
浪潮AI管理軟件AIStation可以提供從數(shù)據(jù)準備到分析訓練結果的完整深度學習業(yè)務流程,支持Caffe、TensorFlow、CNTK等多種計算框架和GoogleNet、VGG、ResNet等多種模型。
AIStation支持對訓練過程實時監(jiān)控并可視化訓練過程,支持打印每一步的損失函數(shù)值的日志、訓練誤差或測試誤差等;支持動態(tài)分配GPU資源實現(xiàn)資源合理共享,實現(xiàn)了“一鍵式”部署深度學習計算環(huán)境、快速啟動訓練任務;還可以實時監(jiān)控集群的使用情況,合理安排訓練任務,可及時發(fā)現(xiàn)運行中的問題,提高集群的可靠性。
除此以外,浪潮還可提供天眼高性能應用特征監(jiān)控分析系統(tǒng),量化超算軟件特征,提取和記錄應用軟件在高性能計算機運行過程中實時產(chǎn)生的CPU、內(nèi)存、磁盤、網(wǎng)絡等系統(tǒng)信息和微架構信息,及時幫助使用者找到系統(tǒng)瓶頸,并能準確地分析出程序開發(fā)者的應用軟件特征,幫助用戶合理的劃分集群使用資源、提高使用效率。
有了強勁的AI計算平臺、適合的開發(fā)框架、高效的AI管理監(jiān)控軟件,一個AI基礎平臺就基本構建完成,剩下的就是靠優(yōu)化的算法把你所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價值的資源。2018年,AI仍將是一個巨大的風口,希望以上浪潮測試數(shù)據(jù)和選型攻略能夠為大家?guī)硪恍﹩l(fā)。