機(jī)器的圖像識(shí)別錯(cuò)誤率已遠(yuǎn)低于人類

訓(xùn)練時(shí)間不是問題,運(yùn)行時(shí)間才是關(guān)鍵

卷積網(wǎng)絡(luò)之父、Facebook人工智能實(shí)驗(yàn)室主任Yann LeCun在一次采訪中表示,“大規(guī)模的在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練上可能是比較慢,但是在一個(gè)實(shí)際的應(yīng)用中,沒人關(guān)心訓(xùn)練到底要花多長時(shí)間,人們只關(guān)心運(yùn)行需要多久?!?/p>

也就是說,當(dāng)模型一旦被訓(xùn)練完成,線上推理的效率才決定用戶體驗(yàn)。比如,有2個(gè)同樣AI模型的訓(xùn)練,一家公司用了1天訓(xùn)練完成,但線上推理的效率只有每秒100個(gè)任務(wù);另一家公司用了7天訓(xùn)練完成,但線上推理效率可以達(dá)到每秒1000個(gè)。那么對(duì)于最終用戶而言,第二家公司的應(yīng)用無疑更快、用戶體驗(yàn)更佳。那么如何才能提升人工智能應(yīng)用的線上推理任務(wù)的效率?

CPU、GPU都無法滿足海量推理任務(wù)實(shí)時(shí)處理

目前,GPU已經(jīng)在深度學(xué)習(xí)訓(xùn)練模型領(lǐng)域開創(chuàng)性地創(chuàng)建了包含CNN、DNN、RNN、LSTM以及強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)等算法在內(nèi)的應(yīng)用加速平臺(tái)和完整的生態(tài)系統(tǒng)。

GPU雖火,但技術(shù)上也有一定的局限性:

  1. GPU在應(yīng)用過程中無法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。

深度學(xué)習(xí)包含兩個(gè)計(jì)算環(huán)節(jié),即線下訓(xùn)練和線上推理環(huán)節(jié)。GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時(shí),一次性只能對(duì)于一個(gè)輸入項(xiàng)進(jìn)行處理,并行計(jì)算的優(yōu)勢(shì)不能發(fā)揮出來。

  1. 運(yùn)行能效比不佳。

相比較而言,運(yùn)行深度學(xué)習(xí)算法實(shí)現(xiàn)同樣的性能,GPU所需功耗遠(yuǎn)大于FPGA,通常情況下,GPU只能達(dá)到FPGA能效比的一半或更低。

  1. 硬件結(jié)構(gòu)固定不具備可編程性。

目前來看,深度學(xué)習(xí)算法還未完全成熟,算法還在迭代衍化過程中,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配置硬件結(jié)構(gòu),快速切入市場(chǎng)。

因此,F(xiàn)PGA和GPU未來在超級(jí)數(shù)據(jù)中心將成主流應(yīng)用。尤其是在深度學(xué)習(xí)方面, GPU強(qiáng)在訓(xùn)練,而FPGA強(qiáng)在推斷。原百度IDL常務(wù)副院長、現(xiàn)地平線機(jī)器人創(chuàng)始人&CEO余凱博士在北大一次公開課中透露:“百度廣告系統(tǒng)上線跟語音系統(tǒng)上線都需要實(shí)時(shí)計(jì)算,并且它的流量特別大,特別是廣告,這種情況下 CPU 跟 GPU 其實(shí)都扛不住,所以我們當(dāng)時(shí)用 FPGA 去做專門的硬件加速。”

浪潮FPGA方案加速,能效比提升7倍以上

由于FPGA具有可編程專用性,高性能及低功耗的特點(diǎn),浪潮推出基于FPGA的深度學(xué)習(xí)加速解決方案,希望通過更高配置的硬件板卡設(shè)計(jì)和內(nèi)置更高效已編譯算法,來加速FPGA在人工智能領(lǐng)域的應(yīng)用。

這一方案基于浪潮研發(fā)的業(yè)界最高密度的FPGA卡——F10A,單芯片峰值運(yùn)算能力為1.5TFlops,而功耗僅35W,每瓦特性42GFlops。同時(shí),F(xiàn)10A設(shè)計(jì)半高半長PCI-E插卡,具有靈活的板卡內(nèi)存配置,最大支持32G雙通道內(nèi)存,能夠寄存更多的并行任務(wù)數(shù)據(jù)。此外,F(xiàn)10A支持2個(gè)10Gb光口,可以實(shí)現(xiàn)數(shù)據(jù)直接從網(wǎng)絡(luò)到板卡處理,無需經(jīng)過CPU,減低了傳輸延時(shí)。

基于業(yè)界最強(qiáng)性能的浪潮F10A FPGA的圖像壓縮加速方案

而在算法上,浪潮FPGA深度學(xué)習(xí)加速解決方案針對(duì)CNN卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化。客戶在采用此解決方案后,只需要將目前深度學(xué)習(xí)的算法和模型編譯成與浪潮深度學(xué)習(xí)加速解決方案的配置腳本,即可進(jìn)行線上應(yīng)用,省去至少3個(gè)月到半年的開發(fā)周期和相關(guān)成本。并且在算法運(yùn)行效率上,浪潮FPGA加速方案相比CPU、GPU都有著很大優(yōu)勢(shì)。

目前,浪潮FPGA方案可加速ResNet等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對(duì)象檢測(cè)和人臉識(shí)別等應(yīng)用場(chǎng)景。以通過構(gòu)建ResNet殘差網(wǎng)絡(luò)的圖片識(shí)別分類任務(wù)為例,對(duì)通用圖像識(shí)別基礎(chǔ)數(shù)據(jù)集CIFAR-10進(jìn)行測(cè)試,通過浪潮FPGA解決方案進(jìn)行處理,能夠?qū)崿F(xiàn)每秒742張的處理速度,Top-5識(shí)別準(zhǔn)確率達(dá)到99.7%。而在同樣的模型下,使用NVidia M4僅能達(dá)到172張每秒,并且M4的功耗為50-75W,浪潮FPGA的功耗僅為30-45W。因此,從能效比來看,浪潮FPGA加速解決方案在圖片識(shí)別分類應(yīng)用上,相比GPU能效比能提升7倍以上!同樣,與通用CPU對(duì)比,在處理這種高并行、小計(jì)算量的任務(wù)時(shí),F(xiàn)PGA的優(yōu)勢(shì)將更明顯。

CIFAR-10數(shù)據(jù)集的部分測(cè)試圖片

除了AI,F(xiàn)PGA還有更多想象空間

除了在AI的線上推理方向,F(xiàn)PGA在其他很多方面也能發(fā)揮價(jià)值。在面向計(jì)算密集型任務(wù),比如矩陣運(yùn)算、圖像處理、機(jī)器學(xué)習(xí)、壓縮、非對(duì)稱加密、搜索的排序等的時(shí)候,擁有流水線并行和數(shù)據(jù)并行的FPGA效率會(huì)高很多。

目前,浪潮已經(jīng)推出面向WebP圖片轉(zhuǎn)碼、Gzip數(shù)據(jù)壓縮和深度學(xué)習(xí)等方向的完整解決方案,能夠?qū)崿F(xiàn)10倍以上的圖片壓縮吞吐能力,8-10倍的數(shù)據(jù)壓縮效率和10倍以上的圖片分類識(shí)別能效比。

 

分享到

zhupb

相關(guān)推薦