综合亚洲,,,色,中文字幕一线二线三线

機(jī)器的圖像識(shí)別錯(cuò)誤率已遠(yuǎn)低于人類

訓(xùn)練時(shí)間不是問題，運(yùn)行時(shí)間才是關(guān)鍵

卷積網(wǎng)絡(luò)之父、Facebook人工智能實(shí)驗(yàn)室主任Yann LeCun在一次采訪中表示，“大規(guī)模的在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練上可能是比較慢，但是在一個(gè)實(shí)際的應(yīng)用中，沒人關(guān)心訓(xùn)練到底要花多長時(shí)間，人們只關(guān)心運(yùn)行需要多久。”

也就是說，當(dāng)模型一旦被訓(xùn)練完成，線上推理的效率才決定用戶體驗(yàn)。比如，有2個(gè)同樣AI模型的訓(xùn)練，一家公司用了1天訓(xùn)練完成，但線上推理的效率只有每秒100個(gè)任務(wù)；另一家公司用了7天訓(xùn)練完成，但線上推理效率可以達(dá)到每秒1000個(gè)。那么對于最終用戶而言，第二家公司的應(yīng)用無疑更快、用戶體驗(yàn)更佳。那么如何才能提升人工智能應(yīng)用的線上推理任務(wù)的效率？

CPU、GPU都無法滿足海量推理任務(wù)實(shí)時(shí)處理

目前，GPU已經(jīng)在深度學(xué)習(xí)訓(xùn)練模型領(lǐng)域開創(chuàng)性地創(chuàng)建了包含CNN、DNN、RNN、LSTM以及強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)等算法在內(nèi)的應(yīng)用加速平臺(tái)和完整的生態(tài)系統(tǒng)。

GPU雖火，但技術(shù)上也有一定的局限性：

GPU在應(yīng)用過程中無法充分發(fā)揮并行計(jì)算優(yōu)勢。

深度學(xué)習(xí)包含兩個(gè)計(jì)算環(huán)節(jié)，即線下訓(xùn)練和線上推理環(huán)節(jié)。GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效，但在推理時(shí),一次性只能對于一個(gè)輸入項(xiàng)進(jìn)行處理，并行計(jì)算的優(yōu)勢不能發(fā)揮出來。

運(yùn)行能效比不佳。

相比較而言，運(yùn)行深度學(xué)習(xí)算法實(shí)現(xiàn)同樣的性能，GPU所需功耗遠(yuǎn)大于FPGA，通常情況下，GPU只能達(dá)到FPGA能效比的一半或更低。

硬件結(jié)構(gòu)固定不具備可編程性。

目前來看，深度學(xué)習(xí)算法還未完全成熟，算法還在迭代衍化過程中，若深度學(xué)習(xí)算法發(fā)生大的變化，GPU無法像FPGA一樣可以靈活的配置硬件結(jié)構(gòu)，快速切入市場。

因此，F(xiàn)PGA和GPU未來在超級數(shù)據(jù)中心將成主流應(yīng)用。尤其是在深度學(xué)習(xí)方面， GPU強(qiáng)在訓(xùn)練，而FPGA強(qiáng)在推斷。原百度IDL常務(wù)副院長、現(xiàn)地平線機(jī)器人創(chuàng)始人&CEO余凱博士在北大一次公開課中透露：“百度廣告系統(tǒng)上線跟語音系統(tǒng)上線都需要實(shí)時(shí)計(jì)算，并且它的流量特別大，特別是廣告，這種情況下 CPU 跟 GPU 其實(shí)都扛不住，所以我們當(dāng)時(shí)用 FPGA 去做專門的硬件加速?！?/p>

浪潮FPGA方案加速，能效比提升7倍以上

由于FPGA具有可編程專用性，高性能及低功耗的特點(diǎn)，浪潮推出基于FPGA的深度學(xué)習(xí)加速解決方案，希望通過更高配置的硬件板卡設(shè)計(jì)和內(nèi)置更高效已編譯算法，來加速FPGA在人工智能領(lǐng)域的應(yīng)用。

這一方案基于浪潮研發(fā)的業(yè)界最高密度的FPGA卡——F10A，單芯片峰值運(yùn)算能力為1.5TFlops，而功耗僅35W，每瓦特性42GFlops。同時(shí)，F(xiàn)10A設(shè)計(jì)半高半長PCI-E插卡，具有靈活的板卡內(nèi)存配置，最大支持32G雙通道內(nèi)存，能夠寄存更多的并行任務(wù)數(shù)據(jù)。此外，F(xiàn)10A支持2個(gè)10Gb光口，可以實(shí)現(xiàn)數(shù)據(jù)直接從網(wǎng)絡(luò)到板卡處理，無需經(jīng)過CPU，減低了傳輸延時(shí)。

基于業(yè)界最強(qiáng)性能的浪潮F10A FPGA的圖像壓縮加速方案

而在算法上，浪潮FPGA深度學(xué)習(xí)加速解決方案針對CNN卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化?？蛻粼诓捎么私鉀Q方案后，只需要將目前深度學(xué)習(xí)的算法和模型編譯成與浪潮深度學(xué)習(xí)加速解決方案的配置腳本，即可進(jìn)行線上應(yīng)用，省去至少3個(gè)月到半年的開發(fā)周期和相關(guān)成本。并且在算法運(yùn)行效率上，浪潮FPGA加速方案相比CPU、GPU都有著很大優(yōu)勢。

目前，浪潮FPGA方案可加速ResNet等神經(jīng)網(wǎng)絡(luò)，能夠應(yīng)用于圖片分類、對象檢測和人臉識(shí)別等應(yīng)用場景。以通過構(gòu)建ResNet殘差網(wǎng)絡(luò)的圖片識(shí)別分類任務(wù)為例，對通用圖像識(shí)別基礎(chǔ)數(shù)據(jù)集CIFAR-10進(jìn)行測試，通過浪潮FPGA解決方案進(jìn)行處理，能夠?qū)崿F(xiàn)每秒742張的處理速度，Top-5識(shí)別準(zhǔn)確率達(dá)到99.7%。而在同樣的模型下，使用NVidia M4僅能達(dá)到172張每秒，并且M4的功耗為50-75W，浪潮FPGA的功耗僅為30-45W。因此，從能效比來看，浪潮FPGA加速解決方案在圖片識(shí)別分類應(yīng)用上，相比GPU能效比能提升7倍以上！同樣，與通用CPU對比，在處理這種高并行、小計(jì)算量的任務(wù)時(shí)，F(xiàn)PGA的優(yōu)勢將更明顯。

CIFAR-10數(shù)據(jù)集的部分測試圖片

除了AI，F(xiàn)PGA還有更多想象空間

除了在AI的線上推理方向，F(xiàn)PGA在其他很多方面也能發(fā)揮價(jià)值。在面向計(jì)算密集型任務(wù)，比如矩陣運(yùn)算、圖像處理、機(jī)器學(xué)習(xí)、壓縮、非對稱加密、搜索的排序等的時(shí)候，擁有流水線并行和數(shù)據(jù)并行的FPGA效率會(huì)高很多。

目前，浪潮已經(jīng)推出面向WebP圖片轉(zhuǎn)碼、Gzip數(shù)據(jù)壓縮和深度學(xué)習(xí)等方向的完整解決方案，能夠?qū)崿F(xiàn)10倍以上的圖片壓縮吞吐能力，8-10倍的數(shù)據(jù)壓縮效率和10倍以上的圖片分類識(shí)別能效比。

分享到

zhupb

相關(guān)推薦

近期文章

熱門標(biāo)簽