盧濤 Jason Lu
Graphcore 高級副總裁兼中國區(qū)總經(jīng)理

這三部分涵蓋了人工智能的大部分場景,可以說,在許多場景中,IPU相對于GPU有很大優(yōu)勢,IPU很是厲害。

英國半導體之父、Arm聯(lián)合創(chuàng)始人Hermann爵士說:“在計算機歷史上只發(fā)生過三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”因為Graphcore率先提出了為AI計算而生的IPU。

Graphcore被許多業(yè)內大佬看好,目前已經(jīng)獲得了4.5億美金的融資,除了許多知名金融投資機構外,包括寶馬、博世、戴爾科技集團、微軟、三星等都是其戰(zhàn)略投資者。IPU也很爭氣,目前IPU GC2已經(jīng)量產(chǎn),并裝載在戴爾EMC DSS8440服務器供客戶使用。此外,目前Graphcore在Microsoft Azure公有云上開放了IPU服務,并且馬上將要推出和國內云服務商的合作。

為什么說IPU是面向AI設計的處理器?

首先,AI的工作負載與CPU、GPU提供的能力不太一樣。AI工作負載的特點有許多,比如非常大規(guī)模的CPU不擅長的那種并行計算,又比如數(shù)據(jù)結構非常稀疏。此外,AI工作負載屬于低精度計算,有大量的數(shù)據(jù)參數(shù)復用,還有靜態(tài)圖結構。以上種種都說明,AI負載是全新的計算負載。

其次,IPU解決了CPU和GPU沒能解決的問題。一般而言,一個AI模型的參數(shù)越多,那么預測就越精準,為了讓AI發(fā)揮更大作用,模型會不可避免地變得越來越大。模型變大對應著更密集的計算,意味著需要更大的算力提升。然而,現(xiàn)有架構已經(jīng)支撐不了這樣的增速,所以,必須有專門面向AI的處理器來解決性能問題。

IPU誕生于此次人工智能興起期間,又主要解決CPU和GPU解決不了的問題,所以完全可以說,IPU是面向AI設計的處理器。

三大特性解決性能問題

首先,片上內存解決內存性能問題。這么多年來,雖然內存主頻在提升,內存帶寬也在提升,但并沒有跟上性能提升的速度,為了解決這一問題,Graphcore的IPU采用了大規(guī)模并行的MIMD(多指令流多數(shù)據(jù)流),并且在片上放置了大量SRAM內存,因為它能將AI模型和數(shù)據(jù)放到芯片上,這一做法非常激進,但性能真的是非常高,相對于CPU或者GPU的內存方案,內存性能有10到320倍的提升。

多核計算提供并行能力。目前已量產(chǎn)的IPU處理器(GC2)片內有1216個核,支持7296個線程,也就是支持7296個應用程序同時運行,多核并行能力奠定了性能基礎。而想讓多核高效運行,當然離不開通信技術。

高效的多核通信技術。一個IPU的處理器內部的1216個核心之間通過一個叫BSP(Bulk Synchronous Parallel)技術實現(xiàn)通信,核與核之間通過8 TB/s的交換總線交流數(shù)據(jù)。據(jù)了解,Graphcore的IPU是全球第一款BSP處理器。此外,在不同IPU處理器之間,用IPU-Links實現(xiàn)通信,帶寬高達2.5 TB/s。

以上幾點特性的加持使得在自然語言處理的BERT、ResNeXt這樣的機器視覺場景下,Graphcore的IPU相對于GPU表現(xiàn)出許多優(yōu)勢,這里作為對比的GPU都是英偉達的上一代旗艦V100。談到英偉達最新的A100時,盧濤表示對自己的產(chǎn)品也非常有信心。

看到這里,你就會發(fā)現(xiàn),IPU最大的特點和優(yōu)點其實就是一個字:快!

芯片設計只是第一步,配套工具鏈也很重要

對用戶來說,AI芯片真的是太多了,Github上有人總結了AI芯片的全景圖,一大類是各種巨頭,包括谷歌、AWS、Facebook這樣的超級互聯(lián)網(wǎng)公司以及IT巨頭;另一大類是老牌芯片設計廠商,比如英特爾、英偉達;最后一類是各種初創(chuàng)公司。AI芯片領域真的是不要太擁擠,看起來一片繁榮,但有時候選擇太多也不是一件好事。

從芯片廠商看來,芯片設計完成后只是做了第一步,配套的工具鏈也非常重要。在開發(fā)人員看來,選擇一個AI芯片平臺的成本其實很高,開發(fā)人員需要熟悉這一平臺,熟悉芯片配套的各種軟件工具,熟悉從開發(fā)、訓練、調試、部署、推理等方方面面。為了降低用戶選擇新平臺的障礙,Graphcore做了許多工作。

據(jù)盧濤介紹,IPU支持的BSP協(xié)議能把整個計算邏輯分成計算、同步、交換三部分,對軟件工程師或開發(fā)者來說,能讓編程難度顯著降低,因為它不用處理“鎖(Lock)”的問題,有過開發(fā)經(jīng)驗的人應該知道鎖的問題,如何避免“死鎖”,如何優(yōu)化“鎖”是需要大量實踐教訓才能做的事情。

在芯片配套的開發(fā)軟件上,Graphcore準備的也非常完備。分析機構Moor Insights & Strategy的分析師表示, “Graphcore是我們目前已知的唯一一家將其產(chǎn)品擴展到囊括如此龐大的部署軟件和基礎架構套件的初創(chuàng)公司?!?/p>

Graphcore配套的開發(fā)軟件叫Poplar SDK,它是介于硬件平臺和機器學習框架之間的工具,Poplar SDK支持各種常見的機器學習開發(fā)框架,比如TensorFlow、PyTorch和ONNX。

為了簡化部署,Poplar SDK還提供容器化部署,能快速啟動和運行起來。此外,也支持包括微軟Hyper-V在內的虛擬化技術,支持Ubuntu、紅帽以及CentOS等常見的Linux發(fā)行版。

5月,Graphcore還推出了一個叫PopVision Graph Analyser的分析工具。開發(fā)者、研究者在使用IPU進行編程的時候,可以通過PopVision這個可視化的圖形展示工具來分析軟件運行效率,并進行調試調優(yōu)。

IPU是第三大AI芯片平臺

雖然芯片門類很多,看似選擇很多,但從實際部署來看,IPU是僅次于GPU和谷歌TPU的第三大部署平臺,Graphcore的商業(yè)化合作進展其實非???,目前,基于IPU的應用已經(jīng)覆蓋了機器學習的各個應用領域,包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型等。

不久前的Intelligent Health峰會上,微軟分享了如何使用IPU訓練CXR(胸部X光射線樣片),幫助醫(yī)學研究人員進行新冠肺炎的快速診斷。微軟用IPU在30分鐘內完成了傳統(tǒng)GPU需要5個小時才能完成的訓練工作量。

在金融領域涉及算法交易、投資管理、風險管理及詐騙識別的場景中,相對于GPU,IPU可以更快、更準確地發(fā)揮人工智能的能力。

在醫(yī)療和生命科學領域,IPU的使用可以讓人工智能在新藥發(fā)現(xiàn)、醫(yī)學圖像、醫(yī)學研究、精準醫(yī)療等場景中的過程加速。

在電信領域的智慧網(wǎng)絡、5G創(chuàng)新、預測性維護和客戶體驗方面,由于性能表現(xiàn)遠高于GPU,IPU的創(chuàng)新技術和能力也展示出了較高價值。

在中國市場,Graphcore與阿里巴巴和百度兩家互聯(lián)網(wǎng)巨頭建立合作關系。OCP峰會上,阿里巴巴異構計算首席科學家張偉豐博士宣布了Graphcore支持ODLA的接口標準;Wave Summit 2020上,百度宣布Graphcore為百度飛槳硬件生態(tài)圈共建合作伙伴,此舉對于Graphcore在中國市場的發(fā)展非常重要。

分享到

zhupb

相關推薦