這也是AI就是HPC的靈感來源。
早已經(jīng)是產(chǎn)業(yè)共識
AI與高性能計算,這已經(jīng)是產(chǎn)業(yè)界的共識。
但以小編的知識結構,其實一時轉不過來,沒有領悟其中的奧秘。
“HPC為AI提供了計算引擎,大數(shù)據(jù)為AI提供了數(shù)據(jù)引擎;反過來,AI、大數(shù)據(jù)給HPC帶來了新的業(yè)態(tài)?!边@就是結論。
如何理解這個結論呢?
先說說AI,如今AI有泛化的趨勢,無助于人們的理解。
簡單說,這一波AI浪潮的興起和深度神經(jīng)元網(wǎng)絡和機器學習有關。AlphaGO就是最初的表現(xiàn)。其中最關鍵的技術是以大數(shù)據(jù)處理為基礎的機器學習,對于算法模型的不斷調優(yōu),從而使得其具備智能判斷、分析的能力。
說到AI,很容易和人臉識別、語音識別、步態(tài)識別等具體技術聯(lián)系在一起。
但實際上,AI分為重型AI和輕型AI。
其中,輕型AI在消費級產(chǎn)品領域應用比較快,更加容易被人們所熟悉,例如AI手機,如攝影模式的智能判斷和選擇等
輕型AI的特點是針對目標硬件進行裁剪,可以通過硬件固化,如AI芯片,來實現(xiàn)秒級處理的效果。
但對于重型AI來說,體現(xiàn)出來的特點就是大數(shù)據(jù)、大模型和多任務。其模型訓練需要大數(shù)據(jù)和大機器,其中HPC首當其沖。追求的是高吞吐率的智能推理以及復雜的關聯(lián)關系分析。
簡單說,當今的AI可以理解為算法、機器學習和人工經(jīng)驗的結合,是基于數(shù)據(jù)和結果,對于控制參數(shù)進行調優(yōu)的結果。
繞不開的GPU話題
談到AI,GPU是一個繞不開的話題。
實際上,不僅是GPU,圍繞著復雜繁多的AI應用場景,如今GPU、TPU、HPU、BPU、IPU、NPU、VPU、XPU等百花齊放。幾乎26字母都已經(jīng)被用到。
原因很簡單,沒有任何一款通用處理器或者芯片可以滿足所有AI應用場景的需要。
似乎這些和HPC無關。
說到HPC,離不開Top500排行,以Link Pack測試性能指標為前提的排行。
HPC、超級計算機的性能被譽為一個國家科技實力象征,王冠上的明珠。
中國在Top500排行榜上取得了突破性的進展,天河2號和神威太湖之光連續(xù)6次和4次拿到了冠軍,連續(xù)5年占據(jù)榜首。今年,才剛剛被美國Summit超過,行內人透露,用不了多久,也許就是半年之后,就會被國產(chǎn)機超過。
這個成績是怎么取得的呢?
答案就是抓住了“異構并行計算”的機會。其中,GPU、FPGA和APU功不可沒,從百萬億次,千萬億次,都是靠這樣的一個技術。
HPC接下里的目標是E級計算,靠“異構并行計算”,靠花錢是沒有辦法突破E級計算的,接下來要面臨“訪存墻、通信墻、可靠性墻、能耗墻、并行計算可擴展性”等一系列難題。
簡單說就是互聯(lián)、網(wǎng)絡、可靠性和功耗。
E級計算有用嗎?
除了象征意義之外,計算能力也是非常重要的。
在采訪中,諾禾致源高級副總裁吳俊表示,作為一家開展基因測序服務和研究的公司,從測序儀產(chǎn)生的海量數(shù)據(jù)處理,到最終結果的分析判定,都需要強大的數(shù)據(jù)處理能力。
此前,1臺基因測序儀產(chǎn)生的數(shù)據(jù)量是200GB~300GB,如今已經(jīng)快速發(fā)展到6TB,時間也從7天~8天,縮短到2.5天?;驕y序的成本,也從1萬人民幣暴跌到1000元左右,具備了商業(yè)化應用的前景。
HPC計算性能的提升,顯然有助于服務流程的優(yōu)化,快速相應需求。但是與此同時,也要根據(jù)商業(yè)模式選擇合理的方案,沒有辦法無限制的追逐高性能。
相比于性能,諾禾致源更加看重的可靠性、穩(wěn)定性以及節(jié)能的水平。聯(lián)想在溫水冷卻等節(jié)能技術上獨樹一幟,在IBM x86服務器的基礎上,有很多讀到技術和可靠性、穩(wěn)定性保障,這也是他們選擇聯(lián)想高性能計算的原因。
吳俊表示,現(xiàn)有基因測序分析軟件并不適用于GPU。但在AI助力方面,HPC的計算能力、數(shù)據(jù)處理能力仍然是可以信賴的基礎。
聯(lián)想數(shù)據(jù)中心業(yè)務集團制造行業(yè)總監(jiān)許子牛表示:HPC助力AI是一個方面,另外AI也可以助力HPC,例如能耗問題,訪存效率的提升,都可以借助AI技術。這對于E級計算機的實現(xiàn),也具有重要意義。
即使對于E級計算,“異構并行計算”仍然是首選的技術,各種XPU加速技術也有助于目標的實現(xiàn)。
未來的HPC不僅針對科學計算,將同樣適用于大數(shù)據(jù)、AI的應用場景,這將會是一個應用領域兼顧的過程。
本次聯(lián)想全球超算峰會,聯(lián)想發(fā)布自主研發(fā)的AI產(chǎn)品家族:ThinkSystem SR670、ThinkSystem HG680、ThinkSystem HG690共3款產(chǎn)品,其實是HPC、AI優(yōu)化的結果。聯(lián)想還推出第三代溫水水冷解決方案“海王星”系統(tǒng),其中包括Direct-to-Node溫水水冷技術、后門熱交換器、以及由空氣和液體冷卻組成的混合冷卻技術,使數(shù)據(jù)中心的運行效率提升高達50%。
這就是聯(lián)想接地氣的結果。
在本次峰會上,聯(lián)想沒有披露更多E級計算機進展,但其并不遙遠。
小結
AI技術思路的突破,正在顛覆、改變就有的格局。以HPC為例,也在從科學計算、工程計算,滲透到大數(shù)據(jù)和AI,HBM (High Bandwidth Memory)、XPU、3D NAND、Optane等新技術產(chǎn)品的出現(xiàn),也會極大改變現(xiàn)有的商業(yè)格局。
世界正在快速變化中,HPC當然也不例外!