博客中提到,ARM服務(wù)器正在從單核設(shè)計(jì)逐步邁向高性能的多核SMP架構(gòu)。Cortex-A9 SMP的發(fā)布表明ARM開(kāi)始在性能優(yōu)化的服務(wù)器處理器市場(chǎng)中開(kāi)辟新天地。而且,對(duì)比傳統(tǒng)處理器,ARM在每單位功耗和成本上的性能都有明顯優(yōu)勢(shì)。
2011年,Annapurna Labs成立,四年后,被亞馬遜以3.5億美元收購(gòu),此次收購(gòu)使亞馬遜能夠開(kāi)發(fā)定制芯片。2018年11月,亞馬遜發(fā)布第一代Amazon Graviton處理器,標(biāo)志著其開(kāi)始通過(guò)定制化芯片提高云服務(wù)的差異化優(yōu)勢(shì)。
在2018年開(kāi)始做ARM芯片其實(shí)并不被看好,因?yàn)楦舯诟咄ǖ腁RM服務(wù)器正在因?yàn)閬?lái)自x86陣營(yíng)的壓力而偃旗息鼓。而亞馬遜云科技憑借作為云廠商的規(guī)模優(yōu)勢(shì),楞是堅(jiān)持自研ARM處理器,推出基于Amazon Graviton的云主機(jī)。
第一代Amazon Graviton處理器主要用于運(yùn)行Web服務(wù)器、容器化微服務(wù)等輕量級(jí)工作負(fù)載。與其他通用實(shí)例相比,雖然性能和功能特性都比較有限,但它勝在提供了顯著的成本節(jié)約,它為后續(xù)Amazon Graviton2和Amazon Graviton3奠定了基礎(chǔ)。
亞馬遜云科技的規(guī)模優(yōu)勢(shì),讓ARM服務(wù)器站了起來(lái)
從2020年推出Amazon Graviton2開(kāi)始,亞馬遜云科技每年都會(huì)發(fā)布新的Amazon Graviton處理器,并且,每一代都比上一代有兩位數(shù)的性能提升,同時(shí)單位算力的功耗在持續(xù)下降。2023年推出的Amazon Graviton4,性能提升高達(dá)30%,最高核心數(shù)來(lái)到96個(gè),增幅達(dá)50%。
從x86向ARM架構(gòu)遷移會(huì)有額外成本。為了讓用戶(hù)更順滑的遷移,亞馬遜云科技不僅提供了遷移工具,構(gòu)建合作伙伴生態(tài)系統(tǒng)。而且,還讓Amazon RDS、Amazon ElastiCache等多種服運(yùn)行在Amazon Graviton上,客戶(hù)只需在控制臺(tái)中選擇Amazon Graviton實(shí)例,即可遷移,無(wú)需對(duì)應(yīng)用程序進(jìn)行重大修改。
Amazon Graviton支持多種廣泛應(yīng)用場(chǎng)景,包括HPC(如科學(xué)計(jì)算、基因組學(xué)分析、天氣預(yù)報(bào))、AI/ML、容器化應(yīng)用(支持Kubernetes等)、數(shù)據(jù)分析(EMR、Spark等框架),以及數(shù)據(jù)處理(支持ETL、數(shù)據(jù)清洗等),在性能和性?xún)r(jià)比上均表現(xiàn)卓越。
根據(jù)云成本管理和優(yōu)化平臺(tái)Vantage的一項(xiàng)調(diào)查顯示,2024第一季度,在Amazon EC2 M7系列(包括基于英特爾的M7i和基于AMD的M7a)通用實(shí)例的成本支出方面,采用Graviton的M7g系列已經(jīng)超過(guò)三分之一(34.5%)。
2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服務(wù)中,客戶(hù)選擇使用基于Amazon Graviton實(shí)例的數(shù)目已超越了Intel,越來(lái)越多客戶(hù)選擇基于Graviton的托管服務(wù)。
Epic Games 早在2021年就大規(guī)模應(yīng)用Amazon Graviton支持《堡壘之夜》。最新的Amazon Graviton4性能提升顯著,性?xún)r(jià)比提高25%以上,較Intel Sapphire Rapids和AMD Genoa提升30%-35%。如今,Epic Games在使用數(shù)萬(wàn)個(gè)Graviton芯片支持其所有虛幻引擎構(gòu)建的游戲服務(wù)器。
亞馬遜自身就是Amazon Graviton技術(shù)的深度用戶(hù)。2021年P(guān)rime Day首次采用Amazon Graviton2支持12項(xiàng)核心零售服務(wù)。到2024年,亞馬遜在Prime Day中使用的Graviton芯片數(shù)量超過(guò)25萬(wàn)個(gè),為5800多種Amazon.com服務(wù)提供支持,較2023年增長(zhǎng)一倍。
Amazon Graviton4在研發(fā)場(chǎng)景中也展現(xiàn)了強(qiáng)大的計(jì)算能力和彈性調(diào)度優(yōu)勢(shì)。據(jù)亞馬遜云科技博客顯示,EC2內(nèi)存優(yōu)化型X8g實(shí)例可顯著加速EDA電子設(shè)計(jì)自動(dòng)化場(chǎng)景,其實(shí)例集群在峰值時(shí)支持?jǐn)?shù)十萬(wàn)個(gè)內(nèi)核并行運(yùn)行,規(guī)模達(dá)到正常使用時(shí)的5倍,Graviton4支撐了亞馬遜云科技的大規(guī)模計(jì)算任務(wù)。
如果說(shuō)開(kāi)始需要堅(jiān)持,后來(lái)則越發(fā)順風(fēng)順?biāo)?。如今,基于Amazon Graviton的Amazon EC2實(shí)例種類(lèi)達(dá)150多個(gè),全球已部署超過(guò)200萬(wàn)片處理器,擁有超過(guò)五萬(wàn)家客戶(hù),其中涵蓋了Amazon EC2前100客戶(hù)90%以上,享受著高達(dá)40%的額外性?xún)r(jià)比(x86)。
可以說(shuō),如果沒(méi)有亞馬云科技的規(guī)模,Amazon Graviton就不會(huì)有這么多用戶(hù),Amazon Graviton的出貨量不會(huì)這么大,沒(méi)有規(guī)模優(yōu)勢(shì),每一塊Amazon Graviton的成本也不會(huì)降低,云的規(guī)模和芯片的規(guī)模促成了Amazon Graviton的成功。
云計(jì)算的規(guī)模支持亞馬遜云科技進(jìn)行硬件研發(fā),而硬件研發(fā)進(jìn)一步推動(dòng)技術(shù)創(chuàng)新,這些創(chuàng)新效益會(huì)隨著規(guī)模而擴(kuò)大。同時(shí),這些創(chuàng)新又反過(guò)來(lái)驅(qū)動(dòng)更大規(guī)模的云計(jì)算服務(wù)能力,形成了一個(gè)良性循環(huán)。
規(guī)模效應(yīng)在更多自研芯片上發(fā)揮作用
其實(shí),除了Amazon Graviton以外,亞馬遜云科技還自研了基于ASIC芯片的Amazon Nitro系統(tǒng),以及用于機(jī)器學(xué)習(xí)訓(xùn)練的Amazon Trainium和用于機(jī)器學(xué)習(xí)推理的芯片Amazon Inferentia,這些芯片也同樣受益于亞馬遜云科技的規(guī)模優(yōu)勢(shì)。
Amazon Nitro像是服務(wù)器里的小服務(wù)器,它系統(tǒng)提升了云計(jì)算的性能、安全性和效率。其主要功能包括:通過(guò)網(wǎng)絡(luò)硬件卸載提升網(wǎng)絡(luò)性能,降低延遲;通過(guò)存儲(chǔ)硬件加速提高存儲(chǔ)系統(tǒng)的讀寫(xiě)效率;通過(guò)專(zhuān)用的硬件安全功能,增強(qiáng)數(shù)據(jù)保護(hù)。
最有意思的是,Amazon Nitro還通過(guò)Hypervisor卸載,將虛擬化相關(guān)的計(jì)算任務(wù)卸載到ASIC硬件中。這樣一來(lái),不僅提高了服務(wù)器的性能,還使得客戶(hù)幾乎可以100%地?fù)碛蟹?wù)器的全部硬件資源,就像喝酸奶不用舔瓶蓋一樣地舒暢。
截止到2024年1月,亞馬遜云科技在自己的數(shù)據(jù)中心里部署了超過(guò)2000萬(wàn)套Amazon Nitro系統(tǒng),結(jié)合包括Amazon Graviton在內(nèi)的多種處理器架構(gòu),打造出了非常多的Amazon EC2主機(jī)實(shí)例。
在AI和ML場(chǎng)景,亞馬遜云科技最早是在2018年發(fā)布針對(duì)推理的Amazon Inferentia芯片,在2022 re:Invent全球大會(huì)上發(fā)布了新一代推理芯片Amazon Inferentia 2。與Inf1實(shí)例相比,Inf2實(shí)例吞吐量提升4倍,延時(shí)只有1/10,每瓦性能提升45%。
2022年,亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實(shí)例。2023年推出了Amazon Trainium2 芯片,能用來(lái)訓(xùn)練具有數(shù)萬(wàn)億個(gè)參數(shù)或變量的大語(yǔ)言模型。第一代相比,它不僅性能提升多達(dá) 4 倍,能源效率也提升了多達(dá) 2 倍。
結(jié)合EC2 UltraClusters技術(shù),Trainium2 實(shí)例可以擴(kuò)展到多達(dá)10萬(wàn)的規(guī)模,結(jié)合Amazon Elastic Fabric Adapter(EFA)PB級(jí)網(wǎng)絡(luò)互聯(lián),提供高達(dá)65 exaflops的算力,用戶(hù)可按需獲得超級(jí)計(jì)算級(jí)別的性能。
Trainium系列ASIC專(zhuān)為機(jī)器學(xué)習(xí)優(yōu)化,提供高效的算力,可以降低訓(xùn)練和推理成本。在英偉達(dá)顯卡成本高昂的背景下,亞馬遜云科技的Trainium和Inferentia系列芯片提供了一個(gè)更有效益的技術(shù)方案,也強(qiáng)化AI的芯片供應(yīng)鏈。
結(jié)束語(yǔ)
通過(guò)過(guò)去十多年的實(shí)踐,亞馬遜云科技在自研芯片上取得了逐步的成就,當(dāng)然也練就了構(gòu)建了定制服務(wù)器能力。這種能力不僅降低了成本,提升了供應(yīng)鏈的靈活性,還實(shí)現(xiàn)了性能和安全的雙贏,更在機(jī)器學(xué)習(xí)領(lǐng)域體現(xiàn)出了巨大的潛力。
現(xiàn)在是2024年11月21號(hào),再過(guò)幾天就要召開(kāi)2024年的re:Invent大會(huì)了,這次大會(huì)上可能會(huì)有新的Amazon Graviton處理器,可能會(huì)有新的訓(xùn)練和推理芯片,更多可能還是跟AI相關(guān)的產(chǎn)品服務(wù),而我,也將第一次去到拉斯維加斯現(xiàn)場(chǎng)感受這場(chǎng)“云計(jì)算春晚”。
如果碰巧看到這篇小作文的朋友也在現(xiàn)場(chǎng),可以考慮見(jiàn)個(gè)面,如果沒(méi)去現(xiàn)場(chǎng),也可以說(shuō)說(shuō)您對(duì)這次re:Invent的期待或者感興趣的點(diǎn)~