SPARC64 VI 具有很多優(yōu)點:


      1、增強(qiáng)了SPARC64 V 的高性能和高可靠性特性,通過單個CPU芯片中內(nèi)嵌的多核多線程技術(shù)進(jìn)一步提高性能。


      2、芯片多核、每核雙線程,大容量片上高速緩存,都大大提高了芯片的性能。


      3、多線程技術(shù)最小化 CPU 內(nèi)核的等待時間,增加了 CPU內(nèi)核的利用率。


      4、大容量二級高速緩存極大降低了內(nèi)存延遲。


      5、SPARC64 V 的高性能技術(shù),如超標(biāo)量、亂序執(zhí)行、分支預(yù)測和非阻塞緩存都得以延續(xù)。


      采用高性能的 SPARC64 VI 芯片SPARC Enterprise ,可提供包括大規(guī)模交易處理在內(nèi)各種應(yīng)用所需的高超性能。


 




     


      同時,SPARC64 VI 機(jī)制可保證CPU內(nèi)部的數(shù)據(jù)傳輸和存儲,不僅包括高速緩存,而且也包括算術(shù)邏輯單元 (ALU)以及寄存器。CPU 錯誤通過 ECC 數(shù)據(jù)糾正處理和指令重試技術(shù)恢復(fù)。即使不可恢復(fù)的錯誤發(fā)生時, CPU 也不會停止,只會動態(tài)對受到影響的 CPU 內(nèi)核和高速緩存進(jìn)行降級,然后繼續(xù)運(yùn)行。 每個CPU 也會繼續(xù)記錄所有的錯誤信息,因此任何錯誤原因都能迅速檢測出來。


      SPARC64 VI的RAS 功能與大型機(jī) CPU相仿,可提供最為可靠的系統(tǒng)。



      *1 奇偶錯誤由硬件指令重試功能糾正 。
      *2 “1路(way)”是高速緩存的一個單元。 SPARC64 VI 1級緩存包括2 個way單元,2級緩存 有12個way單元。






      擴(kuò)展的數(shù)據(jù)保護(hù)提高業(yè)務(wù)連續(xù)性


      高速緩存中的數(shù)據(jù)保護(hù)機(jī)制


      雖然概率不高,但多數(shù)處理器電路故障會在高速緩存 (*3)中隨機(jī)出現(xiàn)。這將導(dǎo)致服務(wù)器運(yùn)行中斷或性能降低。因此緩存數(shù)據(jù)保護(hù)機(jī)制對企業(yè)系統(tǒng)十分關(guān)鍵。


      1級緩存的指令處理組件由冗余和奇偶機(jī)制保護(hù),而數(shù)據(jù)處理組件使用ECC。在2級緩存中,指令和數(shù)據(jù)由ECC保護(hù)。因此,緩存中所有的1位錯誤都可被檢測出來并進(jìn)行糾正。


      如果1位錯誤頻繁發(fā)生,那么緩存會動態(tài)地進(jìn)行步進(jìn)降級,每次降級一個單元。即使1個單元的2級緩存發(fā)生故障,剩余的 11 個單元 (總共 12個單元) 也會繼續(xù)運(yùn)行。在所有緩存單元都降級的罕見情況下,特定的 CPU 芯片會自動被隔離。


      這些機(jī)制保證了系統(tǒng)的連續(xù)性,系統(tǒng)保護(hù)消除了偶然故障的影響,減小了性能影響。而其他廠商CPU中類似的緩存故障會導(dǎo)致系統(tǒng)可用性和性能的降低。一般他們的整個系統(tǒng)必須重新啟動和降級,或由于故障,整個 CPU 芯片立刻不可用。



 


      *3: 隨機(jī)點不常發(fā)生的錯誤會導(dǎo)致數(shù)據(jù)錯誤。它們被稱作 “軟錯誤” ,由輻射、電磁干擾和受熱產(chǎn)生。


      ALU 和寄存器上的數(shù)據(jù)保護(hù)機(jī)制


      SPARC64 VI 算術(shù)邏輯單元 (ALU) 和寄存器使用奇偶校驗機(jī)制保護(hù)數(shù)據(jù)。每個 ALU 處理指令,而寄存器臨時存儲 ALU的輸入數(shù)據(jù)。


      SPARC64 VI 的寄存器由高度可靠的電路構(gòu)成。所有1位的錯誤都可通過奇偶校驗檢測出來。檢測出錯誤后,數(shù)據(jù)重新從緩存讀取并再次處理。


      SPARC64 VI 驗證奇偶值以檢查 ALU中處理的輸入數(shù)據(jù)是否損壞。這種高級的校驗意味著計算時任何1位錯誤都會被檢測出來。檢測出錯誤后,相關(guān) ALU 和寄存器中的所有數(shù)據(jù)將被清除。然后從1級緩存重新讀取數(shù)據(jù)再次執(zhí)行指令。


      一般其他廠商ALU中 CPU 的1位錯誤無法檢測。他們的CPU 架構(gòu)無法從寄存器傳遞奇偶位到 ALU。奇偶位也無法與 ALU 計算結(jié)果相關(guān)聯(lián)。只對 ALU 輸入之前和 ALU 輸出之后的數(shù)據(jù)進(jìn)行奇偶校驗,而對ALU 內(nèi)部的數(shù)據(jù)損壞無法檢測。






      CPU 內(nèi)核降級


      檢測到不可恢復(fù)的 CPU 錯誤后,故障內(nèi)核被隔離,其他正常的內(nèi)核繼續(xù)保持運(yùn)行可用性。


      記錄所有的處理器操作


      SPARC64 VI 中的歷史電路機(jī)制可自動記錄所有的 CPU 操作。歷史電路用于 CPU 故障調(diào)查和 CPU 可靠性的改進(jìn)。


      如同飛行記錄儀一樣,每個歷史電路都定期維護(hù)記錄 (無需軟件干預(yù)或影響處理器操作)。因此任何錯誤都能檢測出。歷史電路對快速準(zhǔn)確的錯誤原因檢測十分關(guān)鍵。


 


分享到

多易

相關(guān)推薦