為了解決散熱問題,風(fēng)扇的轉(zhuǎn)速和風(fēng)量也需大幅提升。風(fēng)扇作為一個(gè)經(jīng)典的旋轉(zhuǎn)機(jī)械,它的振動(dòng)加速度值與轉(zhuǎn)速呈2次方的比例關(guān)系,而它的扇葉旋轉(zhuǎn)帶來(lái)的氣動(dòng)噪聲與轉(zhuǎn)速呈6次方的比例關(guān)系。
這就引發(fā)一個(gè)新問題:硬盤將受到風(fēng)扇振動(dòng)、噪聲的干擾,這干擾達(dá)到一定量級(jí)之后,硬盤就不能正常讀取和寫入了。而且,硬盤的單盤容量五年之間就翻倍了,方法之一就是讓磁單元變小、讓磁道寬度變小,因此對(duì)磁頭的定位精度要求更高。拿16TB的硬盤來(lái)說(shuō),磁道的寬度大約是50nm,而磁頭的位置偏差需要控制在10nm以內(nèi)。也就是說(shuō),需要把硬盤工作環(huán)境內(nèi)的振動(dòng)控制到極低的程度,才能保證硬盤的正常讀寫。
我們?cè)诮鼛啄甑姆?wù)器設(shè)計(jì)中,不管是浪潮最新一代的服務(wù)器產(chǎn)品中,還是Facebook 的OCP存儲(chǔ)架構(gòu)中,都看到了在風(fēng)扇附近出現(xiàn)了吸音泡棉和蜂窩波導(dǎo)網(wǎng),能緩解風(fēng)扇的高頻噪音對(duì)硬盤的影響。在企業(yè)中都會(huì)有專門的測(cè)試項(xiàng)目來(lái)驗(yàn)證這個(gè)問題,不同的公司測(cè)試方法的稱呼不同,如RV(Rotational Vibration),RVI(Rotational Vibration Interference),PLV(Performance Loss Verification),ISP(In System Performance)等。
有一個(gè)比喻特別形象,就是地震的時(shí)候人在黑板上寫字,肯定寫得歪歪扭扭,別人再去讀的時(shí)候,也一定讀不準(zhǔn)確,這塊黑板就面目全非、錯(cuò)誤連篇了。這個(gè)過程發(fā)生在硬盤的磁盤上,就會(huì)產(chǎn)生壞扇區(qū),壞扇區(qū)積累得多了,硬盤會(huì)報(bào)錯(cuò),甚至?xí)幌到y(tǒng)標(biāo)記為壞盤。
為了控制磁頭的振動(dòng),硬盤內(nèi)部有一套主動(dòng)控制的機(jī)制,來(lái)識(shí)別并修正位置偏差(PES),簡(jiǎn)單來(lái)說(shuō)就是盡量讓磁頭寫入磁道中心,如果偏離得遠(yuǎn)了,作動(dòng)器就會(huì)施加動(dòng)態(tài)的反向作用力把磁頭糾正回來(lái)。糾正不回來(lái)的,就不允許寫入,而是要等碟片再轉(zhuǎn)1圈或者N圈,直到磁頭能夠準(zhǔn)確定位到目標(biāo)位置再執(zhí)行寫入的動(dòng)作,這個(gè)過程我們叫它Retry(重試),Retry的圈數(shù)越多,硬盤的寫入性能就損失得越多。這就是硬盤受振動(dòng)干擾而性能下降的原理。
如果大家使用機(jī)械硬盤的筆記本,可能遇到過這種場(chǎng)景,用它播放一首歌曲如《青藏高原》,本來(lái)硬盤正在有條不紊地向聲卡輸送數(shù)據(jù),音樂播放很流暢,突然歌聲變得高亢起來(lái),喇叭釋放出巨大的能量,硬盤內(nèi)部發(fā)生共振,不能正常輸出數(shù)據(jù)了,音樂就會(huì)開始卡頓,再過一會(huì)兒,筆記本就藍(lán)屏了。
現(xiàn)在我們筆記本里用機(jī)械硬盤比較少了,但是類似事故可能會(huì)發(fā)生在數(shù)據(jù)中心。比如火警報(bào)警器、滅火器噴氣的聲音,還有和硬盤同氣連枝的風(fēng)扇的噪聲,都會(huì)影響到硬盤。
第一次聽說(shuō)風(fēng)扇的噪聲能影響到硬盤內(nèi)部工作的人,往往會(huì)覺得不可思議。其實(shí)這也并不神奇,因?yàn)槁曇艟褪强諝獾恼駝?dòng),我們能聽到聲音也是因?yàn)榭諝獾恼駝?dòng)傳遞到耳道內(nèi)引起骨膜等一系列骨骼的振動(dòng)。風(fēng)扇的噪聲也一樣能引起它附近的硬盤內(nèi)部零部件的振動(dòng)。經(jīng)過調(diào)查,硬盤的磁頭尺寸竟然和耳蝸的尺寸差不多(1mm左右)。磁頭等尺度精密的零部件因?yàn)楦哳l噪聲激勵(lì)而發(fā)生共振,也屬正常。而且風(fēng)扇的轉(zhuǎn)速越高,它的高頻成分就越多,能量越大,因此高轉(zhuǎn)速風(fēng)扇會(huì)對(duì)硬盤造成明顯的的影響。
二、如何改善硬盤與機(jī)箱振動(dòng)的兼容性?
作為服務(wù)器系統(tǒng)的研發(fā),首先我們應(yīng)該了解到機(jī)械硬盤的這種物理上的局限性,其次應(yīng)想方設(shè)法地提高硬盤和我們機(jī)箱和風(fēng)扇的兼容性。
OCP這個(gè)平臺(tái)是全球第一次把這么多公司的振動(dòng)、噪聲專業(yè)領(lǐng)域的研發(fā)人員聚集在一起,有Facebook, Microsoft, Dell,浪潮,希捷,西部數(shù)據(jù),還有類似BOYD的散熱風(fēng)扇、散熱器供應(yīng)商,大家的關(guān)系是友商、是供應(yīng)商與客戶、或是產(chǎn)業(yè)鏈的上下游的合作伙伴。
在OCP發(fā)起Storage Vibration(也即存儲(chǔ)設(shè)備振動(dòng))項(xiàng)目之前,各個(gè)公司在相對(duì)隔離的條件下,研發(fā)著各自的產(chǎn)品和技術(shù)。由于每個(gè)公司對(duì)存儲(chǔ)、服務(wù)器發(fā)展的目標(biāo)有差異,花了兩年時(shí)間迭代出來(lái)的產(chǎn)品,如硬盤、主板、風(fēng)扇、機(jī)箱等,組裝起來(lái)時(shí)出現(xiàn)兼容性的問題。麻煩的是,這個(gè)兼容性問題不是簡(jiǎn)單的結(jié)構(gòu)裝配或者通訊協(xié)議匹配這些可以提前形成規(guī)范的東西,而是必須要硬盤、風(fēng)扇、機(jī)箱都有了樣品,組裝在一起才能試驗(yàn)出問題來(lái);然而,一旦出現(xiàn)了問題就很難補(bǔ)救,除非重新設(shè)計(jì)。
因此各個(gè)公司不約而同的開始思考,如何把振動(dòng)、噪聲、硬盤的性能這些看不著、說(shuō)不清的抽象概念也形成規(guī)范設(shè)計(jì)?從2020年4月起,OCP Storage – Vibration項(xiàng)目組聚集了行業(yè)內(nèi)的一線研發(fā)人員,共同商討對(duì)策,統(tǒng)一測(cè)量標(biāo)準(zhǔn),開放設(shè)計(jì)經(jīng)驗(yàn),以期在硬盤容量、散熱風(fēng)扇并肩發(fā)展的趨勢(shì)中找到新的平衡點(diǎn)。
三、統(tǒng)一的測(cè)量系統(tǒng)
OCP Storage – Vibration的目標(biāo)是:Common Language and Tool。翻譯過來(lái)就是形成一套在各個(gè)公司之間都適用的溝通流程和技術(shù)術(shù)語(yǔ),以及定義一個(gè)統(tǒng)一的測(cè)量系統(tǒng)。
在此之前,各個(gè)公司都以不同的方式測(cè)量機(jī)箱里的振動(dòng)和噪聲,然后再去分析和解決問題。為了能讓麥克風(fēng)安裝在硬盤槽位內(nèi),一般都是設(shè)計(jì)一個(gè)HDD Acoustic Surrogate(采集噪聲的硬盤假體),它的外形與硬盤相同,可以代替硬盤插入機(jī)箱內(nèi)部,由嵌入其中的高精度麥克風(fēng)采集噪聲信號(hào),配合前端數(shù)采組成一套測(cè)量系統(tǒng)。但是這里面涉及很多細(xì)節(jié),每個(gè)細(xì)節(jié)的差異都會(huì)導(dǎo)致相同一個(gè)機(jī)箱的測(cè)量結(jié)果不同。大家知道,測(cè)量系統(tǒng)不統(tǒng)一,數(shù)據(jù)是沒辦法進(jìn)行比較的,更別提在不同的公司制定統(tǒng)一的標(biāo)準(zhǔn)。所以O(shè)CP Storage小組里的各個(gè)公司把自己正在使用的方法和工具分享出來(lái),然后共同測(cè)量一個(gè)機(jī)箱的噪聲信號(hào),進(jìn)行信號(hào)的相關(guān)性分析,并進(jìn)行優(yōu)劣勢(shì)的比較和細(xì)節(jié)整合,最后定義了一個(gè)Acoustic Surrogate的設(shè)計(jì)。
在OCP Storage – Vibration項(xiàng)目中,測(cè)量系統(tǒng)按照如下7個(gè)方面分別進(jìn)行討論:
1、麥克風(fēng)的選型和安裝位置
根據(jù)工藝,市面上麥克風(fēng)可以分為MEMS、ECM和ICP。MEMS和ECM麥克風(fēng)因其小巧的身材和低廉的成本,常用在手機(jī)、助聽器、耳機(jī)等消費(fèi)級(jí)產(chǎn)品中,但其動(dòng)態(tài)范圍一般較窄,頻響曲線漂移較大,不能覆蓋服務(wù)器機(jī)箱內(nèi)的測(cè)量需求,而且經(jīng)實(shí)驗(yàn)驗(yàn)證,其測(cè)量誤差在某些頻段高達(dá)60dB以上。因此高精度的ICP麥克風(fēng)成為Acoustic Surrogate中的首推之選。另外,機(jī)箱內(nèi)的空間緊湊,對(duì)麥克風(fēng)的尺寸限制非常嚴(yán)苛,最終選取了Grass 47BX,一顆1/4英寸的平頭安裝式(flush mount)麥克風(fēng)。
2、麥克風(fēng)的數(shù)量和方位
在各自設(shè)計(jì)的Acoustic Surrogate中,有的公司把麥克風(fēng)放在硬盤SAS/SATA接口的位置(靠近背板);有的把多顆麥克風(fēng)以陣列的形式布置在硬盤的上表面;有的公司把麥克風(fēng)安裝在硬盤的上表面和下表面。根據(jù)不同方位采集到的噪聲信號(hào)與PES的相關(guān)性分析(correlation analysis),最終發(fā)現(xiàn):將麥克風(fēng)放置在上、下表面對(duì)應(yīng)碟片轉(zhuǎn)軸的位置,采集到的噪聲信號(hào)與PES的頻域相關(guān)性最好,也據(jù)此定義了麥克風(fēng)的數(shù)量和方位。
備注:Position Error Signal,磁頭置位誤差,與硬盤性能損失直接相關(guān)。
3、Acoustic Surrogate的材料
不同材料的聲阻抗不同,對(duì)聲音信號(hào)的測(cè)量結(jié)果是有影響的。一般來(lái)說(shuō),聲阻抗應(yīng)不低于10,只要不是過軟的或者吸音的材料就可以使用。OCP推薦的材料是鋁合金。
4、數(shù)據(jù)采集硬件
數(shù)據(jù)采集硬件的選擇很多,只要能滿足2個(gè)通道的ICP信號(hào)采集,并且支持24位精度,以及40kHz采樣率,就可配合前文提到的麥克風(fēng)進(jìn)行服務(wù)器內(nèi)的噪聲采集。
5、數(shù)據(jù)采集參數(shù)
為了得到足夠的數(shù)據(jù)可以做有效的分析,在風(fēng)扇轉(zhuǎn)速平穩(wěn)后應(yīng)采集不少于10s的噪聲信號(hào),采樣率不能低于40kHz。
6、測(cè)量信號(hào)的統(tǒng)計(jì)和分析方法
有的公司習(xí)慣于分布很多麥克風(fēng)然后求其平均值,有的公司則不做平均;有的公司對(duì)振動(dòng)和噪聲信號(hào)做倍頻程分析或者1/3倍頻程分析,有的公司則習(xí)慣于用窄帶FFT來(lái)分析。OCP-Storage小組內(nèi)討論的結(jié)果是,同一個(gè)Acoustic Surrogate的2顆麥克風(fēng)的信號(hào)應(yīng)不計(jì)平均,單獨(dú)進(jìn)行無(wú)計(jì)權(quán)1/3倍頻程分析,并繪制風(fēng)險(xiǎn)識(shí)別彩圖,作為公司之間技術(shù)交流的依據(jù)。以下為一個(gè)噪聲數(shù)據(jù)的范例。
風(fēng)險(xiǎn)識(shí)別彩圖的劃分方式尚無(wú)統(tǒng)一定義,由各個(gè)公司分別定義,以上只是OCP給出的一個(gè)范例。在劃分風(fēng)險(xiǎn)區(qū)域時(shí),應(yīng)使得大多數(shù)機(jī)箱都落在黃色(中風(fēng)險(xiǎn))區(qū)域。
目前介紹Acoustic Surrogate的規(guī)格書已經(jīng)發(fā)布到OCP官網(wǎng)上,可以直接點(diǎn)擊鏈接https://www.opencompute.org/documents/spec-pdf下載,或者在OCP官網(wǎng)進(jìn)入contribution頁(yè)面搜索【HDD dynamics】。OCP官網(wǎng)上也同步公開了3D圖,供各個(gè)公司自由獲取并制作、使用。OCP-Storage小組內(nèi)的公司也基本上都已經(jīng)按照這個(gè)規(guī)格加工出一些Acoustic Surrogate,在研發(fā)早期階段就可以開始采集機(jī)箱硬盤槽內(nèi)的噪聲,然后與硬盤廠、風(fēng)扇廠聯(lián)合進(jìn)行服務(wù)器、存儲(chǔ)機(jī)箱內(nèi)的聲學(xué)設(shè)計(jì)。下一步OCP Storage項(xiàng)目組將對(duì)硬盤安裝環(huán)境的振動(dòng)測(cè)量工具、方法進(jìn)行討論和定義。最終可能會(huì)發(fā)布一個(gè)全新的工具,集噪聲、振動(dòng)采集的功能于一體。
四、浪潮的實(shí)踐
浪潮始終活躍在OCP等開放計(jì)算的社區(qū)中,貢獻(xiàn)我們的設(shè)計(jì)經(jīng)驗(yàn)和數(shù)據(jù),也堅(jiān)持第一時(shí)間把OCP最先進(jìn)的方法帶到公司內(nèi)應(yīng)用和實(shí)踐。目前浪潮已經(jīng)開始使用OCP Acoustic Surrogate,是中國(guó)第一家掌握這項(xiàng)技術(shù)并按照OCP規(guī)范加工自己的Acoustic Surrogate的公司。我們不僅擁有OCP定義的3.5”HDD Acoustic Surrogate,而且自主設(shè)計(jì)了2.5”HDD Acoustic Surrogate,在HDD Vibration Surrogate(采集振動(dòng)的硬盤假體)的應(yīng)用中也積累了一些經(jīng)驗(yàn),可以進(jìn)行各種服務(wù)器、存儲(chǔ)機(jī)箱的噪聲和振動(dòng)信號(hào)分析,結(jié)合硬盤的敏感度曲線可以在研發(fā)早期進(jìn)行有效的風(fēng)險(xiǎn)評(píng)估,并輔助機(jī)箱和風(fēng)扇的聲學(xué)優(yōu)化和結(jié)構(gòu)動(dòng)力學(xué)設(shè)計(jì)。
下面是一個(gè)短視頻,介紹浪潮在OCP Acoustic Surrogate的實(shí)踐。
OCP China Day 2021 – 分論壇3 – OCP服務(wù)器存儲(chǔ)模塊振動(dòng)(Vibration)項(xiàng)目-實(shí)驗(yàn)
感謝我的同事葉毓睿、王嵩凱對(duì)本篇文章、視頻的貢獻(xiàn)。
擴(kuò)展閱讀:
1、OCP Storage項(xiàng)目組 Vibration規(guī)范
https://www.opencompute.org/documents/spec-pdf
2、OCP China Day 2021 – 分論壇3 – OCP存儲(chǔ)設(shè)備振動(dòng)項(xiàng)目【視頻】
https://mudu.tv/live/watch/general?id=lj8bke2m&key=9ef192aaae74fbc41b5b6bdcd807f436&type=assign