北京2022年4月29日 /美通社/ -- 數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)具有基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵性生產(chǎn)要素的雙重屬性,一方面,有價(jià)值的數(shù)據(jù)資源是催生和推動(dòng)數(shù)字經(jīng)濟(jì)新產(chǎn)業(yè)、新業(yè)態(tài)、新模式發(fā)展的基礎(chǔ);另一方面,數(shù)據(jù)對(duì)其他生產(chǎn)要素具有乘數(shù)作用,可以利用數(shù)據(jù)實(shí)現(xiàn)供給與需求的精準(zhǔn)對(duì)接、創(chuàng)新價(jià)值鏈流轉(zhuǎn)方式,放大勞動(dòng)力、資本等要素在社會(huì)各行業(yè)中的價(jià)值。數(shù)字經(jīng)濟(jì)規(guī)模高速增長(zhǎng),數(shù)據(jù)量將迎來(lái)進(jìn)一步爆發(fā),IDC預(yù)測(cè)2025 年全球數(shù)據(jù)量高達(dá)175ZB,數(shù)據(jù)存儲(chǔ)的可靠與可用成為了數(shù)據(jù)經(jīng)濟(jì)時(shí)代的新挑戰(zhàn)。
為數(shù)據(jù)選擇合適的介質(zhì)
存儲(chǔ)介質(zhì)作為數(shù)據(jù)存儲(chǔ)的基礎(chǔ)載體,并不是越貴越先進(jìn)越好,而是根據(jù)應(yīng)用環(huán)境,合理選擇存儲(chǔ)介質(zhì),才能保存好數(shù)據(jù)。目前常見(jiàn)的存儲(chǔ)介質(zhì)有:機(jī)械硬盤、固體硬盤、可記錄光盤、閃存卡、磁帶庫(kù)等。在為數(shù)據(jù)選擇存儲(chǔ)介質(zhì)時(shí),要根據(jù)具體的應(yīng)用特點(diǎn)、性能等需求,并要考慮成本等因素。
固態(tài)硬盤作為新興的介質(zhì),雖起步較晚,但憑借性能優(yōu)勢(shì),出貨量占比的持續(xù)增長(zhǎng),價(jià)格持續(xù)優(yōu)化,市場(chǎng)競(jìng)爭(zhēng)力也在進(jìn)一步提高,成為了企業(yè)核心應(yīng)用數(shù)據(jù)存儲(chǔ)的重要選擇之一;但在大數(shù)據(jù)時(shí)代下,視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長(zhǎng),考慮機(jī)械硬盤在保障企業(yè)數(shù)據(jù)生命周期上擁有過(guò)硬的壽命,也有存儲(chǔ)容量與成本價(jià)格上的綜合優(yōu)勢(shì),機(jī)械硬盤目前仍是海量非結(jié)構(gòu)化數(shù)據(jù)選擇最廣的存儲(chǔ)介質(zhì)。
為了提升這些需要存儲(chǔ)在機(jī)械硬盤上數(shù)據(jù)的可靠可用,浪潮存儲(chǔ)進(jìn)行了關(guān)于硬盤與存儲(chǔ)系統(tǒng)一系列的優(yōu)化。
頭盤界面是影響機(jī)械硬盤可靠性的主要因素
機(jī)械硬盤是一個(gè)涵蓋電氣、電子、磁學(xué)和機(jī)械領(lǐng)域的復(fù)雜系統(tǒng),由磁頭、磁盤、主軸電機(jī)等零部件組成。
磁頭、磁盤和空氣軸承共同構(gòu)成了硬盤頭盤界面( Head Disk Interface, HDI),作為硬盤執(zhí)行讀寫數(shù)據(jù)的工作環(huán)境,其實(shí)時(shí)狀態(tài)的好壞決定了硬盤能否正常為用戶提供服務(wù)。頭盤空間和飛行高度不僅影響信號(hào)的強(qiáng)度和分辨率,而且與硬盤的磁存儲(chǔ)密度有著密切關(guān)系,隨著磁存儲(chǔ)密度的提高,頭盤空間和飛行高度也相應(yīng)地減小, 如今通過(guò)TFC(Thermal Fly-height Control Technology, 熱飛高控制技術(shù))已經(jīng)能將頭盤空間控制在1nm 左右,在極小空間,磁頭磁盤難免會(huì)發(fā)生碰撞接觸。
機(jī)械硬盤由于具有結(jié)構(gòu)精密、復(fù)雜性高、耦合性強(qiáng)及抗沖擊能力弱等特點(diǎn),擁有多種潛在故障模式與機(jī)理,研究硬盤故障模式、原因、機(jī)理與可靠性試驗(yàn)已成為提高機(jī)械硬盤可靠性、保障存儲(chǔ)系統(tǒng)穩(wěn)定、數(shù)據(jù)安全的重要基礎(chǔ)。
經(jīng)過(guò)近十年的研究,硬盤頭盤界面相關(guān)研究逐漸成為硬盤故障機(jī)理研究的熱點(diǎn)方向,各硬盤廠商和國(guó)內(nèi)外學(xué)者在硬盤故障機(jī)理方面進(jìn)行了大量理論與試驗(yàn)研究。三星公司研究結(jié)果表明頭盤界面故障是影響硬盤可靠性的主要因素,60%以上的故障與頭盤界面有關(guān);香港城市大學(xué)對(duì)硬盤的故障模式和機(jī)理進(jìn)行分級(jí)排序,確定了硬盤的主要故障模式和機(jī)理為頭盤間磨損、過(guò)應(yīng)力和磁頭臂組件的共振。
實(shí)際上,產(chǎn)品故障或失效一般可以分為漸變失效和突變失效兩類,其中漸變失效在產(chǎn)品失效中占 70%~80%,是產(chǎn)品失效的主要形式。盡管機(jī)械硬盤擁有多種故障模式和機(jī)理,但統(tǒng)計(jì)發(fā)現(xiàn)超過(guò) 60%的故障是由機(jī)械故障導(dǎo)致的,而且機(jī)械故障是緩慢退化的過(guò)程,這對(duì)開(kāi)展硬盤加速退化試驗(yàn)、故障預(yù)警和剩余壽命預(yù)測(cè)具有重要參考意義。
從用戶層面上來(lái)看,無(wú)法找到數(shù)據(jù)或數(shù)據(jù)已損壞是硬盤完全失效前表現(xiàn)出來(lái)的主要故障形式,而這一問(wèn)題一般就被歸結(jié)為硬盤頭盤界面問(wèn)題。在硬盤故障機(jī)理研究領(lǐng)域,硬盤頭盤間的磨損、過(guò)應(yīng)力和磁頭臂組件的共振這三種潛在故障機(jī)理風(fēng)險(xiǎn)最高,與之對(duì)應(yīng)的頭盤界面和磁頭臂組件成了硬盤主要的故障源。
事實(shí)上,據(jù)三星公司統(tǒng)計(jì),從硬盤加速壽命試驗(yàn)、可靠性驗(yàn)證試驗(yàn)以及現(xiàn)場(chǎng)反饋數(shù)據(jù)中反映出,頭盤界面相關(guān)失效形式分別占到了各自總體失效的 64%、 77%和 64.6%,可以看出頭盤界面是影響硬盤可靠性的主要因素,而頭盤界面相關(guān)失效主要由頭盤接觸引起。
從介質(zhì)和存儲(chǔ)系統(tǒng)多層次保障數(shù)據(jù)可靠與可用
隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)中心的數(shù)據(jù)越來(lái)越多,給存儲(chǔ)系統(tǒng)可靠性和可用性的巨大挑戰(zhàn)。為了構(gòu)建高可靠、高可用的存儲(chǔ)系統(tǒng),系統(tǒng)設(shè)計(jì)者以及存儲(chǔ)領(lǐng)域研究者越來(lái)越關(guān)注存儲(chǔ)系統(tǒng)可靠性預(yù)測(cè)研究。
尤其存儲(chǔ)系統(tǒng)的架構(gòu)演變,存儲(chǔ)組織和冗余布局也從設(shè)備(硬盤)視角變?yōu)閿?shù)據(jù)(文件、對(duì)象)視角。但現(xiàn)有硬盤故障預(yù)測(cè)方法只是一種設(shè)備視角的可靠性動(dòng)態(tài)評(píng)價(jià),即孤立地給出硬盤個(gè)體的健康或潛在故障的評(píng)級(jí),并未考慮它對(duì)系統(tǒng)(數(shù)據(jù))可靠性的影響,如對(duì)于一個(gè)預(yù)警硬盤,如果它所屬的某些校驗(yàn)組已經(jīng)處于降級(jí)模式,只要再發(fā)生一個(gè)故障就會(huì)出現(xiàn)數(shù)據(jù)丟失,那么該預(yù)警硬盤的健康狀況對(duì)系統(tǒng)可靠性的影響非常大;相反,如果它所屬的校驗(yàn)組都處于完全健康的模式,可以容忍一個(gè)故障發(fā)生而不丟失數(shù)據(jù),那么該預(yù)警盤的健康狀況對(duì)系統(tǒng)可靠性的影響較小。因此,有效保障存儲(chǔ)數(shù)據(jù)安全的故障預(yù)測(cè),不僅要基于硬盤個(gè)體的實(shí)時(shí)健康度評(píng)價(jià),更要結(jié)合硬盤在系統(tǒng)冗余布局中的角色,從存儲(chǔ)介質(zhì)和存儲(chǔ)系統(tǒng)不同預(yù)測(cè)對(duì)象角度,綜合評(píng)價(jià)硬盤潛在故障對(duì)系統(tǒng)可靠性的影響,這就相當(dāng)于給存儲(chǔ)系統(tǒng)帶了"健康手環(huán)",為數(shù)據(jù)可靠性預(yù)警處理提供量化依據(jù)。
由于硬盤的TPI越來(lái)越高,飛高越來(lái)越低,軌道間距越來(lái)越窄,硬盤針對(duì)particle/contamination(顆粒/污染物)的敏感度越來(lái)越高。浪潮存儲(chǔ)在和硬盤廠商在產(chǎn)線引入特有的測(cè)試方法,通過(guò)改變HDA內(nèi)部的空氣流動(dòng),將HDA腔體中散落在角落的particle/contamination攪動(dòng)至磁碟表面,再通過(guò)磁臂的大幅擺動(dòng)將盡可能多的污染顆粒吹至呼吸過(guò)濾器,減少頭碟接觸的風(fēng)險(xiǎn);另外這種測(cè)試的引入也會(huì)盡可能在早期暴露因?yàn)橛坞x顆粒產(chǎn)生的頭碟接觸風(fēng)險(xiǎn),將因機(jī)械硬盤失效帶來(lái)的數(shù)據(jù)丟失隱患降到更低。
為了保證硬盤生命周期內(nèi)的可靠應(yīng)用,浪潮存儲(chǔ)通過(guò)上百次實(shí)驗(yàn)摸排存儲(chǔ)系統(tǒng)的RV benchmark(旋轉(zhuǎn)振動(dòng)基準(zhǔn))去確認(rèn)外界振動(dòng)對(duì)機(jī)械硬盤和系統(tǒng)性能的影響,通過(guò)優(yōu)化系統(tǒng)結(jié)構(gòu)剛度,增加阻尼材料,吸震材料減少風(fēng)扇振動(dòng)對(duì)系統(tǒng)剛度的影響;同時(shí)從硬盤本體系統(tǒng)振型角度著手,通過(guò)檢測(cè)系統(tǒng)功率譜識(shí)別設(shè)計(jì)結(jié)構(gòu)中比較脆弱的頻率段,通過(guò)和硬盤廠商技術(shù)合作,在伺服系統(tǒng)里增加前置反饋,notch filter(陷波濾波器)降低因?yàn)橄到y(tǒng)本身比較脆弱的抗沖擊能力,增加整個(gè)系統(tǒng)的魯棒性,改善硬盤的抗震性能,使硬盤在系統(tǒng)100%風(fēng)扇轉(zhuǎn)速,測(cè)試4種不同讀寫模式的IOPS吞吐量均可以維持在97%以上,有效保障數(shù)據(jù)的可靠、可用。
浪潮存儲(chǔ)秉承"云存智用 運(yùn)籌新數(shù)據(jù)"的存儲(chǔ)理念,和合作伙伴一起合作進(jìn)行技術(shù)創(chuàng)新,從介質(zhì)、系統(tǒng)、應(yīng)用全面的保障數(shù)據(jù)生命周期內(nèi)的可靠、可用;未來(lái)浪潮存儲(chǔ)從場(chǎng)景出發(fā),持續(xù)打造"安全、可靠、經(jīng)濟(jì)、高效"的存儲(chǔ)平臺(tái),加速企業(yè)數(shù)字化轉(zhuǎn)型。