北京2022年12月13日 /美通社/ -- 存儲系統(tǒng)是由控制器、背板、結構件、硬盤、內存等部件構成的多個子系統(tǒng)組成,其中任何單一元器件故障都可能導致存儲系統(tǒng)出現問題。因此,系統(tǒng)可靠運行的基礎,離不開元器件、部件以及整個控制系統(tǒng)的可靠性設計。浪潮存儲從系統(tǒng)級開發(fā)、電路板級開發(fā)、部件引入、生產加工等多個環(huán)節(jié)來保障系統(tǒng)的可靠性及穩(wěn)定性。
系統(tǒng)級可靠性設計
在存儲系統(tǒng)中,許多元器件發(fā)生故障是由于系統(tǒng)設計不合理或元器件使用不當所造成的,并不是元件本身存在缺陷。浪潮存儲系統(tǒng)級可靠性設計包含:可靠性模型建立及評估、冗余設計、容錯設計、故障隔離(失效分析)、熱設計、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference,電磁兼容性/電磁干擾)設計、安規(guī)設計、環(huán)境及結構設計等。
其一,控制器單元冗余設計。關鍵元器件增加完全相同功能的備用通道,保障該部分出現故障時不影響系統(tǒng)正常運行。比如雙BIOS設計,當BIOS由于Flash芯片故障或者升級失敗損壞時,可由備用BIOS接管,從而避免無法開機。控制器冗余設計以犧牲成本為代價,但存儲系統(tǒng)設計首要考慮因素應是其可靠性。
其二,控制單元掉電保護。存儲系統(tǒng)增加BBU電池(Battery Back-Up)來抵抗電網瞬間斷電或電壓突降等突發(fā)因素,軟件系統(tǒng)將掉電信號定義為最高級別中斷,使控制單元能及時對掉電做出反應,防止數據丟失,確保業(yè)務的連續(xù)性。
其三,結構設計。結構可靠性設計是硬件可靠性設計的重要階段。結構設計時,首先應注意元器件及部件的安裝方式,其次是控制系統(tǒng)工作環(huán)境的條件(如通風、除濕、防塵等)。
其四,噪聲抑制。存儲系統(tǒng)主要通過如下方式對噪聲進行抑制:首先,選擇高效率雙馬達風扇,優(yōu)化系統(tǒng)散熱所需風扇轉速;其次,優(yōu)化節(jié)點導風罩設計,降低單節(jié)點流阻;再次,系統(tǒng)風扇調控導入PID控制,降低低負載時系統(tǒng)風扇轉速;最后,通過散熱器優(yōu)化、風道布局優(yōu)化及系統(tǒng)流阻優(yōu)化改善散熱效果,從而降低正常工作負載下設備噪聲。
其五,散熱設計。存儲系統(tǒng)通過對系統(tǒng)布局進行風道劃分,一般分為:Memory風道、CPU風道、節(jié)點風道,各風道之間利用機箱布局的結構件實現風道的串聯或并聯。風機散熱風量通過系統(tǒng)風扇加速后,進入并聯的節(jié)點風道,從節(jié)點尾部的開孔結構排出,從而保障系統(tǒng)的穩(wěn)定運行。
其六,系統(tǒng)日志收集。存儲系統(tǒng)會在一定的時間周期內收集系統(tǒng)的信息,并自動創(chuàng)建可以查看的文件。當存儲出現故障時,可以通過日志快速定位到出問題的部件。
電路板開發(fā)可靠性設計
存儲研發(fā)團隊在設計過程中,正確使用各種型號的元器件或集成電路,提高硬件可靠性是不可忽視的重要因素。
一是電路設計。據統(tǒng)計,影響存儲系統(tǒng)可靠性的因素約45%來自系統(tǒng)設計。為了保證系統(tǒng)的可靠性,在電路設計時應考慮最極端的情況。單板設計應考慮所有元件的公差,并取其最不利的數值核算電路每一個規(guī)定的特性。如果這一組參數值能保證電路正常工作,那么在公差范圍內的其他所有元件值都能使電路可靠地工作。在設計電路時,開發(fā)人員還會對單板元器件進行降額分析,對重要元器件給出熱應力、電應力的降額情況,并根據以往器件失效分析(FEMA)的經驗,對容易損壞的集成電路、關鍵元器件進行優(yōu)化設計。
二是元器件選擇。在確定元器件參數之后,還要確定元器件的型號,這主要取決于電路所允許的公差范圍。由于制造工藝所限,有些元器件參數的公差范圍可能較大,如電容器電容量等。此外,元器件的額定工作條件包括多個方面(如電流、電壓、頻率、機械參數以及環(huán)境溫度等),設計時要考慮參數裕量,并確保運行在工作條件范圍內。
三是電氣性能。元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等能力,在使用時要注意元器件的電氣性能,不能超限使用。
四是SI(signal integrity信號完整性)仿真設計。伴隨著信號頻率的提升,在存儲系統(tǒng)上分析和發(fā)現信號完整性問題并有效解決是非常復雜的。存儲系統(tǒng)借助EDA(Electronic Design Automation,電子設計自動化)工具,對電路的參數進行仿真分析,提前發(fā)現問題,從而縮短研發(fā)周期,降低研發(fā)成本。
五是生產工藝。由于工藝原因引起的故障通常很難定位排查,一個焊點的虛焊很可能導致整個系統(tǒng)在工作過程中出現不穩(wěn)定現象。因此,設計印制電路板時應考慮元器件的布局、引線的走向、引線的分類排序等。
六是硬件測試。浪潮存儲研發(fā)團隊引入價值上百萬的高端測試設備,其中包含50G高端示波器、50G高帶寬硬件鏈路誤碼儀以及相關治具。存儲硬件研發(fā)團隊制定了全覆蓋、無遺漏的信號測試規(guī)范,并進一步加強加固驗證測試。其中包括板卡間熱插拔、固件反復升級驗證、單/雙控故障,板間信號動態(tài)測試,低溫啟動、高溫壓力測試,加強驗證SI鏈路可靠性測試。
部件引入確??煽啃栽O計
硬盤作為存儲介質的中堅力量,保證機械硬盤的安全性和可靠性成為存儲研發(fā)部件團隊的重中之重。浪潮存儲研發(fā)團隊通過與硬盤廠商的技術分享搭配自己的專利技術,形成了一套包括磁盤的加密、協議層的定制以及寫緩存的關閉等技術的定制方案。配合Raid技術更好地保證了客戶對數據安全性的要求,開發(fā)出了一套獨有的篩盤方案和篩盤設備來滿足金融等行業(yè)用戶的需求。
針對存儲設備,浪潮存儲研發(fā)團隊開發(fā)了多控制器系統(tǒng),配合鎖盤技術、硬盤定制化以及Raid技術,實現了硬盤高速讀寫的需求和安全性、可靠性的完美結合。硬盤經過引入測試、兼容性測試、篩盤測試、老化測試等層層把控為存儲設備打造堅實底座。
生產制造保障可靠性
生產制造是產品生命周期中重要一環(huán),通過批量生產和用戶反饋有助于發(fā)現更多前期設計遺漏和缺陷,及時維護查缺補漏。
浪潮存儲在生產線引入了用于測試存儲產品在不同溫度條件下是否可以正常穩(wěn)定運行的溫循房,環(huán)境溫度可以根據需求隨時調整,加速缺陷部件的故障復現,從而降低產品到貨即損(DOA)的情況。同時,提出增加極限場景測試和模擬客戶實際使用場景的長穩(wěn)壓力測試等生產模式,提高存儲產品穩(wěn)定性和可靠性。
高端存儲產品必須保證極致穩(wěn)定,設備生產完畢后先進行7至14天的長穩(wěn)測試,測試用例中模擬客戶實際業(yè)務場景,采用客戶常見的數據類型進行壓力測試,觀察測試過程中存儲設備是否有告警和異常,將一切不穩(wěn)定因素攔截在生產階段,保證設備交付后的穩(wěn)定、可靠運行。
近年來,浪潮存儲持續(xù)加大研發(fā)投入和創(chuàng)新,致力于打造安全、可靠、經濟、高效的數據存儲底座,不斷追求“極致穩(wěn)定”,為數據存儲保駕護航,服務各行各業(yè)。