北京2022年8月30日 /美通社/ -- 數(shù)據(jù)已經(jīng)成為繼土地、勞動(dòng)力、資本和技術(shù)之后的第五大生產(chǎn)要素,是當(dāng)代經(jīng)濟(jì)社會(huì)發(fā)展的基礎(chǔ)資源。存儲(chǔ)作為數(shù)據(jù)載體設(shè)備發(fā)揮著重要作用,既要滿足當(dāng)前全球數(shù)據(jù)量高速增長需求,又要保證數(shù)據(jù)存儲(chǔ)安全可靠、讀寫高效精準(zhǔn),從而為數(shù)據(jù)中心提供"穩(wěn)定的數(shù)據(jù)存力"。
如何提升數(shù)據(jù)存儲(chǔ)的可靠性,避免意外場景下的數(shù)據(jù)丟失,已成為存儲(chǔ)硬件平臺(tái)發(fā)展的重大挑戰(zhàn)。浪潮存儲(chǔ)從源頭出發(fā),創(chuàng)造性地提出了冷熱備電智能切換方案,改進(jìn)存儲(chǔ)系統(tǒng)對(duì)BBU單元智能管理方案,踐行綠色低碳理念,加固備電質(zhì)量,增強(qiáng)了數(shù)據(jù)存儲(chǔ)的可靠性。
存儲(chǔ)備電 -- 數(shù)據(jù)存儲(chǔ)安全的保障
當(dāng)前業(yè)界存儲(chǔ)系統(tǒng)通常采用電源PSU(Power Supply Unit)"1+1"冗余供電,在供電之外還配置備用電池BBU(Battery Back-Up Unit),當(dāng)機(jī)房市電掉電,存儲(chǔ)系統(tǒng)實(shí)時(shí)監(jiān)測PSU供電異常,無縫切換到備用電池BBU供電。BBU提供持續(xù)的供電能力,確保存儲(chǔ)系統(tǒng)控制器寫緩存中數(shù)據(jù),完整而安全的寫入非易失性介質(zhì),如HDD、SSD等,避免數(shù)據(jù)丟失。
為保證數(shù)據(jù)存儲(chǔ)的業(yè)務(wù)連續(xù)性,機(jī)房市電意外掉電、市電恢復(fù)后能快速恢復(fù)存儲(chǔ)系統(tǒng)的業(yè)務(wù),浪潮存儲(chǔ)對(duì)備電設(shè)計(jì)標(biāo)準(zhǔn)有嚴(yán)格要求。比如,浪潮存儲(chǔ)在三年產(chǎn)品生命周期內(nèi),備用電池BBU一次充滿電,可滿足兩次掉電數(shù)據(jù)備份要求;又如,滿足存儲(chǔ)系統(tǒng)高可靠性要求時(shí),創(chuàng)新地采用了備用電池BBU冷熱供電切換策略,提高備電的能效和電池的使用壽命,降低BBU電池報(bào)廢的數(shù)量,降低對(duì)環(huán)境的污染。
高端存儲(chǔ)性能提升,存儲(chǔ)備電挑戰(zhàn)升級(jí)
隨著數(shù)據(jù)量爆發(fā)式增長、存儲(chǔ)業(yè)務(wù)復(fù)雜程度提升,存儲(chǔ)硬件平臺(tái)正朝著高密度與高性能方向發(fā)展,傳統(tǒng)供備電策略難以支撐存儲(chǔ)系統(tǒng)的穩(wěn)定性要求。高端存儲(chǔ)平臺(tái)從系統(tǒng)架構(gòu)到部件性能的升級(jí)都伴隨著系統(tǒng)整體功率提升,正常運(yùn)行時(shí)存儲(chǔ)陣列單控制器功率超1700W,掉電時(shí)刻控制器快速降低功耗,單控制器功耗仍超過800W;因此單個(gè)BBU的電芯節(jié)數(shù)達(dá)到12節(jié)(四串三并),才能滿足異常掉電時(shí)的備電功耗需求。存儲(chǔ)系統(tǒng)實(shí)時(shí)獲取BBU充放電次數(shù)與健康狀態(tài),BBU單元檢測自身狀態(tài),如果發(fā)現(xiàn)異??煽焖俣ㄎ患靶迯?fù),延長BBU電芯的使用壽命,保證BBU供電能力滿足產(chǎn)品的需求。因?yàn)榇鎯?chǔ)系統(tǒng)控制器功耗不斷增大,備用電池BBU的電芯節(jié)數(shù)不斷增加,電芯電壓不平衡或損壞無法正常識(shí)別等質(zhì)量隱患逐漸突顯出來;如果沒有支持診斷的BMS(Battery Management System)日志,BBU充電異常、BBU校驗(yàn)學(xué)習(xí)(評(píng)估BBU備電能力是否滿足一次備電需求)異常、BBU供電鏈路偵測異常等問題則無法準(zhǔn)確定位,影響B(tài)BU的故障定位效率及使用壽命;如果備電單元故障未及時(shí)發(fā)現(xiàn),異常掉電而BBU不能正常供電,嚴(yán)重時(shí)會(huì)出現(xiàn)存儲(chǔ)系統(tǒng)丟數(shù)據(jù)的隱患。
浪潮存儲(chǔ):智能備電管理技術(shù)
浪潮存儲(chǔ)從系統(tǒng)控制端與備電單元端雙管齊下,提出了智能備電管理技術(shù),將存儲(chǔ)系統(tǒng)備電單元有效電量提升30%、使用壽命延長50%。智能備電管理技術(shù)包含BBU單元軟硬一體自診斷方案、存儲(chǔ)系統(tǒng)對(duì)BBU的智能管理方案、冷熱備電智能切換方案三部分。通過BBU單元的監(jiān)測電路與自診斷算法,實(shí)現(xiàn)了BBU狀態(tài)監(jiān)測與告警管理;通過存儲(chǔ)系統(tǒng)軟件對(duì)BBU單元的管理,提升BBU單元故障定位效率和備電系統(tǒng)穩(wěn)定性;通過BBU單元冷備與熱備智能切換,BBU單元電池?fù)p耗降低30%,提高了電池的使用壽命,降低了電池報(bào)廢數(shù)量和環(huán)境的污染。
BBU單元軟硬一體自診斷設(shè)計(jì)方案
浪潮存儲(chǔ)通過自診斷算法為BBU單元提供精準(zhǔn)高效的狀態(tài)監(jiān)測與異常處理,存儲(chǔ)研發(fā)團(tuán)隊(duì)在設(shè)計(jì)前詳細(xì)梳理BMS 軟硬件接口寄存器、BBU電芯解耦控制參量、狀態(tài)保護(hù)觸發(fā)閾值等,用于監(jiān)測狀態(tài)的分析診斷。硬件設(shè)計(jì)BBU 供電路徑偵測電路,實(shí)時(shí)監(jiān)測BBU供電路徑,跨連接器和板卡不同位置的電壓、電流、功率值,作為自診斷分析依據(jù);軟件設(shè)計(jì)BBU單元自診斷算法,BBU單元優(yōu)先查詢電芯物料信息與當(dāng)前狀態(tài)進(jìn)行初診斷,初診斷無誤后開始對(duì)存儲(chǔ)控制信號(hào)、充電信號(hào)等進(jìn)行實(shí)時(shí)記錄,同時(shí)分析對(duì)外充放電、對(duì)內(nèi)校驗(yàn)學(xué)習(xí)等各種狀態(tài)下的參數(shù)變化情況。如果狀態(tài)參數(shù)異常,則分析異常原因并進(jìn)行簡單的自適應(yīng)調(diào)參,同時(shí)收集異常日志發(fā)送給存儲(chǔ)系統(tǒng)。通過流程化的自診斷,可以在存儲(chǔ)系統(tǒng)業(yè)務(wù)上線前檢出已知的大部分問題,降低存儲(chǔ)系統(tǒng)業(yè)務(wù)上線后BBU單元異常的概率。
突破存儲(chǔ)系統(tǒng)對(duì)BBU單元智能管理方案
存儲(chǔ)系統(tǒng)對(duì)BBU單元的管理至關(guān)重要,是備電流程順利進(jìn)行的核心。存儲(chǔ)系統(tǒng)基于BBU單元自診斷的狀態(tài)信息,從以下五方面進(jìn)行智能備電狀態(tài)監(jiān)測處理:
其一,定期對(duì)BBU 供電鏈路偵測,模擬存儲(chǔ)系統(tǒng)供電切換流程,提前識(shí)別鏈路隱患。
其二,定期評(píng)估BBU單元儲(chǔ)備的電量,判定是否滿足系統(tǒng)一次備電需求,同時(shí)累計(jì)消除BMS采樣誤差。
其三,存儲(chǔ)系統(tǒng)實(shí)時(shí)讀取BBU單元電壓與電流、電芯電壓及溫度、充放電MOS管溫度,接近BMS內(nèi)置閾值時(shí)報(bào)警處理。
其四,充電過程自動(dòng)監(jiān)測存儲(chǔ)設(shè)備功率,檢測BBU電量是否滿足一次備電需求,實(shí)時(shí)校準(zhǔn)充電狀態(tài),同時(shí)累計(jì)充放電次數(shù)。
最后,存儲(chǔ)系統(tǒng)對(duì)BBU單元BMS狀態(tài)寄存器狀態(tài)值實(shí)時(shí)監(jiān)控,出現(xiàn)異常后進(jìn)入備份供電異常處理模式。
上述智能備電狀態(tài)診斷方案,將潛在異常的識(shí)別率提升了1倍;問題診斷完成后,存儲(chǔ)系統(tǒng)對(duì)日志進(jìn)行智能分析,準(zhǔn)確定位出問題源頭,例如BBU電芯異常、BBU 控制模塊異常、存儲(chǔ)系統(tǒng)控制電路異常、系統(tǒng)散熱異常等。
創(chuàng)造性的給出了一種冷熱備電智能切換方案
浪潮存儲(chǔ)系統(tǒng)對(duì)供電鏈路定期偵測、BBU備電能力定期評(píng)估,提前識(shí)別供電隱患,并基于此進(jìn)行供電狀態(tài)智能分析,設(shè)計(jì)了BBU單元冷備、熱備智能切換方案。在1+1冗余,雙PSU都正常狀態(tài)下采用冷備以降低備電損耗,存儲(chǔ)系統(tǒng)通過對(duì)輸出電壓電流、PWM驅(qū)動(dòng)波形、溫度采樣值等參數(shù)的智能分析,提前對(duì)PSU的工作狀態(tài)進(jìn)行預(yù)測,在單 PSU出現(xiàn)異常后,切換為熱備模式,以保證市電異常時(shí)存儲(chǔ)系統(tǒng)無縫切換為BBU供電。浪潮存儲(chǔ)打破了傳統(tǒng)熱備電技術(shù)對(duì)BBU壽命損耗的弊端,智能供電方案中熱備份供電時(shí)間占比不超過10%,BBU單體待機(jī)功耗由原來的熱備3W.h, 減小至0.3W.h,一年內(nèi)充電次數(shù)也由450次減少至50次左右,BBU使用壽命由不到一年延長至三年以上,使得廢棄BBU對(duì)環(huán)境污染程度大幅度降低,貫徹了綠色設(shè)計(jì)理念。
浪潮存儲(chǔ)秉承"云存智用 運(yùn)籌新數(shù)據(jù)"的新存儲(chǔ)理念,深耕存儲(chǔ)平臺(tái)底層硬件的創(chuàng)新研發(fā),從源頭做起全方位加固存儲(chǔ)產(chǎn)品備電質(zhì)量,充分發(fā)揮硬件平臺(tái)的數(shù)據(jù)備份處理優(yōu)勢,貫徹落實(shí)綠色節(jié)能設(shè)計(jì)理念,打造具備極致可靠性的高端存儲(chǔ)產(chǎn)品,保障企業(yè)海量數(shù)據(jù)存得高效、存得可靠,護(hù)航數(shù)字經(jīng)濟(jì)發(fā)展。