omniture

浪潮與騰訊云聯(lián)合發(fā)布數(shù)據(jù)中心服務(wù)器智能故障診斷技術(shù)白皮書

助力大規(guī)模數(shù)據(jù)中心高效穩(wěn)定運(yùn)行
2021-08-02 08:00 5308

北京2021年8月2日 /美通社/ -- 7月27日,由OCP社區(qū)主辦、浪潮承辦的第三屆OCP China Day順利舉行。會(huì)上,浪潮聯(lián)合騰訊云發(fā)布《數(shù)據(jù)中心服務(wù)器智能故障診斷TIFDS(Tencent & Inspur Fault Diagnosis System)系統(tǒng)技術(shù)白皮書》,白皮書詳細(xì)解讀了當(dāng)前大規(guī)模數(shù)據(jù)中心運(yùn)維面臨的挑戰(zhàn),闡述了騰訊云與浪潮聯(lián)合研發(fā)的TIFDS系統(tǒng)架構(gòu),為大規(guī)模數(shù)據(jù)中心提升服務(wù)器運(yùn)維效率,保障數(shù)據(jù)中心穩(wěn)定運(yùn)行提供重要參考。

以騰訊云數(shù)百萬(wàn)服務(wù)器運(yùn)營(yíng)數(shù)據(jù)和浪潮深厚的固件研發(fā)專家經(jīng)驗(yàn)庫(kù)為基礎(chǔ),“TIFDS”系統(tǒng)可利用AI技術(shù)對(duì)海量服務(wù)器運(yùn)行數(shù)據(jù)實(shí)時(shí)分析,對(duì)各類部件故障實(shí)時(shí)預(yù)警,故障診斷“火眼金睛”,故障自動(dòng)明確化率提升至95%以上,遠(yuǎn)超業(yè)界平均水平。 

OCP China Day現(xiàn)場(chǎng)騰訊云星星海實(shí)驗(yàn)室研發(fā)副總監(jiān)劉超介紹白皮書內(nèi)容
OCP China Day現(xiàn)場(chǎng)騰訊云星星海實(shí)驗(yàn)室研發(fā)副總監(jiān)劉超介紹白皮書內(nèi)容

大規(guī)模數(shù)據(jù)中心服務(wù)器猛增 人力運(yùn)維接近極限

伴隨著互聯(lián)網(wǎng)企業(yè)的崛起,云計(jì)算市場(chǎng)已走過(guò)十多年的時(shí)間,據(jù)Gartner數(shù)據(jù)統(tǒng)計(jì),2020年全球云計(jì)算市場(chǎng)快速增長(zhǎng),增速超過(guò)40%,中國(guó)云計(jì)算市場(chǎng)也持續(xù)兩位數(shù)增長(zhǎng),市場(chǎng)增長(zhǎng)動(dòng)能逐漸從泛互聯(lián)網(wǎng)向產(chǎn)業(yè)化快速滲透,增長(zhǎng)持續(xù)加速。

白皮書指出,云計(jì)算的快速擴(kuò)張帶來(lái)了數(shù)據(jù)中心服務(wù)器數(shù)量的爆發(fā)式增長(zhǎng),隨之而來(lái)的服務(wù)器運(yùn)維管理復(fù)雜度和難度也越來(lái)越大,而傳統(tǒng)的海量服務(wù)器故障運(yùn)營(yíng)面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,越來(lái)越無(wú)法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運(yùn)行的要求。為高效管理十萬(wàn)甚至百萬(wàn)級(jí)服務(wù)器,智能化的監(jiān)控診斷系統(tǒng)成為大規(guī)模數(shù)據(jù)中心必不可少的工具。

公布TIFDS系統(tǒng)架構(gòu),故障自動(dòng)明確化率95%以上

TIFDS(Tencent & Inspur Fault Diagnosis System)是騰訊云與浪潮聯(lián)合研發(fā)的故障診斷系統(tǒng),是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實(shí)現(xiàn)運(yùn)維工作由人工離線分析向自動(dòng)智能在線識(shí)別的方向發(fā)展,建立一套以帶外BMC為中心的故障診斷系統(tǒng)。據(jù)白皮書介紹,TIFDS系統(tǒng)具有風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警,故障精準(zhǔn)診斷和日志定制化透明安全等特點(diǎn),對(duì)提升大規(guī)模數(shù)據(jù)中心運(yùn)維效率具有重要意義。

  • 風(fēng)險(xiǎn)實(shí)時(shí)預(yù)警:該系統(tǒng)基于騰訊云現(xiàn)網(wǎng)運(yùn)行的百萬(wàn)臺(tái)服務(wù)器運(yùn)維經(jīng)驗(yàn),結(jié)合AI智能算法,可對(duì)非宕機(jī)類故障進(jìn)行實(shí)時(shí)預(yù)警,降低服務(wù)器高負(fù)荷運(yùn)行下突然失效的風(fēng)險(xiǎn)。
  • 故障精準(zhǔn)診斷:浪潮構(gòu)建專家經(jīng)驗(yàn)庫(kù),將故障自動(dòng)明確化率提升至95%以上,遠(yuǎn)高于業(yè)界平均標(biāo)準(zhǔn),秒級(jí)告警,精準(zhǔn)反饋故障觸發(fā)源,提升運(yùn)維效率。
  • 日志定制化透明安全:創(chuàng)新性的按照騰訊云需求聯(lián)合定制日志輸出上報(bào)方式,使診斷過(guò)程清晰透明,并對(duì)疑難問(wèn)題進(jìn)行了識(shí)別并建立了線上聯(lián)合診斷系統(tǒng),不斷提升系統(tǒng)運(yùn)維效率。

騰訊云服務(wù)器運(yùn)營(yíng)中心副總經(jīng)理嚴(yán)勇表示:“騰訊云在全球數(shù)據(jù)中心服務(wù)器數(shù)量早已超過(guò)百萬(wàn)臺(tái),此次發(fā)布的TIFDS系統(tǒng),不僅能大幅提升自身數(shù)據(jù)中心的服務(wù)器運(yùn)維效率,為騰訊云平臺(tái)的穩(wěn)定運(yùn)行提供堅(jiān)實(shí)的技術(shù)支撐,也將為各類新興應(yīng)用在公有云平臺(tái)的大規(guī)模落地提供良好的技術(shù)儲(chǔ)備。” 

浪潮信息研發(fā)項(xiàng)目管理部總經(jīng)理宋曉鋒表示:“TIFDS是數(shù)據(jù)中心服務(wù)器運(yùn)維技術(shù)的重要?jiǎng)?chuàng)新,是騰訊云與浪潮雙方基于JDM模式,打破原有產(chǎn)業(yè)鏈上下游合作模式,進(jìn)行聯(lián)合研發(fā)的又一成果。此次,浪潮與騰訊云將TIFDS架構(gòu)進(jìn)行梳理,聯(lián)合發(fā)布了業(yè)界首個(gè)數(shù)據(jù)中心故障運(yùn)維白皮書,為提升數(shù)據(jù)中心運(yùn)維效率和云計(jì)算穩(wěn)定性具有重要的借鑒意義?!?/p>

消息來(lái)源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection