北京2022年1月29日 /美通社/ -- 中南大學(xué)是教育部直屬全國(guó)重點(diǎn)大學(xué)、國(guó)家“211工程”首批重點(diǎn)建設(shè)高校、國(guó)家“985工程”部省重點(diǎn)共建高水平大學(xué)和國(guó)家“2011計(jì)劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。學(xué)?!半p一流”建設(shè)對(duì)算力的需求與日俱增,需要建設(shè)面向全校師生提供計(jì)算服務(wù)的開(kāi)放性公共平臺(tái),一方面為學(xué)校的基礎(chǔ)研究、前沿科學(xué)技術(shù)研究,以及促進(jìn)科學(xué)探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進(jìn)學(xué)校的人才培養(yǎng)以及學(xué)校改革發(fā)展的“四個(gè)轉(zhuǎn)型”夯實(shí)基礎(chǔ),以期在基礎(chǔ)研究和科技前沿領(lǐng)域有所突破,從而進(jìn)一步提升學(xué)校整體科研水平。
強(qiáng)強(qiáng)聯(lián)手,打造高密度、低能耗5萬(wàn)核智算平臺(tái)
中南大學(xué)與浪潮信息強(qiáng)強(qiáng)聯(lián)手,打造了高密度、低能耗、易管理的智算平臺(tái),平臺(tái)共有上千臺(tái)設(shè)備,采用浪潮成熟穩(wěn)定的計(jì)算和人工智能服務(wù)器以及浪潮AI微模塊數(shù)據(jù)中心解決方案。在需要多數(shù)據(jù)計(jì)算的場(chǎng)景下,CPU會(huì)與內(nèi)存進(jìn)行頻繁通信,浪潮信息NF5180服務(wù)器作為管理節(jié)點(diǎn)、登錄節(jié)點(diǎn)以及計(jì)算節(jié)點(diǎn),在1U緊湊空間內(nèi)搭配兩顆處理器,12根16GB的DDR4內(nèi)存,極大限度地融合了各部件的優(yōu)勢(shì),顯著提高了內(nèi)存帶寬,降低了內(nèi)存延遲,從而為每個(gè)CPU提供了訪問(wèn)本地內(nèi)存資源的快速通道,相比傳統(tǒng)2U服務(wù)器極大提高了部署密度,節(jié)約數(shù)據(jù)中心空間一半以上。
高密度部署的計(jì)算集群,空間被極限壓縮,單位空間內(nèi)堆疊更多的存儲(chǔ)和計(jì)算單元,高密度的計(jì)算和數(shù)據(jù)傳輸伴隨著設(shè)備的散熱問(wèn)題,如何破解服務(wù)器的大功耗、解決散熱問(wèn)題成為解決方案需要考慮的重要問(wèn)題,這既是對(duì)產(chǎn)品質(zhì)量的考驗(yàn),更是對(duì)浪潮信息技術(shù)團(tuán)隊(duì)綜合能力的挑戰(zhàn)。浪潮NF5180導(dǎo)入無(wú)孔機(jī)箱,在機(jī)器堆疊場(chǎng)景下無(wú)需按照傳統(tǒng)機(jī)架部署的方式預(yù)留散熱空間,從而實(shí)現(xiàn)高密度部署需求;在通用計(jì)算場(chǎng)景下,單節(jié)點(diǎn)能耗將達(dá)到550W-800W,而在高強(qiáng)度高頻次計(jì)算的時(shí)候,單節(jié)點(diǎn)能耗達(dá)可到1000W-1300W,CPU幾乎滿載負(fù)荷,所以浪潮NF5180在機(jī)器內(nèi)部結(jié)構(gòu)設(shè)計(jì)上,采用更具性價(jià)比的高密極致EVAC散熱方案,消除散熱不均引起的性能瓶頸問(wèn)題,優(yōu)化風(fēng)扇轉(zhuǎn)速,實(shí)現(xiàn)相同環(huán)境風(fēng)壓風(fēng)流的情況下,散熱能力提高30%;對(duì)風(fēng)扇進(jìn)行調(diào)優(yōu)的同時(shí)導(dǎo)入蜂窩狀波導(dǎo)網(wǎng),對(duì)風(fēng)扇入風(fēng)處風(fēng)流做整流處理,提高了風(fēng)扇進(jìn)風(fēng)口的流速并且減少了紊流的產(chǎn)生。浪潮信息工程師團(tuán)隊(duì)通過(guò)在浪潮澎湃實(shí)驗(yàn)室的大量仿真模擬實(shí)驗(yàn)發(fā)現(xiàn),加大波導(dǎo)網(wǎng)厚度還可以進(jìn)一步提高空氣壓力,產(chǎn)生平行穩(wěn)定且強(qiáng)勁的氣流,從而帶來(lái)更多的散熱收益,使得機(jī)械硬盤的RV性能提升10%,讓硬盤穩(wěn)定性更佳。
除了技術(shù)的創(chuàng)新,NF5180產(chǎn)品的穩(wěn)定性在中南大學(xué)智算平臺(tái)也得到了充分驗(yàn)證,在試運(yùn)行測(cè)試階段,模擬全部斷電的極端場(chǎng)景進(jìn)行測(cè)試,斷電重啟后浪潮信息服務(wù)器設(shè)備全部點(diǎn)亮,沒(méi)有一臺(tái)出現(xiàn)故障,這完全得益于安全可靠的產(chǎn)品設(shè)計(jì)。浪潮NF5180從硬件、系統(tǒng)、固件等多個(gè)層面,多方位保障客戶的信息安全和資產(chǎn)安全。通過(guò)雙層電源防護(hù)設(shè)計(jì),在PDU端及主板端增加保險(xiǎn)裝置,防止功率過(guò)載時(shí)對(duì)主板及元器件造成損壞。同時(shí)NF5180還導(dǎo)入了AMT技術(shù),開(kāi)機(jī)即對(duì)內(nèi)存進(jìn)行更為細(xì)致的自檢,全面保障業(yè)務(wù)系統(tǒng)安全。在結(jié)構(gòu)設(shè)計(jì)上,機(jī)箱選擇了更好的鋼結(jié)構(gòu)材料,保障機(jī)箱不彎、不斷、不碎、不變形。為應(yīng)對(duì)嚴(yán)苛環(huán)境如跌落、振動(dòng)帶來(lái)的形變等安全隱患,浪潮研發(fā)工程師在最新服務(wù)器底板上設(shè)計(jì)了一條“拱橋”,在不影響出風(fēng)散熱、機(jī)器運(yùn)維的情況下對(duì)機(jī)箱結(jié)構(gòu)進(jìn)行優(yōu)化、加固,大幅提升結(jié)構(gòu)強(qiáng)度,新的機(jī)箱通過(guò)了9級(jí)烈度抗震測(cè)試。
浪潮信息的服務(wù)器在出廠之前都要經(jīng)過(guò)浪潮澎湃實(shí)驗(yàn)室科學(xué)、全面、嚴(yán)苛的測(cè)試驗(yàn)證,浪潮澎湃實(shí)驗(yàn)室下轄氣候環(huán)境、機(jī)械環(huán)境、結(jié)構(gòu)散熱、電磁兼容、系統(tǒng)驗(yàn)證、精密測(cè)量、失效分析和數(shù)據(jù)中心共8大實(shí)驗(yàn)室,包括40余項(xiàng)測(cè)試大類,共2000余項(xiàng)常規(guī)測(cè)試以及30余項(xiàng)極限測(cè)試。數(shù)字技術(shù)已全面應(yīng)用于實(shí)驗(yàn)室的各個(gè)測(cè)試流程,實(shí)現(xiàn)了服務(wù)器從設(shè)計(jì)、生產(chǎn)到出廠的全流程數(shù)字化、智能化品控測(cè)試管理。在過(guò)去近30年中,為浪潮信息從中國(guó)服務(wù)器市場(chǎng)第一躍升至全球第二提供了重要的品質(zhì)保障。
自動(dòng)化智能的精確納管,為運(yùn)維減負(fù)
中南大學(xué)智算平臺(tái)架構(gòu)先進(jìn)、軟硬件完備、功能齊全,并可為用戶提供充沛的算力資源,滿足了學(xué)??蒲腥藛T大量的計(jì)算資源需求。但是,大量集中部署對(duì)管理和運(yùn)維人員也提出了前所未有的挑戰(zhàn),傳統(tǒng)運(yùn)維模式已難以實(shí)現(xiàn)對(duì)計(jì)算服務(wù)器集群算力的精細(xì)化管理、調(diào)度和科學(xué)合理分配計(jì)算資源,算力應(yīng)用處于黑箱模式,類似于盲人摸象,不清楚、不清晰,無(wú)法實(shí)現(xiàn)對(duì)計(jì)算集群快速且精準(zhǔn)的有效運(yùn)維,也造成了運(yùn)維人員的沉重負(fù)擔(dān)。面對(duì)如此窘境,浪潮信息采用ISPIM(Inspur Physical Infrastructure Manager)浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)作為中南大學(xué)智算平臺(tái)的運(yùn)維管理系統(tǒng),以“1+1+N高可用模式”,在5臺(tái)服務(wù)器上部署ISPIM系統(tǒng),主動(dòng)采集頻率為45min,監(jiān)控指標(biāo)可達(dá)150W+,覆蓋智算平臺(tái)內(nèi)的所有設(shè)備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。
通過(guò)ISPIM提供標(biāo)準(zhǔn)的北向接口與CE(Cluster Engine)計(jì)算平臺(tái)對(duì)接,可獲取到集群計(jì)算節(jié)點(diǎn)中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負(fù)載等信息及計(jì)算節(jié)點(diǎn)狀態(tài),實(shí)現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動(dòng)軟件Teye,可實(shí)現(xiàn)對(duì)設(shè)備帶內(nèi)性能指標(biāo)的秒級(jí)實(shí)時(shí)采集及歷史信息匯聚。同時(shí)ISPIM會(huì)基于AI算法,對(duì)采集到的所有設(shè)備的能耗、溫度、氣流、CUPS以及機(jī)房環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)智能分析,推送能耗管理與優(yōu)化建議,通過(guò)可視化拓?fù)涑尸F(xiàn),3D建模展示數(shù)據(jù)中心內(nèi)機(jī)柜位置、功耗、溫度狀態(tài)信息,實(shí)現(xiàn)對(duì)整個(gè)數(shù)據(jù)中心的細(xì)粒度管理。
通過(guò)部署浪潮信息ISPIM系統(tǒng),中南大學(xué)智算平臺(tái)實(shí)現(xiàn)了集中自動(dòng)化管理,大大減輕了運(yùn)維負(fù)擔(dān),另一方面,通過(guò)對(duì)算力數(shù)據(jù)的精準(zhǔn)獲取、調(diào)度,使得算力的管控集中化、智能化,同時(shí)通過(guò)對(duì)平臺(tái)的監(jiān)測(cè),實(shí)現(xiàn)能耗可查、可管、可控。運(yùn)維人員通過(guò)ISPIM平臺(tái)可隨時(shí)隨地監(jiān)控整個(gè)平臺(tái)的運(yùn)行狀態(tài),故障報(bào)警能夠以秒級(jí)的速度精準(zhǔn)定位,保障中南大學(xué)智算平臺(tái)的高效有序運(yùn)轉(zhuǎn),節(jié)約了人力資源,運(yùn)維效率大幅提升。
隨著整個(gè)社會(huì)數(shù)字化轉(zhuǎn)型進(jìn)程的加快,科學(xué)技術(shù)成為第一生產(chǎn)力,算力作為核心動(dòng)能,不斷為創(chuàng)新發(fā)展提供源動(dòng)力,中南大學(xué)智算平臺(tái)將有效地促進(jìn)中南大學(xué)科學(xué)研究水平的提升,進(jìn)一步推動(dòng)科研成果的不斷產(chǎn)出和拔尖創(chuàng)新人才的培養(yǎng),為學(xué)校的“雙一流”建設(shè)做出貢獻(xiàn)。浪潮信息攜手中南大學(xué)打造高校智算平臺(tái),取得了很好的效果,實(shí)現(xiàn)了合作共贏,相互成就。