北京2020年12月10日 /美通社/ -- 深圳大學(xué)計算機(jī)與軟件學(xué)院(以下簡稱“深大計軟學(xué)院”)借助浪潮人工智能資源平臺AIStation巧妙地解決了AI算力資源調(diào)配和管理難題,將GPGPU資源利用率提升至60%以上,整體開發(fā)工作效率提升75%,AI科研和教學(xué)工作駛?cè)肟燔嚨馈?/p>
深圳大學(xué)是廣東省高水平大學(xué)重點(diǎn)建設(shè)高校,培養(yǎng)了馬化騰、張志東、史玉柱等杰出校友。依托國家戰(zhàn)略、地緣優(yōu)勢和校友資源,深大計軟學(xué)院于2012年率先開啟AI科學(xué)研究與人才培養(yǎng)。在人工智能領(lǐng)域取得了多項科研成果,承擔(dān)多個國家級自然科學(xué)基金項目。在芯片、算法、比賽以及論文等方面,也獲得了令人矚目的成績。在全球院校計算機(jī)科學(xué)排行榜CSRankings 2017-2019區(qū)間中,深圳大學(xué)計算機(jī)圖形學(xué)名列亞洲高校第一,進(jìn)入世界領(lǐng)先水平。近年來,學(xué)院大力推進(jìn)產(chǎn)學(xué)融合,積極開展人工智能教學(xué)探索與實踐,與騰訊等領(lǐng)先AI企業(yè)合作制定了人工智能人才培養(yǎng)方案,在課程體系、資源銜接、師資培訓(xùn)、課程內(nèi)容建設(shè)等方面進(jìn)行了深度合作,成立了廣東省首個人工智能學(xué)院。
為了支持人工智能教學(xué)科研工作,深大計軟學(xué)院大力投入AI計算平臺建設(shè),然而隨著AI應(yīng)用場景的增加和使用人數(shù)的上升,AI算力資源調(diào)度管理問題逐漸凸顯。
AI算力資源管理拖累教學(xué)科研進(jìn)度
2018年以前,深大計軟學(xué)院在AI計算資源獲得方面主要由各研究所/研究團(tuán)隊自行解決。相關(guān)科研人員自行購買了大量的不同品牌的AI服務(wù)器,新舊不一、型號各異,性能表現(xiàn)參差不齊,操作系統(tǒng)版本繁多。這些服務(wù)器均托管于學(xué)院公用服務(wù)器機(jī)房內(nèi),但由各個團(tuán)隊自行進(jìn)行維護(hù),故障停機(jī)、維護(hù)停機(jī)是家常便飯,大多數(shù)AI服務(wù)器的MTBF(平均故障間隔時間)低于150小時。同時相關(guān)服務(wù)器僅在團(tuán)隊內(nèi)部共享,利用率低,而對機(jī)房制冷量、供電等資源的消耗卻很高。至2018年底,托管于學(xué)院公用服務(wù)器機(jī)房內(nèi)的各型AI服務(wù)器已有近90臺,機(jī)房業(yè)務(wù)負(fù)荷(三相交流電)供電總電流高峰時超過110A,服務(wù)器機(jī)房開通僅1年半即已超過接入線路設(shè)計最大供電能力的50%,而各研究團(tuán)隊的采購和托管申請仍紛至沓來,機(jī)房管理人員苦惱不堪。
2018年起,深大計軟學(xué)院下決心建設(shè)統(tǒng)一的學(xué)院公共AI計算平臺,同時收緊研究團(tuán)隊自行購買與托管AI服務(wù)器,以期通過提升資源利用率來解決科研人員對AI計算資源的需求與機(jī)房動力系統(tǒng)約束之間的矛盾。學(xué)院統(tǒng)一采購了16臺8卡AI服務(wù)器組成服務(wù)器機(jī)群,安裝虛擬化軟件進(jìn)行服務(wù)器虛擬化,分配給學(xué)院師生使用。同時在另外6臺AI服務(wù)器上安裝PBS系統(tǒng),供研究各團(tuán)隊按需申請,用于長時間模型訓(xùn)練、調(diào)優(yōu)等短期使用需求。然而,傳統(tǒng)虛擬化軟件對GPU資源的虛擬化支持較差,只能通過PCIe設(shè)備直通的方式手動分配給虛擬機(jī)使用,無法根據(jù)用戶的計算需求對GPU資源進(jìn)行動態(tài)調(diào)度。而PBS等傳統(tǒng)并行計算機(jī)群管理系統(tǒng),對GPU加速卡等異構(gòu)計算資源的監(jiān)控和調(diào)度能力也遠(yuǎn)遠(yuǎn)不能滿足公共AI計算平臺的需要,同時在多人共享使用時,運(yùn)行環(huán)境、任務(wù)相互之間干擾較大。
“當(dāng)時在建這套AI計算平臺時,我們花了不少的精力,投入了很大的成本,但是卻沒有達(dá)到我們對提升人工智能科研和教學(xué)效率的預(yù)期,這讓我們非常苦惱。”深大計軟學(xué)院AI計算平臺負(fù)責(zé)人提到。
巧解難題,AI教研駛上快車道
浪潮AIStation是面向企業(yè)級用戶提供的一體化人工智能開發(fā)資源平臺,可支持?jǐn)?shù)據(jù)處理、AI算法開發(fā)、模型訓(xùn)練、模型管理、模型部署等AI全鏈條操作管理。浪潮AIStation可以支持大規(guī)模計算集群擴(kuò)展,支持CPU、GPU、FPGA等多種系統(tǒng)架構(gòu),在業(yè)內(nèi)首先可以達(dá)到“管資源”、“管人”、“管調(diào)度”三管齊下。深大的AI算力資源管理難題在部署了浪潮AIStation之后已經(jīng)迎刃而解,目前深大計軟學(xué)院AI計算平臺的GPGPU資源利用率,在高峰時期已提升至60%以上,而開發(fā)效率也大幅度提升,人工智能教學(xué)科研步入快車道。
通過AIStation平臺,集群管理員可以清晰地了解到每個使用者對資源使用和提交訓(xùn)練任務(wù)的狀況,將閑置的計算資源進(jìn)行有效的管理,并靈活配置用戶的資源配額,防止資源過多占用和浪費(fèi)。
深大師生通過AIStation可以自行按需申請資源,AIStation自動分配GPU資源給用戶使用。其GPU共享策略可實現(xiàn)實現(xiàn)多人共用一臺機(jī)器、多人共用一張GPU卡,開發(fā)環(huán)境相互隔離互不影響,大大縮短了以往的排隊等待時間,大幅降低了因任務(wù)相互干擾而造成的故障停機(jī)和數(shù)據(jù)丟失的風(fēng)險。
此外,AIStation還支持任務(wù)排隊托管、定義任務(wù)優(yōu)先級。深大師生們現(xiàn)在可以同時提交多個訓(xùn)練任務(wù),資源不足時排隊等待,一個任務(wù)訓(xùn)練結(jié)束后自動釋放資源給排隊等待的任務(wù),從而可以更好地利用夜間、假期執(zhí)行訓(xùn)練任務(wù),同時可設(shè)置優(yōu)先級,讓重要任務(wù)優(yōu)先執(zhí)行。
AIStation還提供基于Web的用戶界面,師生們無需安裝任何插件,通過瀏覽器即可快速接入實驗平臺。疫情期間,借助AIstation進(jìn)行遠(yuǎn)程教學(xué)和科研實驗,深大計軟學(xué)院迅速恢復(fù)了正常的教學(xué)和科研工作,更好地應(yīng)對了疫情帶來的挑戰(zhàn)。
“在AIStation的幫助下,我們可以把精力更多地投入到教學(xué)與科研中去,不用再苦苦尋找計算資源了?!?span id="spanHghlt7b33">深大計軟學(xué)院一名教師說,“同時,AIStation采用圖形化界面,內(nèi)置多種主流深度學(xué)習(xí)框架和開發(fā)組件,能夠快速部署開發(fā)環(huán)境,大大降低了學(xué)生們的學(xué)習(xí)難度和使用門檻,提高了學(xué)生們的實驗效率,也為AI開發(fā)和教學(xué)提供了極大的便利,將我們的開發(fā)工作效率整體提升了近一倍?!?/p>
深大計軟學(xué)院借力浪潮AIStation擺脫了AI算力資源難題,將繼續(xù)堅守“視野寬廣、素質(zhì)優(yōu)良、注重實踐、創(chuàng)新創(chuàng)業(yè)”的人才培養(yǎng)原則,加速推進(jìn)AI科研創(chuàng)新與人才培養(yǎng),打造人工智能教研標(biāo)桿高校。