北京2022年12月30日 /美通社/ -- 隨著金融數(shù)字化轉(zhuǎn)型加速推進(jìn),銀行需要提供更高質(zhì)量、更快速的金融服務(wù),對(duì)銀行智算中心的能力提出了更高要求和挑戰(zhàn)。多樣化智能計(jì)算場(chǎng)景需要多元化的算力供給,如巨量化模型、數(shù)據(jù)和應(yīng)用規(guī)模需要巨量算力,不同尺度作業(yè)需要靈活且精細(xì)化算力管理。隨著計(jì)算集群規(guī)模不斷激增,以及異構(gòu)計(jì)算資源、高性能網(wǎng)絡(luò)快速發(fā)展,如何滿足不同AI負(fù)載針對(duì)網(wǎng)絡(luò)、存儲(chǔ)、異構(gòu)算力等需求,是銀行面臨的關(guān)鍵問(wèn)題。
浪潮信息在與某大型國(guó)有銀行的合作中發(fā)現(xiàn),當(dāng)前銀行智算中心主要支持在線推理服務(wù),應(yīng)用場(chǎng)景近1000種,但同時(shí)缺乏大規(guī)模分布式、大模型訓(xùn)練算力基礎(chǔ)設(shè)施所需的資源管理和開發(fā)平臺(tái),導(dǎo)致某些業(yè)務(wù)的模型迭代周期較長(zhǎng)。同時(shí)由于業(yè)務(wù)部門分散,缺乏有效的算力統(tǒng)一管控平臺(tái)。
浪潮智能業(yè)務(wù)生產(chǎn)創(chuàng)新平臺(tái)AIStation通過(guò)不斷的技術(shù)創(chuàng)新與實(shí)踐,將大規(guī)模GPU并行計(jì)算優(yōu)化能力與AI算力池化智能化調(diào)度結(jié)合起來(lái),成功將典型AI模型的訓(xùn)練周期由1周縮短為1個(gè)工作日,支持銀行AI業(yè)務(wù)場(chǎng)景快速上線,已在大型國(guó)有銀行落地。本文將闡述浪潮如何在具體業(yè)務(wù)場(chǎng)景下幫助銀行智算中心快速構(gòu)建AI生產(chǎn)創(chuàng)新平臺(tái),實(shí)現(xiàn)高性能、高可靠、高擴(kuò)展。
全生命周期管理的AIStation平臺(tái),助力銀行業(yè)務(wù)創(chuàng)新
完備的任務(wù)全生命周期管理能更好地支持銀行智算中心,幫助開發(fā)者快速使用算力,協(xié)助管理者管好資源,實(shí)現(xiàn)業(yè)務(wù)快速創(chuàng)新。
AIStation平臺(tái)提供了作業(yè)全生命周期管理,能夠讓開發(fā)者跟蹤作業(yè)狀態(tài)、為訓(xùn)練優(yōu)化提供必要的信息、分析平臺(tái)資源使用率狀態(tài)、幫助制定資源使用率提升方案。同時(shí)提供完備、高效的異構(gòu)計(jì)算資源管理,從數(shù)據(jù)加速、網(wǎng)絡(luò)優(yōu)化、業(yè)務(wù)系統(tǒng)無(wú)縫對(duì)接等維度保障銀行業(yè)務(wù),實(shí)現(xiàn)開發(fā)者便捷無(wú)感知的開發(fā)模式和管理者高效可控的管理模式。
目前異構(gòu)人工智能芯片發(fā)展迅速,越來(lái)越多銀行智算中心正在從傳統(tǒng)架構(gòu)遷移至異構(gòu)算力架構(gòu),但面臨異構(gòu)芯片種類多、管理復(fù)雜、開發(fā)門檻高等難題。
針對(duì)異構(gòu)算力資源接入與管理,AIStation平臺(tái)建立了加速卡管理模型,可以實(shí)現(xiàn)零業(yè)務(wù)代碼修改和異構(gòu)算力資源接入、配額管理、算力使用的配置化流程,以及異構(gòu)加速卡的類型識(shí)別、算力識(shí)別。同時(shí)提供報(bào)表統(tǒng)計(jì)、監(jiān)控告警功能,使平臺(tái)管理員能夠獲取異構(gòu)算力的健康狀態(tài)及使用情況,可以通過(guò)配置化的方式實(shí)現(xiàn)異構(gòu)算力資源的接入和管理。目前,AIStation已經(jīng)適配了超20款當(dāng)前市場(chǎng)主流不同架構(gòu)的加速卡,具有良好的適配性和通用性,能夠充分滿足不同業(yè)務(wù)場(chǎng)景對(duì)銀行智算中心的算力要求。
通常情況下,計(jì)算集群在為訓(xùn)練任務(wù)分配了資源后,節(jié)點(diǎn)將準(zhǔn)備環(huán)境(如下載作業(yè)鏡像),此時(shí)加速卡算力資源處于完全空置狀態(tài)。尤其是分布式作業(yè)涉及多個(gè)計(jì)算節(jié)點(diǎn)并發(fā)下載鏡像,對(duì)鏡像倉(cāng)庫(kù)產(chǎn)生較大壓力,導(dǎo)致鏡像下載較慢甚至失敗,嚴(yán)重浪費(fèi)了算力資源。
AIStation提供了鏡像P2P分發(fā)加速功能,能在無(wú)需新增硬件的情況下實(shí)現(xiàn)鏡像分發(fā)加速。鏡像倉(cāng)庫(kù)僅提供一次下載帶寬,鏡像加速系統(tǒng)即可在計(jì)算節(jié)點(diǎn)緩存鏡像數(shù)據(jù),并為其他計(jì)算節(jié)點(diǎn)的鏡像下載提供數(shù)據(jù)服務(wù),同時(shí)提供節(jié)點(diǎn)數(shù)線性相關(guān)的鏡像網(wǎng)絡(luò)總帶寬,有效降低了分布式任務(wù)的環(huán)境準(zhǔn)備時(shí)間。實(shí)測(cè)證明可將耗時(shí)降低至原來(lái)的1/2。
此外,AIStation具有節(jié)點(diǎn)數(shù)據(jù)緩存功能,可以僅進(jìn)行一次性存儲(chǔ)系統(tǒng)讀取,依靠本地高速磁盤消除網(wǎng)絡(luò)傳輸時(shí)延,極大提高了存儲(chǔ)IOPS,加速訓(xùn)練效率,能夠?qū)⒌湫虯I模型的訓(xùn)練周期由1周下降為1個(gè)工作日。并且AIStation在緩存機(jī)制基礎(chǔ)上提供了緩存生命周期管理,在磁盤使用率不高時(shí)盡可能緩存數(shù)據(jù),同時(shí)實(shí)現(xiàn)數(shù)據(jù)親和性調(diào)度。
大規(guī)模分布式作業(yè)的另一大挑戰(zhàn)是異常故障處理。由于分布式任務(wù)使用了更多的資源,因而更容易受到硬件、網(wǎng)絡(luò)等故障的影響,進(jìn)而引發(fā)訓(xùn)練中斷。一般來(lái)說(shuō),分布式任務(wù)異常處理需要人工介入操作,時(shí)效性無(wú)法保障,并且還需要一定的人工經(jīng)驗(yàn)判斷任務(wù)失敗的具體原因和解決方法,對(duì)算法人員的要求較高。AIStation平臺(tái)提供了完備的故障檢測(cè)識(shí)別、任務(wù)容錯(cuò)的機(jī)制,在故障發(fā)生時(shí)能夠識(shí)別當(dāng)前故障類型,對(duì)于通過(guò)重啟即可恢復(fù)的故障(如加速卡故障、網(wǎng)絡(luò)故障等),平臺(tái)自動(dòng)觸發(fā)訓(xùn)練任務(wù)的重提。AIStation通過(guò)自動(dòng)化流程,提高了故障處理效率,節(jié)省了集群機(jī)時(shí)資源,提高了資源利用率。
銀行智算中心網(wǎng)絡(luò)構(gòu)建方案目前有很多,其中RoCE網(wǎng)絡(luò)基于以太網(wǎng)協(xié)議實(shí)現(xiàn)RDMA,可以復(fù)用已有數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)備,從而降低集群搭建成本。基于RoCE的網(wǎng)絡(luò)方案,需要充分考慮GPU資源的協(xié)調(diào)調(diào)度,實(shí)現(xiàn)物理主機(jī)GPU的共享使用,來(lái)滿足訓(xùn)練任務(wù)任意GPU數(shù)的需求,同時(shí)也需將RDMA網(wǎng)卡透?jìng)鞯饺萜鲀?nèi),以滿足跨節(jié)點(diǎn)GPU的RDMA通信需求,但是目前還沒有一個(gè)有效的解決方案。
浪潮提出基于RoCE網(wǎng)卡虛擬化和網(wǎng)絡(luò)互通性管理相結(jié)合的解決方案,實(shí)現(xiàn)了在容器云平臺(tái)上對(duì)RoCE網(wǎng)絡(luò)的快速接入適配,同時(shí)降低網(wǎng)絡(luò)適配難度。方案已部署到某大型國(guó)有銀行的實(shí)際生產(chǎn)環(huán)境中,幫助客戶解決了GPU資源碎片的問(wèn)題,實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下GPU資源靈活調(diào)度分配,實(shí)際效果超出了客戶預(yù)期。
性能測(cè)試表明,在浪潮AIStation平臺(tái)容器內(nèi)基于不同網(wǎng)卡進(jìn)行通訊時(shí),在不同的數(shù)據(jù)包大小下,性能和時(shí)延都沒有損失。針對(duì)銀行業(yè)務(wù)特點(diǎn),AIStation測(cè)試了大規(guī)模圖像類別訓(xùn)練任務(wù),采用ResNet50并使用ILSVRC 2012數(shù)據(jù)集測(cè)試加速比,結(jié)果顯示大規(guī)模分布式訓(xùn)練的加速比達(dá)94%以上,性能優(yōu)異。同時(shí)物理主機(jī)RDMA網(wǎng)卡能夠透?jìng)鞯饺萜鞑⒛軌蚧赗oCEv2完成RDMA通信,在有多個(gè)RoCE網(wǎng)卡時(shí),能夠根據(jù)GPU與高性能網(wǎng)卡的拓?fù)潢P(guān)系、NCCL親和性等選擇最優(yōu)的RoCE網(wǎng)卡進(jìn)行跨節(jié)點(diǎn)通信。
銀行業(yè)務(wù)具有多樣化和精細(xì)化的特點(diǎn),在進(jìn)行AI業(yè)務(wù)時(shí)一般需要多個(gè)系統(tǒng)支撐與協(xié)同,包括數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)處理系統(tǒng)、AI開發(fā)訓(xùn)練系統(tǒng)、模型管理系統(tǒng)、推理服務(wù)系統(tǒng)、運(yùn)營(yíng)管理系統(tǒng)等。雖然內(nèi)部通用平臺(tái)能夠把各個(gè)系統(tǒng)整合起來(lái),但AI開發(fā)訓(xùn)練系統(tǒng)中的AI資源管理、AI單機(jī)和分布式訓(xùn)練任務(wù)全生命周期管理、異構(gòu)算力管理等方面能力是欠缺的,很難達(dá)到AI業(yè)務(wù)需求。
針對(duì)銀行內(nèi)部復(fù)雜的系統(tǒng)、業(yè)務(wù)流程,AIStation平臺(tái)提供了通用的AI業(yè)務(wù)調(diào)用接口能力,以達(dá)到簡(jiǎn)化流程和整合能力的目的。同時(shí)兼容異構(gòu)資源任務(wù),讓銀行無(wú)需關(guān)心底層資源部署和連接情況,把精力放在業(yè)務(wù)處理上。AIStation平臺(tái)提供了涵蓋任務(wù)、數(shù)據(jù)全生命周期管理、集群資源監(jiān)控和報(bào)表的全能力域API接口,幫助管理者掌握集群運(yùn)行情況。同時(shí)平臺(tái)API管理實(shí)現(xiàn)了全程加密傳輸以保證數(shù)據(jù)安全。通過(guò)豐富、完備且安全的API接口,AIStation能夠快速與銀行已有系統(tǒng)集成,讓銀行快速擁有專家級(jí)AI算力基礎(chǔ)設(shè)施管理能力。
總結(jié)
浪潮AIStation在某大型國(guó)有銀行的實(shí)踐中取得了顯著的示范效果。通過(guò)以上關(guān)鍵技術(shù)實(shí)現(xiàn)了GPU間通信性能大幅提升,減少節(jié)點(diǎn)間網(wǎng)絡(luò)通信開銷,提升整體處理性能,有效降低總能耗。同時(shí)可以減少機(jī)柜占用,提高集群算力密度,實(shí)現(xiàn)基礎(chǔ)資源降本增效。助力構(gòu)建高性能、高可靠、可擴(kuò)展的軟硬件系統(tǒng)架構(gòu),實(shí)現(xiàn)AI訓(xùn)練場(chǎng)景下算力資源的統(tǒng)一管理與智能化調(diào)度。
浪潮AIStation為銀行前沿的大規(guī)模人工智能模型開發(fā)訓(xùn)練和場(chǎng)景應(yīng)用打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。未來(lái),浪潮信息將繼續(xù)通過(guò)全棧智算能力賦能金融AI業(yè)務(wù)創(chuàng)新,推進(jìn)金融數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。