北京2024年11月21日 /美通社/ -- 隨著AI技術(shù)從機(jī)器學(xué)習(xí)演進(jìn)至深度學(xué)習(xí),并進(jìn)一步邁向生成式AI的新階段,算法、算力及數(shù)據(jù)需求呈現(xiàn)出爆炸式增長(zhǎng)態(tài)勢(shì)。大模型爆發(fā)初期,眾多企業(yè)布局,要求存儲(chǔ)提供高帶寬、高IOPS和低時(shí)延,以確保模型能夠快速有效地進(jìn)行訓(xùn)練。而在模型的實(shí)際部署與應(yīng)用過(guò)程中,又需要實(shí)現(xiàn)數(shù)據(jù)的跨域、跨介質(zhì)靈活調(diào)度,以及高質(zhì)量數(shù)據(jù)集的高效管理,這對(duì)存儲(chǔ)系統(tǒng)的靈活性、安全性及數(shù)據(jù)的可持續(xù)訪問(wèn)能力構(gòu)成了新的挑戰(zhàn)。
在近期舉辦的中國(guó)數(shù)據(jù)與存儲(chǔ)峰會(huì)AI+存儲(chǔ)協(xié)同發(fā)展論壇上,浪潮信息分布式存儲(chǔ)產(chǎn)品總監(jiān)張業(yè)興發(fā)表了題為"數(shù)聚存儲(chǔ),智慧未來(lái)"的演講。演講中,張業(yè)興不僅回顧了過(guò)去一年人工智能領(lǐng)域的迅猛發(fā)展態(tài)勢(shì),還深入闡述了浪潮信息在這一背景下如何精心布局新產(chǎn)品、新技術(shù)和新方案。
AI時(shí)代:存儲(chǔ)的轉(zhuǎn)型與重塑
人工智能已被提升至國(guó)家戰(zhàn)略的高度,成為驅(qū)動(dòng)新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵力量。張業(yè)興指出,數(shù)據(jù)作為一種新型生產(chǎn)要素,不僅是勞動(dòng)工具,還能創(chuàng)造經(jīng)濟(jì)價(jià)值。隨著數(shù)據(jù)的迅猛增長(zhǎng)和摩爾定律的持續(xù)推動(dòng),人工智能正步入一個(gè)爆發(fā)式增長(zhǎng)的階段,特別是在GPU市場(chǎng)規(guī)模及智能算力領(lǐng)域,展現(xiàn)出了驚人的增長(zhǎng)潛力。據(jù)預(yù)測(cè),至2028年,全球GPU市場(chǎng)規(guī)模有望達(dá)到2461.5億美元,而中國(guó)市場(chǎng)的規(guī)模也將攀升至459億美元,年復(fù)合增長(zhǎng)率高達(dá)32.8%。這一趨勢(shì)清晰地表明,人工智能正引領(lǐng)著第四次工業(yè)革命,對(duì)經(jīng)濟(jì)社會(huì)產(chǎn)生著廣泛而深遠(yuǎn)的影響。
在人工智能時(shí)代的大背景下,存儲(chǔ)系統(tǒng)的角色已悄然轉(zhuǎn)變,它不再是單純的數(shù)據(jù)存儲(chǔ)容器,而是成為了推動(dòng)人工智能發(fā)展的核心組件。隨著大模型技術(shù)的蓬勃發(fā)展,存儲(chǔ)系統(tǒng)正面臨著前所未有的挑戰(zhàn)。在大模型市場(chǎng)的初期布局中,已有超過(guò)400家廠商爭(zhēng)相涌入,模型訓(xùn)練的"速度"成為了競(jìng)爭(zhēng)的關(guān)鍵。為了提高GPU的利用效率,存儲(chǔ)系統(tǒng)必須能夠提供TB級(jí)的高帶寬和百萬(wàn)級(jí)的高IOPS,以確保模型訓(xùn)練的高效運(yùn)行。
此外,隨著模型在各行業(yè)的落地,數(shù)據(jù)的跨域和跨介質(zhì)調(diào)動(dòng)變得至關(guān)重要,存儲(chǔ)系統(tǒng)需要實(shí)現(xiàn)全局命名空間的管理,以支持大規(guī)模數(shù)據(jù)的高效匯集和利用。同時(shí),在大模型的行業(yè)化落地過(guò)程中,為了提升通用模型的專業(yè)化能力,高質(zhì)量且可重復(fù)利用的數(shù)據(jù)集成為了不可或缺的資源。數(shù)據(jù)的安全存儲(chǔ)與可持續(xù)性訪問(wèn)能力成為了存儲(chǔ)系統(tǒng)必須滿足的重要要求。
AS13000G7:解鎖存儲(chǔ)潛能,賦能AI未來(lái)
針對(duì)上述挑戰(zhàn),浪潮信息推出了分布式融合存儲(chǔ)平臺(tái)AS13000G7,在性能優(yōu)化、融合互通、韌性保障等多個(gè)維度進(jìn)行了技術(shù)創(chuàng)新。
在性能優(yōu)化方面,AS13000G7通過(guò)數(shù)控分離架構(gòu),減少了數(shù)據(jù)在轉(zhuǎn)發(fā)和拷貝過(guò)程中的延遲,單流帶寬可達(dá)15GB/s,單節(jié)點(diǎn)帶寬超過(guò)100GB/s,相比傳統(tǒng)數(shù)控一體架構(gòu)性能提升60%以上。此外,AS13000G7能夠智能識(shí)別大IO和小IO,通過(guò)切片處理和聚合處理,將不同規(guī)模的數(shù)據(jù)形成統(tǒng)一的數(shù)據(jù)團(tuán),并存入全局緩存中,實(shí)現(xiàn)小IO性能提升5倍。同時(shí),數(shù)據(jù)緩存預(yù)讀功能能夠在訓(xùn)練過(guò)程中提前加載熱點(diǎn)數(shù)據(jù),進(jìn)一步提升數(shù)據(jù)加載速度。另外,AS13000G7還設(shè)計(jì)了全用戶態(tài)的輕量級(jí)IO站,利用多任務(wù)并行和無(wú)鎖IO處理技術(shù),實(shí)現(xiàn)了延遲降低40%,訓(xùn)練數(shù)據(jù)加載時(shí)間減少30%。
在近期發(fā)布的MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試中,AS13000G7參與了八項(xiàng)測(cè)試并獲得了五項(xiàng)全球第一的成績(jī),如3D-UNet測(cè)試中,支持264個(gè)模擬加速器,GPU利用率超90%時(shí)提供360GB每秒帶寬,單節(jié)點(diǎn)帶寬超120GB每秒;在CosmoFlow模型測(cè)試中,樣本讀取時(shí)間極短,單客戶端和多客戶端分別提供了18GB/s和52GB/s的帶寬。
在融合互通方面,AS13000G7支持多種接入?yún)f(xié)議,如NFS和S3等,并通過(guò)復(fù)原數(shù)據(jù)管理實(shí)現(xiàn)文件和對(duì)象數(shù)據(jù)的協(xié)議互通、語(yǔ)義無(wú)損以及性能一致,避免了數(shù)據(jù)格式轉(zhuǎn)換和多份存儲(chǔ)的問(wèn)題,為用戶節(jié)省了高達(dá)50%的存儲(chǔ)空間。同時(shí),AS13000G7還建立了全局統(tǒng)一命名空間,納管所有數(shù)據(jù),實(shí)現(xiàn)跨域、跨介質(zhì)和跨協(xié)議的靈活調(diào)動(dòng),提供統(tǒng)一數(shù)據(jù)視圖,并支持10億級(jí)文件秒級(jí)檢索,有效解決了數(shù)據(jù)孤島問(wèn)題,方便用戶數(shù)據(jù)訪問(wèn)與管理。
在韌性保障方面,AS13000G7定期進(jìn)行亞健康檢測(cè),并通過(guò)內(nèi)部冗余保護(hù)機(jī)制實(shí)現(xiàn)免遷移快速重構(gòu),將TB級(jí)重構(gòu)時(shí)間降至5分鐘內(nèi),每次故障恢復(fù)時(shí)間降低90%。此外,AS13000G7運(yùn)用AIOps算法預(yù)測(cè)磁盤故障、容量趨勢(shì)、性能趨勢(shì)和SSD壽命,其中磁盤故障預(yù)測(cè)準(zhǔn)確率達(dá)98%以上,誤報(bào)率僅0.007%。在數(shù)據(jù)安全層面,AS13000G7設(shè)置了五層系統(tǒng)防護(hù),采用快篩機(jī)器學(xué)習(xí)和深篩深度學(xué)習(xí)算法來(lái)檢測(cè)惡意軟件,漏報(bào)率僅為0.029%,誤報(bào)率為0.33%。
面向大模型應(yīng)用,基于AS13000G7的AI存儲(chǔ)解決方案,整合不同盤位存儲(chǔ)設(shè)備形成統(tǒng)一資源池,提供高性能、高利用率和高韌性,滿足數(shù)據(jù)全生命周期需求。結(jié)合AI資源調(diào)度平臺(tái),提升數(shù)據(jù)預(yù)讀加載效率30%,已服務(wù)眾多AIGC客戶。
在上海某高校的應(yīng)用案例中,由于該校擁有多個(gè)與AI相關(guān)的學(xué)科,數(shù)據(jù)導(dǎo)入呈現(xiàn)出多元多態(tài)的特點(diǎn),業(yè)務(wù)需求也涵蓋了數(shù)據(jù)的匯集、處理、訓(xùn)練和推理等多個(gè)環(huán)節(jié)。浪潮信息為其提供32節(jié)點(diǎn)GPU服務(wù)器作為計(jì)算支持,并配置20個(gè)節(jié)點(diǎn)的AS13000G7 24盤位全閃節(jié)點(diǎn)作為存儲(chǔ)資源池,實(shí)現(xiàn)對(duì)象文件融合存儲(chǔ),降低總體擁有成本(TCO)達(dá)30%,大帶寬高IOPS的特性支持了模型毫秒級(jí)讀寫,進(jìn)一步縮短訓(xùn)練等待時(shí)間40%。
從市場(chǎng)表現(xiàn)來(lái)看,浪潮信息在存儲(chǔ)領(lǐng)域取得了顯著的成就。2024年上半年,浪潮信息存儲(chǔ)裝機(jī)容量位列全球前三,企業(yè)級(jí)存儲(chǔ)銷售額在中國(guó)市場(chǎng)排名第二,全閃存儲(chǔ)銷售額同樣在中國(guó)市場(chǎng)排名第二。
展望未來(lái),浪潮信息將繼續(xù)憑借其先進(jìn)的技術(shù)和解決方案,在全球和國(guó)內(nèi)存儲(chǔ)市場(chǎng)中保持重要地位,并持續(xù)推動(dòng)數(shù)據(jù)存儲(chǔ)行業(yè)的發(fā)展。同時(shí),浪潮信息也將致力于助力各行業(yè)在人工智能時(shí)代實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和智能化升級(jí),有望在技術(shù)創(chuàng)新和市場(chǎng)拓展方面取得更大的突破。