浪潮信息AS13000G7榮獲MLPerf? AI存儲(chǔ)基準(zhǔn)測(cè)試五項(xiàng)性能全球第一

浪潮信息

2024-09-27 19:43 3617

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons協(xié)會(huì)發(fā)布最新MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7表現(xiàn)出眾，在3D-UNet和CosmoFlow兩個(gè)模型共計(jì)八項(xiàng)測(cè)試中，斬獲五項(xiàng)冠軍。

MLPerf? Storage v1.0 AI存儲(chǔ)基準(zhǔn)測(cè)試成績(jī)

MLPerf? 是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè)，由圖靈獎(jiǎng)得主大衛(wèi)?帕特森（David Patterson）聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立。2023年推出MLPerf? 存儲(chǔ)基準(zhǔn)性能測(cè)試，旨在以架構(gòu)中立、具有代表性和可重復(fù)的方式衡量機(jī)器學(xué)習(xí)（ML）工作負(fù)載的存儲(chǔ)系統(tǒng)性能。該測(cè)試通過(guò)準(zhǔn)確建模ML工作負(fù)載所產(chǎn)生的I/O模式來(lái)幫助解決存算平衡問(wèn)題，為不同存儲(chǔ)系統(tǒng)和不同加速器類(lèi)型的混合和匹配提供了靈活性，為ML/AI模型開(kāi)發(fā)者選擇存儲(chǔ)解決方案提供權(quán)威的參考依據(jù)。

本次MLPerf? 存儲(chǔ)基準(zhǔn)評(píng)測(cè)（v1.0）吸引了全球13家領(lǐng)先存儲(chǔ)廠(chǎng)商和研究機(jī)構(gòu)參與。該評(píng)測(cè)圍繞醫(yī)學(xué)影像分割、圖像分類(lèi)、宇宙學(xué)參數(shù)預(yù)測(cè)三大AI存儲(chǔ)應(yīng)用場(chǎng)景，采用主流的3D-Unet、ResNet50、CosmoFlow三類(lèi)模型，在GPU利用率高達(dá)90%或70%的條件下，以帶寬和支持的模擬 GPU （模擬加速器）數(shù)量為關(guān)鍵性能指標(biāo)，評(píng)估單客戶(hù)端或集群模式下存儲(chǔ)系統(tǒng)的性能表現(xiàn)。

本次測(cè)試，浪潮信息采用3臺(tái)AS13000G7搭建分布式存儲(chǔ)集群，搭載ICFS自研分布式文件系統(tǒng)，在3D-UNet和CosmoFlow兩大評(píng)測(cè)任務(wù)中共獲得五項(xiàng)最佳成績(jī)。其中，在圖像分割3D-UNet多客戶(hù)端2評(píng)測(cè)任務(wù)中，服務(wù)于10個(gè)客戶(hù)端264個(gè)加速器，集群聚合帶寬達(dá)到360GB/s，單個(gè)存儲(chǔ)節(jié)點(diǎn)的帶寬高達(dá)120GB/s；在宇宙學(xué)分析CosmoFlow單客戶(hù)端2和多客戶(hù)端2評(píng)測(cè)任務(wù)中，分別提供了18 GB/s和52 GB/s的帶寬最佳成績(jī)。

近年來(lái)，浪潮信息基于存算協(xié)同的理念，持續(xù)加大存儲(chǔ)研發(fā)投入，從整體架構(gòu)到各技術(shù)棧持續(xù)創(chuàng)新，優(yōu)化升級(jí)存力，提升了GPU算力整體性能表現(xiàn)，實(shí)現(xiàn)了模型訓(xùn)練數(shù)據(jù)處理的即時(shí)性，消除了GPU資源閑置（即"饑餓GPU"現(xiàn)象），全面提升大模型訓(xùn)練效率。

架構(gòu)層面，采用全新數(shù)控分離架構(gòu)。數(shù)據(jù)面和控制面完全解耦，控制面實(shí)現(xiàn)數(shù)據(jù)管理和訪(fǎng)問(wèn)，數(shù)據(jù)面讀寫(xiě)操作直通到盤(pán)，達(dá)到120 GB/s的單存儲(chǔ)節(jié)點(diǎn)的超高性能，單存儲(chǔ)節(jié)點(diǎn)支撐5臺(tái)8卡計(jì)算節(jié)點(diǎn)規(guī)模，同時(shí)計(jì)算集群GPU利用率90%以上；
軟件層面，通過(guò)多路并發(fā)透?jìng)骷夹g(shù)，有效減少I(mǎi)/O操作中頻繁的上下文切換，降低單次I/O時(shí)延50%，同時(shí)達(dá)到高并發(fā)下時(shí)延穩(wěn)定性。本次測(cè)試中1430個(gè)高并發(fā)讀線(xiàn)程支撐下，保證每個(gè)線(xiàn)程單次I/O的時(shí)延均在0.005秒，AI端到端訓(xùn)練中I/O占比低于10%。此外，通過(guò)元數(shù)據(jù)VRANK技術(shù)，達(dá)到單個(gè)元數(shù)據(jù)進(jìn)程多單元并發(fā)處理，提供高性能元數(shù)據(jù)服務(wù)；
軟硬協(xié)同層面，通過(guò)內(nèi)核親和力調(diào)度，I/O請(qǐng)求動(dòng)態(tài)調(diào)整，增強(qiáng)文件系統(tǒng)與計(jì)算節(jié)點(diǎn)親和性，確保負(fù)載均衡，將數(shù)據(jù)移動(dòng)與多核CPU之間的訪(fǎng)問(wèn)效率提升400%。

浪潮信息是全球領(lǐng)先的存儲(chǔ)供應(yīng)商，存儲(chǔ)裝機(jī)容量連續(xù)3年穩(wěn)居全球前三、中國(guó)第一，是承載中國(guó)用戶(hù)數(shù)據(jù)最多、數(shù)據(jù)存力貢獻(xiàn)最大的存儲(chǔ)廠(chǎng)商。近年來(lái)，浪潮信息積極擁抱AI生態(tài)，專(zhuān)注于構(gòu)建面向人工智能的存儲(chǔ)平臺(tái)，通過(guò)精準(zhǔn)優(yōu)化存算資源配置與持續(xù)強(qiáng)化技術(shù)創(chuàng)新，全面推進(jìn)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化進(jìn)程，力爭(zhēng)打造AI存儲(chǔ)的理想之選。

消息來(lái)源：浪潮信息