北京2023年9月15日 /美通社/ -- 大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù),目前國內(nèi)已發(fā)布的生成式AI模型超過了100個。面向以大模型為核心的生成式AI開發(fā)與應(yīng)用場景,近日浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧,包括AI算力系統(tǒng)環(huán)境部署、算力調(diào)度保障、模型開發(fā)管理等。OGAI軟件棧由5層架構(gòu)組成,從L0到L4分別對應(yīng)于基礎(chǔ)設(shè)施層的智算中心OS產(chǎn)品、系統(tǒng)環(huán)境層的PODsys產(chǎn)品、調(diào)度平臺層的AIStation產(chǎn)品、模型工具層的YLink產(chǎn)品和多模納管層的MModel產(chǎn)品。
其中L2層AIStation是面向大模型開發(fā)的AI算力調(diào)度平臺,AIStation針對大模型訓(xùn)練中的資源使用與調(diào)度、訓(xùn)練流程與保障、算法與應(yīng)用管理等方面進行了系統(tǒng)性優(yōu)化,具備大模型斷點續(xù)訓(xùn)能力,保證長時間持續(xù)訓(xùn)練。AIStation支撐浪潮信息"源"大模型的訓(xùn)練算力效率達到44.8%。某大型商業(yè)銀行基于AIStation打造的大規(guī)模并行運算集群,幫助其充分發(fā)掘計算潛能進行大模型訓(xùn)練,并榮獲2022 IDC"未來數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎項。
本文將重點討論大模型訓(xùn)練面臨的挑戰(zhàn)、AIStation如何提升大模型訓(xùn)練效率,以及取得的效果。
一、大模型訓(xùn)練面臨巨大挑戰(zhàn)
1.大模型訓(xùn)練巨大算力成本和算力利用難題
大模型訓(xùn)練要面對的首要挑戰(zhàn)就是海量數(shù)據(jù)和計算量,算力開銷巨大,如GPT-3是在10000個GPU上訓(xùn)練得到的,"源1.0"模型是在2128個GPU上通過AIStation平臺完成1800億tokens的訓(xùn)練,訓(xùn)練一個萬億token的700億參數(shù)模型將花費上百萬美元。但計算平臺的性能通常不能隨著算力線性增長,而是會出現(xiàn)耗損,因此大模型訓(xùn)練還需要高效的算力調(diào)度來發(fā)揮算力平臺的效能。而這不僅需要依賴算法、框架的優(yōu)化,還需要借助高效的算力調(diào)度平臺,以根據(jù)算力集群的硬件特點和計算負(fù)載特性實現(xiàn)最優(yōu)化的算力調(diào)度,整體提高算力利用率和訓(xùn)練效率。
2.耗時且維護復(fù)雜的多種網(wǎng)絡(luò)兼容適配
大模型訓(xùn)練過程中,成千上萬顆GPU會在節(jié)點內(nèi)和節(jié)點間不斷地進行通信。為了獲得最優(yōu)的訓(xùn)練效果,單臺GPU服務(wù)器會搭載多張InfiniBand、ROCE等高性能網(wǎng)卡,為節(jié)點間通信提供高吞吐、低時延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓(xùn)練對通信的要求,就要對集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進行探索和設(shè)計。
3.不穩(wěn)定的大模型訓(xùn)練和高門檻的系統(tǒng)級別優(yōu)化
大模型訓(xùn)練過程比傳統(tǒng)的分布式訓(xùn)練復(fù)雜,訓(xùn)練周期長達數(shù)月。集群計算效力低、故障頻發(fā)且處理復(fù)雜,會導(dǎo)致訓(xùn)練中斷后不能及時恢復(fù),從而會降低大模型訓(xùn)練的成功概率,也會使得大模型訓(xùn)練成本居高不下。因此,大模型對訓(xùn)練的穩(wěn)定性、故障檢測與訓(xùn)練容錯提出了更高的要求。同時簡化大模型分布式任務(wù)提交、實現(xiàn)智能與自動化的任務(wù)資源匹配和訓(xùn)練健壯性也是提升訓(xùn)練效率的重要保證。
Meta在訓(xùn)練模型體量與GPT3規(guī)模相當(dāng)?shù)腛pen Pre-trained Transformer (OPT)-175B時,遇到的一大工程問題就是訓(xùn)練不穩(wěn)定。如下圖所示,可以看到有許多訓(xùn)練停止的時間節(jié)點,原因有GPU掉卡、GPU性能異常導(dǎo)致訓(xùn)練意外中斷等。訓(xùn)練穩(wěn)定性和有效的斷點續(xù)訓(xùn)是目前大模型訓(xùn)練中亟待解決的問題。
總之,在超大規(guī)模分布式環(huán)境下開展大模型訓(xùn)練,如果想要縮短訓(xùn)練周期、降低訓(xùn)練成本,就需要解決算力調(diào)度、網(wǎng)絡(luò)通信、訓(xùn)練穩(wěn)定性等各種挑戰(zhàn)。不僅要靈活、充分地利用集群內(nèi)的所有資源,通過多種手段優(yōu)化數(shù)據(jù)使用、通訊,還要及時處理大規(guī)模計算集群的異常。
二、AIStation全流程簡化和提速大模型訓(xùn)練
浪潮信息AIStation提供了系統(tǒng)性軟硬一體優(yōu)化的平臺與軟件棧能力,來保障大模型的訓(xùn)練需求。AIStation平臺從資源使用與調(diào)度、訓(xùn)練流程與保障、算法與應(yīng)用等角度進行了系統(tǒng)性的優(yōu)化,實現(xiàn)了對大模型訓(xùn)練的端到端優(yōu)化和加速。
1. 毫秒級調(diào)度,高效使用大規(guī)模算力,解決算力利用低難題
AIStation在大模型訓(xùn)練實踐中,針對云原生調(diào)度系統(tǒng)性能做了優(yōu)化,實現(xiàn)了上千POD極速啟動和環(huán)境就緒。如下表所示,AIStation調(diào)度器與原生社區(qū)版相比,能大幅提升大規(guī)模POD任務(wù)的調(diào)度性能,尤其能保證大模型訓(xùn)練的計算資源的調(diào)度使用。
表1 大規(guī)模POD調(diào)度任務(wù)性能對比
社區(qū)調(diào)度器 |
AIStation調(diào)度器 |
效果對比 |
|
1000 pod 吞吐量 |
4.97 (pods/s) |
26.31 (pods/s) |
POD吞吐量提升5倍 |
1000 pod調(diào)度時延/500節(jié)點 |
100346 ms |
18523 ms |
時延下降5倍 |
此外,AIStation平臺能夠支持大模型特有的開發(fā)模式,提供多種尺度作業(yè)資源使用方式,包括小尺度資源調(diào)度,大尺度資源調(diào)度、高性能調(diào)度等。算力調(diào)度器通過動態(tài)、智能地管理和調(diào)配集群計算資源,制定合理的作業(yè)執(zhí)行計劃,以最大限度地利用資源,滿足各類訓(xùn)練任務(wù)的時延和吞吐需求,保證作業(yè)高效穩(wěn)定運行,實現(xiàn)算力平臺高利用率、強擴展性、高容錯性。
通過多種資源高效管理和調(diào)度策略,AIStation能實現(xiàn)毫秒級調(diào)度,將整體資源利用率提升到70%以上,幫助客戶更好地利用計算集群算力,充分發(fā)揮算力價值。
2.高效網(wǎng)絡(luò)資源管理,多卡加速比達90%,極致加速訓(xùn)練過程
AIStation定義了互相獨立的計算高性能網(wǎng)絡(luò)、存儲高性能網(wǎng)絡(luò),并且支持交換機級別的資源調(diào)度,減少跨交換機流量,同時具備網(wǎng)絡(luò)故障自動識別和處理功能。針對大模型訓(xùn)練通信要求高的場景,AIStation提供集群拓?fù)涓兄芰?,容器網(wǎng)絡(luò)與集群物理網(wǎng)絡(luò)一致,保證了容器互聯(lián)性能,滿足訓(xùn)練通信要求。分布式通信優(yōu)化結(jié)合集群的InfiniBand或 RoCE高性能網(wǎng)絡(luò)和專門優(yōu)化的通信拓?fù)?,使得AIStation在千卡規(guī)模集群測試中,多卡加速比達到了90%。尤其AIStation對大規(guī)模RoCE無損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化,實測網(wǎng)絡(luò)性能穩(wěn)定性達到了業(yè)界較高水平。
借助AIStation平臺,某大型商業(yè)銀行實現(xiàn)了主流大模型訓(xùn)練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網(wǎng)絡(luò)環(huán)境的訓(xùn)練,快速實現(xiàn)大模型的落地實踐。
3.大規(guī)模訓(xùn)練系統(tǒng)級別優(yōu)化,故障處理時間縮短90%,最大限度降低實驗成本
大模型任務(wù)提交時,經(jīng)常會伴隨著大量的環(huán)境配置、依賴庫適配和超參數(shù)調(diào)整。AIStation能夠自動化配置計算、存儲、網(wǎng)絡(luò)環(huán)境,同時對一些基本的超參數(shù)提供自定義修改,方便用戶使用,通過幾步就能啟動大模型分布式訓(xùn)練,目前支持諸多大模型訓(xùn)練框架和開源方案,如Megatron-LM、DeepSpeed等。
AIStation在大規(guī)模訓(xùn)練集群上利用自研數(shù)據(jù)緩存系統(tǒng),提高了訓(xùn)練前、訓(xùn)練中的數(shù)據(jù)讀取速率,大大減少對存儲系統(tǒng)和網(wǎng)絡(luò)的依賴。配合優(yōu)化的調(diào)度策略,與直接使用存儲系統(tǒng)相比,可讓模型訓(xùn)練效率獲得200%-300%的提升,硬件性能100%釋放。
健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。AIStation針對資源故障等集群突發(fā)情況,會自動進行容錯處理或者執(zhí)行彈性擴縮容策略,保證訓(xùn)練任務(wù)中斷后能以最快速度恢復(fù),為需要長時間訓(xùn)練的大模型提供可靠環(huán)境,平均將異常故障處理時間縮短90%以上。
綜上,針對大規(guī)模分布式計算,AIStation內(nèi)置分布式訓(xùn)練自適應(yīng)系統(tǒng),覆蓋訓(xùn)練的全生命周期,滿足了大模型訓(xùn)練的諸多訴求,提供資源使用視圖、計算與網(wǎng)絡(luò)調(diào)度策略、分布式訓(xùn)練加速、訓(xùn)練監(jiān)控、訓(xùn)練容錯與自愈能力,在加速訓(xùn)練的同時,能夠自動定位故障和恢復(fù)任務(wù),保證了訓(xùn)練的穩(wěn)定性和效率。某銀行客戶在AIStation智能容錯的機制保障下,在極其嚴(yán)苛的業(yè)務(wù)投產(chǎn)測試中能夠?qū)崿F(xiàn)快速故障排查和恢復(fù),大幅降低業(yè)務(wù)投產(chǎn)上線時間。
三、AIStation助力行業(yè)提升大模型開發(fā)效率
AIStation平臺在AI開發(fā)、應(yīng)用部署和大模型工程實踐上積累了寶貴的經(jīng)驗和技術(shù),幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域,AIStation平臺幫助頭部金融客戶、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗證大模型,大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力,榮獲2022 IDC"未來數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎項。
浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗和積累,實現(xiàn)了端到端的優(yōu)化,是更適合大模型時代的人工智能平臺。未來AIStation將與浪潮信息OGAI軟件棧一同進化,進一步通過低代碼、標(biāo)準(zhǔn)化的大模型開發(fā)流程,以及低成本和高效的推理服務(wù)部署,幫助客戶快速實現(xiàn)大模型開發(fā)和落地,搶占先機。