打通AI芯片到大模型訓練的算力橋梁，開放加速設計指南強力助推

浪潮信息

2023-10-17 13:52 3278

北京2023年10月17日 /美通社/ -- 日前，2023全球AI芯片峰會（GACS 2023）在深圳市舉行，AI芯片產業(yè)鏈頂尖企業(yè)、專家學者齊聚，圍繞生成式AI與大模型算力需求、AI芯片高效落地等產業(yè)議題進行研討分享。

面向大模型時代的計算需求，算力創(chuàng)新已不僅是單個處理器微架構和芯片工藝的突破，而需要產業(yè)攜手進行軟硬件全棧系統(tǒng)架構全面創(chuàng)新。當前各類AI芯片創(chuàng)新仍面臨存儲墻、功耗墻等架構痼疾，隨著開放的通用指令架構、互聯(lián)總線、AI加速器、開源的操作系統(tǒng)、模型框架、工具鏈和軟件紛紛涌現(xiàn)，開放開源的算力系統(tǒng)創(chuàng)新，已經成為實現(xiàn)AI芯片轉化為高效算力的二級引擎。

會上，浪潮信息分享了在開放加速計算系統(tǒng)領域的最新成果《開放加速規(guī)范AI服務器設計指南》，通過系統(tǒng)平臺層面的技術創(chuàng)新，攜手產業(yè)上下游加速生成式AI算力產業(yè)發(fā)展。

大模型推動算力產業(yè)步入系統(tǒng)級創(chuàng)新時代

隨著制程工藝逼近天花板，AI芯片正迎來架構創(chuàng)新的黃金時代，諸多創(chuàng)新者正通過越來越廣泛的創(chuàng)新思路來繞過摩爾定律瀕臨極限的瓶頸，圍繞架構創(chuàng)新，AI芯片產業(yè)正從早期的百花齊放，向更深更多維層面發(fā)展。

與此同時，參數(shù)量高達數(shù)千億的大模型創(chuàng)新往往需要在成百上千的AI服務器組成的平臺上進行訓練。面向AIGC的算力能力考量的不僅僅是單一芯片、或者是單一服務器，而是包含計算、存儲、網絡設備，軟件、框架、模型組件，機柜、制冷、供電基礎設施等在內的一體化高度集成的智算集群。

因此，要將AI芯片真正轉化為大模型算力，需要產業(yè)鏈上下游攜手從規(guī)?；懔Σ渴鸬慕嵌冗M行系統(tǒng)級創(chuàng)新，統(tǒng)籌考慮大模型訓練需求特點，設計構建算力系統(tǒng)，以實現(xiàn)全局最優(yōu)的性能、能效或TCO指標。

開放加速設計指南，打通從芯片到大模型的算力橋梁

2019年，開放計算組織OCP面向大模型訓練發(fā)布了開放加速計算（OAI）技術標準，旨在促進上下游協(xié)同，降低產業(yè)創(chuàng)新成本和周期。開放加速計算（OAI）系統(tǒng)架構具備更高的散熱和互聯(lián)能力，可以承載具有更高算力的芯片，同時具備非常強的跨節(jié)點擴展能力。因為天然適用于大規(guī)模深度學習神經網絡,已經在全球范圍內得到芯片、系統(tǒng)及應用廠商的廣泛參與支持。

大模型訓練對開放加速計算系統(tǒng)的總功耗、總線速率、電流密度的需求不斷提升，給系統(tǒng)設計帶來了巨大的挑戰(zhàn)。因此，浪潮信息基于系統(tǒng)研發(fā)和大模型工程實踐經驗，將從AI芯片到大模型算力系統(tǒng)所需完成的體系結構、信號完整性、散熱、可靠性、架構設計等大量系統(tǒng)性設計標準進行細化總結，發(fā)布了面向生成式AI場景的《開放加速規(guī)范AI服務器指南》（以下簡稱《指南》），提出四大設計原則、全棧設計方法，包括硬件設計參考、管理接口規(guī)范和性能測試標準。

《開放加速規(guī)范AI服務器指南》全棧設計方法

《開放加速規(guī)范AI服務器指南》統(tǒng)籌考慮大模型分布式訓練對于計算、網絡和存儲的需求特點，提供了從節(jié)點層到集群層的AI芯片應用部署全棧設計參考。包括各項硬件規(guī)范、電氣規(guī)范、時序規(guī)范，并提供管理、故障診斷和網絡拓撲設計等軟硬協(xié)同參考，旨在通過節(jié)點層/集群層多維協(xié)同設計確保AI服務器節(jié)點和服務器集群以超大規(guī)模集群互連的大模型訓練能力。

基于板端QSFP-DD的跨節(jié)點互連拓撲

由于架構復雜度高、芯片種類多、高速信號多、系統(tǒng)功耗大等特點，異構加速計算節(jié)點常面臨故障率高的問題。因此，《指南》提供了詳細的系統(tǒng)測試指導，對結構、散熱、壓力、穩(wěn)定性、軟件兼容性等方面的測試要點進行了全面梳理，幫助用戶最大程度降低系統(tǒng)生產、部署、運行過程中的故障風險，提高系統(tǒng)穩(wěn)定性，減少斷點對訓練持續(xù)性的影響。

OAM互連信號損耗要求

不同于通用計算系統(tǒng)，面向生成式AI的加速計算系統(tǒng)具有軟硬件強耦合特性。為了提高開放加速計算系統(tǒng)的算力可用性，《指南》給出了八類AI主流業(yè)務和三類AIGC大模型基準測評和調優(yōu)方法，以確保開放加速計算系統(tǒng)能夠有效支撐當前主流大模型的創(chuàng)新應用。

AI芯片廠商可以基于《指南》快速將符合開放加速規(guī)范的AI芯片落地成高可用高可靠高性能的大模型算力系統(tǒng)，提高系統(tǒng)適配和集群部署效率，減少芯片合作伙伴在系統(tǒng)層面的研發(fā)成本投入，加速生成式AI算力產業(yè)的創(chuàng)新步伐。

全棧協(xié)同，高效釋放大模型創(chuàng)新生產力

目前，浪潮信息已經基于開放加速規(guī)范發(fā)布了三代AI服務器產品，和10余家芯片伙伴實現(xiàn)了多元AI計算產品的創(chuàng)新研發(fā)。多元算力產品方案得到了眾多用戶的認可，已經在多個智算中心應用落地，成功支持GPT-2、源1.0及實驗室自研蛋白質結構預測等多個超大規(guī)模巨量模型的高效訓練。

同時，為進一步解決大模型算力的系統(tǒng)全棧問題、兼容適配問題、性能優(yōu)化問題等，浪潮信息基于大模型自身實踐與服務客戶的專業(yè)經驗，推出OGAI大模型智算軟件棧，能夠為大模型業(yè)務提供AI算力系統(tǒng)環(huán)境部署、算力調度及開發(fā)管理的完整軟件棧和工具鏈，幫助更多企業(yè)順利跨越大模型研發(fā)應用門檻，充分釋放大模型算力價值。

作為全球領先的AI算力基礎設施供應商，浪潮信息將通過智算系統(tǒng)軟硬件高度協(xié)同進行持續(xù)創(chuàng)新，攜手產業(yè)伙伴加速AI算力繁榮發(fā)展并充分釋放算力生產力，推動實現(xiàn)"助百模，智千行"，加速生成式AI產業(yè)創(chuàng)新。

消息來源：浪潮信息