北京2023年10月25日 /美通社/ -- 人工智能、云計(jì)算、大數(shù)據(jù)等各類數(shù)字技術(shù)正在交織構(gòu)建一個(gè)全新的虛擬空間,生產(chǎn)、流通、科學(xué)、教育、娛樂、社交等等無不因此而變。在技術(shù)驅(qū)動(dòng)下,新的數(shù)字文明正勃然而興,突飛猛進(jìn)的算力變革則是這次文明迭代的重要驅(qū)動(dòng)力之一。自計(jì)算機(jī)問世以來,在短短的70余年的時(shí)間內(nèi),其性能從最初的每秒5000次運(yùn)算發(fā)展到如今超級(jí)計(jì)算機(jī)的每秒百億億次計(jì)算,性能激增數(shù)百萬億倍。即便如此,面對(duì)蓬勃興起的生成式人工智能、元宇宙等技術(shù),算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅(qū)動(dòng)下,通過各種方式尋找算力提升的路徑,無論進(jìn)步大小,自豪感都在驅(qū)使著他們繼續(xù)探索未知,甚至像一個(gè)科學(xué)家一樣琢磨各種跨界的技術(shù),并用于解決各類工程難題。他們具有發(fā)散的思維,也有著聚焦的能力,憑借對(duì)算力創(chuàng)新的熱情與追求,不斷拓展數(shù)字文明的邊界……。
112Gbps高速互連,服務(wù)器設(shè)計(jì)的“藝術(shù)”
Yang Yang,浪潮信息AI服務(wù)器工程師大軍中的一員,他所在的團(tuán)隊(duì)負(fù)責(zé)進(jìn)行AI服務(wù)器系統(tǒng)架構(gòu)的研發(fā)工作,其中的關(guān)鍵是——設(shè)計(jì)開發(fā)出一款具備超高速互連性能的開放加速基板。
“以前,我們在強(qiáng)調(diào)怎么樣去提高單顆芯片的算力。但是到了大模型時(shí)代,模型訓(xùn)練動(dòng)輒成千上萬張卡,單張芯片已經(jīng)完全無法承載。在新的AI超級(jí)計(jì)算機(jī)形態(tài)下,什么樣的互連架構(gòu)才能更好的支撐大模型業(yè)務(wù)發(fā)展,是我們重點(diǎn)研究的一個(gè)課題?!?/span>Yang Yang認(rèn)為,實(shí)現(xiàn)數(shù)千乃至上萬顆芯片互連并讓它們能夠高效協(xié)同工作的前提,是解決單個(gè)服務(wù)器內(nèi)部芯片的高速直連,這是一切問題的“原點(diǎn)”。
在他們團(tuán)隊(duì)的努力下,浪潮信息定義了業(yè)界第一個(gè)符合OAM(開放加速模塊)規(guī)范的8卡互連AI系統(tǒng),這是一個(gè)遵循開放計(jì)算標(biāo)準(zhǔn)的互連的基板,首次達(dá)到了業(yè)界最高的單通道速率56Gbps。這個(gè)基板的厚度僅為3.26mm,層數(shù)卻高達(dá)22層,包含了近1000個(gè)高速互連差分對(duì)。
目前,56Gpbs仍然是開放加速規(guī)范下芯片互連的最高速率。Yang Yang表示:“下一步,我們將沖刺112Gbps單通道的高速互連通信,這種級(jí)別的速度提升,就相當(dāng)于我們從5G時(shí)代跨步進(jìn)入了6G時(shí)代。”
112Gbps 高速互連技術(shù)難點(diǎn)在于,在物理尺寸近乎不變的情況下,要將GPU間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著112Gbps信號(hào)對(duì)于抖動(dòng)和噪聲的敏感程度更為強(qiáng)烈,即對(duì)于信道的串?dāng)_、SCD(信號(hào)在通過該通道時(shí)的差分能量變?yōu)楣材D芰康哪B(tài)轉(zhuǎn)化量,越低越好。)、PN Skew(內(nèi)外線路不等長造成的傳輸差異)、ILD(損耗,線損/阻抗的影響程度,即漂移度)等指標(biāo)的要求都更為嚴(yán)苛。
這不僅需要更高端的材料支撐,更考驗(yàn)設(shè)計(jì)的“藝術(shù)”。要知道,3-5mm厚度的基板實(shí)際上是采用疊層設(shè)計(jì),往往包含了十幾層甚至幾十層PCB板(印刷電路板),每層厚度僅有100微米左右,與一張A4紙相當(dāng)。而為了保證信號(hào)傳輸質(zhì)量,每組線路均需要采用差分對(duì)設(shè)計(jì),即采用長度相等、相位相反的互補(bǔ)信號(hào)來傳輸同一個(gè)信號(hào),以減少噪音和EMI(電磁干擾),這將使得布線量增加一倍,對(duì)于本就信號(hào)布線密度近乎極限的基板來說,無疑是雪上加霜。并且,差分對(duì)走線的寬度和間距必須始終保持一致,當(dāng)在基板上的障礙物,如過孔或較小的器件周圍布線時(shí),對(duì)設(shè)計(jì)能力的要求更高。
因此,112Gbps高速互連設(shè)計(jì)不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時(shí)也要確保這些材料在加工之后能夠符合可靠度的規(guī)范,設(shè)計(jì)與工藝復(fù)雜度極高。
在Yang Yang看來,112Gpbs高速互連技術(shù)既需要科學(xué)的發(fā)散,也要做到工程的收斂:通過科學(xué)的發(fā)散尋找創(chuàng)新的可能性,通過工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運(yùn)營等等,而可行性則是尋找“最大化或最小化”,是尋找最優(yōu)解的過程,“就像談到利潤,我們往往都會(huì)追求利潤最大化而成本最小化,最大化與最小化在很多時(shí)候是統(tǒng)一的,目標(biāo)是一致的。”
Yang Yang團(tuán)隊(duì)所從事的工作能夠惠及數(shù)以百計(jì)的芯片創(chuàng)新公司以及更多數(shù)量的用戶:借助標(biāo)準(zhǔn)化的、性能出色的開放加速基板,芯片公司可以快速的實(shí)現(xiàn)產(chǎn)品落地并持續(xù)迭代,而用戶則可以使用統(tǒng)一的、開放的基礎(chǔ)架構(gòu),根據(jù)業(yè)務(wù)需要配置不同類型的AI加速芯片,加快創(chuàng)新和創(chuàng)造更好的用戶體驗(yàn)。
聽音降噪,服務(wù)器優(yōu)化的“浪漫”
一臺(tái)服務(wù)器需要整合超過10000個(gè)零部件,其中包括50多類專用芯片;同時(shí)還涉及30多個(gè)技術(shù)方向,例如材料學(xué)、熱力學(xué)、電池技術(shù)、流體力學(xué)、化學(xué)等一系列學(xué)科;此外,一臺(tái)服務(wù)器里還會(huì)應(yīng)用超過100種傳輸協(xié)議。在制造中,服務(wù)器需要經(jīng)歷30多道流程,使用100多種加工和制造工藝,并對(duì)200多個(gè)關(guān)鍵過程的控制點(diǎn)進(jìn)行把控。
如何確保整個(gè)系統(tǒng)的可靠性,是一項(xiàng)非常精細(xì)且復(fù)雜的工程,每一個(gè)細(xì)節(jié)都關(guān)乎整體,甚至連聲音,也會(huì)影響到服務(wù)器的可靠性。四五年前,相當(dāng)數(shù)量的數(shù)據(jù)中心用戶幾乎都遇到了同一個(gè)問題:風(fēng)扇轉(zhuǎn)速越快,硬盤越有可能出現(xiàn)性能波動(dòng),嚴(yán)重時(shí)還會(huì)直接掉線。
“最開始以為振動(dòng)是罪魁禍?zhǔn)?,后來才發(fā)現(xiàn)聲音才是始作俑者。”浪潮信息結(jié)構(gòu)工程師Cathy Wang以女性特有的敏銳,創(chuàng)造出一種獨(dú)屬于工程師的“浪漫”——聽音降噪。
團(tuán)隊(duì)針對(duì)硬盤性能失效問題做了大量的實(shí)驗(yàn),發(fā)現(xiàn)風(fēng)扇產(chǎn)生的噪音一旦達(dá)到120分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進(jìn)而導(dǎo)致扇區(qū)失效乃至硬盤報(bào)廢、服務(wù)器宕機(jī)。“在結(jié)構(gòu)的領(lǐng)域來說有一個(gè)不可調(diào)和的矛盾,就是風(fēng)扇的轉(zhuǎn)速提高之后,它的噪音會(huì)向高頻段以及大聲壓這個(gè)方向去發(fā)展,而且它是這個(gè)聲音和轉(zhuǎn)速是成5次方的關(guān)系在增長的,所以我們看到一個(gè)非常明確且快速的風(fēng)扇的噪音增長的趨勢。這個(gè)風(fēng)扇和硬盤之間的沖突的問題,如何站在系統(tǒng)設(shè)計(jì)的角度,建立硬盤敏感度模型,成為業(yè)界廠商探討的難點(diǎn)?!?/span>Cathy Wang介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嘗試過正弦波、1/3倍頻程等走不通的路徑后,Cathy Wang所在的團(tuán)隊(duì)才找到了最合適的噪音帶寬,并以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在500Hz~10000Hz噪音刺激下的共振頻率和聲壓閥值。基于大量機(jī)理性研究和測試,團(tuán)隊(duì)發(fā)現(xiàn)硬盤性能損失與聲壓強(qiáng)度間的數(shù)學(xué)規(guī)律,構(gòu)建出業(yè)界首個(gè)硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現(xiàn)。
“我們希望通過我們的研究工作,讓性能優(yōu)化從經(jīng)驗(yàn)主導(dǎo)變?yōu)榭茖W(xué)主導(dǎo),借助于不斷完善的基礎(chǔ)理論、工具與方法,針對(duì)特定問題形成標(biāo)準(zhǔn)方案并設(shè)計(jì)出新的可復(fù)用知識(shí)。”Cathy Wang說道。
服務(wù)器里聲音的“黑盒子”就這樣被打開了。在確定機(jī)箱內(nèi)真正影響硬盤工作的噪音頻譜的基礎(chǔ)上,浪潮信息的工程師對(duì)服務(wù)器系統(tǒng)展開全方位的優(yōu)化設(shè)計(jì)。首先從噪聲振動(dòng)的源頭入手,通過CFD流體動(dòng)力學(xué)仿真改進(jìn)風(fēng)扇的葉片形態(tài),抑制扇葉表面因渦流脫落形成的高頻噪音;其次,在機(jī)箱內(nèi)通過設(shè)計(jì)40多種歌院式的消音結(jié)構(gòu),有效消除特定的高頻噪聲;此外,還對(duì)硬盤固件中的伺服控制算法進(jìn)行調(diào)整,讓硬盤磁頭的噪聲共振擺動(dòng)控制在10納米以內(nèi),在提升讀寫效率、性能翻倍的同時(shí),實(shí)現(xiàn)服務(wù)器安全運(yùn)行。
融合架構(gòu)3.0,服務(wù)器架構(gòu)的“夢想”
大模型時(shí)代,當(dāng)在單機(jī)上獲得較高算力效率之后,能不能在幾百個(gè)節(jié)點(diǎn)、幾千塊卡保持相對(duì)線性的性能擴(kuò)展比,已經(jīng)成為算力集群系統(tǒng)設(shè)計(jì)和并行策略設(shè)計(jì)時(shí)的關(guān)鍵性因素。在傳統(tǒng)計(jì)算體系結(jié)構(gòu)中,處理器橫向擴(kuò)展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體系結(jié)構(gòu)工程師Lorne Ci 認(rèn)為:“傳統(tǒng)服務(wù)器是把所有的IT資源放到一個(gè)服務(wù)器里面。如果需要更多算力、更多內(nèi)存、更多IO的話,需要把服務(wù)器去做疊加,像我們通常意義上一個(gè)大規(guī)模的數(shù)據(jù)中心可能有十幾萬臺(tái),甚至有幾十萬臺(tái)服務(wù)器。但簡單的堆疊只能堆出各種形態(tài)和規(guī)格的服務(wù)器,這對(duì)數(shù)據(jù)中心計(jì)算能力的提升,并沒有實(shí)質(zhì)性的幫助。需要把服務(wù)器IT資源都做成池化的形態(tài),然后通過軟件定義的方式來實(shí)現(xiàn)資源的動(dòng)態(tài)調(diào)配。”
因此,Lorne Ci 團(tuán)隊(duì)研究的方向是,創(chuàng)造一種新的體系架構(gòu),將硬件設(shè)備中的同類資源整合成一個(gè)資源池,不同的設(shè)備能夠任意的整合,再通過軟件動(dòng)態(tài)感知業(yè)務(wù)的資源需求,利用硬件重組的能力來滿足各類應(yīng)用的需要。
浪潮信息將這種新的體系架構(gòu)命名為“融合架構(gòu)”,早在2014年就提出這一技術(shù)理念,核心在于通過硬件解耦實(shí)現(xiàn)資源的物理池化和動(dòng)態(tài)重構(gòu),通過軟件定義實(shí)現(xiàn)業(yè)務(wù)感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴(kuò)展,實(shí)現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構(gòu)的發(fā)展劃分為三個(gè)階段,分別為“服務(wù)器即計(jì)算機(jī)(Server as a Computer)” ,“機(jī)柜即計(jì)算機(jī)(Rack as a Computer)”以及最終的“數(shù)據(jù)中心即計(jì)算機(jī)(Data Center as a Computer)”。
目前融合架構(gòu)3.0原型系統(tǒng)已經(jīng)研制成功,實(shí)現(xiàn)了計(jì)算資源、存儲(chǔ)資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級(jí)、支持細(xì)粒度多主機(jī)共享高并發(fā)存儲(chǔ)、亞微秒級(jí)遠(yuǎn)端內(nèi)存共享訪問等特性,可通過軟件定義實(shí)現(xiàn)“一套系統(tǒng),N類應(yīng)用”。
融合架構(gòu)3.0最核心的就是要做到內(nèi)存資源池的池化與算力資源池的池化。而如何實(shí)現(xiàn)遠(yuǎn)程內(nèi)存的調(diào)用,實(shí)現(xiàn)低延時(shí)的快速響應(yīng),如何實(shí)現(xiàn)緩存一致性……都是內(nèi)存池化面臨的重大挑戰(zhàn)。Lorne Ci 介紹說,“現(xiàn)在融合架構(gòu)基于許多開放總線技術(shù),包括PCIE、CXL等等,共同構(gòu)建一個(gè)大內(nèi)存系統(tǒng),構(gòu)建了一個(gè)高速高性能的互聯(lián)網(wǎng)絡(luò),這對(duì)于參數(shù)量和數(shù)據(jù)量激增的大模型訓(xùn)練有著巨大價(jià)值。”
伴隨著融合架構(gòu)3.0原型系統(tǒng)的研制成功,浪潮信息在融合架構(gòu)領(lǐng)域完成了重要的突破,實(shí)現(xiàn)了整機(jī)柜級(jí)別的計(jì)算、內(nèi)存、存儲(chǔ)與互聯(lián)等各種IT資源的池化。其中,內(nèi)存解耦實(shí)現(xiàn)了亞微秒級(jí)的遠(yuǎn)端內(nèi)存訪問,并構(gòu)建出了一種邏輯上可遠(yuǎn)端共享的內(nèi)存資源池。這種變化讓多臺(tái)主機(jī)可以訪問同一個(gè)內(nèi)存池,并最終大幅提高了數(shù)據(jù)交換的效率。新的架構(gòu)打破了現(xiàn)有服務(wù)器的邏輯架構(gòu)與應(yīng)用模式。它以系統(tǒng)設(shè)計(jì)為中心,可以讓數(shù)據(jù)中心從資源驅(qū)動(dòng)型向業(yè)務(wù)驅(qū)動(dòng)型轉(zhuǎn)變。面向云計(jì)算和人工智能等不同場景,這種新的架構(gòu)和新的組合方式,讓數(shù)據(jù)中心真正實(shí)現(xiàn)了,用一套系統(tǒng)去支撐多類應(yīng)用。
在如今這個(gè)逐漸成型的數(shù)字文明時(shí)代,計(jì)算已經(jīng)滲透到我們生活的方方面面。不論是在家庭中,商業(yè)世界,還是科學(xué)研究領(lǐng)域,計(jì)算技術(shù)都無處不在,這已經(jīng)成為了我們?nèi)粘I畹囊徊糠?。然而,我們必須認(rèn)識(shí)到,這只是數(shù)字文明的起點(diǎn),計(jì)算的重要性將在未來進(jìn)一步凸顯。算力創(chuàng)新將成為數(shù)字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險(xiǎn)前行以開辟新的大陸,今天無數(shù)的"算力拓荒人"將持續(xù)引領(lǐng)我們進(jìn)入數(shù)字時(shí)代的新境界。這些先鋒者將科學(xué)與工程融合,將"知"與"行"完美結(jié)合,以探索廣闊而充滿想象的未知之地。
在這條通往數(shù)字文明的開拓之路上,充滿了機(jī)遇與挑戰(zhàn),我們需要更多具備跨學(xué)科知識(shí)的"知行合一"的研發(fā)人員,科技工作者,去通過一系列前所未有的解決方案,將計(jì)算創(chuàng)新推向新的高度,使其持續(xù)閃耀,帶領(lǐng)我們走向數(shù)字文明的下一個(gè)巔峰。