北京2023年3月16日 /美通社/ -- 延續(xù)長達半個世紀的"摩爾定律",讓不少人難免產(chǎn)生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經(jīng)驗之談,并非自然定律。隨著企業(yè)數(shù)字化轉(zhuǎn)型的提速,企業(yè)對算力性能需求的高漲致使芯片制程不斷逼近物理極限,通用型芯片日益高漲的成本讓摩爾定律舉步維艱。
因此,那些提前預(yù)見到"后摩爾時代"的企業(yè)紛紛探索可行的技術(shù)路線,在確保高質(zhì)量發(fā)展的前提下,維系能促進數(shù)字化轉(zhuǎn)型的性能與成本關(guān)系。早在十多年前,亞馬遜云科技就開始意識到通用芯片在云基礎(chǔ)設(shè)施中的無效性能和能源損耗等問題,并將注意力轉(zhuǎn)向?qū)樵朴嬎愣ㄖ频男酒陀布??;趯υ骗h(huán)境復(fù)雜性的深刻理解以及底層技術(shù)對上層應(yīng)用影響的深刻洞見,亞馬遜云科技走上了自研芯片的創(chuàng)"芯"之路。
"足夠好,還遠遠不夠好"
關(guān)于開發(fā)云計算自研芯片的意義,亞馬遜云科技首席技術(shù)官Werner Vogels在2022 re:Invent全球大會上表示:"足夠好,還遠遠不夠好。"比如,當(dāng)開發(fā)者使用參數(shù)強大的GPU來執(zhí)行機器學(xué)習(xí)模型從構(gòu)建到訓(xùn)練、推理的全過程時,由于GPU并未進行過針對不同任務(wù)的優(yōu)化,因此性能損耗往往超出想象,并且開發(fā)者還要負擔(dān)高昂的硬件和能耗成本。
云計算用戶必然不斷追求更強的算力,但沒有用戶愿意看到"量價齊升"。為此,亞馬遜云科技在本世紀初就開始進行云計算定制硬件的開發(fā),并在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)實例。此后,隨著云端業(yè)務(wù)多樣性與復(fù)雜性加劇,以及用戶對降本增效的需求提升,亞馬遜云科技意識到底層技術(shù)的定制化創(chuàng)新必然成為云計算高速發(fā)展不可或缺的一塊拼圖。
2013年,亞馬遜云科技推出云服務(wù)器虛擬化引擎Amazon Nitro系統(tǒng),由此開始了在云計算底層技術(shù)賽道上領(lǐng)跑行業(yè)的十年。2015年在收購Annapurna Labs之后,亞馬遜云科技自研芯片駛?cè)肟燔嚨?,?017年就已開發(fā)了多個自研芯片,包括虛擬化系統(tǒng)、云原生處理器和機器學(xué)習(xí)訓(xùn)練及推理芯片。亞馬遜云科技自研芯片助推了Amazon EC2實例數(shù)量的快速增長,現(xiàn)在Amazon EC2實例已多達600余種,幾乎覆蓋了全部操作系統(tǒng)和應(yīng)用,讓數(shù)百萬客戶都能在亞馬遜云科技上找到最合適的方案,應(yīng)對極端的業(yè)務(wù)需求。
抹平虛擬化的性能損耗
Nitro系列虛擬化定制芯片是亞馬遜云科技自主創(chuàng)"芯"的起點。虛擬化作為云計算的"基石",所占用的計算資源曾一度高達30%,即是說用戶所購買算力中有近三分之一成了"門票"而并未獲得實質(zhì)性算力回報。
Nitro誕生的重要目標(biāo)之一,就是從底層技術(shù)上解決虛擬化性能損耗難題。通過定制芯片和獨立的模塊化設(shè)計,讓Nitro專門承擔(dān)云計算系統(tǒng)的所有虛擬化功能,將虛擬化帶來的性能損耗控制在1%以下,幾乎可以忽略不計,讓用戶所購買的實例算力能夠近乎100%地服務(wù)于業(yè)務(wù)。同時,Nitro的安全芯片為用戶提供了硬件級別的安全機制,不但實現(xiàn)了網(wǎng)絡(luò)、存儲隔離的獨立安全通道,還在數(shù)據(jù)傳輸?shù)乃协h(huán)節(jié)都可以實現(xiàn)硬件級別加密,用戶可獲得更強的數(shù)據(jù)安全性。
從2013年到2020年,亞馬遜云科技已陸續(xù)將Nitro更新至第四代,而且Nitro的升級仍在持續(xù)。在去年2022 re:Invent全球大會上,亞馬遜云科技又推出了全新的第五代Nitro,進一步提升了數(shù)據(jù)處理能力并降低延遲。如果將性能上的提升換算成能耗比,第五代 Nitro將每瓦性能提高了40%,從另一個維度給用戶帶去更高的性價比。
相應(yīng)地,由第五代 Nitro 支持的新實例Amazon EC2 C7gn也一同發(fā)布。在最新一代Nitro的加持下,C7gn與當(dāng)前一代C6gn相比,具有更強的網(wǎng)絡(luò)處理能力,這也讓C7gn成為所有Amazon EC2網(wǎng)絡(luò)優(yōu)化型實例中,能提供最高網(wǎng)絡(luò)帶寬和數(shù)據(jù)包轉(zhuǎn)發(fā)性能的實例。C7gn實例還提高了多達25%的計算性能及多達2倍的加密性能,為用戶優(yōu)化在Amazon EC2上要求最嚴苛的網(wǎng)絡(luò)密集型工作負載的成本,并提供更強大的擴展性能。
自研芯片持續(xù)升級及規(guī)?;瘧?yīng)用為用戶帶來更高性價比
Nitro幫助用戶告別了算力損耗,那么用戶已到手的這部分算力,又該如何跑贏摩爾定律?
亞馬遜云科技首席執(zhí)行官 Adam Selipsky 曾表示:"如果希望針對所有可能的工作負載徹底變革計算的性價比,還需要徹底重新思考實例。為了實現(xiàn)這個目標(biāo),我們需要深入底層技術(shù)直達芯片。"最終亞馬遜云科技交出的答卷,是基于ARM架構(gòu)的通用型云原生處理器Graviton。
相比X86架構(gòu),Graviton低成本和高核心密度的特性在高計算密度領(lǐng)域更具優(yōu)勢,能耗表現(xiàn)也更佳,但在當(dāng)時ARM架構(gòu)并未在基于云計算的企業(yè)級應(yīng)用領(lǐng)域取得突破。采用ARM架構(gòu),意味著亞馬遜云科技要開拓一個幾乎沒有用戶基礎(chǔ)的賽道。
亞馬遜云科技在2018年推出首代Graviton處理器,隨后在2020年推出Graviton 2并實現(xiàn)規(guī)?;瘧?yīng)用,開創(chuàng)了ARM處理器企業(yè)級應(yīng)用的標(biāo)桿。同時,每一代Graviton都保持著大幅度的性能提升,其中2021年宣布推出的Graviton 3相比上一代單核性能提升25%,浮點性能提升2倍,并且由于采用ARM架構(gòu),還實現(xiàn)相比x86實例多達60%的能耗下降。
近年來,隨著人工智能和自動駕駛等新興應(yīng)用對高性能計算優(yōu)化實例的負載與性價比需求出現(xiàn)倍數(shù)級提升,亞馬遜云科技在2022 re:Invent全球大會上發(fā)布了專門對浮點和向量指令運算進行了優(yōu)化的Graviton 3E,以及由其提供支持的高性能計算優(yōu)化實例Hpc7g。Hpc7g相比當(dāng)前一代Hpc6a實例性能提升達20%,讓用戶能夠在多達數(shù)萬個內(nèi)核的高性能計算集群中進行復(fù)雜計算,為計算流體動力學(xué)、天氣模擬、基因組學(xué)和分子動力學(xué)等高性能計算工作負載提供超高的性價比,進一步解決難度系數(shù)持續(xù)增加的問題并降低高性能計算工作負載的成本。
為了讓用戶獲得更高性價比,方便用戶采用Graviton實例,亞馬遜云科技已將20多種托管服務(wù)運行在Graviton之上,并且這一數(shù)字還在持續(xù)增加。這些服務(wù)包括用戶經(jīng)常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服務(wù)大幅降低了客戶將應(yīng)用遷移到 Graviton的復(fù)雜度,時間可以從幾天降低到幾分鐘,而且轉(zhuǎn)移到Graviton實例上即可實現(xiàn)高達40%的性價比提升。
專"芯"應(yīng)對機器學(xué)習(xí)各環(huán)節(jié)
隨著機器學(xué)習(xí)逐漸步入超大模型時代,十億級參數(shù)模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業(yè)不堪重負。
雖然被廣泛應(yīng)用于機器學(xué)習(xí)的通用芯片差不多每兩年就能實現(xiàn)性能翻倍,但仍然難以跟上訓(xùn)練模型復(fù)雜度的提升速度。亞馬遜云科技認為,未專門針對機器學(xué)習(xí)優(yōu)化的GPU將難以長期勝任云上機器學(xué)習(xí)任務(wù),唯一的解決方法是通過分布式多處理器,將一個模型通過網(wǎng)絡(luò)協(xié)同計算處理。為此,亞馬遜云科技針對機器學(xué)習(xí)的兩個環(huán)節(jié),分別推出了用于訓(xùn)練的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。
2022年10月,亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實例,專為云中高性能模型搭建,最多可搭載16顆Trainium芯片,擁有512GB高帶寬內(nèi)存和800Gbps網(wǎng)絡(luò)帶寬。亞馬遜云科技在2022 re:Invent全球大會上,發(fā)布了增強的Trn1n實例,網(wǎng)絡(luò)帶寬躍升至1.6Tbps,可將萬余個Trainium芯片構(gòu)建在一個超大規(guī)模集群上,實現(xiàn)對超大模型進行并行訓(xùn)練。
亞馬遜云科技針對推理的Inferentia芯片則在2018年發(fā)布,并在次年推出對應(yīng)的Amazon EC2 Inf1實例,能夠幫助用戶實現(xiàn)低延時低成本的推理。亞馬遜云科技在2022 re:Invent全球大會上,又發(fā)布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2實例,以應(yīng)對深度學(xué)習(xí)模型規(guī)模和復(fù)雜度的指數(shù)級增長。Inf2實例是唯一一個專為大型Transformer模型的分布式推理所構(gòu)建的實例。與Inf1實例相比,Inf2實例吞吐量提升4倍,延時只有1/10,每瓦性能提升45%。Inf2實例可以運行高達1,750億參數(shù)的大模型,足以勝任諸如GPT-3、Mask R-CNN、ViT等超大型復(fù)雜模型。
十年領(lǐng)跑,硬件創(chuàng)新進入加速期
美國計算機科學(xué)家、圖靈獎獲得者Alan Kay曾經(jīng)說過:"真正認真對待軟件的人應(yīng)該制造自己的硬件。"亞馬遜云科技十年創(chuàng)"芯"與這一論斷不謀而合,通過長年深耕自研芯片和硬件,在底層技術(shù)層面建立起顯著的差異化優(yōu)勢。
近年來,定制硬件創(chuàng)新對于云計算的重要性已得到越來越多企業(yè)的關(guān)注和認可。亞馬遜云科技首席技術(shù)官Werner Vogels預(yù)測"2023年,專用芯片的使用將迅速增加,工作負載利用硬件優(yōu)化帶來最大化性能,同時降低能耗和成本。"這也意味著定制硬件將成為云端算力最可靠的增長引擎之一,幫助用戶以更優(yōu)的成本和性能回報,獲得支持企業(yè)高質(zhì)量發(fā)展的數(shù)字化能力。