北京2024年8月9日 /美通社/ -- 8月8日,2024開放計(jì)算中國(guó)峰會(huì)在北京舉行,開放計(jì)算如何加速人工智能發(fā)展成為大會(huì)焦點(diǎn)話題。智能時(shí)代,大模型正在重構(gòu)AI基礎(chǔ)設(shè)施,數(shù)據(jù)中心迎來(lái)算力、網(wǎng)絡(luò)、存儲(chǔ)、管理、能效的全向Scale創(chuàng)新挑戰(zhàn),需構(gòu)建全球化的開放協(xié)作平臺(tái),合力解決上述重大問(wèn)題,通過(guò)對(duì)人工智能基礎(chǔ)設(shè)施的全面優(yōu)化,為AI發(fā)展賦予無(wú)限可能。
2024開放計(jì)算中國(guó)峰會(huì)由開放計(jì)算社區(qū)OCP及開放標(biāo)準(zhǔn)組織OCTC(中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)開放計(jì)算標(biāo)準(zhǔn)工作委員會(huì))聯(lián)合主辦,以"開放協(xié)同:協(xié)作、智慧、創(chuàng)新"為主題,聚焦數(shù)據(jù)中心基礎(chǔ)設(shè)施、人工智能創(chuàng)新、開放計(jì)算生態(tài)、綠色計(jì)算發(fā)展、開放系統(tǒng)&CXL等議題,包括百度、阿里云、中國(guó)工商銀行、字節(jié)跳動(dòng)、三星、浪潮信息、英偉達(dá)、偉創(chuàng)力、Solidigm、英特爾、世紀(jì)互聯(lián)等在內(nèi)的社區(qū)領(lǐng)袖、技術(shù)大咖、行業(yè)專家,以及千余名IT工程師和數(shù)據(jù)中心從業(yè)者參與大會(huì)。
社區(qū)激發(fā)創(chuàng)新活力,全球化協(xié)作平臺(tái)加速AI創(chuàng)新
生成式人工智能的飛躍式進(jìn)步正在加速智能時(shí)代的到來(lái)。在Scaling law約束下,隨著大模型參數(shù)量的持續(xù)提升,計(jì)算當(dāng)量與數(shù)據(jù)量亦隨之激增,數(shù)據(jù)中心基礎(chǔ)設(shè)施所面臨的全方位創(chuàng)新,將越來(lái)越依賴于更加廣泛的全球化開放協(xié)作,加速AI技術(shù)創(chuàng)新與應(yīng)用,共同構(gòu)建一個(gè)人機(jī)高度交互的智能世界。
OCP基金會(huì)理事David Ramku(Meta 數(shù)據(jù)中心基礎(chǔ)設(shè)施高級(jí)總監(jiān))表示,"生成式人工智能的增長(zhǎng)正在重構(gòu)數(shù)據(jù)中心的生態(tài)系統(tǒng),開放計(jì)算項(xiàng)目的全球化協(xié)作創(chuàng)新模式可以最大限度激發(fā)創(chuàng)新活力。OCP將繼續(xù)投資關(guān)乎未來(lái)的戰(zhàn)略性技術(shù),如人工智能和機(jī)器學(xué)習(xí)、光學(xué)技術(shù)、先進(jìn)的電源管理和冷卻技術(shù)、Chiplets等,為應(yīng)對(duì)IT生態(tài)系統(tǒng)的新變化做好準(zhǔn)備。"
OCTC秘書長(zhǎng)陳海認(rèn)為:"應(yīng)用是中國(guó)人工智能產(chǎn)業(yè)的核心優(yōu)勢(shì)之一,理應(yīng)讓用戶參與到人工智能的探索和應(yīng)用中,從用戶思維出發(fā)制定更切實(shí)落地的規(guī)范標(biāo)準(zhǔn),以此有效降低技術(shù)獲取成本,推動(dòng)和加速數(shù)據(jù)中心各領(lǐng)域的技術(shù)創(chuàng)新與成果普惠,讓更多的組織和個(gè)人從中獲益,這是開放社區(qū)長(zhǎng)久繁榮的核心所在。"
正因?yàn)橐庾R(shí)到開放的力量,開放計(jì)算受到越來(lái)越多公司的支持并積極投身其中。在過(guò)去的三年中,OCP的成員數(shù)量從250多家增長(zhǎng)至360多家,增幅接近50%,社區(qū)項(xiàng)目和子項(xiàng)目數(shù)量超過(guò)40個(gè)。與此同時(shí),OCTC的成員數(shù)量也在一年內(nèi)迅速翻倍,從40多家增長(zhǎng)至近百家,快速構(gòu)建起包含基礎(chǔ)設(shè)施、測(cè)評(píng)與服務(wù)、運(yùn)維管理等在內(nèi)的標(biāo)準(zhǔn)框架,并將通用計(jì)算、柜計(jì)算、AI異構(gòu)、液冷等列入標(biāo)準(zhǔn)化建設(shè)的重點(diǎn)內(nèi)容。
AI重構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施
生成式人工智能正在重構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施,對(duì)計(jì)算效能、存儲(chǔ)容量及性能、網(wǎng)絡(luò)方案、資源調(diào)度管理、能效控制與管理各個(gè)方面均提出更高要求,全向Scale能力成為構(gòu)建先進(jìn)AI基礎(chǔ)設(shè)施的核心。在本屆峰會(huì)上,包括CXL技術(shù)、面向AI的網(wǎng)絡(luò)架構(gòu)、首款16通道PCIe 5.0 TLC固態(tài)硬盤等一大批創(chuàng)新技術(shù)與產(chǎn)品方案,將進(jìn)一步提升人工智能基礎(chǔ)設(shè)施的Scale能力。
百度集團(tuán)副總裁侯震宇指出,在大模型時(shí)代,預(yù)計(jì)未來(lái)十年內(nèi),AI算力需求將呈現(xiàn)爆發(fā)式增長(zhǎng),并行計(jì)算成為實(shí)現(xiàn)大模型黃金法則Scaling Laws的最優(yōu)解。AI新基建正推動(dòng)產(chǎn)業(yè)鏈全面變革,展現(xiàn)出"極致高密、極致互聯(lián)、極致規(guī)模"的重構(gòu)特征。
阿里云基礎(chǔ)設(shè)施超高速互聯(lián)負(fù)責(zé)人孔陽(yáng)認(rèn)為,隨著云計(jì)算和AI大模型應(yīng)用的快速發(fā)展,計(jì)算規(guī)模呈現(xiàn)出數(shù)千數(shù)萬(wàn)倍的增長(zhǎng),單任務(wù)的計(jì)算量也成百上千倍的增長(zhǎng)。但受制于芯片在算力密度、訪存規(guī)模和帶寬的遲滯,服務(wù)器機(jī)柜級(jí)Scale up互連成為當(dāng)下技術(shù)熱點(diǎn), 作為開放生態(tài)系統(tǒng),Scale up開放生態(tài)系統(tǒng)ALS和CPU內(nèi)存擴(kuò)展的CXL技術(shù)生態(tài)已成為行業(yè)的重要方向。
中國(guó)工商銀行數(shù)據(jù)中心資深經(jīng)理陳慶提到,AI大模型的部署對(duì)算力底座提出新的要求,包括多算力中心互聯(lián),提供不同等級(jí)按需服務(wù),實(shí)現(xiàn)網(wǎng)絡(luò)和計(jì)算資源的統(tǒng)一管理和編排,同時(shí)要兼顧性能和連續(xù)運(yùn)行,減少故障中斷,并通過(guò)空間分割部署不同功率密度及液冷產(chǎn)品,以支撐AI應(yīng)用。
三星電子副總裁、先行開發(fā)團(tuán)隊(duì)負(fù)責(zé)人張實(shí)完表示,生成式人工智能帶來(lái)數(shù)據(jù)量的激增,對(duì)存儲(chǔ)的高容量、性能和低功耗提出前所未有的高要求。需要開發(fā)承載海量數(shù)據(jù)的存儲(chǔ)產(chǎn)品,以滿足AI時(shí)代對(duì)存儲(chǔ)容量的巨大需求,為AI模型訓(xùn)練、大數(shù)據(jù)分析等應(yīng)用提供強(qiáng)有力的存儲(chǔ)支持。
浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥認(rèn)為,算力迭代是Scale up與Scale out并存迭代、快速發(fā)展的過(guò)程。現(xiàn)階段,開放加速模組和開放網(wǎng)絡(luò)實(shí)現(xiàn)了算力的Scale,開放固件解決方案實(shí)現(xiàn)了管理的Scale,開放標(biāo)準(zhǔn)和開放生態(tài)實(shí)現(xiàn)了基礎(chǔ)設(shè)施的Scale,未來(lái)要以開放創(chuàng)新加速算力系統(tǒng)全向scale,應(yīng)對(duì)大模型Scaling Law。
字節(jié)跳動(dòng)資深網(wǎng)絡(luò)架構(gòu)師霍朋飛表示,大模型訓(xùn)練、推理等AI業(yè)務(wù)需求快速迭代,對(duì)網(wǎng)絡(luò)帶來(lái)新挑戰(zhàn)。超大規(guī)模GPU的協(xié)同訓(xùn)練對(duì)網(wǎng)絡(luò)底座的規(guī)模、性能、成本提出高要求。開放、軟硬協(xié)同、端網(wǎng)融合的網(wǎng)絡(luò)架構(gòu),已成為高性能高穩(wěn)定互聯(lián)的基石。
英偉達(dá)網(wǎng)絡(luò)高級(jí)總監(jiān)宋慶春認(rèn)為,數(shù)據(jù)中心走向了AI工廠和AI云兩個(gè)新型的應(yīng)用場(chǎng)景,超大規(guī)模分布式并行計(jì)算成為新型應(yīng)用場(chǎng)景的關(guān)鍵特征,網(wǎng)絡(luò)成為了決定數(shù)據(jù)中心性能的核心。支持高帶寬、低延遲、零Jitter、網(wǎng)絡(luò)數(shù)字孿生、網(wǎng)絡(luò)計(jì)算、動(dòng)態(tài)路由、應(yīng)用性能隔離等技術(shù)的新型AI網(wǎng)絡(luò)應(yīng)需而生。AI網(wǎng)絡(luò)將AI數(shù)據(jù)中心的算力性能提升到了極致,將會(huì)極大保護(hù)用戶的投資。
開放算力模組規(guī)范(OCM)立項(xiàng),推動(dòng)"一切計(jì)算皆AI"
生成式人工智能的快速發(fā)展,帶來(lái)了更加豐富的智能應(yīng)用場(chǎng)景,而智能應(yīng)用的繁榮必然使得推理需要更多的算力來(lái)支撐,通用算力作為一種更加普遍且更易獲得的算力,一旦擁有AI計(jì)算的能力顯然會(huì)大大加速智能化進(jìn)程。但目前x86、ARM、RISC-V等不同架構(gòu)的CPU協(xié)議標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致硬件開發(fā)、固件適配、部件測(cè)試等耗時(shí)巨大,同時(shí)為了更好的適合AI推理高并行的計(jì)算特點(diǎn),CPU總線互聯(lián)帶寬、內(nèi)存帶寬及容量也需要特別優(yōu)化,使得系統(tǒng)功耗、總線速率、電流密度不斷提升……多種因素疊加之下,算力系統(tǒng)的設(shè)計(jì)與開發(fā)周期漫長(zhǎng)且成本高昂。
在CPU多元化發(fā)展的趨勢(shì)下,如何快速完成CPU到計(jì)算系統(tǒng)的創(chuàng)新,使其能夠適用于AI推理負(fù)載,已經(jīng)成為緩解當(dāng)前AI算力稀缺、推動(dòng)人工智能發(fā)展的關(guān)鍵環(huán)節(jié)。
為此,會(huì)上開放算力模組規(guī)范(OCM)正式立項(xiàng),首批成員包括中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、百度、浪潮信息、英特爾、AMD、小紅書、聯(lián)想、超聚變等,以CPU、內(nèi)存為核心構(gòu)建最小算力單元,兼容x86、ARM等多架構(gòu)芯片的多代處理器,方便用戶根據(jù)應(yīng)用場(chǎng)景靈活、快速組合。OCM開放標(biāo)準(zhǔn)的制定,能夠?yàn)橛脩籼峁└嗤ㄓ眯詮?qiáng)、綠色高效、安全可靠的算力選擇。
值得關(guān)注的是,OCP首次設(shè)立了開放計(jì)算最佳創(chuàng)新獎(jiǎng)、開放計(jì)算最佳實(shí)踐獎(jiǎng)和開放計(jì)算生態(tài)貢獻(xiàn)獎(jiǎng),以此表彰在上述領(lǐng)域做出卓越貢獻(xiàn)的社區(qū)成員。首屆開放計(jì)算最佳創(chuàng)新獎(jiǎng)由阿里云、三星和村田獲得,百度和字節(jié)跳動(dòng)獲得開放計(jì)算最佳實(shí)踐獎(jiǎng),浪潮信息和安謀科技獲得開放計(jì)算生態(tài)貢獻(xiàn)獎(jiǎng)。
此外,大會(huì)還發(fā)布了開放計(jì)算十大創(chuàng)新成果,包括超大規(guī)模數(shù)據(jù)中心部署指南、Evenstar開放式5G平臺(tái)、液冷式人工智能加速卡設(shè)計(jì)技術(shù)要求等等,進(jìn)一步體現(xiàn)出開放計(jì)算在數(shù)據(jù)中心領(lǐng)域所具備的創(chuàng)新活力。隨著社區(qū)活力的激發(fā)、跨社區(qū)合作的增多、標(biāo)準(zhǔn)與規(guī)范的持續(xù)完善,創(chuàng)新的邊界將得到進(jìn)一步拓展,開放計(jì)算將為AI創(chuàng)新賦予無(wú)限可能,推動(dòng)人工智能更加深刻地重構(gòu)數(shù)據(jù)中心生態(tài)。