omniture

浪潮云海聯(lián)合多方共同發(fā)布《一云多芯算力調(diào)度研究報(bào)告》

2025-01-07 11:50 1270

1顆X處理器相當(dāng)幾顆Y處理器?一云多芯算力評(píng)估計(jì)算器來(lái)了!

北京2025年1月6日 /美通社/ -- 近日,浪潮云海聯(lián)合中國(guó)軟件評(píng)測(cè)中心、騰訊云等10余家核心機(jī)構(gòu)、廠商共同發(fā)布了《一云多芯算力調(diào)度研究報(bào)告》(以下簡(jiǎn)稱(chēng)報(bào)告)。報(bào)告指出,當(dāng)前一云多芯正從混合部署、資源統(tǒng)管的第一階段,向業(yè)務(wù)牽引、分層解耦、架構(gòu)升級(jí)的第二階段過(guò)渡,為保障應(yīng)用高效適配、自由遷移與性能調(diào)優(yōu),算力量化調(diào)度成為當(dāng)下重要關(guān)注點(diǎn)。因此,報(bào)告從算力調(diào)度架構(gòu)維度,對(duì)一云多芯實(shí)際落地過(guò)程中存在的挑戰(zhàn)進(jìn)行詳細(xì)剖析,針對(duì)算力等價(jià)調(diào)度難題設(shè)計(jì)了量化方法,推出算力評(píng)估計(jì)算器,并提出一云多芯算力調(diào)度整體參考設(shè)計(jì),為行業(yè)用戶(hù)實(shí)現(xiàn)應(yīng)用的跨架構(gòu)遷移提供重要的評(píng)估依據(jù)。

1中國(guó)軟件評(píng)測(cè)中心、浪潮云海等聯(lián)合發(fā)布
1中國(guó)軟件評(píng)測(cè)中心、浪潮云海等聯(lián)合發(fā)布

一云多芯走向第二階段 算力量化調(diào)度成為關(guān)注重點(diǎn)

當(dāng)前,隨著行業(yè)"上云用數(shù)賦智"進(jìn)程的不斷加速和深化,應(yīng)用場(chǎng)景呈現(xiàn)多樣化趨勢(shì),尤其是近幾年AIGC大模型、跨學(xué)科科學(xué)計(jì)算等興起,數(shù)據(jù)中心的計(jì)算場(chǎng)景呈現(xiàn)計(jì)算精度橫向擴(kuò)展與數(shù)據(jù)的數(shù)量級(jí)縱向增長(zhǎng)相交織的態(tài)勢(shì),實(shí)時(shí)性要求不斷提升。為更好地滿(mǎn)足當(dāng)前多元異構(gòu)算力場(chǎng)景需求,越來(lái)越多的數(shù)據(jù)中心開(kāi)始采用一云多芯架構(gòu),以確保多元異構(gòu)算力即便在功能、性能和可靠性等方面存在差異,依然可以高效穩(wěn)定地實(shí)現(xiàn)應(yīng)用跨處理器低成本或自由切換,保障關(guān)鍵業(yè)務(wù)長(zhǎng)期穩(wěn)定運(yùn)行。

一云多芯并非一蹴而就,而是跟隨用戶(hù)需求的動(dòng)態(tài)調(diào)整來(lái)持續(xù)演進(jìn)。一云多芯需要基于以系統(tǒng)設(shè)計(jì)為核心的思維,采用以場(chǎng)景驅(qū)動(dòng)的"硬件重構(gòu)+軟件定義"的融合架構(gòu),通過(guò)"三步走"實(shí)現(xiàn)最終的目標(biāo)。當(dāng)前第一階段混合部署、資源統(tǒng)管的階段目標(biāo)基本實(shí)現(xiàn),一云多芯正在向第二階段過(guò)渡,圍繞業(yè)務(wù)牽引、分層解耦、架構(gòu)升級(jí),實(shí)現(xiàn)應(yīng)用跨架構(gòu)平滑切換和線性彈性伸縮。

一云多芯發(fā)展到當(dāng)前階段,用戶(hù)已經(jīng)不再滿(mǎn)足于資源池的納管,而是開(kāi)始關(guān)注一云多芯場(chǎng)景下的算力如何更高效、高質(zhì)量的使用,從而使得算力量化調(diào)度能力成為重要關(guān)注點(diǎn)。然而,在真實(shí)生產(chǎn)環(huán)境中,由于異構(gòu)芯片在指令集上各有千秋,在性能上也存在較大差異,導(dǎo)致應(yīng)用在跨架構(gòu)切換時(shí)仍面臨一些棘手難題。比如說(shuō),當(dāng)應(yīng)用跨架構(gòu)遷移時(shí),性能可能會(huì)出現(xiàn)較大波動(dòng),導(dǎo)致服務(wù)質(zhì)量降低,無(wú)法達(dá)到預(yù)期;在新老副本切換流量過(guò)程中可能引發(fā)短暫的延遲、中斷或錯(cuò)誤,造成應(yīng)用響應(yīng)異常等等。

2一云多芯發(fā)展路線圖
2一云多芯發(fā)展路線圖

報(bào)告指出,應(yīng)從算力調(diào)度出發(fā),建立多層次的算力衡量體系,實(shí)現(xiàn)應(yīng)用性能的精確衡量,從而確保應(yīng)用可以跨架構(gòu)平滑切換及線性彈性伸縮,同時(shí)通過(guò)構(gòu)建標(biāo)準(zhǔn)化的算力調(diào)度架構(gòu),提升整體系統(tǒng)的靈活與可擴(kuò)展性。

算力量化調(diào)度:從"等價(jià)"開(kāi)始

算力量化調(diào)度針對(duì)用戶(hù)目前普遍面臨的應(yīng)用遷移效果難以預(yù)估的問(wèn)題,希望通過(guò)對(duì)算力的精確衡量以及架構(gòu)感知的算力有向調(diào)度等手段,實(shí)現(xiàn)應(yīng)用的跨架構(gòu)等價(jià)運(yùn)行,從而確保應(yīng)用的一致性體驗(yàn)并降低運(yùn)維復(fù)雜度。

應(yīng)用的跨架構(gòu)等價(jià)運(yùn)行中的"等價(jià)性"主要體現(xiàn)在功能的等價(jià)性和性能的等價(jià)性,其目的是保障應(yīng)用的跨架構(gòu)高效穩(wěn)定運(yùn)行,從而實(shí)現(xiàn)用戶(hù)體驗(yàn)的一致性。功能的等價(jià)性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間指令集的差異,對(duì)于操作系統(tǒng)及應(yīng)用程序的跨架構(gòu)可運(yùn)行性提出了更高的要求;性能的等價(jià)性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間性能的差異,通過(guò)建立科學(xué)、全面的算力量化評(píng)估模型,準(zhǔn)確分析不同架構(gòu)的處理能力、運(yùn)算速度等方面的特性,為應(yīng)用在跨架構(gòu)運(yùn)行時(shí)提供資源分配(例如CPU、內(nèi)存、副本數(shù)等)的依據(jù),成為保障其在不同架構(gòu)下性能等價(jià)的有效方法。

報(bào)告指出,算力量化是實(shí)現(xiàn)應(yīng)用等價(jià)遷移的基礎(chǔ),可使用兩類(lèi)算力量化方法,分別為基于測(cè)評(píng)反饋的算力量化方法和基于性能模型的算力量化方法。其中,基于性能模型的算力量化方法可通過(guò)建立典型應(yīng)用性能模型的方式,避免在線測(cè)評(píng)的開(kāi)銷(xiāo),實(shí)現(xiàn)跨架構(gòu)資源封裝規(guī)格的快速推理。

同時(shí)由于不同芯片架構(gòu)性能差異較大,為保障創(chuàng)新架構(gòu)云平臺(tái)與之前利舊平臺(tái)保持相同的算力水平,保障整個(gè)遷移適配過(guò)程中業(yè)務(wù)、用戶(hù)無(wú)感,浪潮云海創(chuàng)新自研了算力評(píng)估平臺(tái)工具,初步實(shí)現(xiàn)基于性能模型的規(guī)格算力評(píng)估。該平臺(tái)內(nèi)置了整機(jī)性能模型,并使用智能化的計(jì)算工作流對(duì)影響整機(jī)性能的因子進(jìn)行綜合計(jì)算,定義了通用性能調(diào)度指數(shù)(GIPS,Generic Index for Performance Based Scheduler),實(shí)現(xiàn)了支持一云多芯算力調(diào)度場(chǎng)景的整機(jī)性能評(píng)估。

3浪潮云海算力評(píng)估工具
3浪潮云海算力評(píng)估工具

發(fā)布首個(gè)一云多芯算力調(diào)度架構(gòu)參考設(shè)計(jì)

為保障客戶(hù)應(yīng)用跨架構(gòu)平滑遷移,構(gòu)建標(biāo)準(zhǔn)化的算力調(diào)度架構(gòu)也至關(guān)重要。報(bào)告圍繞多芯場(chǎng)景下的資源可管理性、程序可運(yùn)行性及狀態(tài)可遷移性三個(gè)核心方面開(kāi)展最佳實(shí)踐的探索,提出了一種一云多芯算力調(diào)度參考設(shè)計(jì),涵蓋基礎(chǔ)設(shè)施層、服務(wù)器操作系統(tǒng)層、云操作系統(tǒng)層、基礎(chǔ)應(yīng)用層、業(yè)務(wù)應(yīng)用層。

4一云多芯算力調(diào)度參考設(shè)計(jì)
4一云多芯算力調(diào)度參考設(shè)計(jì)

報(bào)告強(qiáng)調(diào),基礎(chǔ)設(shè)施層需要強(qiáng)化性能及RAS設(shè)計(jì),提升性能、穩(wěn)定性及可靠性,推動(dòng)生態(tài)繁榮并構(gòu)建整機(jī)開(kāi)放標(biāo)準(zhǔn);服務(wù)器操作系統(tǒng)是異構(gòu)硬件與多樣化的軟件之間重要的橋梁,需要解決跨架構(gòu)可運(yùn)行性問(wèn)題,并提供場(chǎng)景化的算力測(cè)算分析方法,指導(dǎo)應(yīng)用的調(diào)優(yōu);云操作系統(tǒng)層作為把不同垂直技術(shù)棧拉通的核心層級(jí),需要通過(guò)運(yùn)行時(shí)的資源封裝及架構(gòu)感知的有向調(diào)度,實(shí)現(xiàn)應(yīng)用的跨架構(gòu)分發(fā),并且提供層次化算力分析方法,實(shí)現(xiàn)應(yīng)用跨架構(gòu)等價(jià)調(diào)度;應(yīng)用層則需要重點(diǎn)考慮有狀態(tài)負(fù)載的數(shù)據(jù)狀態(tài)同步及無(wú)狀態(tài)負(fù)載的跨架構(gòu)流量分發(fā)等問(wèn)題?;谌缟蠀⒖荚O(shè)計(jì),實(shí)現(xiàn)基礎(chǔ)設(shè)施層至應(yīng)用層的各層級(jí)高效協(xié)同、廣泛兼容。

概括而言,一云多芯算力調(diào)度強(qiáng)調(diào)構(gòu)建分層解耦、開(kāi)放標(biāo)準(zhǔn)的整體架構(gòu),確保從基礎(chǔ)設(shè)施至應(yīng)用層的各層級(jí)能夠獨(dú)立運(yùn)行、獨(dú)立演化,同時(shí)通過(guò)標(biāo)準(zhǔn)化、規(guī)范化的協(xié)議、標(biāo)準(zhǔn)實(shí)現(xiàn)層間協(xié)同,并且兼容多樣化的硬件平臺(tái),從而提升整體系統(tǒng)的靈活性與可擴(kuò)展性。

一云多芯是多元算力變革下的云基礎(chǔ)設(shè)施演化的必經(jīng)之路。不同的芯片技術(shù)與復(fù)雜的生態(tài)環(huán)境相交織,對(duì)云操作系統(tǒng)廠商的技術(shù)實(shí)力、實(shí)施能力與生態(tài)牽引力均提出了更高的要求,必須要依靠原始創(chuàng)新實(shí)現(xiàn)技術(shù)突破,以生態(tài)開(kāi)放協(xié)同實(shí)現(xiàn)產(chǎn)品技術(shù)融合,通過(guò)產(chǎn)業(yè)鏈上下游協(xié)同,生態(tài)共建,形成完善的一云多芯行業(yè)標(biāo)準(zhǔn),實(shí)現(xiàn)真正的應(yīng)用跨架構(gòu)自由切換,推動(dòng)"一云多芯"向第三階段邁進(jìn)。

消息來(lái)源:浪潮云海
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection