omniture

浪潮信息趙帥:多元算力時(shí)代 開(kāi)源開(kāi)放的OpenBMC成為服務(wù)器管理優(yōu)先解

2023-08-07 19:35 4350

北京2023年8月7日 /美通社/ -- "多元算力時(shí)代下,大規(guī)模的異構(gòu)服務(wù)器設(shè)備面臨多種處理器架構(gòu)、多種設(shè)備協(xié)議、不同管理芯片兼容的系統(tǒng)化設(shè)計(jì)挑戰(zhàn),管理固件也迎來(lái)新的變革。開(kāi)源開(kāi)放的OpenBMC,以創(chuàng)新的分層解耦軟件架構(gòu),兼容不同處理器架構(gòu)、算力平臺(tái)和管理芯片,為多元算力基礎(chǔ)設(shè)施提供了開(kāi)放靈活的運(yùn)維管理解決方案,也將推動(dòng)產(chǎn)業(yè)形成開(kāi)放、標(biāo)準(zhǔn)的管理固件生態(tài)。"浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥。

全球數(shù)字經(jīng)濟(jì)持續(xù)穩(wěn)定增長(zhǎng),AIGC等創(chuàng)新技術(shù)應(yīng)用對(duì)于算力帶來(lái)了巨大的需求,算力新基建成為推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的核心支撐力和驅(qū)動(dòng)力。據(jù)國(guó)際數(shù)據(jù)公司IDC、浪潮信息、清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合發(fā)布的《2022—2023全球計(jì)算力指數(shù)評(píng)估報(bào)告》顯示,2022年,中國(guó)整體服務(wù)器市場(chǎng)規(guī)模保持6.9%的正增長(zhǎng),占全球市場(chǎng)比重達(dá)25%。其中,生成式AI計(jì)算市場(chǎng)規(guī)模將從2022年的8.2億美元驟增到2026年的109.9億美元,成為驅(qū)動(dòng)互聯(lián)網(wǎng)、金融、教育、醫(yī)療和制造等行業(yè)未來(lái)創(chuàng)新發(fā)展的重要引擎。

在AIGC等應(yīng)用的驅(qū)動(dòng)下,服務(wù)器架構(gòu)正在由CPU密集型轉(zhuǎn)向搭載GPU、FPGA、ASIC芯片的加速計(jì)算密集型,算力呈現(xiàn)出多元化的發(fā)展趨勢(shì)。處理器架構(gòu)也呈現(xiàn)多元化,x86、ARM、Power、MIPS、RISC-V等處理器架構(gòu)持續(xù)并存。多元算力時(shí)代下,數(shù)據(jù)中心為保障大規(guī)模服務(wù)器的可靠穩(wěn)定運(yùn)行,各類(lèi)異構(gòu)設(shè)備統(tǒng)一運(yùn)維的挑戰(zhàn)日益凸顯。如何實(shí)現(xiàn)多處理器、多芯片設(shè)備高效、穩(wěn)定運(yùn)行,對(duì)服務(wù)器管理控制系統(tǒng)BMC (Baseboard Management Controller)固件的兼容性、精細(xì)度、定制化和快速迭代能力提出了一系列新的挑戰(zhàn)。

多元算力時(shí)代,服務(wù)器穩(wěn)定可靠的"第一道防線"面臨全新挑戰(zhàn)

BMC是在服務(wù)器中嵌入的復(fù)雜而獨(dú)立SOC(System on Chip)系統(tǒng),是互聯(lián)網(wǎng)、通信、金融等用戶(hù)數(shù)據(jù)中心集中運(yùn)維管理IT設(shè)備的核心組件,對(duì)服務(wù)器安全可靠運(yùn)行、遠(yuǎn)程集中管理和控制部署至關(guān)重要。

BMC由BMC硬件和BMC固件兩大部分組成。在硬件上BMC是完整的計(jì)算機(jī)系統(tǒng),包含嵌入式處理器、內(nèi)存(DRAM)和存儲(chǔ)芯片(Flash),外圍集成豐富的物理通道,連接數(shù)百個(gè)傳感器、CPU、內(nèi)存、磁盤(pán)、電源、網(wǎng)卡、GPU、RAID卡等各類(lèi)組件,實(shí)現(xiàn)對(duì)服務(wù)器硬件的全方位掌控。在軟件上,BMC固件基于Linux內(nèi)核構(gòu)建強(qiáng)大的嵌入式操作系統(tǒng),實(shí)現(xiàn)遠(yuǎn)程控制、故障診斷、配置部署、固件升級(jí)等各類(lèi)運(yùn)維管理功能,數(shù)據(jù)中心管理平臺(tái)通過(guò)BMC固件提供的Redfish、IPMI、SNMP等API接口實(shí)現(xiàn)海量服務(wù)器遠(yuǎn)程集中運(yùn)維管理和批量部署。

BMC固件以往通常依賴(lài)IBV(Independent BMC Vendor,獨(dú)立BMC固件提供商)設(shè)計(jì)的閉源商業(yè)方案,但伴隨著數(shù)字化轉(zhuǎn)型的快速,算力成為數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵要素,傳統(tǒng)的BMC研發(fā)在架構(gòu)的兼容性、開(kāi)發(fā)周期、創(chuàng)新性方面存在越來(lái)越多的的局限性:

  • 架構(gòu)落后,平臺(tái)兼容性差。算力基礎(chǔ)設(shè)施呈現(xiàn)多元化發(fā)展, x86、ARM、Power、MIPS、RISC-V等通用處理器平臺(tái)并存,同時(shí)GPU、FPGA、ASIC芯片等加速算力芯片百花齊放,傳統(tǒng)BMC固件架構(gòu)落后,可擴(kuò)展性差,無(wú)法快速適配兼容各類(lèi)算力芯片。
  • 代碼閉源,存在安全風(fēng)險(xiǎn)。由于代碼閉源,未經(jīng)過(guò)用戶(hù)和廣泛的同行安全檢查,隱藏的安全漏洞無(wú)法及時(shí)識(shí)別;且受限于代碼封閉,數(shù)據(jù)中心用戶(hù)更先進(jìn)的BMC固件安全策略無(wú)法應(yīng)用。
  • 開(kāi)發(fā)周期長(zhǎng),問(wèn)題處理慢。一方面,IBV Codebase代碼變更頻繁,已有功能、問(wèn)題在產(chǎn)品迭代過(guò)程中延續(xù)性較差,版本穩(wěn)定性也得不到保障,導(dǎo)致產(chǎn)品開(kāi)發(fā)周期長(zhǎng);另一方面,BMC固件問(wèn)題處理依賴(lài)于IBV響應(yīng)速度,從用戶(hù)側(cè)反饋固件問(wèn)題到問(wèn)題處理完畢往往花幾個(gè)月的時(shí)間,時(shí)效性無(wú)法得到保證,影響客戶(hù)體驗(yàn)。
  • 生態(tài)封閉,阻礙固件技術(shù)創(chuàng)新。在多元算力飛速發(fā)展的背景下,面向特定應(yīng)用場(chǎng)景的服務(wù)器研發(fā),需要更多軟硬件一體化設(shè)計(jì),用戶(hù)希望參與到管理固件開(kāi)發(fā)中,但是傳統(tǒng)BMC固件受限于商業(yè)模式,代碼閉源,通常附帶嚴(yán)格的代碼許可使用協(xié)議,限制用戶(hù)對(duì)軟件的使用和分發(fā),阻礙了固件技術(shù)創(chuàng)新。

OpenBMC勢(shì)不可擋,以開(kāi)源開(kāi)放加速融合多元算力的創(chuàng)新優(yōu)勢(shì)

由于傳統(tǒng)BMC固件存在著諸多問(wèn)題,且隨著數(shù)據(jù)中心的不斷壯大,運(yùn)維需求越來(lái)越向精細(xì)化、定制化的趨勢(shì)發(fā)展,業(yè)界開(kāi)始探索更加開(kāi)放先進(jìn)的BMC固件發(fā)展之路 -- OpenBMC順勢(shì)而生。OpenBMC是一個(gè)Linux基金會(huì)項(xiàng)目,其目標(biāo)是為BMC生成一個(gè)可定制的開(kāi)源固件堆棧,該堆??梢栽诜?wù)器、網(wǎng)絡(luò)交換機(jī)等設(shè)備上運(yùn)行。OpenBMC使用Yocto、OpenEmbedded、systemd和D-Bus技術(shù)輕松構(gòu)建定制的管理平臺(tái),為x86、ARM和Power等多元架構(gòu)服務(wù)器平臺(tái)提供統(tǒng)一上層接口,支撐企業(yè)、通信和云數(shù)據(jù)中心的管理服務(wù)。

OpenBMC軟件架構(gòu)
OpenBMC軟件架構(gòu)

  • 首先,OpenBMC生態(tài)開(kāi)放,已經(jīng)吸引了處理器、加速芯片、部件、服務(wù)器等產(chǎn)業(yè)鏈上下游主流廠商積極參與貢獻(xiàn)社區(qū),例如IBM、Intel、AMD、Ampere、NVIDIA、Aspeed、字節(jié)跳動(dòng)、阿里巴巴、浪潮信息等,各廠商發(fā)揮各自?xún)?yōu)勢(shì)建立了成熟穩(wěn)定的社區(qū)基礎(chǔ)代碼,并且能夠?qū)Υa進(jìn)行廣泛的評(píng)審、識(shí)別和修復(fù)安全漏洞,降低固件安全風(fēng)險(xiǎn),為BMC固件技術(shù)創(chuàng)新?tīng)I(yíng)造了活躍的生態(tài)環(huán)境。目前,OpenBMC已經(jīng)實(shí)現(xiàn)了一系列高級(jí)管理功能,包括遠(yuǎn)程控制、H5KVM、VNC、虛擬媒體掛載、傳感器狀態(tài)監(jiān)控、故障診斷、固件安全升級(jí)、PID散熱算法、MCTP、PLDM等功能,為系統(tǒng)可靠性、可用性和可維護(hù)性提供有力保障。
  • 其次,OpenBMC應(yīng)用了先進(jìn)開(kāi)放的軟件架構(gòu),基于分層解耦的軟件架構(gòu),功能模塊之間通過(guò)一致的系統(tǒng)總線接口協(xié)議進(jìn)行交互,擴(kuò)展性高,能夠?qū)崿F(xiàn)靈活的模塊化開(kāi)發(fā),同一套OpenBMC固件代碼能夠同時(shí)兼容多種處理器平臺(tái)、多種算力芯片等關(guān)鍵部件,對(duì)于新增部件也能夠快速適配兼容,大幅縮短迭代周期,提升開(kāi)發(fā)效率。
  • 第三,OpenBMC代碼開(kāi)源,服務(wù)器廠商和最終用戶(hù)可以基于成熟、創(chuàng)新的社區(qū)基礎(chǔ)代碼構(gòu)建安全可靠的管理固件。同時(shí),開(kāi)源有利于固件開(kāi)發(fā)模式創(chuàng)新和技術(shù)創(chuàng)新,面向特定大規(guī)模應(yīng)用場(chǎng)景,服務(wù)器廠商與最終用戶(hù)進(jìn)行聯(lián)合固件開(kāi)發(fā),利用可擴(kuò)展的軟件架構(gòu)開(kāi)發(fā)創(chuàng)新功能模塊,快速滿(mǎn)足客戶(hù)自定義、個(gè)性化的創(chuàng)新管理需求。
  • 最后,OpenBMC開(kāi)源開(kāi)放有助于推動(dòng)管理固件標(biāo)準(zhǔn)化。OpenBMC提供標(biāo)準(zhǔn)化的管理功能和管理接口,例如社區(qū)緊跟Redfish、MCTP、PLDM等規(guī)范演進(jìn),提供標(biāo)準(zhǔn)化管理API接口,有助于用戶(hù)數(shù)據(jù)中心管理平臺(tái)統(tǒng)一對(duì)接各廠商服務(wù)器,提升運(yùn)維管理兼容性和一致性。

OpenBMC經(jīng)過(guò)近十年的發(fā)展已趨于成熟,Intel、IBM、Meta(原Facebook)和Google等創(chuàng)始成員已經(jīng)將其應(yīng)用到各自產(chǎn)品中,國(guó)內(nèi)的互聯(lián)網(wǎng)、金融、通信、服務(wù)器、芯片等科技企業(yè)也正積極規(guī)劃基于OpenBMC的BMC固件解決方案,OpenBMC應(yīng)用前景勢(shì)不可擋。

浪潮信息攜手社區(qū)伙伴,加速OpenBMC發(fā)展

OpenBMC社區(qū)生態(tài)建設(shè)離不開(kāi)業(yè)界廣泛的參與和支持,作為開(kāi)源技術(shù)的擁護(hù)者與重要貢獻(xiàn)者,浪潮信息積極擁抱OpenBMC。早在2017年,浪潮信息與IBM合作貢獻(xiàn)社區(qū),并陸續(xù)完成多款主流服務(wù)器產(chǎn)品的OpenBMC適配。2022年,浪潮信息在OpenBMC社區(qū)開(kāi)源代碼貢獻(xiàn)排名中保持全球第5位和中國(guó)第1位,共計(jì)貢獻(xiàn)代碼13000余行,參與社區(qū)代碼審核1000余次,廣泛覆蓋Redfish、PLDM、LED、USB升級(jí)、OCC、時(shí)間管理、電源控制等模塊,推動(dòng)了社區(qū)的健康發(fā)展。

基于OpenBMC方案,浪潮信息構(gòu)建起更加穩(wěn)定可靠、更具擴(kuò)展性且芯片級(jí)安全的開(kāi)放架構(gòu)通用服務(wù)器產(chǎn)品。以業(yè)內(nèi)TOP級(jí)客戶(hù)的大規(guī)模數(shù)據(jù)中心為例,其服務(wù)器規(guī)模通常高達(dá)數(shù)萬(wàn)或數(shù)十萬(wàn)臺(tái),由于需求多樣,各種服務(wù)器產(chǎn)品配置多達(dá)400余種,每年需迭代幾十次。浪潮信息通過(guò)分層解耦、模塊化設(shè)計(jì)的OpenBMC方案,在BMC層面實(shí)現(xiàn)了軟硬件的標(biāo)準(zhǔn)設(shè)計(jì),支持服務(wù)器產(chǎn)品的快速、穩(wěn)定迭代,從而更快、更好的滿(mǎn)足用戶(hù)資產(chǎn)信息管理、故障預(yù)警、遠(yuǎn)程管理和批量自動(dòng)部署等需求。

充分利用OpenBMC等開(kāi)源技術(shù)賦能多元算力基礎(chǔ)設(shè)施建設(shè),需要持續(xù)推動(dòng)硬件、固件、軟件、系統(tǒng)等多方面的協(xié)同,強(qiáng)化處理器、部件、管理芯片、服務(wù)器、用戶(hù)各個(gè)層面的生態(tài)合作與聯(lián)合優(yōu)化,從開(kāi)源社區(qū)中汲取能量,從而引領(lǐng)開(kāi)放計(jì)算技術(shù)產(chǎn)業(yè)化落地,助力數(shù)據(jù)中心高質(zhì)量發(fā)展。

消息來(lái)源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection