omniture

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布

2024-09-11 14:04

芯東西9月7日報道,9月6日~7日,2024全球AI芯片峰會(GACS 2024)在北京舉行。本屆峰會以「智算紀元 共筑芯路」為主題,全面展示AI芯片產業(yè)在算力、網絡、存儲、軟件、系統(tǒng)及應用方面的前沿技術、最新成果與落地進程。

50+位產學研嘉賓全程密集輸出干貨,本屆峰會有超過1500位觀眾到場參會,線上觀看人次累計超過210萬。

大會由智一科技旗下芯東西聯(lián)合智猩猩發(fā)起主辦,以「智算紀元 共筑芯路」為主題,邀請50+位嘉賓來自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等領域的嘉賓與會,分享AI產業(yè)最新技術創(chuàng)新、落地現狀、商業(yè)化挑戰(zhàn)與機遇。

繼首日開幕式、數據中心AI芯片專場、Chiplet技術論壇火熱開場(直擊國產AI芯片生存現狀:GPU造血,TPU突襲,Chiplet成大勢,網絡卡脖子)后,峰會第二天演講繼續(xù)輸出密集干貨,并正式公布「2024年度中國智算集群解決方案企業(yè)TOP 20」、「2024年度中國AI芯片新銳企業(yè)TOP 10」AiiP AI生產力創(chuàng)新先鋒企業(yè)榜單。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲智一科技聯(lián)合創(chuàng)始人、智車芯產媒矩陣總編輯張國仁正式公布AiiP榜單

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布

一、AI之外,近存計算斗不過存算分離

上午主會場舉行的AI芯片架構創(chuàng)新專場期間,北京超弦存儲器研究院首席科學家戴瑾進行了一場信息滿載的存內計算主題演講。在回顧芯片級、機架級存算分離與近存計算的斗爭后,他拋出結論:AI之外,近存計算斗不過存算分離。

天量的AI模型參數帶來無盡的帶寬要求,存算分離架構的帶寬、功耗、時延會嚴重制約系統(tǒng)性能,嚴重降低硬件的費效比。涉及HBM、3D封裝等的近存計算,以及存內計算,成為必需品。

目前做存內計算的路線中,徹底借鑒人類的類腦計算進展緩慢,但戴瑾認為“笨的AI容易成功”。神經網絡計算中還有數字引擎和模擬引擎兩種路線。數字引擎把GPU、NPU或部分與內存集成在同一個芯片上,要求存儲介質可以和邏輯工藝集成;模擬引擎用存儲單元和存儲陣列做計算,等效內存容量擴大16倍,但可用算法有限。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲北京超弦存儲器研究院首席科學家戴瑾

存內計算按介質劃分為SRAM、NOR、DRAM成熟存儲介質和MRAM、RRAM、PCRAM、FeRAM等新興存儲介質。

戴瑾稱這些存儲介質都不理想,各有優(yōu)劣。如SRAM兼容邏輯工藝、速度快,但容量低、容易漏電;NOR Flash工藝成熟、節(jié)能,但無法使用先進工藝節(jié)點,且受擦寫速度和擦除次數所限,只能用于推理;DRAM理論上可用于訓練和推理,最大困難不在于技術,而在于產業(yè)。

新興存儲介質中,FeRAM存儲介質是鐵電材料。戴瑾認為,這是新興存儲中唯一容量可能超過DRAM且速度、功耗性能相對好的介質,應該可以在存算一體中取代DRAM,作為一種非易失存儲或存內計算介質都很有吸引力。

比新興存儲更新的是2T0C DRAM。在戴瑾看來,這是看得見的存儲技術中最理想的存內計算介質。2T0C DRAM分讀寫兩個MOS,利用讀晶體管的寄生電容做存儲。其最大的好處是做多bit更為簡單、直接,速度不遜于DRAM,能做到無限次擦寫、功耗很低,但唯一的不確定性是IGZO材料在半導體行業(yè)尚未徹底應用。

二、突破有效算力天花板,可重構、存算一體、類腦智能是未來

隨著AI PC等邊緣端推理需求增長,珠海芯動力創(chuàng)始人兼CEO李原相信,未來可重構芯片將成為主流。他認為性價比已成為邊緣計算的核心要求,但性能和TOPS并非直接掛鉤,模型在Prefill和Decode階段的計算類型不同,也對性能有不同的要求。針對這一特點,珠海芯動力推出了可重構并行處理器架構(RPP)。

RPP基于數據流架構,兼容CUDA指令集,融合了GPU和NPU的優(yōu)勢。RPP第一代產品算力可達32TOPS,DRAM帶寬達59GB/s,具有性能高、面積效率高、功耗低靈活性強的特點,FOStrip先進封裝工藝將芯片面積和厚度縮小至原來的1/3。測試中,其計算機視覺和信號處理性能都較同類產品有較大提升,以14nm工藝達到甚至超越了英偉達A100芯片的功耗。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲珠海芯動力創(chuàng)始人兼CEO李原

億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬認為,AI芯片架構創(chuàng)新將開啟大算力第二增長曲線。如今摩爾定律面臨挑戰(zhàn),以計算單元為中心的已到達天花板,將來AI芯片一定是以存儲單元為中心。

要突破有效算力的天花板有兩個路徑:芯片內,采用存算一體、先進封裝技術,減少數據搬運、傳輸延遲;芯片間,采用高速互連和Chiplet技術、硅光子技術以及類似于NVLink及NVSwitch的互連技術,提供高帶寬和低時延。

億鑄科技于2023年首次提出存算一體超異構架構,并致力于通過基于新型存儲介質,提供高性價比,高能效比的AI大算力芯片。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布

▲億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬

時識科技創(chuàng)始人兼CEO喬寧談道,類腦智能被認為是可以打破硅制程限制、解決算力瓶頸的未來技術之一。從生物腦獲得啟發(fā)的類腦感知、類腦計算,均比傳統(tǒng)計算方式效能更高。生物系統(tǒng)通過累積性變化檢測并轉化為脈沖,以優(yōu)化帶寬使用,動態(tài)相機也采用類似原理,以低功耗方式捕捉光強變化。類腦計算芯片是基于脈沖做計算的系統(tǒng),脈沖就是數字傳輸和計算的載體。

時識科技已經形成了事件相機(即類腦傳感器)、類腦處理器、感算一體動態(tài)視覺智能SoC三大產品矩陣。類腦視覺目前最大的關注點是手機后攝的高幀率成像應用。DVS事件相機通過模擬人類視網膜,在電路層面做出根本性改變,來突破全局快門對相機成像的幀率限制。通過對DVS事件相機數據做處理,可以達到等效高幀成像的效果。另外一個是XR領域眼動追蹤,由于DVS只對光強變化作出反應,生成稀疏點云數據,具有超低功耗、高動態(tài)范圍、超低延遲等優(yōu)勢,尤其超低功耗性能在眼動追蹤領域領先。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲時識科技創(chuàng)始人兼CEO喬寧

隨著數據量和算力的暴增與算法的提升,計算市場對可定制化、低成本、高安全性和高隱私性的需求日益提升。對此,2023年成立的鋒行致遠致力于研發(fā)存算一體的邊緣計算模組與解決方案,可實現大模型算力加速。據鋒行致遠創(chuàng)始人兼CEO孫唐分享,該公司已擁有面向PC、工作站、服務器和分布式集群的各類存算一體產品。

鋒行致遠的產品整合了存儲控制器與AI推理加速能力。其SSD內置算力,降低主機負載和整體功耗,也具備高保密性,可運用于AI PC加速、大模型推理加速、訓推一體加速等場景;GPU直通方案可實現對數據吞吐的加速達50%-300%,更通過共享內存降低能耗。針對AI推理加速,其端到端應用平均效率超英偉達NX平臺2倍,平均功效比存算分離方案提升3.7倍,還兼容多種框架。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲鋒行致遠創(chuàng)始人兼CEO孫唐

在PhySim資深產品工程師黃建偉看來,以先進封裝技術為基礎的3D IC和Chiplet技術,是后摩爾時代的必然選擇。然而,SIP/2.5D/3D等先進封裝復雜的制造工藝和嚴苛的設計要求,會導致材料、設備、涉及開發(fā)的生產成本大幅增加,同時這些先進封裝仍面臨散熱、制造工藝、成本上升等挑戰(zhàn),需要專門的仿真工具。

針對多物理場仿真場景,PhySim自研了一體化解決方案,包括熱仿真工具TurboT、信號完整性仿真軟件ACEM、電源完整性仿真軟件Physim-ET等產品,能夠實現高性能GPU加速,實現數倍甚至數十倍的效率提升,幫助設計人員定位溫度熱點優(yōu)化設計。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲PhySim資深產品工程師黃建偉

AI發(fā)展對芯片良率、延遲、高熱問題提出更高要求,業(yè)界正在探索更有效的芯片互聯(lián)技術,如分離Computing Die和IO Die、降低PCIe等傳統(tǒng)架構延遲、推動新標準支持AI應用。

UCIe作為推動芯片之間高效通信的新標準應運而生。UCIe提供了先進封裝和標準封裝兩種解決方案,其中先進封裝因具有兼容性和增加通道數有利于高速數據傳輸,適用于追求更高帶寬的應用,標準封裝密度較低適合產能受限的情況。

乾瞻科技產品高級總監(jiān)曹澤豪透露道,目前他們已經在5nm和4nm的技術節(jié)點上面向大客戶形成量產,3nm已經回片,同時正在將UCIe 1.1和1.0版本向2.0版本遷移。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲乾瞻科技產品高級總監(jiān)曹澤豪

三、加速邊緣與端側大模型落地,AI芯片如何做出極致性價比?

在下午舉行的邊緣/端側AI芯片專場,后摩智能聯(lián)合創(chuàng)始人、產品副總裁信曉旭分享說,大模型已從“上新品”進入“強應用”階段,中國的優(yōu)勢在應用創(chuàng)新,而應用創(chuàng)新的機會在邊緣側。目前AI芯片的痛點已經轉變?yōu)閮却嬖L問效率低,存算一體架構憑借低成本、低功耗、低延時的優(yōu)勢,適配了邊端側AI的需求。

后摩智能一直在探索存算一體技術,過去2年推出并量產了基于首代“天樞”架構的H30和M30邊端芯片,即使在落后一代工藝節(jié)點的情況下,能效比仍具有2倍的優(yōu)勢,這是存算一體架構帶來的收益。

該公司已提供從芯片到終端的完整解決方案,信曉旭說,后摩新一代芯片將基于“天璇”架構,計算效率將提升20%,對大語言模型/視覺語言模型、端邊場景進行優(yōu)化,更具易用性,明年就將問世。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲后摩智能聯(lián)合創(chuàng)始人、產品副總裁信曉旭

隨著大模型推動物理世界的智能化演進,更多的應用將在邊緣側完成。大模型使邊緣AI場景面臨新的算力挑戰(zhàn):算力需求大、帶寬要求高、計算擴展性強。云天勵飛副總裁、芯片業(yè)務線總經理李愛軍談道,國產工藝邊緣AI芯片要應對挑戰(zhàn),架構創(chuàng)新是關鍵。

面向新的邊緣AI計算場景,云天勵飛研發(fā)國內首顆基于國產工藝Chiplet系列化邊緣AI芯片,采用“算力積木”的理念,設計了D2D Chiplet/C2C Mesh大模型推理架構,從芯片設計、制程工藝、基板選擇到封裝測試均用國產技術,算力覆蓋8TOPS~256TOPS,滿足大模型落地的個性化需求,可應用于各類邊緣場景,并且工具鏈與軟件棧統(tǒng)一,算法的部署落地更便捷。

他預告說,云天勵飛后續(xù)將發(fā)布基于國產工藝的大模型邊緣推理一體機,提供更有性價比的邊緣算力。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲云天勵飛副總裁、芯片業(yè)務線總經理李愛軍

據安謀科技產品總監(jiān)楊磊分享,邊緣側大模型部署的載體包括AI手機、AI PC、智能汽車、機器人等,鑒于這些設備對成本、功耗及散熱的高度敏感性,100億參數規(guī)模以下的大模型被視為邊緣側部署的理想選擇。為實現邊緣側部署的最高效率,異構計算方案脫穎而出,它能夠充分挖掘并利用邊緣側設備的計算能力,從而達到性價比的最優(yōu)化。

為了應對大模型在邊緣側部署的挑戰(zhàn),安謀科技自研新一代“周易”NPU通過創(chuàng)新的計算單元微架構設計,能夠同時支持卷積神經網絡(CNN)和Transformer架構,在計算架構層面有效減輕了帶寬需求,并增強了算力的可擴展性。此外,“周易”NPU還能夠通過多核擴展,實現更強大的計算能力,進一步提升了邊緣側大模型部署的靈活性和效能。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲安謀科技產品總監(jiān)楊磊

智芯科從2019年開始研究基于SRAM的存算一體芯片,已有大量專利積累。智芯科創(chuàng)始人兼CEO顧渝驄認為,具身智能是其中最大的落地場景之一,具身智能對低延時、低功耗都有嚴苛的要求,因此有必要配備高能效的存算一體AI芯片。

存算一體芯片的主流技術路徑包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有讀寫速度快、能效比高、工藝成熟和可集成性佳的優(yōu)勢,可快速無限次讀寫,很適合Transformer的自注意力機制。

智芯科基于SRAM的模數混合存內計算芯片,精度高、量產一致性高,并能夠進一步降低功耗。硬件之外,智芯科還打造了通用性、易用性較強的軟件生態(tài)。據顧渝驄透露,未來智芯科將推出面向具身智能感知到大算力邊緣服務器的眾多產品,覆蓋大模型、機器人和自動駕駛等場景。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲智芯科創(chuàng)始人兼CEO顧渝驄

大模型認知智能已呈現初步的智能涌現,但很多都是單點的能力。聆思科技副總裁徐燕松強調了系統(tǒng)集成的重要性,對設備廠商而言,為大而全的AI單點能力找到中間態(tài)是主要命題。算法取決于場景,端側模型的算法應用會重新定義AI芯片需求,因此需要將算法算力一體化。

聆思科技致力于打造智能終端人機交互入口芯片,進行了云-端-芯算法算力一體化布局,提供自主知識產權AI芯片、高性能IoT芯片,并以模組成本最優(yōu)來設計芯片,能夠以單芯片滿足客戶在性能、價格兩方面的需求平衡。同時其端側內置超100項行業(yè)頂級AI算法,還能直連AI云平臺,與星火大模型形成聯(lián)動。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲聆思科技副總裁徐燕松

近年來,隨著智慧城市的推進,算法在公安、金融、安防及零售等多個領域的應用逐漸增多,基于此,極視角科技打造了算法商城。極視角科技聯(lián)合創(chuàng)始人&高級副總裁劉若水談道,在保證算法質量方面,極視角的優(yōu)勢是數據來源豐富、內部算法團隊會提供底層算法能力、40萬開發(fā)者通過PK評測保障算法最優(yōu)。

極視角科技已打造AI極星和AI極光平臺。AI極星平臺有標準的算法部署、硬件配置的功能,支持統(tǒng)一算法接入標準,可以納入符合接口規(guī)范的第三方算法,整個系統(tǒng)部署時間在1個小時左右;AI極光則側重于算法的輕量化部署。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲極視角科技聯(lián)合創(chuàng)始人&高級副總裁劉若水

視海芯圖創(chuàng)始人兼董事長許達文分享說,機器人需要同時運行感知、判定、決策和執(zhí)行任務,對算力和能耗要求嚴苛,視覺語言模型更是帶來了新的挑戰(zhàn)?,F在的機器人需要一款加速圖像融合處理傳統(tǒng)算法和AI算法的邊緣端芯片。

機器人感知一方面作為VLM大模型的輸入,另一方面為機器人SLAM建圖及位姿估計。視海芯圖推出了SH1210視覺芯片,整合了CPU、NPU、ISP、3DCP、特征提取模塊和多傳感融合模塊,讓應用和算法能以最大化的利用率映射到硬件。

其圖像融合架構實現了ISP每個處理步驟的可控,還可通過神經網絡處理識別關鍵目標和區(qū)域,進行針對性的圖像增強,實現能效提升。采用SH1210的RGB-D相機能夠高效融合深度空間數據和RGB信息,完善機器人的視覺信息。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布

▲視海芯圖創(chuàng)始人兼董事長許達文

富瀚微資深市場總監(jiān)馮曉光對邊緣視頻AI芯片進行復盤與展望。邊緣視頻AI芯片被設計用于攝像機、錄像機等邊緣設備,進行視頻內容分析和處理。Transformer將視頻處理帶入2.0時代,也為AI芯片帶來新的架構變化。區(qū)別于傳統(tǒng)的CNN網絡,Transformer大模型推理過程中的參數讀取帶來系統(tǒng)帶寬需求,計算過程中的矩陣相乘則帶來主動加速需求。

馮曉光認為,未來端側AI芯片不會呈某一個架構的統(tǒng)一,而會呈金字塔形態(tài)。其中,0.5TOPS以下算力的低端高性價比芯片,將覆蓋80%以上的應用;支持輕量化Transformer、AI ISP的中端主流AI芯片主要是NPU,算力1~8TOPS;高端的邊緣AI芯片可能以GPGPU架構為主,算力超20TOPS,可運行邊緣多模態(tài)大模型。

2024全球AI芯片峰會收官:架構創(chuàng)新群雄混戰(zhàn),邊端較勁大模型,兩大榜單公布▲富瀚微資深市場總監(jiān)馮曉光

結語:AI芯片企業(yè)承壓前行

隨著大模型革命席卷全球,算力需求達到新高,推動云邊端AI芯片迭代與進化。在數據爆炸式增長、工藝逼近物理極限、國際形勢復雜多變三朵烏云下,許多AI芯片企業(yè)低調務實地承壓前行,積極備戰(zhàn)生成式AI浪潮帶來的時代機遇。

從2018年3月舉辦國內首場AI芯片產業(yè)峰會至今,七年來,除了2021年受疫情影響外,全球AI芯片峰會基本上保持每年一屆的節(jié)奏,邀請近150位大咖分享前沿進展和行業(yè)洞見,成為了解國內外AI芯片發(fā)展動態(tài)的重要窗口,也是目前國內在AI芯片領域里最具影響力的行業(yè)峰會。

據智一科技聯(lián)合創(chuàng)始人、CEO龔倫常透露,智一科技旗下硬科技知識分享社區(qū)智猩猩將聯(lián)合智能產業(yè)新媒體智東西、智能汽車產業(yè)新媒體車東西,11月份在上海舉行今年的第二場生成式AI大會,12月份舉辦中國端到端自動駕駛峰會,歡迎參會交流。

消息來源:芯東西