1.研究背景
隨著近年我國半導體產(chǎn)業(yè)快速發(fā)展,人工智能技術不斷積累迭代,軟硬一體的智能芯片等核心技術研究取得重要突破,AI也在數(shù)字時代扮演著越來越重要的角色,正加速融入電信運營商、能源交通、醫(yī)療、教育、制造業(yè)、物流、直播等多個領域,加之“東數(shù)西算”新基建相關云計算數(shù)據(jù)中心大規(guī)模投入使用,帶來 AI 算力的大幅提升,算力充沛,不斷賦能創(chuàng)造出新業(yè)態(tài)、新模式行業(yè)場景,實現(xiàn)大數(shù)據(jù)集成的迭代創(chuàng)新,多場景智能應用,提高生產(chǎn)過程自動數(shù)字化程度,同時推動經(jīng)濟社會發(fā)展全要素智能化革新,釋放數(shù)據(jù)要素紅利,創(chuàng)新美好未來。
社會生產(chǎn)能夠源源不斷地產(chǎn)生海量大數(shù)據(jù),但數(shù)據(jù)作為新型的生產(chǎn)要素,是通過不斷采集、清洗、轉(zhuǎn)換、分類、打標等流程完成整個數(shù)據(jù)資產(chǎn)積累過程,在這個過程中機器學習算法,尤其是深度學習算法,通過獲得海量的數(shù)據(jù),能夠不間斷進行密集型矩陣計算訓練,訓練可以幫助算法優(yōu)化,實現(xiàn)AI引擎更新和升級,完成AI深度學習模型的進化,豐富行業(yè)知識圖譜,提升數(shù)據(jù)質(zhì)量,為AI提供優(yōu)質(zhì)可靠的“數(shù)據(jù)燃料”,從而進入到 AI 引擎自我迭代的全新階段。
圖1. AI 引擎分層架構(gòu)圖
2.AI引擎進入自我迭代階段
當前,我國新基建建設強調(diào)產(chǎn)業(yè)融合,除了發(fā)揮數(shù)據(jù)的生產(chǎn)要素效能,比如:能源上下游產(chǎn)業(yè)打通并帶動車聯(lián)網(wǎng)、物聯(lián)網(wǎng)平臺迅速發(fā)展,節(jié)點傳感器廣泛連接也帶來數(shù)據(jù)量的暴增,不斷突破,促使數(shù)據(jù)存儲處理相關的基礎設施加速“擴容”,不僅實現(xiàn)數(shù)據(jù)在內(nèi)部流動,甚至跨行業(yè)流動,還要推動數(shù)據(jù)要素跨越行業(yè)邊界,組成全新的生態(tài)網(wǎng)絡和價值網(wǎng)絡,數(shù)據(jù)要素是企業(yè)組織數(shù)字化轉(zhuǎn)型的成果。
那么,隨之而來的是企業(yè)組織數(shù)字化轉(zhuǎn)型,是要在解決數(shù)據(jù)要素生產(chǎn)的迫切需求的同時兼顧數(shù)據(jù)資產(chǎn)到數(shù)據(jù)要素的轉(zhuǎn)化成本,能夠讓企業(yè)組織更快更好實現(xiàn)數(shù)據(jù)資產(chǎn)化的數(shù)據(jù)治理安全理論越來越倍受關注和重視,有助于提升數(shù)據(jù)價值。
根據(jù)IDC研究表明,到2025年,全球數(shù)據(jù)量將會從2016年的16 ZB上升至163ZB。著名研究機構(gòu)Garter也表示,全球信息量正以59%以上的年增長率快速增長,在這些數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%,其余80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機器數(shù)據(jù)等又占據(jù)非結(jié)構(gòu)化數(shù)據(jù)的90%。對于企業(yè)組織而言,不僅面對已有的龐大冗余舊數(shù)據(jù),未來還會有大幅激增的新類型數(shù)據(jù),企業(yè)組織要管理和運用好海量的數(shù)據(jù)并對這些數(shù)據(jù)進行有效地挖掘,需要借助數(shù)據(jù)治理安全平臺落地實踐。因為具備AI引擎自我迭代能力的平臺對數(shù)據(jù)識別分類的準確率能夠達到90%以上,所以數(shù)據(jù)治理安全建設離不開AI 引擎助力,不斷自我迭代的AI引擎才能消化掉海量數(shù)據(jù)。
圖2. AI 引擎的自我迭代
3.AI引擎的自我迭代之路
AI引擎自我迭代的過程是利用機器學習模型,模仿人腦的機制來解釋數(shù)據(jù),例如:圖像、聲音和文本,訓練好的AI模型,能夠自動提取字符集、詞級、句子級的特征,結(jié)合上下文信息,完整的保留文本中短語級別特征信息,實現(xiàn)多源數(shù)據(jù)融合、數(shù)據(jù)采集頻率、數(shù)據(jù)標準建立、數(shù)據(jù)質(zhì)量管理,滿足AI模型所需數(shù)據(jù)的規(guī)模、質(zhì)量和時效,以提升模型擬合的效果。
首先是AI引擎早期小樣本數(shù)據(jù)學習階段?;跈C器學習、自然語言理解和知識圖譜訓練所需的數(shù)據(jù)原料篩選需要人工監(jiān)督,通過人工不斷地提供結(jié)構(gòu)化、特征化處理和數(shù)據(jù)質(zhì)量的優(yōu)化服務,根據(jù)數(shù)據(jù)特征和用戶需求進行動態(tài)調(diào)整和反饋,知識圖譜搭建也需要大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)支持來開展工作,在結(jié)構(gòu)化數(shù)據(jù)基礎上,將半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)納入數(shù)據(jù)源并支持AI引擎分析使用。
其次是AI引擎進行數(shù)據(jù)分析階段。數(shù)據(jù)質(zhì)量的高度敏感要求,數(shù)據(jù)質(zhì)量的優(yōu)劣極大程度影響AI模型的應用效果,必須進行多維度的質(zhì)量檢查,以及對實時性高要求,實時數(shù)據(jù)分析、推薦和預警時,數(shù)據(jù)源更強調(diào)具備實時性接入能力。利用深度神經(jīng)網(wǎng)絡可以實現(xiàn)AI模型的自我更新和優(yōu)化,尤其是視覺圖像識別應用領域。比如:當傳感器檢測到產(chǎn)品存在時,光源觸發(fā)并點亮產(chǎn)品區(qū)域,幀抓取器的數(shù)字化設備將這些原始數(shù)據(jù)轉(zhuǎn)換成數(shù)字輸出,然后這些數(shù)據(jù)作為數(shù)字文件由軟件系統(tǒng)存儲在計算機中,以供進一步對比分析預先輸入的產(chǎn)品參數(shù)數(shù)據(jù)。如果這些數(shù)據(jù)有缺陷,AI引擎識別問題并學習如何解決,進行數(shù)據(jù)質(zhì)量控制。
最后是AI引擎的自我迭代階段。通過打造AI引擎對數(shù)據(jù)的閉環(huán)流通管理,建立數(shù)據(jù)采集和回饋分析的閉環(huán)式自學習體系,基于實時數(shù)據(jù)處理、實時特征開發(fā)和實時應用開發(fā)等數(shù)據(jù)架構(gòu)的搭建,將流式數(shù)據(jù)的接入實時反饋到模型運行輸出,使模型結(jié)果更加及時準確。達到AI模型上線后的持續(xù)迭代優(yōu)化。為了讓Al模型的預測結(jié)果更加準確,可將模型運行后的結(jié)果數(shù)據(jù)更新反饋給Al模型,利用實時閉環(huán)數(shù)據(jù)進行自學習,強化反饋回路以優(yōu)化模型算法,防止模型效果因長時間使用而效果變差。比如,數(shù)據(jù)智能分類分級模型持續(xù)用舊模型預測新數(shù)據(jù),不更新閉環(huán)數(shù)據(jù)反饋的話,隨著時間的流逝,模型將逐漸降低精準分類分級效果,導致數(shù)據(jù)分類分級的效果越來越差。
一個好的數(shù)據(jù)治理安全解決方案必須做到算力、算法和數(shù)據(jù)的象限聚焦。在數(shù)據(jù)治理安全平臺,通過AI引擎對數(shù)據(jù)的深度加工與精煉,依賴算力、算法將數(shù)據(jù)訓練成行業(yè)專用的知識圖譜模型,進而實現(xiàn)包括結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù)的自動發(fā)現(xiàn),數(shù)據(jù)自動分類分級打標,數(shù)據(jù)資產(chǎn)化,數(shù)據(jù)質(zhì)量在數(shù)據(jù)字段豐富度、數(shù)據(jù)分布和數(shù)據(jù)實時性等維度應用提升。
圖3. 機器學習技術框架應用
4.AI引擎在數(shù)據(jù)治理安全平臺應用實踐
積累沉淀行業(yè)業(yè)務場景的數(shù)據(jù)治理和模型開發(fā)經(jīng)驗,搭建數(shù)據(jù)治理安全平臺,采用具備自我迭代的AI引擎,能夠自動對AI數(shù)據(jù)形式進行標準定義,將特征工程標準化、自動化、智能化,快速對接得到可被機器理解的結(jié)構(gòu)化、半/非結(jié)構(gòu)化數(shù)據(jù),投喂給AI引擎,縮短掃描敏感數(shù)據(jù)發(fā)現(xiàn)時間,提高數(shù)據(jù)自動分類分級打標效率,從而自動改善數(shù)據(jù)質(zhì)量。
AI 引擎從全域全量數(shù)據(jù)自動發(fā)現(xiàn)到暗數(shù)據(jù)掃描再到數(shù)據(jù)分類分級的階段,借助文本聚類等技術,對數(shù)據(jù)進行基于上下文的識別,精準分類分級,快速整理高頻詞根并將數(shù)據(jù)分類標簽與敏感度自動映射,建立數(shù)據(jù)分類分級標準和數(shù)據(jù)安全策略,通過深度學習自動識別數(shù)據(jù)質(zhì)量,對數(shù)據(jù)質(zhì)量進行效果評估和智能修復,并根據(jù)數(shù)據(jù)量和業(yè)務階段的變化進行動態(tài)更新;建立起業(yè)務部門與系統(tǒng)之間、多環(huán)節(jié)業(yè)務流程的信息采集、關聯(lián)和交互,提高數(shù)據(jù)要素流通效率和精確度。
首先是全域全量數(shù)據(jù)自動接入。接入多源異構(gòu)數(shù)據(jù)源,挖掘企業(yè)組織內(nèi)外部信息,納入結(jié)構(gòu)化數(shù)據(jù),半/非結(jié)構(gòu)化數(shù)據(jù),提升與AI模型相關的數(shù)據(jù)積累??紤]到數(shù)據(jù)訓練規(guī)模擴張,數(shù)據(jù)類型異構(gòu),數(shù)據(jù)噪聲指數(shù)級增加,對此AI 引擎能針對性地進行數(shù)據(jù)自動發(fā)現(xiàn)。企業(yè)組織存在大量的暗數(shù)據(jù)無法通過人工完全發(fā)現(xiàn),被動地通過流量監(jiān)測方法去分析流量中的數(shù)據(jù)包,僅能使用少量暗數(shù)據(jù),企業(yè)組織往往很難具備將大量暗數(shù)據(jù)的價值進行挖掘的能力,暗數(shù)據(jù)只能“埋沒在角落里,無人問津”,AI 引擎有助于掃描到這些暗數(shù)據(jù),即使是碎片化數(shù)據(jù),也能進行聚類分析,最大限度利用。
其次是數(shù)據(jù)自動分類分級打標。在行業(yè)數(shù)據(jù)訓練集中,對各數(shù)據(jù)資源的字段信息進行人工分詞、標注,形成行業(yè)數(shù)據(jù)分類分級詞庫、語料庫、規(guī)則庫以及模型庫;然后利用規(guī)則引擎實現(xiàn)初步的行業(yè)數(shù)據(jù)分類分級;再結(jié)合深度學習聚類算法,AI 引擎驅(qū)動數(shù)據(jù)分類分級全流程各環(huán)節(jié),對數(shù)據(jù)分類和分級的規(guī)則進行適配、更新和維護,定期核驗規(guī)則合理性,動態(tài)完善規(guī)則庫,隨規(guī)則變化進行迭代更新,滿足規(guī)則靈活適配和管理要求,實施持續(xù)迭代訓練和學習,使得AI 引擎能夠自動發(fā)現(xiàn)高敏感度、高價值數(shù)據(jù),對行業(yè)數(shù)據(jù)自動智能分類分級打標并能進行動態(tài)調(diào)整更新。
最后是數(shù)據(jù)質(zhì)量的自動改善。對接入的多源異構(gòu)數(shù)據(jù)從數(shù)據(jù)有效性、數(shù)據(jù)一致性、數(shù)據(jù)唯一性、數(shù)據(jù)時序性、數(shù)據(jù)完備性、數(shù)據(jù)完整性、數(shù)據(jù)合理性和數(shù)據(jù)準確性六個維度進行質(zhì)量管理,在數(shù)據(jù)融合過程中,AI引擎能夠?qū)?shù)據(jù)有效性、一致性和唯一性三個維度進行重新判斷,如:非結(jié)構(gòu)化數(shù)據(jù)在清洗處理后與結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)實體重復或內(nèi)容不一致的情況。
場景舉例:海石平臺AI引擎如何解決工業(yè)高頻高價值應用下的數(shù)據(jù)痛點。由于工業(yè)機理數(shù)據(jù)具備多樣、時序與復雜性特征,線下海量數(shù)據(jù)待挖掘,從驅(qū)動經(jīng)濟效益的高頻高價值業(yè)務場景需求出發(fā),使用AI引擎自動發(fā)現(xiàn)數(shù)據(jù),對數(shù)據(jù)整合、數(shù)據(jù)分類與清洗、模型訓練,優(yōu)化迭代,實現(xiàn)數(shù)據(jù)資產(chǎn)化目標。
圖4. 數(shù)據(jù)治理安全平臺AI引擎框架
5.AI引擎在行業(yè)數(shù)據(jù)治理安全領域的持續(xù)優(yōu)化
由于工業(yè)數(shù)據(jù)來源眾多,既有經(jīng)營管理財務數(shù)據(jù),還有工業(yè)生產(chǎn)制造數(shù)據(jù)及傳感器設備的海量數(shù)據(jù)等,并且數(shù)據(jù)采集設備種類多、接口復雜。打通數(shù)據(jù),讓數(shù)據(jù)匯聚,可共享流轉(zhuǎn)應用是工業(yè)數(shù)據(jù)的數(shù)據(jù)治理安全痛點。
工業(yè)數(shù)字化轉(zhuǎn)型過程中將產(chǎn)生龐大量級的時序數(shù)據(jù),因此對時序數(shù)據(jù)的測點范圍選取、采集頻率考量、高并發(fā)高吞吐能力、能否支持云邊協(xié)同及實時應用。
在產(chǎn)品的設計加工和生產(chǎn)制造流程中,企業(yè)需對時序數(shù)據(jù)的采集、存儲、查詢、處理和分析,實時監(jiān)控企業(yè)正常的生產(chǎn)經(jīng)營過程。
工業(yè)產(chǎn)業(yè)鏈條長及工業(yè)機理復雜,需了解大量工業(yè)技術原理、行業(yè)知識、基礎工藝等,強調(diào)對工業(yè)背景的理解。
海石平臺AI引擎利用機器學習技術,工業(yè)機理數(shù)據(jù)自動發(fā)現(xiàn),數(shù)據(jù)分類分級的環(huán)節(jié)更加自動化、智能化,可極大提升數(shù)據(jù)治理工作效率,同時基于自然語言理解和知識圖譜挖掘關聯(lián)數(shù)據(jù)的應用價值,解決數(shù)據(jù)質(zhì)量管理的傳統(tǒng)難題,使治理后的數(shù)據(jù)更加契合AI應用的要求,從效率和質(zhì)量加速AI引擎的自我迭代進程。那么AI引擎不斷優(yōu)化也給企業(yè)組織帶來更多智能化轉(zhuǎn)型信心,加大相關數(shù)據(jù)治理安全項目的預算投入,進一步推進了相關數(shù)據(jù)治理安全體系建設,打造平臺共享數(shù)據(jù)使用,確保數(shù)據(jù)安全合規(guī),釋放價值。
結(jié)論:當下數(shù)據(jù)生產(chǎn)要素已成為中國數(shù)字經(jīng)濟轉(zhuǎn)型、工業(yè)智能化、實現(xiàn)高質(zhì)量發(fā)展重要驅(qū)動力,數(shù)據(jù)共享使用無疑是正確發(fā)揮數(shù)據(jù)生產(chǎn)要素價值的最佳途徑,而人工智能則是加快數(shù)據(jù)共享使用的火箭推進器引擎。如果以人工智能為核心的AI 引擎的能夠不斷自我迭代的話,不僅能夠加快企業(yè)組織數(shù)據(jù)治理安全的效能,而且會對各行各業(yè)乃至中國數(shù)字經(jīng)濟和整體社會發(fā)展都有著至關重要的戰(zhàn)略意義。
圖5. 數(shù)據(jù)治理安全平臺可視化展示