omniture

IBM:邁向智能化數(shù)據(jù)經(jīng)緯的第一步 -- AI賦能,建立智能數(shù)據(jù)目錄

作者:王積杰,IBM數(shù)據(jù)與AI產(chǎn)品線大中華區(qū)信息架構(gòu)產(chǎn)品總監(jiān)
IBM
2022-01-24 17:19 5679

北京2022年1月24日 /美通社/ -- 數(shù)據(jù)治理已經(jīng)發(fā)展了20多年,從最早的元數(shù)據(jù)管理,到后來的數(shù)據(jù)質(zhì)量管理,很多企業(yè)多年前都建設(shè)了名為數(shù)據(jù)治理的項(xiàng)目。但是,如果你去問這些企業(yè),數(shù)據(jù)治理項(xiàng)目做得怎么樣?發(fā)揮了怎樣的業(yè)務(wù)價(jià)值和效益?你得到的答案往往不盡人意。很多企業(yè)建設(shè)好數(shù)據(jù)治理項(xiàng)目以后,就荒廢了沒有人使用。為什么會造成這樣的情況呢?究其原因是,其數(shù)據(jù)治就理項(xiàng)目只是面對IT人員的,并不是面對業(yè)務(wù)人員的。如果一個(gè)項(xiàng)目不是面對業(yè)務(wù)人員的,就難以發(fā)揮業(yè)務(wù)價(jià)值,業(yè)務(wù)人員無法使用,往往是不可能獲得成功的。因此,近年來,國外興起了建設(shè)數(shù)據(jù)目錄的熱潮,不只是談數(shù)據(jù)治理,而是為了解決面向業(yè)務(wù)人員并體現(xiàn)業(yè)務(wù)價(jià)值的問題。數(shù)據(jù)目錄就是為了幫助業(yè)務(wù)人員以及數(shù)據(jù)科學(xué)家,解決尋找數(shù)據(jù)、了解數(shù)據(jù)、優(yōu)化數(shù)據(jù)以及使用數(shù)據(jù)的難題。

什么是數(shù)據(jù)目錄?

圖1
圖1

很多人還不清楚什么是數(shù)據(jù)目錄,我來打個(gè)比方,我們用書來比喻數(shù)據(jù)。大家都知道圖書館的圖書目錄,我們過去進(jìn)到圖書館借書,首先就要去查找圖書目錄。如果一個(gè)圖書館如圖1右下角那副照片那么亂的話,相信就連圖書管理員也無法找到想要的書吧?如果一個(gè)企業(yè)的數(shù)據(jù)庫管理得那么亂,那么就連數(shù)據(jù)庫管理員可能也無法找到數(shù)據(jù)了。如果一個(gè)圖書館如圖1右上角那樣的話,那說明這個(gè)圖書館的書,已經(jīng)分門別類擺放整齊了,就像一個(gè)企業(yè)的數(shù)據(jù),結(jié)構(gòu)化的和非結(jié)構(gòu)化的,都分別在數(shù)據(jù)庫里或大數(shù)據(jù)平臺上,放得整整齊齊了。但是,對于圖書館來說,其主要任務(wù)是為讀者服務(wù)的,書擺放得整齊,需要借書的讀者就能借到他要的書嗎?我們都知道,那是不夠的,因?yàn)槿鄙僖粋€(gè)圖書目錄,就是圖1左邊的小抽屜。那個(gè)小抽屜里放的是一張一張的書卡,書卡上寫了一些什么呢?往往有書的名字、書的簡介、書的作者、書的出版年份,還有書的類別,比如是物理類的還是化學(xué)類的;書的屬性,比如是工具書類的還是文藝書類的;書適合的年級,比如一年級還是三年級;最重要的是書的具體位置,它是在圖書館的哪一排的哪一層的哪一格里。有了這張書卡,我們就可以輕松地找到這本書并借到這本書了。我曾經(jīng)和一個(gè)大型企業(yè)的CIO聊天,這家企業(yè)20年前就建了數(shù)據(jù)倉庫,十年前又建了大數(shù)據(jù)平臺和數(shù)據(jù)湖,類似數(shù)據(jù)治理的項(xiàng)目都建設(shè)過好幾期了。我問CIO最近企業(yè)在IT方面開展什么項(xiàng)目呢?CIO回答,最近招進(jìn)了好幾個(gè)數(shù)據(jù)科學(xué)家,打算開展AI項(xiàng)目的建設(shè),但是遇到了困難。數(shù)據(jù)科學(xué)家們在工作中,要花70%以上的時(shí)間在尋找數(shù)據(jù),而不是AI 建模。CIO問,為什么我們過去的數(shù)據(jù)治理項(xiàng)目,幫不了這些數(shù)據(jù)科學(xué)家呢?我就告訴這個(gè)CIO, 你們過去的數(shù)據(jù)治理項(xiàng)目,都是面向IT用戶的,不是面向業(yè)務(wù)人員的。如果你真的要幫助數(shù)據(jù)科學(xué)家方便快捷地找到他們要的數(shù)據(jù),你就要建設(shè)真正的數(shù)據(jù)目錄。

建立數(shù)據(jù)目錄的業(yè)務(wù)準(zhǔn)備

圖2
圖2

要建立真正的數(shù)據(jù)目錄,前期還是要做好一些業(yè)務(wù)方面的準(zhǔn)備工作的,就像建一張書卡一樣,書卡上的內(nèi)容,你先要準(zhǔn)備好。數(shù)據(jù)目錄一般有這樣一系列的業(yè)務(wù)域的元素:

  1. 數(shù)據(jù)分類(Categories):這是從業(yè)務(wù)角度,對業(yè)務(wù)數(shù)據(jù)的分類。就像圖書館里的書,按物理、化學(xué)、生物、醫(yī)學(xué)來分類一樣。企業(yè)里可以按分公司或部門來分類,也可以按業(yè)務(wù)類型來分類,如:銷售類、生產(chǎn)類、財(cái)務(wù)類等等。
  2. 業(yè)務(wù)術(shù)語Terms:業(yè)務(wù)術(shù)語就有點(diǎn)像書卡上的書名了,讀者根據(jù)書名來找書,那么數(shù)據(jù)科學(xué)家們往往也是根據(jù)業(yè)務(wù)術(shù)語來找他要的數(shù)據(jù)。比如:VIP客戶、日產(chǎn)量、月產(chǎn)量等。也可以是一些業(yè)務(wù)的指標(biāo)和維度。
  3. 政策Policies: 大到國家小到企業(yè),都有很多政策,會影響數(shù)據(jù)的性質(zhì)和使用。比如:個(gè)人數(shù)據(jù)的隱私保護(hù),歐盟有GDPR,中國也出臺了《個(gè)人信息保護(hù)法》,對個(gè)人信息我們需要打上隱私標(biāo)簽,進(jìn)行保護(hù),不能隨意泄露。
  4. 規(guī)則(Rules): 數(shù)據(jù)都有規(guī)則,有的是業(yè)務(wù)規(guī)則,有的是數(shù)據(jù)質(zhì)量規(guī)則。比如:身份證號碼,它的規(guī)則是18位的數(shù)字,前6位代表地區(qū),中間8位代表生日,后三位是序號,最后一位是校驗(yàn)碼。有些物料的號碼,第一位是字母代表材質(zhì),后四位四數(shù)字代表序列等等。
  5. 參考數(shù)據(jù)Reference Data:有些數(shù)據(jù)是代碼,需要通過參考數(shù)據(jù)來知道真正的數(shù)值。
  6. 數(shù)據(jù)分級(Classification): 就像書卡上會告訴你這本書是給一年級用的還是給四年級用的,數(shù)據(jù)也是需要分級的。比如:第一級的數(shù)據(jù)屬于公開數(shù)據(jù)大家都可以看,第二級的數(shù)據(jù)只有部門經(jīng)理才能看,第三級的數(shù)據(jù)是給高層領(lǐng)導(dǎo)看的,第四級數(shù)據(jù)只有董事會的成員才能看等等。
  7. 數(shù)據(jù)類型Data Class: 我們可以對數(shù)據(jù)根據(jù)它的類型進(jìn)行分類,比如:姓名、地址、電話、身份證號碼,或者是產(chǎn)品代碼、產(chǎn)品種類或是產(chǎn)量信息等等。我們需要對Data Class的類型進(jìn)行定義,比如通過正則表達(dá)式。Watson Knowledge Catalog將可以通過AI的方式,根據(jù)Data Class的定義,自動的進(jìn)行數(shù)據(jù)的分類和識別。

建立數(shù)據(jù)目錄的技術(shù)難點(diǎn)

數(shù)據(jù)目錄的實(shí)現(xiàn)其實(shí)并不容易,否則,為什么那么多年來,大多數(shù)的客戶還是在普通的數(shù)據(jù)治理層面,僅能夠面向技術(shù)人員,而不能面向業(yè)務(wù)人員呢?原因是:一個(gè)企業(yè)的業(yè)務(wù)域元素可能有幾萬個(gè),而技術(shù)域的元數(shù)據(jù)可能有幾十萬個(gè),幾萬個(gè)與幾十萬個(gè)的對應(yīng)關(guān)系,可比圖書館的書卡制作要復(fù)雜得多了。幾千本書你可以通過書卡,用人工的方法一一對應(yīng)。但幾萬個(gè)業(yè)務(wù)域元素和幾十萬個(gè)技術(shù)元數(shù)據(jù)的對應(yīng),全部要靠手工來實(shí)現(xiàn),幾乎是不可能完成的任務(wù)。這也是這么多年來,數(shù)據(jù)目錄沒有很快發(fā)展起來的原因,直到最近AI技術(shù)和機(jī)器學(xué)習(xí)技術(shù)的引進(jìn),才幫助我們解決了這個(gè)問題 -- 針對這個(gè)難題,IBM推出了Watson Knowledge Catalog。Watson是IBM響當(dāng)當(dāng)?shù)腁I名片,所以Watson Knowledge Catalog里,采用了大量的IBM企業(yè)級AI和機(jī)器學(xué)習(xí)的技術(shù),來幫助我們實(shí)現(xiàn)從業(yè)務(wù)到技術(shù)的關(guān)聯(lián)。

圖3
圖3

圖3展示了數(shù)據(jù)目錄各個(gè)元素之間的關(guān)系。其中,從業(yè)務(wù)術(shù)語到數(shù)據(jù)資產(chǎn)的那個(gè)紅色的箭頭,一直是數(shù)據(jù)目錄建設(shè)的難點(diǎn)。直到IBM采用了大量的AI和機(jī)器學(xué)習(xí)的方式,來幫助座自動的關(guān)聯(lián),才解決了這個(gè)問題。如果業(yè)務(wù)元數(shù)據(jù)或者Data Class定義了清晰的數(shù)據(jù)規(guī)則,那么,Watson Knowledge Catalog 就可以應(yīng)用AI的能力,進(jìn)行自動關(guān)聯(lián)。如果并沒有定義清晰的規(guī)則,那么,我們可以用人工的方式,手工地進(jìn)行關(guān)聯(lián),同時(shí)Watson Knowledge Catalog會進(jìn)行機(jī)器學(xué)習(xí),自動建立規(guī)則。當(dāng)你用手工多關(guān)聯(lián)幾次,自動建立的規(guī)則越來越完善以后,系統(tǒng)就能通過AI實(shí)現(xiàn)自動關(guān)聯(lián)了。

建立數(shù)據(jù)目錄的技術(shù)準(zhǔn)備

建立數(shù)據(jù)目錄,我們要了解企業(yè)內(nèi)部都有哪些數(shù)據(jù)?這些數(shù)據(jù)在哪里?數(shù)據(jù)質(zhì)量狀況是如何的?這些都可以使用Watson Knowledge Catalog的數(shù)據(jù)自動發(fā)現(xiàn)功能去實(shí)現(xiàn)。Watson Knowledge Catalog 會自動地發(fā)現(xiàn)數(shù)據(jù),自動地連接數(shù)據(jù)源,并導(dǎo)入元數(shù)據(jù)。它還可以自動地分析數(shù)據(jù)的質(zhì)量狀況,進(jìn)行數(shù)據(jù)質(zhì)量的打分,并形成數(shù)據(jù)質(zhì)量的圖表或儀表盤。數(shù)據(jù)質(zhì)量的打分,可以利用已經(jīng)定義的數(shù)據(jù)質(zhì)量規(guī)則,也可以允許業(yè)務(wù)人員用拼圖的方式,自定義數(shù)據(jù)質(zhì)量規(guī)則。這種定義方式有點(diǎn)像拼圖游戲,數(shù)據(jù)科學(xué)家可以用一些簡單的規(guī)則如大于、小于、等于、AND、OR、包含、不包含等,自己拼出數(shù)據(jù)質(zhì)量規(guī)則, 并運(yùn)行,幾分鐘就可以得到數(shù)據(jù)質(zhì)量的報(bào)告。過去,數(shù)據(jù)科學(xué)家拿到一批數(shù)據(jù),為了要了解其數(shù)據(jù)質(zhì)量,往往要把需求提給IT部門,IT部門還要請軟件開發(fā)商來寫程序,從而分析這批數(shù)據(jù)的數(shù)據(jù)質(zhì)量。從數(shù)據(jù)科學(xué)家提出需求,到拿到數(shù)據(jù)質(zhì)量報(bào)告,有的時(shí)候要幾周時(shí)間。這與我們目前的高效快節(jié)奏的社會完全不匹配。而如果數(shù)據(jù)科學(xué)家用拼圖方式,化5分鐘定義數(shù)據(jù)質(zhì)量規(guī)則,然后執(zhí)行它,15分鐘后,就能得到結(jié)果了。這種自助式的數(shù)據(jù)質(zhì)量探索能力,往往是數(shù)據(jù)科學(xué)家最希望的。

圖4
圖4

另外,元數(shù)據(jù)管理和血緣分析,也是數(shù)據(jù)目錄不可或缺的功能,他可以幫助數(shù)據(jù)科學(xué)家了解每一個(gè)數(shù)據(jù)從哪里來,到哪里去,從而更好地理解業(yè)務(wù)。

數(shù)據(jù)目錄的使用

本文開頭就提到,數(shù)據(jù)目錄建設(shè)的目的,是為了解決業(yè)務(wù)人員和數(shù)據(jù)科學(xué)家們發(fā)現(xiàn)數(shù)據(jù)和使用數(shù)據(jù)的難題。那么,為數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員提供一個(gè)友好的數(shù)據(jù)發(fā)現(xiàn)和使用的界面就尤為關(guān)鍵了。 Watson Knowledge Catalog 可以將數(shù)據(jù)目錄,展示成一個(gè)知識圖譜。業(yè)務(wù)人員可以既通過類似google的方式,通過搜索業(yè)務(wù)詞匯,找到他需要的數(shù)據(jù),也可以通過基于知識圖譜的發(fā)現(xiàn)和探索,很方便地圖形化地找到他要的數(shù)據(jù),并且可以自助地獲取這些數(shù)據(jù)。Watson Knowledge catalog自帶有數(shù)據(jù)隱私保護(hù)的功能。如果某個(gè)數(shù)據(jù)已經(jīng)被打上了隱私保護(hù)的標(biāo)簽,那么你就看不到這些數(shù)據(jù),這些數(shù)據(jù)會被打上星號或者漂白后再展示。數(shù)據(jù)科學(xué)家獲得了他要的數(shù)據(jù)后,還可以自助地優(yōu)化這些數(shù)據(jù)或者利用Watson Knowledge Catalog自帶的數(shù)據(jù)可視化工具,進(jìn)行數(shù)據(jù)圖形化展示,這些功能都極大地方便了數(shù)據(jù)科學(xué)家對數(shù)據(jù)的處理和分析。如果數(shù)據(jù)科學(xué)家需要進(jìn)行下一步的AI數(shù)據(jù)建模,還可以直接將這些數(shù)據(jù)不落地的送到我們的自動化AI建模工具AutoAI進(jìn)行建?;蛘連I 平臺Cognos進(jìn)行報(bào)表展現(xiàn),真正實(shí)現(xiàn)數(shù)據(jù)目錄為業(yè)務(wù)人員服務(wù)的功能。

圖5
圖5

后記

智能數(shù)據(jù)目錄的建設(shè),可以使業(yè)務(wù)人員或者數(shù)據(jù)科學(xué)家,隨時(shí)找到他們需要的數(shù)據(jù),并且可以通過自助的方式,獲取這些數(shù)據(jù)。這個(gè)功能,是實(shí)現(xiàn)Data Fabric的第一步。建設(shè)好了智能的數(shù)據(jù)目錄,就為今后Data Fabric的建設(shè)打下了堅(jiān)實(shí)基礎(chǔ)。Data Fabric已經(jīng)成為Gartner在2022年最熱的IT趨勢的第二名。企業(yè)實(shí)現(xiàn)Data Fabric的架構(gòu)將是大勢所趨,讓我們先從建設(shè)智能的數(shù)據(jù)目錄開始吧。

IBM_CN_Release_Author_Headshot
IBM_CN_Release_Author_Headshot

 

消息來源:IBM
相關(guān)股票:
NYSE:IBM
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection