大數據

數據治理之元數據管理實踐

引言:

數字轉型對不同的人意味著不同的東西,這取決于你的行業和你的業務性質。然而,所有的解釋都有一個共同的主線,數據和數據治理的重要性。近年來,大家都在談論數據逐步或已經成為企業的核心資產,數據驅動企業業務開展已經在不同的行業和企業中發揮著巨大的作用,那么作為企業的核心資產數據,如何進行管理是不同企業在進行全面數字化轉型需要考慮的一個重要事情。

關于元數據概念的文章網上有不少,本文主要探討一般的企業如何開展元數據管理工作。這里分享兩個主題元數據是什么、如何實現元數據管理。

元數據是什么

元數據最簡單的定義是描述數據的數據。這里有兩個關鍵點,一個是數據,一個是描述數據。企業中一般的可進行管理的數據如下表:

和元數據管理相關的另一個重要概念是元模型,要實現企業元數據管理,需要定義一個符合存儲企業數據現狀的元數據模型,且這個模型有不同粒度和層次的元模型,有了層次和粒度的劃分,未來元數據進行批量管理后就可以靈活的從不同維度進行元數據分析,如企業的數據地圖、數據血統都是基于此實現的。

我們試著把企業找中的技術元數據、業務元數據、操作元數據、管理元數據進行元模型的梳理,如下圖所示:

將以上梳理出的信息通過UML建模處理就得到了元模型,在元模型中有包、類、屬性、繼承、關系。創建元模型的時候也可以參考CWM,CWM定義了一套完整的元模型體系結構,但它是用于數據倉庫構建和應用的元數據建模。

如何實現元數據管理

下面分析下企業的元數據如何管理,從元數據管理什么、元數據怎么管理、元數據管理的難點、元數據管理的實踐這四個方面描述。

一、元數據管理什么

從多年的實施經驗看,國內企業進行元數據管理的方向有三個,一個是基于數據平臺進行元數據管理,由于大數據平臺的興起,目前逐步開始針對Hadoop環境進行元數據管理;二是基于企業數據整體管理規劃開展對元數據的管理,也是企業數據資產管理的基礎;三是元數據作為某個平臺的組件進行此平臺特有的元數據管理,它作為一個中介或中轉互通平臺各組件間的數據。

基于數據平臺的元數據管理相對成熟,也是業界最早進行元數據管理的切入點或者說是數據平臺建設的必備。

在此業務場景下,從技術維度講:元數據管理圍繞著數據平臺內的源系統、數據平臺、數據集市、數據應用中,數據模型,數據庫、表、字段、報表(指標存儲字段)、字段和字段間的數據關系進行管理。

業務維度講:管理指標的定義包括指標的業務維度,技術維度和管理維度三方面的數據、字段的中文描述、表的加工策略、表的生命周期信息、表或字段的安全等級。

應用維度講:實現數據平臺模型變更管理、變更影響分析、數據血統分析、高階數據地圖、調度作業異常影響范圍。

企業級數據管理,在企業整體數據管理背景下的元數據管理是數據管理的基礎,除了要管理在數據平臺元數據管理場景下的所有元數據外,核心是要解決元數據管理和數據標準、數據質量、數據安全、數據生命周期、數據服務的貫通問題,進行數據描述層面的信息融合。

在此場景下,元數據管理的著力點是字段或信息項,其他的管理維度或信息都可以基于字段或信息項進行擴展或外延。企業級的數據管理涉及的內容很多,但基于字段或信息項的擴展其結構是穩定的,它是一個支點。否則在紛繁復雜的數據管理業務中會迷茫和痛苦。下圖是基于信息項的各管理對象間數據關系,示例的說明了基于字段或信息項為管理核心和外延的定位。

最后是基于某個大型的平臺的元數據管理,這種場景出現在應用型的產品架構中,一般企業數據管理中不會涉及這個問題,這里就不展開介紹了。

二、元數據怎么管理

元數據管理要符合企業數據現狀,要能支撐企業數據人員分析數據的需要,元數據是企業數據資產的最原始詞典,我們需要從這本詞典中獲取到準確的數據信息,準確、便捷、深度、廣度是元數據管理努力的方向。

要實現企業元數據管理需從兩個方面考慮,一是盤點企業數據情況,搞清楚要管理哪些元數據以及這些元數據在什么地方,以何種形態存儲,他們之間有有著怎樣的聯系。

二是建模,這里的建模是建立元數據的模型及元模型,要抽象出企業的元模型,建立個元模型之間的邏輯關系??偨Y的講盤點企業數據資產和建立企業元模型是元數據管理的兩個基本步驟。下面我們展開的講一下這兩點:

企業數據資產盤點,首先要把元數據建設的定位定義清楚,短期解決什么問題,長期達到什么目的,基于短期目標要重點細化。舉個例子要實現企業物理模型的全面管理,實現數據結構變更一體化管理這個短期目標,那么就需要盤點企業有多少應用系統,每個應用系統有多少個數據庫,數據庫的種類有什么,哪些是業務數據表,哪些是垃圾數據表,每個數據字段的含義是否完整,每個系統那個業務部門使用,哪些管理員進行運維,企業的數據變更是否有流程驅動等。將以上信息分為兩大類,一類是數據模型本身的元數據信息,一類是支撐數據模型管理的元數據信息,這兩類信息都是需要盤點的內容。

元數據建模,元數據建模是對企業要管理的元數據進行結構化、模型化。元模型的構建要一般要參考公共倉庫元模型CWM,但也不能照搬CWM,否則構建的元模型太過臃腫,不夠靈活。在構建元模型過程中不但要關心模型的結構更要關系模型間的關系,每個模型在元數據的世界里是一個獨立的個體,個體和個體之間的關系賦予了模型間錯綜復雜的關系圈,這些關系的創建往后衍生會支撐數據圖譜或知識圖譜的構建。再拿數據資產盤點的例子來講,我們要建立數據庫元模型、表元模型、字段元模型、管理員元模型,其中庫-表-字段是通過組合關系來構建的,而表-表、字段-字段是通過依賴關系來構建的。通過這樣的關系構建就能將企業中的所有有交互的數據形成一個錯綜復雜龐大的數據關系網絡,數據分析人員就可以基于這張網絡進行各種信息的挖掘。

三、元數據管理中的難點

元數據管理是大數據平臺建設的重要組成部分,是企業實現數據資產,資產服務化的重要基礎,在數據管理大環境下和數據安全、數據質量、數據架構、數據模型等有著千絲萬縷的關系。也是是業務和技術互通的橋梁。因此元數據建設的好壞會對企業整體數據以及管理帶來重要的影響。

元數據管理的難點,個人認為有三個點。

首先是元數據識別,要確定要管理哪些元數據,按元數據的定義來看只要能描述數據的數據都能作為元數據進行管理,但從價值角度講一定要找到對數據業務、數據運維、數據運營、數據創新帶來幫助的元數據進行管理,避免眉毛鼻子一把抓。一般企業元數據建設都是圍繞數據集中的數據平臺進行全鏈路的源、數據平臺、分析系統的元數據數據管理,圍繞這條主線,進一步管理業務元數據和操作元數據。在建設過程中要圍繞本企業數據管理問題域進行虛實結合的建設。

其次是元模型的構建,元模型其核心結構要穩定,因為元數據的建設不是一蹴而就的,需要慢慢的積累和演變,因此存儲元數據的元模型結構一定要進行抽象出穩定的結構,比如:針對關系抽象出組合關系和依賴關系、針對模型要抽象出每一類型元數據父類或基類以方便其靈活擴展。

最后是元數據間的關系,從元數據應用的角度來看,光分析元數據的結構對數據分析人員和數據應用的價值還不是那么的突出。元數據管理的價值主要在其關系的豐富程度,舉個不恰當的例子,猶如一個人如果其社會關系足夠的豐富,那么其處理各種事情就游刃有余,元數據也類似數據分析和應用一定是從其關系中探尋出數據的價值進而指導業務或進行數據創新。從長期的實踐中發現,基于信息項或字段的元數據關系構建是最穩定的。

四、元數據管理最佳實踐

下面從多年的實踐角度談一談元數據管理:

謀定而后動,元數據管理是一盤棋,需要進行管理設計,如基于規范和制度的設計,元模型的設計、實施的設計,推廣的設計,每一環節想一想再動。

選好價值點,元數據管理是紛繁復雜的,它是對企業數據現狀的一種抽象、整合和展現,其管理是復雜和不容易的,其價值有可能是隱形的、不容易察覺的,它是一項承上啟下,貫通業務和技術的基礎性管理工作,因此選好不同時期其管理的價值點,逐步影響企業的方方面面。

選好工具,元數據管理可借助管理工具使管理工作變的相對快速和簡單一些,如元數據的采集、元數據存儲、數據血統、數據地圖、元數據整合等都可以通過元數據工具來實現。

關于作者:王鵬,現任普元大數據產品線總經理,2009年進入國內數據治理領域,先后主導或參與金融、運營商、制造、政府、航空,物流等行業的數據治理解決方案的編寫,以及相關落地項目的實施。

關于EAWorld:微服務,DevOps,數據治理,移動架構原創技術分享。

轉載本文需注明出處:微信公眾號EAWorld,違者必究。

我還沒有學會寫個人說明!

從火神山到雷神山 新華三的支援行動從未停止

上一篇

新冠肺炎下的中國ICT市場,沖擊與商機并存

下一篇

你也可能喜歡

數據治理之元數據管理實踐

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
篮球比分雷速直播网