首頁 > 易卦

4000字企業資料治理方法論,落地資料治理全靠它_建議收藏

作者:由 許可資料治理 發表于 易卦日期:2022-07-02

怎麼把資料變成圖形

大家好,我是許可,十多年來一直從事資料相關的工作,是個資料治理的實戰派。最近才在市場同事的建議下開了百家號,希望可以把多年的資料治理解決方案與資料治理實踐經驗分享給大家。

今天是第

7

篇,主要談談資料治理的方法論。

4000字企業資料治理方法論,落地資料治理全靠它_建議收藏

不吹不擂,這些年我服務過的公司早就超過了

100

家,涉及的行業包括智慧城市、園區、政府、集團企業、金融、製造、能源、電信、工程、教育、檢驗檢測等。

我發現一個突出的現象,

90%

的公司存在的資料問題都驚人的相似,不外乎資料不可取、資料不可用、資料管理無規劃、資料智慧程度低。

作為一個從專案助理一路幹到專案總監,到現在開公司當

CEO

的人,在資料行業也算摸爬滾打了接近

20

年。

既能夠感受到各行業資料方面的痛點,又能站在資料治理服務商的專業角度提出解決方案。

所以今天特別寫一篇深度文章,給各位有資料治理需求的

CEO

、領導們提供一個指南,掌握了這套方法論,資料治理就好乾了。

話不多說,上乾貨啦!

我們發現了資料存在的問題,當然就要解決它了,那具體怎麼解決呢?

根據多年的實踐經驗,我把整個資料治理過程,當做一個專案來做,如圖所示主要分為四個階段。

第一個階段、我們叫前期調研和標準制定

這個階段做什麼事情呢?

我們首先需要做充分的調研,需要對使用者的業務系統和資料進行調研和盤點。

第二步,我們制定資料標準。

資料標準一般來說有三類:

1

類就是我們的資料的描述和定義。

主要目的就是統一業務口徑。

2

類是什麼呢?我們的技術標準。

因為資料要需要透過中臺整合,要共享,這就要求我們必須得定一個技術標準。

後期我們需要告訴各個系統的供應商,這些資料怎麼整合怎麼共享,資料怎麼傳輸,這是一個標準化的東西。

3

類就是,管理辦法相關的標準。

我主資料怎麼管理?也必須要有個流程,有個制度。要不然就很容易引起混亂。

定完標準之後,就來到第二階段。

第二階段設計整個資料倉庫的架構

一般來說資料中臺都是有個資料倉庫,這個階段要做的事情,就是設計好資料倉庫的架構,分層分類的儲存和管理資料。

這裡就不用多說了,每個領域,每個行業都有自己的資料特點,需要根據實際情況確定最適合的方式。大多數情況下,都依賴於服務商成熟的實施經驗。應用到的技術其實都不難,熟手跟生手比起來,可以節省很多試錯的成本,效率也會更高。

第三階段,開發實施的階段

這個階段要做的事情就很簡單,不斷的整合系統,採集資料,然後對資料進行開發治理。

第四個階段就比較重要,是出成果的階段

成果無非就是兩個,第一個就是資料共享,第二個就是資料視覺化,給領導提供決策支援。

理論上,走完這四個階段,資料中臺實施專案過程就算結束了。但實際情況卻不是這樣的,因為公司的業務系統和資料在持續不斷地增加,資料治理也處在一直執行的狀態,這是一個長期運營的過程。

每接入一個新系統,每增加一類新資料,可能都要把上面的資料治理過程走一遍,這是資料治理的常態。

看到這裡,我相信各位已經對資料治理邏輯跟方法有了簡單的認識和了解。

接下來,我繼續為大家詳細闡述資料治理的方法論。

01

調研及資料資產盤點

進行詳細調研,盤點現有資料資產,摸清

家底

你的公司,最核心的資料是哪些?

第一個是指標,這是領導最關心的。

第二個是主資料,也就是常說的基礎資料,相對穩定。

常見的主資料包括組織、人員、裝置分類、物資分類、供應商名單、客戶名單等等。

可能每個企業對主資料的定義不一樣,但大部分都是這些,這也是企業最關鍵的資料。

02

制定資料標準

制定統一資料標準,可以有效消除業務資料雜、亂、差,打造高質量資料資產。

資料標準,其實就是對資料進行統一的描述。

資料標準的核心,就是資料來源。那什麼是資料來源呢?我打個比方,資料來源就是一張資料表中的一個具體的欄位。

比如說,我們公司有很多裝置,很多臺電腦。這些電腦就會有對應的資料,電腦的品牌、電腦的型號、電腦的編號、電腦的使用者等等,這些都可以稱作是資料來源,記錄這些資料的方式,就是在資料庫表裡面寫入一個個欄位。

我們為了更好地記錄這些電腦裝置的資料,就需要制訂一套資料標準,定義好每個欄位的基本屬性和描述。

接下來要做的事情就是,要把這些資料標準繞入到資料治理服務平臺這個工具裡面。為什麼要這麼做呢?它有兩個作用。

第一個是指導我們建立主資料庫,即建立主資料庫模型。第二個,我們可以透過這一套資料標準,來稽核採集到的資料的質量。

比如說,關於人員的姓名、身份證號碼、性別、學歷、畢業院校等基礎資料,都是可以透過制定好資料標準來校驗,資料是否填寫正確。

03

設計資料架構

什麼時候都應該因地制宜,做資料治理也是一樣的。需要根據企業現狀,制定整體資料架構規劃,明確資料中臺建設思路。

資料架構需要業務專家與資料專家共同規劃完成。

經驗分享:資料架構的規劃應全面,但建設範圍應逐步推進,聚焦於核心業務,不宜貪大求全。

通常來說,我們會把資料分為三層。

最底層,業內一般叫做

ODS

層。它存放的是我們原封不動,從資料來源系統搬過來的這個主資料,也就是業務資料。什麼都不做,就把資料放在那裡。

現在還有種說法,叫做資料湖。把所有的資料全搬過來,堆在一起。按照資料來源去分類。

再往上一層,叫做中間層。一般會根據需要,將最底層的原始資料整理成標準資料,再形成一個個分析專題庫。

像人資基礎庫、財務基礎庫、裝置基礎庫,都屬於標準資料。假設領導想要透過資料大屏,看一下分公司上一個季度的人員成本支出以及裝置使用情況,這就需要搭建一個分析專題庫。

最上面的一層,通常叫做應用層。常見的形式為報表、演算法以及看板等。

將資料分成這些層級是用來幹什麼呢?

常見的場景就是跨部門合作,需要共享資料,這些資料一般就取自最底層,也就是基礎資料層。

舉一個例子,規模稍大的公司,每個業務部門都有各自熟悉的供應商。這些供應商的資料一般都存在部門的資料庫裡面,如果需要拿另外一個部門的供應商資料,就需要找對應的業務部門。

這時候如果有個統一的基礎資料庫,需要找供應商就不用每次都問其他部門要了,種類全資訊也準確,這樣效率也會提高不少。還可以避免出現供應商重複出現在資料庫裡。

04

資料整合

為了打破企業中存在的資料孤島問題,需要把資料統一接入一個數據庫裡。

企業裡都會存在多種多樣的資料,有結構化的、半結構化的、非結構化的資料。還有很多資料很難採集到,不能透過資料庫拿到的,可以透過

API

介面,或者爬蟲機器人來採集。

一般來說,資料整合是最苦最累的。不過光點科技有自研的一套資料治理工具,可以透過視覺化配置的方式,不用寫程式碼就可以採集到各種型別的資料,極大地提升了資料整合的效率。

05

資料治理

接下來,就需要透過資料治理開發,讓企業的資料更一致、更準確、更可信、更易用。

資料治理,簡單來說就是要提升資料質量。

怎麼提升資料質量呢?我們光點是透過定義質量規則來提升資料質量。

我們一般會將質量規則分為唯一性、完整性、準確性、規範性、一致性、及時性六個維度。

6

個質量規則已經內建到我們的工具了,大家也可根據實際需要自己來定義拓展更多的質量規則來提升資料質量。

定義好這些資料規則之後,只需要將規則與資料庫中的欄位進行關聯,就可以來校驗這些資料的質量了。

如果使用我們光點的工具,可以自動來校驗資料質量,還可以定時輸出資料質量分析報告、透過資料看板來查詢資料質量問題。

06

資料開發

業內常見的資料開發方法,都是透過

ETL

工具來處理資料。我們以前都是透過自研的資料治理服務平臺幫助客戶進行資料開發。

我們把常用的資料轉換能力,如去重、過濾、合併、計算、欄位選擇、演算法等能力封裝為一個個元件,透過圖形化拖拽方式設計資料開發流程,做資料融合加工就非常省時省力。

透過視覺化的方式,編排排程任務,支援流程化、跨型別、分散式的任務排程和實時監控,處理複雜的多工協同資料開發治理時一點都不慌。

07

資料共享

讓資料高效流轉利用,促使多業務系統資料充分融合,為企業帶來新的價值增長點。

傳統的資料共享是怎麼樣的?

資料使用方要用資料的時候,他就找資訊化的部門。

資訊化的部門,就找資料提供方,因為資料不是資訊化部門的,他需要找資料提供方去申請。

提供方就說我要找領導審批一下。過一會兒,也或者過個兩三天,審批完之後

OK

了,資訊化人員就去找資料。

找到資料之後,三方一起坐下來協商一下這資料怎麼共享。

協商完了,資料使用方提供資料共享的環境,資訊化人員來配置一個共享的服務,然後一起聯調測試過了就

OK

了。

那這個效率是很低的,一般來說一個介面搞個

3

5

天都是正常的。

那麼怎麼做才能提高效率呢?

通常要共享的資料,大部分都是主資料。

每個產生資料的部門,把應該共享的資料都發到這個資料共享平臺上面來。

釋出上來之後,使用資料的人只需要到共享平臺上去看,去找有沒有想要的資料。

有的話提交一個使用申請,經過資料提供方審批後,系統自動把這些資料封裝成一個服務,這過程不需要人去幹預。

然後使用方就直接拿到資料了,整個過程都是線上的,非常快。

那如果這個資料共享平臺上面沒有想要的資料怎麼辦?

只需要聯絡資料共享平臺管理員,讓管理員去找資料提供方把這個資料釋出到共享平臺上面來,

接下來再走審批流程就可以了。

這個過程,如果快的話,

5

分鐘就搞完了。

這樣一來,資料共享的效率就可以得到大幅度提升。

08

資料視覺化

資料中臺建了半天,領導什麼都看不到,肯定以為中颱白建了,白花錢了,這肯定不行。

所以一定要有資料視覺化,你做了什麼一定要讓領導看得到,這是非常重要的。

如果你是部門領導或者公司老闆,不用我說你一看就懂了。

具體視覺化透過什麼形式呈現就得結合實際情況了。可以做成採用二維模型構建的資料大屏,做個駕駛艙,也可以做成數字孿生那樣的三維模型。這樣資料才更直觀,還能有一些資料互動,一看就很高大上。

好了,這一下子沒收住,碼了

3000

多字。我一直相信越分享,收穫就越大。

所以,我把資料治理方法論分享給大家,特別是意識到公司存在資料問題的各位

CEO

們。不求大家都可以讓自家技術按照這個方法論去搞資料治理,至少希望能夠幫各位在尋找服務商的時候可以少踩一些坑,少被忽悠點錢,那樣也夠了。

歡迎各位,來找我交流探討。

作者簡介:

許可,光點科技CEO,資料治理專家。專注資料治理20年,資料治理實戰派。分享資料治理解決方案與資料治理實踐經驗。