国产粉嫩无码不卡在线观看,酒店大战丝袜高跟鞋人妻,特级精品毛片免费观看,欧美亚洲日本国产综合在线

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

今天我們主要從更偏技術(shù)的角度來探討數(shù)據(jù)質(zhì)量的問題,主要有4個(gè)方面。

第一個(gè)方面是與數(shù)據(jù)質(zhì)量相關(guān)的概念。

第二個(gè)方面是談?wù)勎覀儗τ跀?shù)據(jù)質(zhì)量的新認(rèn)知,既然是談數(shù)據(jù)質(zhì)量我們就需要先認(rèn)知一下什么叫數(shù)據(jù)質(zhì)量。

第三個(gè)方面是重點(diǎn)談一下我們在做數(shù)據(jù)質(zhì)量管理中的一些難點(diǎn),其中會重點(diǎn)關(guān)注一下數(shù)據(jù)質(zhì)量的審查,因?yàn)閷彶闀苯优c我們的這個(gè)數(shù)據(jù)質(zhì)量的評判有直接關(guān)聯(lián)。

最后我會用一個(gè)例子來看一看企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量管理的一些過程,希望能跟各位討論一下在談數(shù)據(jù)質(zhì)量管理的時(shí)候,我們應(yīng)該從哪方面去著眼。

01與數(shù)據(jù)質(zhì)量管理的相關(guān)概念

第一個(gè)方面我們來看看相關(guān)的知識,也就是與數(shù)據(jù)質(zhì)量管理相關(guān)的概念。

首先我們看這個(gè)DAMA 的DMBOOK,這個(gè)圖是我們典型的DMBOOK宣傳的9大板塊,其中有一個(gè)很重要的板塊叫data quality的管理。在這張圖中有關(guān)的數(shù)據(jù)質(zhì)量的這一塊中我們挑了4個(gè)點(diǎn)來講,我把它們總結(jié)為“固本清源”,表達(dá)了我的一個(gè)理解。首先是講定義,有些翻譯成規(guī)范,就是說在講數(shù)據(jù)質(zhì)量管理的時(shí)候,我們的定義是什么樣子的?第二個(gè)關(guān)注點(diǎn)是分析,就是說我們講數(shù)據(jù)質(zhì)量肯定離不開數(shù)據(jù),要去分析它的脈絡(luò)、分析它的關(guān)系。第三個(gè)是它的度量,其實(shí)也就是評估,在談這個(gè)評估的情況下,肯定是要有一個(gè)標(biāo)準(zhǔn),而且還有一套方法才能進(jìn)行度量。第四個(gè)就是improvement,這里強(qiáng)調(diào)的是管理的閉環(huán)。從數(shù)據(jù)質(zhì)量管理的角度,我想我們要關(guān)注“固本清源”,首先要從“本”來去了解數(shù)據(jù)的這些問題。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

我們還有另外一個(gè)角度,這個(gè)是來自業(yè)界的一些實(shí)踐。我這里挑了一個(gè),就是說談到data quality我們關(guān)注數(shù)據(jù)的什么呢?首先是這個(gè)輪廓,其實(shí)跟DAMA DMBOOK里面提到的“分析”是比較相同的,但是出發(fā)點(diǎn)是不一樣的。這里面更強(qiáng)調(diào)的是我們整個(gè)數(shù)據(jù)的屬性,是不同的角度。第二個(gè)我們談數(shù)據(jù)的清洗,做清洗就離不開規(guī)則,其實(shí)清洗的本質(zhì)是規(guī)則,而不是清洗的動作。第三個(gè)我們談監(jiān)控、監(jiān)管,我們要有監(jiān)控的能力和監(jiān)管的能力,就是說我們怎么識別它是有問題的,甚至是需要我們關(guān)注的。第四個(gè)就是遵從跟合規(guī)的問題。最后一個(gè)是可追溯,這個(gè)其實(shí)跟我們剛才的DAMA DMBOOK的里面是有同樣的角度了,之前是叫做分析溯源,在這里面就是可追溯性。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

還有一個(gè)角度是來自技術(shù)界的角度,就是說我們站在技術(shù)的角度,我們怎么理解這個(gè)數(shù)據(jù)質(zhì)量管理。在業(yè)界里面我們在談技術(shù)的時(shí)候、我們在談這個(gè)數(shù)據(jù)質(zhì)量管理的時(shí)候,我們是有什么角度呢?在這個(gè)紅框里面大家可以看到,首先就是說我們要具備這樣的能力去做數(shù)據(jù)質(zhì)量管理,就算你用這個(gè)好的數(shù)據(jù)質(zhì)量管理工具,也應(yīng)該有這個(gè)能力。另外一個(gè)就是離不開ETL了,ETL我們認(rèn)為是數(shù)據(jù)集成。那還有清洗,剛才我們也提到了清洗的能力是怎么樣,包括它的匹配能力,在我們數(shù)據(jù)質(zhì)量管理里面有很多是離不開匹配的,比如說怎么去發(fā)現(xiàn)唯一性的問題。這些都是我們講到的,包括一些技術(shù)上的推薦、包括規(guī)則的發(fā)現(xiàn)、包括我們數(shù)據(jù)補(bǔ)充完善的一些問題等等。這是從技術(shù)界的角度來看數(shù)據(jù)質(zhì)量管理。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

除了通過三個(gè)角度看它的不同聚焦的一些概念之外,這里還有一張圖,是一個(gè)示例。我們數(shù)據(jù)質(zhì)量管理的維度在哪里?這張圖比較好的表達(dá)了一個(gè)流程人員跟技術(shù)。作為一個(gè)數(shù)據(jù)質(zhì)量管理來講,其實(shí)我們是離不開這幾個(gè)維度去做工作。大家在討論的時(shí)候,不同的等級會討論不同的問題,比如說流程更偏管理、更偏我們的戰(zhàn)略、更偏我們的這種方法。People這一塊呢我們可能更講我們的組織架構(gòu),更講我們的這個(gè)人員的界定,更講我們的名單,講我們的收益。

02數(shù)據(jù)質(zhì)量的新認(rèn)知

第二部分我們想看一看數(shù)據(jù)質(zhì)量的認(rèn)知是什么。

我想通過一個(gè)例子,大家可以看一下這個(gè)場景。這個(gè)場景是太經(jīng)常碰到的情況,就是說我們在業(yè)務(wù)IT里面,大家可能不一定意識到它是一個(gè)數(shù)據(jù)質(zhì)量的問題。我舉個(gè)例子,這里面提到人員信息整合,怎么實(shí)現(xiàn)我們的員工渠道,包括IT外包人員信息的整合服務(wù),是非常業(yè)務(wù)驅(qū)動的一件事情。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

假如說我們不站在數(shù)據(jù)的角度去看這個(gè)問題的時(shí)候,其實(shí)它是一個(gè)很標(biāo)準(zhǔn)的系統(tǒng)集成甚至是軟件開發(fā)的事情,但是往往我們在這里面會發(fā)現(xiàn)有很多是隱藏的數(shù)據(jù)質(zhì)量的問題。它要集成這三個(gè)系統(tǒng)的數(shù)據(jù)時(shí),你就會看到他們的一些特點(diǎn), 有ID、有staff ID、有郵箱、有聯(lián)絡(luò)信息。首先有一點(diǎn)是很重要的,就是規(guī)范,要是在這個(gè)定義規(guī)范角度沒有處理好的話,那這個(gè)就是數(shù)據(jù)質(zhì)量的一個(gè)很典型的問題。我們可以看到,我們要回答很多問題,這些問題就是說什么是正確的,什么是標(biāo)準(zhǔn)化的?究竟這個(gè)字段叫姓名是正確的,還是叫name是正確的?還有哪個(gè)是標(biāo)準(zhǔn)?還有代碼規(guī)范的問題,比如說性別。當(dāng)然還有一些關(guān)聯(lián)性的問題。很簡單的一個(gè)數(shù)據(jù)的整合,但是其實(shí)它背后存在著非常多的這些問題。那這些問題可能在你不關(guān)注的時(shí)候不是問題,當(dāng)你關(guān)注的時(shí)候它就是問題,就是數(shù)據(jù)質(zhì)量的問題。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

Ronald G. Ross在 2018年美國的一個(gè)國際峰會里面有一個(gè)演講,我非常認(rèn)同他提到的這個(gè)數(shù)據(jù)質(zhì)量的問題。也就是說,歸根到底數(shù)據(jù)質(zhì)量并不是真正是你數(shù)據(jù)的問題,它是你的商業(yè)語義詞匯及業(yè)務(wù)規(guī)則的質(zhì)量問題。

對數(shù)據(jù)質(zhì)量,我們會有一個(gè)認(rèn)知,通過這張比較簡單的圖可以反映我們怎么看待這個(gè)數(shù)據(jù)質(zhì)量,從數(shù)據(jù)、信息語義到業(yè)務(wù)規(guī)則到業(yè)務(wù)運(yùn)營。數(shù)據(jù)跟業(yè)務(wù)規(guī)則中間,我們隔了一個(gè)信息語義的問題,也就是說這種業(yè)務(wù)規(guī)則是靠數(shù)據(jù)跟信息語義來構(gòu)成我們所講的這個(gè)業(yè)務(wù)規(guī)則。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

在這里面有一個(gè)非常簡單的例子,這個(gè)是一個(gè)保險(xiǎn)界的問題。如果一個(gè)客戶下了訂單,他必須安排一個(gè)代理人跟進(jìn),這可能就是一個(gè)業(yè)務(wù)規(guī)則。談數(shù)據(jù)離不開IT,離不開系統(tǒng),雖然有管理的一面,但是還是有落地的一面。那我們把它分解了一下,如果一個(gè)客戶記錄里面有任何一個(gè)記錄訂單,那么這個(gè)客戶的記錄里相應(yīng)的要用標(biāo)識是否被派遣的代理人的字段必須填上系統(tǒng)認(rèn)可的標(biāo)志。一段業(yè)務(wù)規(guī)則分解到我們的系統(tǒng)其實(shí)是這樣子的。那我們會看到這里面涉及到幾個(gè)潛在的數(shù)據(jù)質(zhì)量問題,比如說表的重復(fù)記錄問題、理解歧義、標(biāo)識的一致性問題。雖然是一條業(yè)務(wù)規(guī)則,但是它潛在的這些分解會引導(dǎo)到我們的數(shù)據(jù)質(zhì)量里面去。

另外一個(gè)我們看信息語義,我們會關(guān)注幾個(gè)問題。一個(gè)是可讀性,可讀性對信息來講這個(gè)是蠻重要的,比如說我們剛才在我上面一個(gè)片子里面有講性別。比如說像可信賴的,什么叫可信賴呢?這里要講到它是遵從所有的業(yè)務(wù)規(guī)則,也就是說假如說我們這個(gè)信息它是經(jīng)過我們的遵從度的管理,甚至是我們的合規(guī)管理合規(guī)檢查過的,已經(jīng)通過我們的業(yè)務(wù)規(guī)則的甄別的,那就會提升它的可信賴度。

接下來我們看數(shù)據(jù)規(guī)則,剛才提到了我們從數(shù)據(jù)、信息然后才到規(guī)則,其實(shí)規(guī)則現(xiàn)在比較泛指這個(gè)規(guī)則,什么叫規(guī)則呢?只要是一套邏輯,我認(rèn)為就是規(guī)則,我認(rèn)為大家在討論這個(gè)數(shù)據(jù)質(zhì)量的時(shí)候,經(jīng)常會去這么理解。在大家做清洗的時(shí)候,它背后肯定是有一套業(yè)務(wù)邏輯,但是它反映的可能只是一些他的字段屬性。所以對數(shù)據(jù)的規(guī)則,我們會把它的顆粒度再分解一下,不是籠統(tǒng)的講規(guī)則或者叫業(yè)務(wù)規(guī)則。那這里面我們就分成三個(gè)層級,就比如說在屬性這個(gè)層級的,叫字段級。還有另外一個(gè)我們叫表這個(gè)層級的。那從字段到表到我們的業(yè)務(wù),到我們整體的關(guān)聯(lián)性,也就是說我們在表與表之間,我們還有它的業(yè)務(wù)規(guī)則的概念。另外一個(gè)就是我們叫行業(yè)規(guī)則,行業(yè)規(guī)則比如說我們銀保監(jiān)會的監(jiān)管的這些規(guī)則,包括我們保監(jiān)會也有很多規(guī)范,比如像我們醫(yī)療界也有很多這種安全規(guī)則。所以我們在談業(yè)務(wù)規(guī)則的時(shí)候,可能不能籠統(tǒng)的去談的什么是業(yè)務(wù)規(guī)則,因?yàn)樗€是有分層的。我們只有把這些東西進(jìn)行分層之后,我們再來看怎么進(jìn)行這個(gè)數(shù)據(jù)質(zhì)量的度量,包括我們數(shù)據(jù)質(zhì)量衡量的一些角度,從哪里去看這些問題。

那我們就講到審查跟診斷的問題了。這幾個(gè)方面構(gòu)成了我們對一個(gè)企業(yè)的或者說一個(gè)系統(tǒng)的數(shù)據(jù)質(zhì)量的元素。數(shù)據(jù)它本身是沒有意義的,它只有把它的這個(gè)信息的定義,包括業(yè)務(wù)規(guī)則串起來,才有它存在的意義。所以這里面剛才我們也提到一點(diǎn)叫可讀性。就是說數(shù)據(jù)質(zhì)量,雖然我們講它有很硬性的這種定義,但是還是有一定的相對性。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

我們剛才提到了數(shù)據(jù)剖析,在討論數(shù)據(jù)質(zhì)量的時(shí)候,這個(gè)環(huán)節(jié)是回避不了的??梢哉f我們對數(shù)據(jù)了解的多少,也反映了我們?nèi)プ鰯?shù)據(jù)質(zhì)量管理的深度。大家會看到就是不同的層級,越是粗淺的層次,我們的技術(shù)手段容易一點(diǎn),越往深度的時(shí)候要求更高。我們講數(shù)據(jù)探查的時(shí)候、深入剖析的時(shí)候,這些問題都是我們對數(shù)據(jù)質(zhì)量的一些認(rèn)定。

當(dāng)然還有剛才講的度量的問題,我們究竟有沒有一個(gè)好的度量方法來去評估這個(gè)數(shù)據(jù)質(zhì)量,而不是停留在感覺上,我們能夠去進(jìn)行它的定量,那這種定量就來自于很多數(shù)據(jù)上的一些積累。有關(guān)信息也是一樣的,就是數(shù)據(jù)再擴(kuò)張了我們叫信息。另外一個(gè)就是我們的這個(gè)業(yè)務(wù)規(guī)則,從我們的數(shù)據(jù)、信息到業(yè)務(wù)規(guī)則這三個(gè)維度,我們來對一個(gè)數(shù)據(jù)的質(zhì)量進(jìn)行它的一些定量,包括它的一些分析,來最后確認(rèn)這個(gè)數(shù)據(jù)的一些狀況是什么,這個(gè)是稍微偏技術(shù)一點(diǎn)。

這張圖我們看看技術(shù)層面上跟管理層面上它的關(guān)聯(lián),這張圖左右互為因果。當(dāng)我們發(fā)現(xiàn)這個(gè)數(shù)據(jù)的一致性有問題的時(shí)候,準(zhǔn)確性有問題的時(shí)候,其實(shí)它隱藏的管理上的問題,可能就包括我們?nèi)笔?shù)據(jù)的所有權(quán)的責(zé)任,也就是說在我們的組織架構(gòu)里面,在我們的分管數(shù)據(jù)的主數(shù)據(jù)管理里面,這些管理上的缺失,它可能會導(dǎo)致一致性的問題,可能會導(dǎo)致準(zhǔn)確性的問題。反過來也是這樣。其實(shí)我們在談數(shù)據(jù)質(zhì)量的時(shí)候,我們談的不只是數(shù)據(jù)本身,談的還是數(shù)據(jù)質(zhì)量管理相關(guān)的管理政策組織,組織架構(gòu),包括我們的程序。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

03 企業(yè)數(shù)據(jù)質(zhì)量管理的難點(diǎn)

前面重點(diǎn)還是關(guān)于數(shù)據(jù)質(zhì)量一些認(rèn)知,那后面我們看一看究竟數(shù)據(jù)質(zhì)量管理的難點(diǎn)在哪里?我跟很多客戶在交流的時(shí)候,大家都提到數(shù)據(jù)治理的目標(biāo)是什么?數(shù)據(jù)治理的其中一個(gè)最大的目標(biāo)就是要求提升數(shù)據(jù)質(zhì)量,這點(diǎn)是毋庸置疑的。當(dāng)然,評判我們的數(shù)據(jù)治理的成敗的時(shí)候,通常也會透過數(shù)據(jù)質(zhì)量的好壞來去驗(yàn)證我們數(shù)據(jù)治理的好壞。因?yàn)椴还軘?shù)據(jù)治理做的再好,如果呈現(xiàn)出來的數(shù)據(jù)質(zhì)量是很差的,我相信沒法推動數(shù)據(jù)治理的。很多企業(yè)啟動數(shù)據(jù)治理的緣由就是來自數(shù)據(jù)質(zhì)量的問題。

那數(shù)據(jù)質(zhì)量的難點(diǎn)又是在哪里?我們剛才做了一些剖析,包括數(shù)據(jù)信息、業(yè)務(wù)規(guī)則等,每一個(gè)層級所發(fā)現(xiàn)的問題,都有可能導(dǎo)致數(shù)據(jù)質(zhì)量問題的產(chǎn)生,這就是我們要做數(shù)據(jù)質(zhì)量審查的原因。我相信這是企業(yè)做數(shù)據(jù)治理過程中無法回避的環(huán)節(jié),企業(yè)過濾無用數(shù)據(jù)、ETL、選規(guī)則等等,這些工作都是叫審查。

今天重點(diǎn)講一下關(guān)于審查技術(shù)和方法。這個(gè)內(nèi)容可能偏技術(shù)一些。

這里面我們講一講為什么要去做數(shù)據(jù)質(zhì)量審查。講到審查首先面臨的問題就有:樣本數(shù)據(jù)怎么來的?選什么樣的數(shù)據(jù)進(jìn)行審查?審查選擇數(shù)據(jù)的原則是什么?全量跟局部的關(guān)系是什么?增量跟存量的關(guān)系又是什么?如何才能選擇到能夠發(fā)現(xiàn)問題的樣本數(shù)據(jù)……

這些問題我們叫數(shù)據(jù)預(yù)處理,一般我們會選用局部的數(shù)據(jù),那我們探查的角度在哪里?審查之后分析,然后通過分析的結(jié)果最終找到問題所在。數(shù)據(jù)預(yù)處理探查也包括分析,我想這是一個(gè)方法。但這里涉及到數(shù)據(jù)質(zhì)量的管控流程,管控流程里的很多概念跟我前面講的三個(gè)不同的角度都有相關(guān)聯(lián),包括DAMA提及的都是相關(guān)聯(lián)的。

如何進(jìn)行數(shù)據(jù)質(zhì)量管理(數(shù)據(jù)質(zhì)量管理有哪些方法)

首先是剖析,這是在數(shù)據(jù)質(zhì)量里非常重要的一個(gè)環(huán)節(jié),包括驗(yàn)證源數(shù)據(jù),首先我們需要搞清楚固本清源的問題;數(shù)據(jù)的流程問題;設(shè)計(jì)的問題;開發(fā)問題……相信很多企業(yè)也是按照這個(gè)流程走的,但難在剖析。如果在剖析里面沒有辦法發(fā)現(xiàn)問題,沒有辦法找到流程上的問題,設(shè)計(jì)開發(fā)就無從開展。包括很多返工問題也是因?yàn)槲覀儧]有辦法非??焖俚陌l(fā)現(xiàn)我們的業(yè)務(wù)規(guī)則,后面的轉(zhuǎn)換清洗也因?yàn)榍懊鏇]做好而無法開展,難點(diǎn)就是在此。

數(shù)據(jù)診斷是數(shù)據(jù)質(zhì)量管理必不可少的一步,我們談數(shù)據(jù)質(zhì)量管理,就要了解自己的數(shù)據(jù)質(zhì)量在什么程度,否則對我們管理的方法包括落地的成功率都會產(chǎn)生直接的影響。也就是說管理的閉環(huán)首先你要知道問題在哪里,才知道怎么去用,如果連問題都不知道,就沒有辦法去討論“improvement”這個(gè)概念。所以說數(shù)據(jù)診斷是數(shù)據(jù)質(zhì)量管理里面必不可少的。

回到數(shù)據(jù)質(zhì)量審查,我想大家在談數(shù)據(jù)質(zhì)量審查的時(shí)候,主要會從三個(gè)維度去看:時(shí)間、成本和能力,這三者決定了我們做數(shù)據(jù)質(zhì)量審查的效果。

首先是時(shí)間,因?yàn)槲覀冊跀?shù)據(jù)質(zhì)量管理或數(shù)據(jù)治理時(shí),它是有窗口時(shí)間的,我想金融界的朋友會對窗口時(shí)間比較熟悉,比如你一個(gè)TB的數(shù)據(jù),在你用你的方法處理完的時(shí)候,后面兩個(gè)TB的數(shù)據(jù)已經(jīng)又要來了,就會發(fā)現(xiàn)前面的標(biāo)準(zhǔn)不對,后面發(fā)現(xiàn)的這個(gè)標(biāo)準(zhǔn)可能更重要,所以我要改掉前面的標(biāo)準(zhǔn),這個(gè)就叫窗口問題。也就是說我們在處理數(shù)據(jù)質(zhì)量的這個(gè)時(shí)候,它需要有一個(gè)窗口時(shí)間,而且需要一定的穩(wěn)定狀態(tài)。

第二個(gè)就是成本。這里包括人力成本以及資金成本等。

第三個(gè)就是能力問題。這邊提到一個(gè)2-8原則,通過有限度的或者說最少的投入來獲得最大的成效。一方面考慮到ROI的問題,另一方面是因?yàn)橐婚_始就做到全量的數(shù)據(jù)質(zhì)量審查是不可能的,因?yàn)閿?shù)據(jù)是動態(tài)的,你所說的全量也只是某一個(gè)moment,某一個(gè)環(huán)節(jié)某個(gè)時(shí)間片段里面的全量,也不是你真實(shí)的全量數(shù)據(jù),因?yàn)閿?shù)據(jù)的產(chǎn)生是動態(tài)的。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。