BI、數(shù)據(jù)倉庫、數(shù)據(jù)中臺等數(shù)據(jù)管理工具的系統(tǒng)解析(數(shù)據(jù)倉庫 bi技術)
隨著大數(shù)據(jù)技術的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關概念如雨后春筍一般應運而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺等,這些概念特別容易混淆,本文對這些名詞術語及內(nèi)涵進行系統(tǒng)的解析,便于讀者對數(shù)據(jù)平臺相關的概念有全面的認識。
一、BI
商務智能(BI,Business Intelligence)是一種以提供決策分析性的運營數(shù)據(jù)為目的而建立的信息系統(tǒng)。它將數(shù)據(jù)倉庫、在線分析處理、數(shù)據(jù)挖掘等技術與客戶關系管理等應用系統(tǒng)結(jié)合起來,并應用于企業(yè)活動實際過程當中,最終實現(xiàn)服務于管理層決策的目的 。
BI利用信息科技,將分散于企業(yè)內(nèi)、外部各種數(shù)據(jù)加以整合并轉(zhuǎn)換成知識,并依據(jù)某些特定的主題需求,進行決策分析和運算;用戶則通過報表、圖表、多維度分析的方式,尋找解決業(yè)務問題所需要的方案;這些結(jié)果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送 。
二、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫,它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合存儲系統(tǒng),它將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務智能領域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲庫,并且是高度建模的 。
數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助人們把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息或知識,并且在恰當?shù)臅r候通過恰當?shù)姆绞桨亚‘數(shù)男畔鬟f給恰當?shù)娜?。
三、數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是Pentaho公司CTO James Dixon提出來一種數(shù)據(jù)存儲理念——即在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法。數(shù)據(jù)湖作為一個集中的存儲庫,可以在其中存儲任意規(guī)模的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖中,可以存儲不需要對其進行結(jié)構(gòu)化的數(shù)據(jù),這樣就可以運行不同類型的分析 。
數(shù)據(jù)湖能夠幫助企業(yè)實現(xiàn)數(shù)據(jù)的集中式管理等多種能力。數(shù)據(jù)湖融合了先進的數(shù)據(jù)科學、機器學習和人工智能技術,幫助企業(yè)構(gòu)建更加優(yōu)化的數(shù)據(jù)運營模型,為企業(yè)提供預測分析、推薦模型等能力,這些模型能夠刺激企業(yè)能力的持續(xù)增長,不斷賦能于企業(yè)增長 。
四、數(shù)據(jù)中臺
“數(shù)據(jù)中臺”這個新概念最早于2014年被阿里從芬蘭引入國內(nèi),目前仍處于“定義混亂期”,不同的人對數(shù)據(jù)中臺都有著各自的理解。部分數(shù)據(jù)專家將其解讀為數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務模式和組織架構(gòu),通過有形的產(chǎn)品和實施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務于業(yè)務的機制。阿里云在對數(shù)據(jù)中臺的戰(zhàn)略解讀中提出“中臺包含先進技術(技術競爭力) ,但不僅僅是技術,更重要的是組織可以依托先進技術,利用其所擁有的核心資源(資源競爭力) ,構(gòu)建其在企業(yè)數(shù)字化轉(zhuǎn)型中的競爭力、話語權(quán),及生態(tài)向心力(生態(tài)競爭力) , 中臺是一種能力(技術、使能、賦能、創(chuàng)新、生態(tài)) ?!?/span>
數(shù)據(jù)中臺通過對企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析和應用,使數(shù)據(jù)對內(nèi)優(yōu)化 管理提高業(yè)務價值,對外進行數(shù)據(jù)合作讓業(yè)務價值得到釋放,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API服務,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務 。
五、數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖
在儲存方面上,數(shù)據(jù)湖能處理所有類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。數(shù)據(jù)倉庫,主要處理歷史的、結(jié)構(gòu)化的數(shù)據(jù),通常從事務系統(tǒng)中提取 。
數(shù)據(jù)湖適用于深度分析,它擁有足夠強的計算能力用于處理和分析所有類型的數(shù)據(jù),可以做數(shù)據(jù)挖掘和數(shù)據(jù)分析。數(shù)據(jù)倉庫主要是處理結(jié)構(gòu)化數(shù)據(jù),將它們或者轉(zhuǎn)化為多維數(shù)據(jù),或者轉(zhuǎn)換為報表,以滿足后續(xù)的高級報表及數(shù)據(jù)分析需求 。
與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。數(shù)據(jù)倉庫具有高性能、可重復性的特點 。
六、數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺
數(shù)據(jù)倉庫的出發(fā)點為一個支撐性的技術系統(tǒng),強調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺的第一出發(fā)點不是數(shù)據(jù)而是業(yè)務,更加注重思考業(yè)務問題需要什么樣的數(shù)據(jù)服務 。
在具體的技術處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進行建模分析 。
七、數(shù)據(jù)倉庫 VS BI
商業(yè)智能 BI 相比于數(shù)據(jù)倉庫,它是一個更大的概念。商業(yè)智能可以說是基于數(shù)據(jù)倉庫,經(jīng)過了數(shù)據(jù)挖掘后,得到了商業(yè)價值的過程。所以說數(shù)據(jù)倉庫是個金礦,數(shù)據(jù)挖掘是煉金術,而商業(yè)報告則是黃金。數(shù)據(jù)倉庫就像是 BI 這個房子的地基,搭建好 DW 這個地基之后,才能進行分析使用,最后產(chǎn)生價值 。
文字來源:肉眼品世界(微信公眾號)
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。