簡(jiǎn)述:導(dǎo)讀:數(shù)據(jù)湖概念的誕生,源自企業(yè)面臨的一些挑戰(zhàn),如數(shù)據(jù)應(yīng)該以何種方式處理和存儲(chǔ)。最開(kāi)始,企業(yè)對(duì)種類龐雜的應(yīng)用程序的管理都經(jīng)歷了一個(gè)比較自然的演化周期。最開(kāi)始的時(shí)候,每個(gè)應(yīng)用程序會(huì)產(chǎn)生、存儲(chǔ)大量數(shù)據(jù),而這些數(shù)據(jù)并不能被其他應(yīng)用程序使用,這種狀
簡(jiǎn)介:數(shù)據(jù)湖概念的誕生源于企業(yè)面臨的一些挑戰(zhàn),如如如何處理和存儲(chǔ)數(shù)據(jù)。起初,企業(yè)管理各種應(yīng)用程序經(jīng)歷了一個(gè)相對(duì)自然的進(jìn)化周期。
一開(kāi)始,每個(gè)應(yīng)用程序都會(huì)生成和存儲(chǔ)大量的數(shù)據(jù),而這些數(shù)據(jù)不能被其他應(yīng)用程序使用,導(dǎo)致數(shù)據(jù)島的生成。隨后,數(shù)據(jù)市場(chǎng)應(yīng)運(yùn)而生。應(yīng)用程序生成的數(shù)據(jù)存儲(chǔ)在一個(gè)集中的數(shù)據(jù)倉(cāng)庫(kù)中,可以根據(jù)需要將相關(guān)數(shù)據(jù)導(dǎo)出并傳輸給企業(yè)需要數(shù)據(jù)的部門(mén)或個(gè)人。
然而數(shù)據(jù)集市只解決了部分問(wèn)題。剩余問(wèn)題,包括數(shù)據(jù)管理、數(shù)據(jù)所有權(quán)與訪問(wèn)控制等都亟須解決,因?yàn)槠髽I(yè)尋求獲得更高的使用有效數(shù)據(jù)的能力。
為了解決上述問(wèn)題,企業(yè)對(duì)建立自己的數(shù)據(jù)湖有強(qiáng)烈的需求。數(shù)據(jù)湖不僅可以存儲(chǔ)傳統(tǒng)類型的數(shù)據(jù),還可以存儲(chǔ)任何其他類型的數(shù)據(jù),并可以進(jìn)一步處理和分析它們,產(chǎn)生各種程序消費(fèi)的最終輸出。
本文將介紹數(shù)據(jù)湖的一些主要方面,幫助讀者理解為什么它對(duì)企業(yè)非常重要。
什么是數(shù)據(jù)湖?
如果需要定義數(shù)據(jù)湖,可以定義為:數(shù)據(jù)湖是存儲(chǔ)企業(yè)各種原始數(shù)據(jù)的大型倉(cāng)庫(kù),可供訪問(wèn)、處理、分析和傳輸。
數(shù)據(jù)湖從企業(yè)的多個(gè)數(shù)據(jù)源獲取原始數(shù)據(jù),同一原始數(shù)據(jù)也可能有各種符合特定內(nèi)部模型格式的數(shù)據(jù)副本。因此,數(shù)據(jù)湖中處理的數(shù)據(jù)可能是從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù)的任何類型的信息。
企業(yè)對(duì)數(shù)據(jù)湖寄予厚望,希望能幫助用戶快速獲取有用的信息,并將其用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,從而獲得與企業(yè)運(yùn)營(yíng)相關(guān)的洞察力。
數(shù)據(jù)湖與企業(yè)的關(guān)系數(shù)據(jù)湖可以給企業(yè)帶來(lái)各種能力,比如實(shí)現(xiàn)數(shù)據(jù)的集中管理。在此基礎(chǔ)上,企業(yè)可以挖掘出許多以前沒(méi)有的能力。
此外,數(shù)據(jù)湖結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技術(shù),可以幫助企業(yè)建立更多優(yōu)化的運(yùn)營(yíng)模式,為企業(yè)提供預(yù)測(cè)分析、推薦模式等其他能力,可以刺激企業(yè)能力的后續(xù)增長(zhǎng)。
然而,在具有商業(yè)數(shù)據(jù)洞察力的人使用重要數(shù)據(jù)之前,人們無(wú)法利用重要數(shù)據(jù)來(lái)提高企業(yè)的商業(yè)表現(xiàn)。
02數(shù)據(jù)湖如何幫助企業(yè)?
長(zhǎng)期以來(lái),企業(yè)一直試圖找到一個(gè)統(tǒng)一的模型來(lái)表達(dá)企業(yè)中的所有實(shí)體。這項(xiàng)任務(wù)具有巨大的挑戰(zhàn)性,原因有很多。以下是其中的一部分:
一個(gè)實(shí)體在企業(yè)中可能有多種表達(dá)形式,因此可能沒(méi)有一個(gè)完整的模型來(lái)統(tǒng)一表達(dá)實(shí)體。不同的企業(yè)應(yīng)用程序可以根據(jù)特定的業(yè)務(wù)目標(biāo)來(lái)處理實(shí)體,這意味著在處理實(shí)體時(shí)會(huì)使用或拒絕一些企業(yè)流程。不同的應(yīng)用程序可能會(huì)對(duì)每個(gè)實(shí)體采用不同的訪問(wèn)模式和存儲(chǔ)結(jié)構(gòu)。這些問(wèn)題困擾了企業(yè)多年,阻礙了業(yè)務(wù)處理、服務(wù)定義和術(shù)語(yǔ)命名的標(biāo)準(zhǔn)化。
從數(shù)據(jù)湖的角度來(lái)看,我們正在以另一種方式看待這個(gè)問(wèn)題。在不擔(dān)心對(duì)業(yè)務(wù)程序產(chǎn)生實(shí)質(zhì)性影響的情況下,隱式實(shí)現(xiàn)了更好的統(tǒng)一數(shù)據(jù)模型。這些業(yè)務(wù)程序是為了解決具體的業(yè)務(wù)問(wèn)題“專家”。數(shù)據(jù)湖實(shí)體所有者相關(guān)系統(tǒng)中捕獲的所有數(shù)據(jù)湖“豐滿”表示實(shí)體。
由于實(shí)體表達(dá)更好、更完整,數(shù)據(jù)湖確實(shí)給企業(yè)數(shù)據(jù)處理和管理帶來(lái)了巨大的幫助,使企業(yè)對(duì)企業(yè)增長(zhǎng)有了更多的洞察力,幫助企業(yè)實(shí)現(xiàn)業(yè)務(wù)目標(biāo)。
數(shù)據(jù)湖的優(yōu)點(diǎn)隨著企業(yè)數(shù)量的增加,企業(yè)也需要更智能地處理跨越多個(gè)系統(tǒng)的數(shù)據(jù)。
最基本的策略之一是使用一個(gè)單獨(dú)的領(lǐng)域模型來(lái)準(zhǔn)確地描述數(shù)據(jù),并代表整體業(yè)務(wù)中最有價(jià)值的數(shù)據(jù)。這些數(shù)據(jù)是指上述的企業(yè)數(shù)據(jù)。
對(duì)企業(yè)數(shù)據(jù)進(jìn)行了良好定義的企業(yè)當(dāng)然也有一些管理數(shù)據(jù)的方法,因此企業(yè)數(shù)據(jù)定義的更改能保持一致性,企業(yè)內(nèi)部也很清楚系統(tǒng)是如何共享這些信息的。
在這種情況下,系統(tǒng)被分為數(shù)據(jù)所有者(dataowner)數(shù)據(jù)消費(fèi)者(dataconsumer)。對(duì)于企業(yè)數(shù)據(jù),需要有相應(yīng)的所有者,所有者定義數(shù)據(jù)是如何被其他消費(fèi)系統(tǒng)獲取的,消費(fèi)系統(tǒng)起著消費(fèi)者的作用。
一旦企業(yè)對(duì)數(shù)據(jù)和系統(tǒng)有了明確的定義,就可以通過(guò)該機(jī)制使用大量的企業(yè)信息。該機(jī)制的一種常見(jiàn)實(shí)現(xiàn)策略是通過(guò)構(gòu)建企業(yè)數(shù)據(jù)湖來(lái)提供統(tǒng)一的企業(yè)數(shù)據(jù)模型。在此機(jī)制中,數(shù)據(jù)湖負(fù)責(zé)捕獲、處理、分析數(shù)據(jù),并為消費(fèi)者系統(tǒng)提供數(shù)據(jù)服務(wù)。
數(shù)據(jù)湖可以從以下方面幫助企業(yè):
實(shí)現(xiàn)數(shù)據(jù)治理(datagovernance)與數(shù)據(jù)世系。商業(yè)智能通過(guò)應(yīng)用機(jī)器學(xué)習(xí)和人工智能技術(shù)實(shí)現(xiàn)。預(yù)測(cè)分析,如特定領(lǐng)域的推薦引擎。信息跟蹤與一致性保證。根據(jù)歷史分析生成新的數(shù)據(jù)維度。有一個(gè)集中的數(shù)據(jù)中心,可以存儲(chǔ)所有企業(yè)的數(shù)據(jù),有利于實(shí)現(xiàn)數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù)。幫助組織或企業(yè)做出更靈活的企業(yè)增長(zhǎng)決策。在本節(jié)中,我們討論了數(shù)據(jù)湖應(yīng)該具備哪些能力。后續(xù)將討論和評(píng)論數(shù)據(jù)湖是如何工作的,以及如何理解其工作機(jī)制。
03數(shù)據(jù)湖是如何工作的
為了準(zhǔn)確了解數(shù)據(jù)湖能給企業(yè)帶來(lái)什么好處,了解數(shù)據(jù)湖的工作機(jī)制和功能齊全的數(shù)據(jù)湖需要什么組件尤為重要。在進(jìn)入數(shù)據(jù)湖架構(gòu)的細(xì)節(jié)之前,了解數(shù)據(jù)湖背景中的數(shù)據(jù)生命周期。
數(shù)據(jù)湖中的數(shù)據(jù)生命周期如圖2-1所示。
▲圖2-1數(shù)據(jù)湖的生命周期
上述生命周期也可以稱為數(shù)據(jù)湖中的許多不同階段。每個(gè)階段所需的數(shù)據(jù)和分析方法也不同。數(shù)據(jù)處理和分析可以分批進(jìn)行(batch)也可以實(shí)時(shí)按近處理(near-real-time)方式處理。
由于不同的處理方法服務(wù)于不同的場(chǎng)景,數(shù)據(jù)湖的實(shí)現(xiàn)需要同時(shí)支持這兩種處理方法。處理方法(批處理或近實(shí)時(shí)處理)的選擇也取決于數(shù)據(jù)處理或分析任務(wù)的計(jì)算量,因?yàn)樵S多復(fù)雜的計(jì)算不能在近實(shí)時(shí)處理模式中完成,而在某些情況下,不能接受較長(zhǎng)的處理周期。
同樣,存儲(chǔ)系統(tǒng)的選擇也取決于數(shù)據(jù)訪問(wèn)的要求。例如,如果您想在存儲(chǔ)數(shù)據(jù)時(shí)方便地存儲(chǔ)數(shù)據(jù)SQL查詢?cè)L問(wèn)數(shù)據(jù)時(shí),必須支持所選存儲(chǔ)系統(tǒng)SQL接口。
如果數(shù)據(jù)訪問(wèn)需要數(shù)據(jù)視圖,則數(shù)據(jù)存儲(chǔ)為相應(yīng)的形式,即數(shù)據(jù)可以作為視圖提供,并提供方便的可管理性和可訪問(wèn)性。
最近通過(guò)服務(wù)出現(xiàn)的一個(gè)越來(lái)越重要的趨勢(shì)(service)為了提供數(shù)據(jù),它涉及到輕量級(jí)服務(wù)層的公共數(shù)據(jù)。每個(gè)公共服務(wù)必須準(zhǔn)確描述服務(wù)功能并提供數(shù)據(jù)。該模型還支持基于服務(wù)的數(shù)據(jù)集成,使其他系統(tǒng)能夠消耗數(shù)據(jù)服務(wù)提供的數(shù)據(jù)。
當(dāng)數(shù)據(jù)從采集點(diǎn)流入數(shù)據(jù)湖時(shí),其元數(shù)據(jù)被捕獲,數(shù)據(jù)可追溯性、數(shù)據(jù)系統(tǒng)和數(shù)據(jù)安全性根據(jù)其生命周期中的數(shù)據(jù)敏感性進(jìn)行管理。
數(shù)據(jù)世界被定義為數(shù)據(jù)的生命周期,包括數(shù)據(jù)的起源以及數(shù)據(jù)是如何隨時(shí)間移動(dòng)的。它描述了數(shù)據(jù)在各種處理過(guò)程中發(fā)生的變化,有助于提供數(shù)據(jù)分析流水線的可見(jiàn)性,簡(jiǎn)化錯(cuò)誤的可追溯性。
可追溯性是通過(guò)識(shí)別記錄來(lái)驗(yàn)證數(shù)據(jù)項(xiàng)的歷史、位置或應(yīng)用的能力。
——維基百科
04數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別
很多時(shí)候,數(shù)據(jù)湖被認(rèn)為等同于數(shù)據(jù)倉(cāng)庫(kù)。事實(shí)上,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)代表了企業(yè)想要實(shí)現(xiàn)的不同目標(biāo)。表2-1顯示了兩者之間的關(guān)鍵區(qū)別。
數(shù)據(jù)湖
數(shù)據(jù)倉(cāng)庫(kù)
能處理所有類型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。
結(jié)構(gòu)化數(shù)據(jù)只能處理,這些數(shù)據(jù)必須與數(shù)據(jù)倉(cāng)庫(kù)事先定義的模型一致。
有足夠強(qiáng)的計(jì)算能力來(lái)處理和分析所有類型的數(shù)據(jù),分析后的數(shù)據(jù)將被用戶存儲(chǔ)。
處理結(jié)構(gòu)化數(shù)據(jù),將其轉(zhuǎn)換為多維數(shù)據(jù)或報(bào)表,以滿足后續(xù)高級(jí)報(bào)表和數(shù)據(jù)分析的需要。
數(shù)據(jù)湖通常包含更多的相關(guān)信息,它很有可能被訪問(wèn),并可以為企業(yè)挖掘新的運(yùn)營(yíng)需求。
數(shù)據(jù)倉(cāng)庫(kù)通常用于存儲(chǔ)和維護(hù)長(zhǎng)期數(shù)據(jù),因此可以根據(jù)需要訪問(wèn)數(shù)據(jù)。
▲表2-1數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵區(qū)別
從表2-1來(lái)看,數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別是顯而易見(jiàn)的。然而,兩者在企業(yè)中的作用是互補(bǔ)的,不應(yīng)該認(rèn)為數(shù)據(jù)湖的出現(xiàn)是為了取代數(shù)據(jù)倉(cāng)庫(kù),畢竟,兩者的作用是完全不同的。
05數(shù)據(jù)湖的構(gòu)建方法
不同的組織有不同的偏好,所以它們以不同的方式建造數(shù)據(jù)湖。施工方法與業(yè)務(wù)、處理流程和現(xiàn)有系統(tǒng)有關(guān)。
簡(jiǎn)單的數(shù)據(jù)湖實(shí)現(xiàn)幾乎相當(dāng)于定義一個(gè)中心數(shù)據(jù)源,所有系統(tǒng)都可以使用該中心數(shù)據(jù)源來(lái)滿足所有數(shù)據(jù)需求。雖然這種方法可能非常簡(jiǎn)單和劃算,但它可能不是一種非常實(shí)用的方法,原因如下:
這種方法只有在這些組織重新開(kāi)始構(gòu)建其信息系統(tǒng)時(shí)才可行。這種方法不能解決與現(xiàn)有系統(tǒng)相關(guān)的問(wèn)題。即使組織決定用這種方法建造數(shù)據(jù)湖,也缺乏明確的責(zé)任和關(guān)注點(diǎn)隔離(responsibilityandseparationofconcerns)。該系統(tǒng)通常試圖一次完成所有工作,但最終會(huì)隨著數(shù)據(jù)事務(wù)、分析和處理需求的增加而崩潰。構(gòu)建數(shù)據(jù)湖的更好策略是將企業(yè)及其信息系統(tǒng)作為一個(gè)整體,對(duì)數(shù)據(jù)所有權(quán)關(guān)系進(jìn)行分類,定義統(tǒng)一的企業(yè)模式。
雖然這種方法可能存在與過(guò)程相關(guān)的挑戰(zhàn),并且可能需要花費(fèi)更多的精力來(lái)定義系統(tǒng)元素,但它仍然可以提供企業(yè)中不同系統(tǒng)實(shí)體之間所需的靈活性、控制和清晰的數(shù)據(jù)定義和關(guān)注點(diǎn)隔離。
該數(shù)據(jù)湖還可以有一個(gè)獨(dú)立的機(jī)制來(lái)捕獲、處理和分析數(shù)據(jù),并為消費(fèi)者應(yīng)用程序提供數(shù)據(jù)服務(wù)。
關(guān)于作者:湯姆斯·約翰(TomcyJohn)是企業(yè)級(jí)Java擁有工程學(xué)士學(xué)位的技術(shù)專家,在行業(yè)內(nèi)有超過(guò)14年的發(fā)展經(jīng)驗(yàn)。
潘卡·米斯拉(PankajMisra)擁有工程學(xué)士學(xué)位的技術(shù)傳播者,在多個(gè)業(yè)務(wù)領(lǐng)域擁有16年以上的技術(shù)經(jīng)驗(yàn)。
本文摘自《企業(yè)數(shù)據(jù)湖》
推薦:本書(shū)旨在幫助您選擇正確的大數(shù)據(jù)技術(shù)并使用它Lambda為企業(yè)建立自己的數(shù)據(jù)湖。
騰佑科技(m.mubashirfilms.com)成立于2009年,總部位于河南鄭州,是一家集互聯(lián)網(wǎng)基礎(chǔ)設(shè)施及軟硬件于一體化的高新技術(shù)企業(yè),具有IDC/ISP/ICP/云牌照、雙軟等資質(zhì),并擁有多個(gè)國(guó)家版權(quán)局認(rèn)證。公司自成立以來(lái),一直致力于發(fā)展互聯(lián)網(wǎng)IDC數(shù)據(jù)中心DataCenter、云計(jì)算Cloud、大數(shù)據(jù)BigDate、人工智能AI、內(nèi)容加速CDN、互聯(lián)網(wǎng)安全、軟件定制開(kāi)發(fā)等產(chǎn)品服務(wù)及行業(yè)客戶技術(shù)一體化智能解決方案;2018年成為百度智能云AI河南服務(wù)中心。
售前咨詢熱線:400-996-8756
備案提交:0371-89913068
售后客服:0371-89913000
搜索詞
熱門(mén)產(chǎn)品推薦