如何構建一個企業(yè)的大數(shù)據(jù)分析平臺

發(fā)布時間：2018-06-26 作者：admin

分享到： QQ空間新浪微博騰訊微博人人網微信

簡述：面對海量的各種來源的數(shù)據(jù)，如何對這些零散的數(shù)據(jù)進行有效的分析，得到有價值的信息一直是大數(shù)據(jù)領域研究的熱點問題。大數(shù)據(jù)分析處理平臺就是整合當前主流的各種具有不同側重點的大數(shù)據(jù)處理分析框架和工具，實現(xiàn)對數(shù)

面對海量的各種來源的數(shù)據(jù)，如何對這些零散的數(shù)據(jù)進行有效的分析，得到有價值的信息一直是大數(shù)據(jù)領域研究的熱點問題。

大數(shù)據(jù)分析處理平臺就是整合當前主流的各種具有不同側重點的大數(shù)據(jù)處理分析框架和工具，實現(xiàn)對數(shù)據(jù)的挖掘和分析，一個大數(shù)據(jù)分析平臺涉及到的組件眾多，如何將其有機地結合起來，完成海量數(shù)據(jù)的挖掘是一項復雜的工作。在搭建大數(shù)據(jù)分析平臺之前，要先明確業(yè)務需求場景以及用戶的需求，通過大數(shù)據(jù)分析平臺，想要得到哪些有價值的信息，需要接入的數(shù)據(jù)有哪些，明確基于場景業(yè)務需求的大數(shù)據(jù)平臺要具備的基本的功能，來決定平臺搭建過程中使用的大數(shù)據(jù)處理工具和框架。

(1)操作系統(tǒng)的選擇操作系統(tǒng)一般使用開源版的RedHat、Centos或者Debian作為底層的構建平臺，要根據(jù)大數(shù)據(jù)平臺所要搭建的數(shù)據(jù)分析工具可以支持的系統(tǒng)，正確的選擇操作系統(tǒng)的版本。

(2)搭建Hadoop集群Hadoop作為一個開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺，實現(xiàn)了在大量的廉價計算機組成的集群中對海量數(shù)據(jù)進行分布式計算。Hadoop框架中最核心的設計是HDFS和MapReduce，HDFS是一個高度容錯性的系統(tǒng)，適合部署在廉價的機器上，能夠提供高吞吐量的數(shù)據(jù)訪問，適用于那些有著超大數(shù)據(jù)集的應用程序;MapReduce是一套可以從海量的數(shù)據(jù)中提取數(shù)據(jù)最后返回結果集的編程模型。在生產實踐應用中，Hadoop非常適合應用于大數(shù)據(jù)存儲和大數(shù)據(jù)的分析應用，適合服務于幾千臺到幾萬臺大的服務器的集群運行，支持PB級別的存儲容量。Hadoop家族還包含各種開源組件，比如Yarn，Zookeeper，Hbase，Hive，Sqoop，Impala，Spark等。使用開源組件的優(yōu)勢顯而易見，活躍的社區(qū)會不斷的迭代更新組件版本，使用的人也會很多，遇到問題會比較容易解決，同時代碼開源，高水平的數(shù)據(jù)開發(fā)工程師可結合自身項目的需求對代碼進行修改，以更好的為項目提供服務。

(3)選擇數(shù)據(jù)接入和預處理工具面對各種來源的數(shù)據(jù)，數(shù)據(jù)接入就是將這些零散的數(shù)據(jù)整合在一起，綜合起來進行分析。數(shù)據(jù)接入主要包括文件日志的接入、數(shù)據(jù)庫日志的接入、關系型數(shù)據(jù)庫的接入和應用程序等的接入，數(shù)據(jù)接入常用的工具有Flume，Logstash，NDC(網易數(shù)據(jù)運河系統(tǒng))，sqoop等。對于實時性要求比較高的業(yè)務場景，比如對存在于社交網站、新聞等的數(shù)據(jù)信息流需要進行快速的處理反饋，那么數(shù)據(jù)的接入可以使用開源的Strom，Spark streaming等。當需要使用上游模塊的數(shù)據(jù)進行計算、統(tǒng)計和分析的時候，就需要用到分布式的消息系統(tǒng)，比如基于發(fā)布/訂閱的消息系統(tǒng)kafka。還可以使用分布式應用程序協(xié)調服務Zookeeper來提供數(shù)據(jù)同步服務，更好的保證數(shù)據(jù)的可靠和一致性。數(shù)據(jù)預處理是在海量的數(shù)據(jù)中提取出可用特征，建立寬表，創(chuàng)建數(shù)據(jù)倉庫，會使用到HiveSQL，SparkSQL和Impala等工具。隨著業(yè)務量的增多，需要進行訓練和清洗的數(shù)據(jù)也會變得越來越復雜，可以使用azkaban或者oozie作為工作流調度引擎，用來解決有多個hadoop或者spark等計算任務之間的依賴關系問題。

(4)數(shù)據(jù)存儲除了Hadoop中已廣泛應用于數(shù)據(jù)存儲的HDFS，常用的還有分布式、面向列的開源數(shù)據(jù)庫Hbase，HBase是一種key/value系統(tǒng)，部署在HDFS上，與Hadoop一樣，HBase的目標主要是依賴橫向擴展，通過不斷的增加廉價的商用服務器，增加計算和存儲能力。同時hadoop的資源管理器Yarn，可以為上層應用提供統(tǒng)一的資源管理和調度，為集群在利用率、資源統(tǒng)一等方面帶來巨大的好處。Kudu是一個圍繞Hadoop生態(tài)圈建立的存儲引擎，Kudu擁有和Hadoop生態(tài)圈共同的設計理念，可以運行在普通的服務器上，作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數(shù)據(jù)分析能力。Redis是一種速度非?？斓姆顷P系型數(shù)據(jù)庫，可以將存儲在內存中的鍵值對數(shù)據(jù)持久化到硬盤中，可以存儲鍵與5種不同類型的值之間的映射。

(5)選擇數(shù)據(jù)挖掘工具Hive可以將結構化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表，并提供HQL的查詢功能，它是建立在Hadoop之上的數(shù)據(jù)倉庫基礎架構，是為了減少MapReduce編寫工作的批處理系統(tǒng)，它的出現(xiàn)可以讓那些精通SQL技能、但是不熟悉MapReduce、編程能力較弱和不擅長Java的用戶能夠在HDFS大規(guī)模數(shù)據(jù)集上很好的利用SQL語言查詢、匯總、分析數(shù)據(jù)。Impala是對Hive的一個補充，可以實現(xiàn)高效的SQL查詢，但是Impala將整個查詢過程分成了一個執(zhí)行計劃樹，而不是一連串的MapReduce任務，相比Hive有更好的并發(fā)性和避免了不必要的中間sort和shuffle。Spark可以將Job中間輸出結果保存在內存中，不需要讀取HDFS，Spark啟用了內存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。Solr是一個運行在Servlet容器的獨立的企業(yè)級搜索應用的全文搜索服務器，用戶可以通過http請求，向搜索引擎服務器提交一定格式的XML，生成索引，或者通過HTTP GET操作提出查找請求，并得到XML格式的返回結果。還可以對數(shù)據(jù)進行建模分析，會用到機器學習相關的知識，常用的機器學習算法，比如貝葉斯、邏輯回歸、決策樹、神經網絡、協(xié)同過濾等。

(6)數(shù)據(jù)的可視化以及輸出API對于處理得到的數(shù)據(jù)可以對接主流的BI系統(tǒng)，比如國外的Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數(shù)(可免費試用)等，將結果進行可視化，用于決策分析;或者回流到線上，支持線上業(yè)務的發(fā)展。成熟的搭建一套大數(shù)據(jù)分析平臺不是一件簡單的事情，本身就是一項復雜的工作，在這過程中需要考慮的因素有很多，比如：穩(wěn)定性，可以通過多臺機器做數(shù)據(jù)和程序運行的備份，但服務器的質量和預算成本相應的會限制平臺的穩(wěn)定性;可擴展性：大數(shù)據(jù)平臺部署在多臺機器上，如何在其基礎上擴充新的機器是實際應用中經常會遇到的問題;安全性：保障數(shù)據(jù)安全是大數(shù)據(jù)平臺不可忽視的問題，在海量數(shù)據(jù)的處理過程中，如何防止數(shù)據(jù)的丟失和泄漏一直是大數(shù)據(jù)安全領域的研究熱點。

點擊展開全文

鄭州騰佑科技有限公司(以下簡稱“騰佑科技”)成立于2009年，總部位于鄭州，是一家致力于互聯(lián)網服務業(yè)的高新技術企業(yè)，公司主營業(yè)務以互聯(lián)網數(shù)據(jù)中心、云計算、人工智能、軟件開發(fā)、安全服務“互聯(lián)網+”行業(yè)解決方案及行業(yè)應用等相關業(yè)務。

售前咨詢熱線：400-996-8756

備案提交：0371-89913068

售后客服：0371-89913000