更新時間:2019-09-09 10:27:51 來源:動力節(jié)點 瀏覽2561次
隨著央視新聞天天說大數(shù)據(jù),很多人紛紛開始關(guān)注大數(shù)據(jù)和Hadoop以及數(shù)據(jù)挖掘和數(shù)據(jù)可視化了。什么是Hadoop?
ApacheHadoop是一款支持數(shù)據(jù)密集型分布式應用并以Apache2.0許可協(xié)議發(fā)布的開源軟件框架。Hadoop框架透明地為應用提供可靠性和數(shù)據(jù)移動。它實現(xiàn)了名為MapReduce的編程范式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節(jié)點上執(zhí)行或重新執(zhí)行。
Hadoop市場現(xiàn)狀
開發(fā)人才目前比較匱乏,基本都集中在互聯(lián)網(wǎng)。維護人才我覺得互聯(lián)網(wǎng)外的行業(yè)一段時間內(nèi)基本不用考慮,不是太多了,而是根本沒有。Hadoop和云計算最后拼的就是運維,大規(guī)模分布式系統(tǒng)的運維人才極難培養(yǎng)。

Hadoop版本的選擇
目前為止,作為半只腳邁進Hadoop大門的人,我建議大家還是選擇Hadoop2.x用。

Hadoop2相比較于Hadoop1.x來說,HDFS的架構(gòu)與MapReduce的都有較大的變化,且速度上和可用性上都有了很大的提高,Hadoop2中有兩個重要的變更:
HDFS的NameNodes可以以集群的方式布署,增強了NameNodes的水平擴展能力和可用性;
MapReduce將JobTracker中的資源管理及任務生命周期管理(包括定時觸發(fā)及監(jiān)控),拆分成兩個獨立的組件,并更名為YARN(YetAnotherResourceNegotiator)。
核心概念
Hadoop項目主要包含了以下四個模塊:
Hadoop通用模塊(HadoopCommon):為其他Hadoop模塊提供支持的公共實用程序。
Hadoop分布式文件系統(tǒng)(HDFS,HadoopDistributedFileSystem):提供對應用程序數(shù)據(jù)的高吞吐量訪問的分布式文件系統(tǒng)。
HadoopYARN:任務調(diào)度和集群資源管理框架。
HadoopMapReduce:基于YARN的大規(guī)模數(shù)據(jù)集并行計算框架。
對于初次學習Hadoop的用戶而言,應重點關(guān)注HDFS和MapReduce。作為一個分布式計算框架,HDFS承載了該框架對于數(shù)據(jù)的存儲需求,而MapReduce滿足了該框架對于數(shù)據(jù)的計算需求。
下圖是Hadoop集群的基本架構(gòu):

部署Hadoop
Hadoop主要有以下三種部署模式:
單機模式:在單臺計算機上以單個進程的模式運行。
偽分布式模式:在單臺計算機上以多個進程的模式運行。該模式可以在單節(jié)點下模擬“多節(jié)點”的場景。
完全分布式模式:在多臺計算機上分別以單個進程的模式運行。
具體的部署步驟以及詳細的教程大家可以戳我查看。
今天跟大家分享的這個教程,主要包含以下知識點:
1:Hadoop簡介與安裝部署
1:Hadoop系統(tǒng)部署
2:HDFS架構(gòu)與操作
3:MapReduce原理與實踐
2:使用MapReduce進行日志分析
4:YARN架構(gòu)
3:用Hadoop計算圓周率
5:HBase基礎
4:HBase數(shù)據(jù)導入
6:Sqoop數(shù)據(jù)遷移
5:HBase實現(xiàn)Web日志場景數(shù)據(jù)處理
7:Solr基礎實戰(zhàn)
8:Hive基礎實戰(zhàn)
6:導入數(shù)據(jù)到Hive
9:Flume基礎實戰(zhàn)
10:Flume、HDFS和Hive實現(xiàn)日志收集和分析
7:用Flume和MapReduce進行日志分析
11:Kafka基礎實戰(zhàn)
8:按需部署Kafka
12:使用Flume和Kafka實現(xiàn)實時日志收集
13:Pig基礎實戰(zhàn)
關(guān)于該教程的學習,你需要有一定的計算機基礎和Java基礎,并且對Hadoop感興趣,以上就是動力Java培訓機構(gòu)小編介紹的“Hadoop入門基礎教程,漲工資就靠它了”的內(nèi)容,希望對大家有幫助,如有疑問,請在線咨詢,有專業(yè)老師隨時為你服務。