Hadoop是大數據平臺處理的框架的基石,尤其在海量數據的存儲HDFS、分布式資源管理和任務調度YARN及分布式計算框架MapReduce。現在Hadoop已經在大中小企業中廣泛使用,Hadoop工程師的需求量也越來越大。
?
隨著Python在數據分析、大數據和人工智能的廣泛使用,越來越多的企業選擇使用Python來編寫Hadoop代碼,從而達到代碼的統一性。而目前市面上的Hadoop基本上是使用Java來寫的。為適應更多企業的實際需求,特此推出Python大數據之Hadoop編程從入門到精通系列課程。
?
?
通過本課程的學習,學員可掌握Hadoop的架構原理和使用場景,并通過貫穿課程的項目進行實戰鍛煉,從而熟練使用Hadoop進行MapReduce程序開發。課程還涵蓋了分布式計算領域的常用算法介紹,幫助學員為企業在利用大數據方面體現自身價值。
此外,學員還可以學習劉聲老師的另一個大數據課程《Python大數據之Spark編程從入門到精通》http://edu.51cto.com/course/12649.html?
課程目錄
一、Hadoop入門
hadoop介紹
二、Hadoop之HDFS
hadoop HDFS指令全解析
啟動hadoop的方法與注意事項
?
三、Hadoop之MapReduce
Mapreduce -Python編程原理+實戰
在Hadoop集群中實際運行MapReduce
【案例】使用Python編寫MapReduce代碼求低溫度
【案例】分析好友交際關系
Hadoop中的Shuffle&Sort原理與應用
?
四、多級MapReduce任務組合級聯
MRstep構建多級MapReduce原理與實例
【案例】使用多級MapReduce分析城市年薪數據
?
五、Hadoop中Combiner的原理與應用
Combiner的原理解析
多級MapReduce任務的combiner
【案例】使用combiner分析顧客數據
【案例】分析漫威漫畫英雄關系
【擴展】Hadoop參數解析
?
六、企業大項目實戰:使用Hadoop構建電影推薦引擎
電影相似度的數學原理——余弦相似度
【大項目】使用Python+Hadoop編寫電影推薦引擎代碼