培訓內容:
第一部分:如何構建分布式數據倉庫平臺
1.?怎么樣才算是真正意義的大數據平臺
2.????? 開源Hadoop介紹
3.?數據采集過程與分布式存儲
?
1)ETL介紹
?
2)Sqoop
?
3)HDFS
4.?數據倉庫與數據分析
?
1)MapReduce
?
2)Hive
?
3)Pig
?
4)HBase
5.?集群監(jiān)控與調度組件
?
1)Ganglia監(jiān)控
?
2)Hadoop集群權限管理
?
3)Hbase列數據庫監(jiān)控
?
4)Oozie介紹
6.????? Hue介紹
7.????? 運營商全國用戶上網記錄案例介紹
8.????? 網上輿情分析
第二部分:大數據平臺部署及案例
1.?我們應該選哪種Hadoop?
?
1)選哪個版本?為什么?
?
2)選哪種發(fā)行版本?為什么?
2.?集群硬件應該如何選配?
?
1)內存
?
2)CPU
?
3)硬盤
3.?部署案例講解
?
1)英特爾Hadoop詳解
?
2)某省級通信運營商清帳單查詢系統(tǒng)介紹
第三部分:Hbase列數據庫及應用案例
1.?Hbase感性認識
?
1)Hbase簡介
?
2)Hbase特點
?
3)HBase與RDBMS對比
?
4)HBase體系結構
?
5)Hbase常見概念
?
6)性能優(yōu)化
2.?Hbase主要組成
?
7)Zookeeper、Hmaster
?
8)HRegionServer、Region
?
9)HStore存儲、Hfile
?
10)Hbase內部掃描RowKey的原理
?
11)Hbase內部讀寫原理
?
12)HBase設計原理、架構分析
?
13)Hadoop+HBase伸縮性(自動擴容、熱部署)
?
14)HBase相關表結構設計(列族、列詳細分析)
?
15)HBase主HMaster與備用HMaster間的切換原理
?
16)HBase基本命令介紹
3.?如何使用Hbase?
?
17)Hbase的6種使用方式
?
18)HBase Shell方式訪問;
?
19)HBase Java API方式訪問;
?
20)Hive+Hbase方式訪問;
?
21)Pig+Hbase方式訪問;
4.?Hbase+Zookeeper使用配置
?
22)Zookeeper簡介
?
23)Zookeeper與 HBase 的關系
5.????? Hbase的RowKey設計原則
6.?項目案例:
?
24)HBase在小米業(yè)務的應用
第四部分:大數據挖掘介紹與應用案例
1.?大數據挖掘和傳統(tǒng)數據挖掘區(qū)別?
?
1)傳統(tǒng)數據挖掘
?
2)SPSS Modeler 14.2
?
3)SAS簡介
?
4)Mahout簡介
?
5)R語言介紹
?
6)R語言連接HIVE
2.?算法介紹和應用
?
1)關聯(lián)分析
?
2)K-means
?
3)決策數據C5.0
?
4)邏輯線性Logistic回歸
?
5)主成分/因子分析
?
6)Apriori算法
?
7)預測算法
?
8)神經網絡
?
9)協(xié)同過濾挖掘算法
3.?項目案例詳解
?
1)用戶行為編好分析
?
2)客戶流失預測分析
?
3)營銷產品推薦系統(tǒng)
?
4)TF-IDF與余弦相似性的應用