主要內容:
1.Spark在Ubuntu虛擬機上的分布式集群環境搭建
2.基于Python的Spark編程基礎
3.Spark MLlib的使用(.py文件):回歸預測、聚類、關聯規則、神經網絡預測
4.Spark在阿里云的使用(.py文件)
5.Spark在AWS亞馬遜云的使用
6.預測算法介紹
課程大綱:
1.Spark入門及生態體系
概述
Spark生態
Spark(內存計算框架)
SparkSteaming(流式計算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel將被取代)
彈性分布式數據集(RDD)
2.Python Spark基礎介紹
Spark 編程模型
RDD緩存策略
Spark Python編程入門
PySpark
惰性計算(Lazy Evaluation)
流水線(Pipelines)
3.分布式集群搭建
Spark-1.6.1、Hadoop-2.6.4、VMware Ubuntu分布式集群搭建全過程
Ubuntu基本環境配置
集群安裝準備
安裝配置Hadoop
安裝配置Spark
4.基于Python的Spark編程實戰
概述
連接Spark
初始化Spark
使用命令行
彈性分布式數據集(RDD)
RDD操作
RDD持久化
在集群上部署
用Python編寫的一個簡單Spark應用
5.Spark MLlib的使用
機器學習概念
Spark MLlib介紹
Spark MLlib架構解析
MLlib的算法庫分析
用Spark Python構建分類模型
使用 Spark MLlib 做 K-means 聚類分析
6.Spark在阿里云的使用
阿里云服務介紹
阿里云搭建Spark集群過程
計算π值和Kmeans實驗
7.spark在AWS亞馬遜云的使用
亞馬遜AWS云服務的內容
亞馬遜的EMR中提供的3種主要組件
Spark on Amazon EMR架構解析
應用案例:構建1000個節點的Spark集群
Spark應用
8.預測算法介紹
用Spark Python構建回歸模型
9.案例介紹
使用 Spark 模塊解析