SPARK高级课程
讲师:骆飞 发布日期:10-25 浏览量:816
Spark培训
课程定位与课程目标
Spark是第一个脱胎于该转变的快速、通用分布式计算范式。Spark使用函数式编程范式
扩展了MapReduce模型以支持更多计算类型,可以涵盖广泛的工作流,这些工作流之前被
实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能,因此进行交互式分析也
足够快速(就如同使用Python解释器,与集群进行交互一样)。缓存同时提升了迭代算法
的性能,这使得Spark非常适合数据理论任务,特别是机器学习。
本课程中,我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析
。然后,我们在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激
发更多探索)。最后两节我们开始通过命令行与Spark进行交互,然后演示如何用Pytho
n写Spark应用,并作为Spark作业提交到集群上。
适用学员:从事无线建设、无线规划、无线覆盖的工管、网络建设、客户经理等部门员
工
课程设计:
|课程编号: |21090203016 |
|授课课时: |3至5天 |
|授课条件: |学员必须具有基本的JAVA编程知识 |
|内容摘要: | |
| |第一章 Spark大数据开放的技术相关 |
| |1.1 什么是Spark |
| |1.2 Spark与Hadoop的区别 |
| |1.3 Spark生态 |
| |Spark(内存计算框架) |
| |SparkSteaming(流式计算框架) |
| |Spark SQL(ad-hoc) |
| |Mllib(Machine Learning) |
| |GraphX(bagel将被取代) |
| |1.4 安装部署 |
| |Spark安装简介 |
| |Spark的源码编译 |
| |Spark Standalone安装 |
| |Spark Standalone HA安装 |
| |Spark应用程序部署工具spark-submit |
| | |
| |第二章 Spark运行架构和解析 |
| |2.1 Spark的运行架构 |
| |基本术语 |
| |运行架构 |
| |Spark on Standalone运行过程 |
| |Spark on YARN 运行过程 |
| |2.2 Spark运行实例解析 |
| |2.3 Spark on Standalone实例解析 |
| |2.4 Spark on YARN实例解析 |
| |小结 |
| | |
| |第三章 Spark调优 |
| |3.1 Spark生态系统概述 |
| |• 回顾Hadoop MapReduce |
| |• Spark运行模式 |
| |• RDD |
| |• Spark运行时模型简介 |
| |• 缓存策略介绍 |
| |• transformation |
| |• action |
| |• lineage |
| |• 容错处理 |
| |• 宽依赖与窄依赖 |
| |• 集群配置 |
| |3.2 Spark的监控 |
| |Spark UI监控 |
| |Ganglia 监控 |
| |3.3 Spark调优 |
| | |
| |第四章 Spark编程模型和解析 |
| |4.1 Spark的编程模型 |
| |Spark编程模型解析 |
| |RDD的特点、操作、依赖关系 |
| |Spark应用程序的配置 |
| |4.2 Spark编程实例解析 |
| |日志的处理 |
| |电信基站数据的处理 |
| |4.3 Spark的多语言编程 |
| |Spark的scala编程 |
| |Scala基本语法 |
| |Scala开发环境搭建 |
| |Scala开发Spark应用程序 |
| |4.4 Spark的Python编程 |
| |Python的基本语法 |
| |Pyhton开发Spark应用程序 |
| | |
| |第五章 Spark Streaming原理和实践 |
| |5.1 Spark Streaming原理 |
| |Spark流式处理架构 |
| |DStream的特点 |
| |Dstream的操作和RDD的区别 |
| |Spark Streaming的优化 |
| |5.2 Spark Streaming实例 |
| |文本实例 |
| |Window操作 |
| |网络数据处理 |
| | |
| |第六章 Spark SQL原理和实践 |
| |6.1 Spark SQL原理 |
| |Spark SQL的Catalyst优化器 |
| |Spark SQL内核 |
| |Spark SQL和Hive |
| |6.2 Spark SQL的实例和编程 |
| |Spark SQL的实例操作demo |
| |Spark SQL的编程 |
| | |
| |第七章 Spark源码研读 |
| |7.1 Spark源码研读 |
| |Spark源码下载和研读环境搭建 |
| |7.2 Spark Core介绍 |
| |SparkContext |
| |Executor |
| |Deploy |
| |7.3 RDD和Storage |
| |7.4 Scheduler和Task |
| |7.5 Spark Examples介绍 |
| | |
| |第八章 应用中的数据挖掘算法 |
| |8.1 Spark 机器学习入门 |
| |8.2 机器学习的原理 |
| |8.3 Mllib简介 |
| |8.4 Mllib的例程分析 |
| | |
| |第九章 大数据的zookeeper分布式 |
| |9.1 安装和配置详解 |
| |单机模式 |
| |配置文件介绍 |
| |9.2 BIN目录介绍及zookeeper的启动 |
| |9.3 集群模式 |
| |9.4 分布式队列与设计思路 |
| | |
| |第十章 应用服务器Jboss hadoop |
| |10.1 服务器软硬件配置 |
| |10.2 软件需求分析 |
| |10.3 Jboss服务器配置详解 |
| |10.4 Jboss部署配置文件 |
| |10.5 Jboss实例 |
|授课语言: |中文 |