SPARK高级课程

讲师:骆飞发布日期:10-25 浏览量:890

Spark培训

课程定位与课程目标

Spark是第一个脱胎于该转变的快速、通用分布式计算范式。Spark使用函数式编程范式

扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被

实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也

足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法

的性能，这使得Spark非常适合数据理论任务，特别是机器学习。

本课程中，我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析

。然后，我们在入门级水平探索Spark，了解Spark是什么以及它如何工作（希望可以激

发更多探索）。最后两节我们开始通过命令行与Spark进行交互，然后演示如何用Pytho

n写Spark应用，并作为Spark作业提交到集群上。

适用学员：从事无线建设、无线规划、无线覆盖的工管、网络建设、客户经理等部门员

工

课程设计：

|课程编号： |21090203016 |

|授课课时: |3至5天 |

|授课条件： |学员必须具有基本的JAVA编程知识 |

|内容摘要： | |

| |第一章　Spark大数据开放的技术相关 |

| |1.1　什么是Spark |

| |1.2 Spark与Hadoop的区别 |

| |1.3 Spark生态 |

| |Spark（内存计算框架） |

| |SparkSteaming（流式计算框架） |

| |Spark SQL（ad-hoc） |

| |Mllib（Machine Learning） |

| |GraphX（bagel将被取代） |

| |1.4 安装部署 |

| |Spark安装简介 |

| |Spark的源码编译 |

| |Spark Standalone安装 |

| |Spark Standalone HA安装 |

| |Spark应用程序部署工具spark-submit |

| | |

| |第二章　Spark运行架构和解析 |

| |2.1 Spark的运行架构 |

| |基本术语 |

| |运行架构 |

| |Spark on Standalone运行过程 |

| |Spark on YARN 运行过程 |

| |2.2 Spark运行实例解析 |

| |2.3 Spark on Standalone实例解析 |

| |2.4 Spark on YARN实例解析 |

| |小结　 |

| | |

| |第三章　Spark调优 |

| |3.1 Spark生态系统概述 |

| |• 回顾Hadoop MapReduce |

| |• Spark运行模式 |

| |• RDD |

| |• Spark运行时模型简介 |

| |• 缓存策略介绍 |

| |• transformation |

| |• action |

| |• lineage |

| |• 容错处理 |

| |• 宽依赖与窄依赖 |

| |• 集群配置 |

| |3.2 Spark的监控 |

| |Spark UI监控 |

| |Ganglia 监控 |

| |3.3 Spark调优 |

| | |

| |第四章 Spark编程模型和解析 |

| |4.1 Spark的编程模型 |

| |Spark编程模型解析 |

| |RDD的特点、操作、依赖关系 |

| |Spark应用程序的配置 |

| |4.2 Spark编程实例解析 |

| |日志的处理 |

| |电信基站数据的处理 |

| |4.3 Spark的多语言编程 |

| |Spark的scala编程 |

| |Scala基本语法 |

| |Scala开发环境搭建 |

| |Scala开发Spark应用程序 |

| |4.4 Spark的Python编程 |

| |Python的基本语法 |

| |Pyhton开发Spark应用程序 |

| | |

| |第五章　Spark Streaming原理和实践 |

| |5.1 Spark Streaming原理 |

| |Spark流式处理架构 |

| |DStream的特点 |

| |Dstream的操作和RDD的区别 |

| |Spark Streaming的优化 |

| |5.2 Spark Streaming实例 |

| |文本实例 |

| |Window操作 |

| |网络数据处理 |

| | |

| |第六章　Spark SQL原理和实践 |

| |6.1 Spark SQL原理 |

| |Spark SQL的Catalyst优化器 |

| |Spark SQL内核 |

| |Spark SQL和Hive |

| |6.2 Spark SQL的实例和编程 |

| |Spark SQL的实例操作demo |

| |Spark SQL的编程 |

| | |

| |第七章 Spark源码研读 |

| |7.1 Spark源码研读 |

| |Spark源码下载和研读环境搭建 |

| |7.2 Spark Core介绍 |

| |SparkContext |

| |Executor |

| |Deploy |

| |7.3 RDD和Storage |

| |7.4 Scheduler和Task |

| |7.5 Spark Examples介绍 |

| | |

| |第八章　应用中的数据挖掘算法 |

| |8.1 Spark 机器学习入门 |

| |8.2 机器学习的原理 |

| |8.3 Mllib简介 |

| |8.4 Mllib的例程分析 |

| | |

| |第九章　大数据的zookeeper分布式 |

| |9.1 安装和配置详解 |

| |单机模式 |

| |配置文件介绍 |

| |9.2 BIN目录介绍及zookeeper的启动 |

| |9.3 集群模式 |

| |9.4 分布式队列与设计思路 |

| | |

| |第十章　应用服务器Jboss hadoop |

| |10.1 服务器软硬件配置 |

| |10.2 软件需求分析 |

| |10.3 Jboss服务器配置详解 |

| |10.4 Jboss部署配置文件 |

| |10.5 Jboss实例 |

|授课语言： |中文 |

SPARK高级课程

讲师:骆飞 发布日期:10-25 浏览量:890

讲师:骆飞发布日期:10-25 浏览量:890