Hadoop关键技术 Spark内存计算框架

讲师:赵卫东发布日期:06-03 浏览量:708

Hadoop关键技术与Spark内存计算框架

本课程将介绍目前大数据的核心技术和应用实例，并以实践操作和项目式教学的方式着重讲解Hadoop和Spark的基本原理和应用。

一、Hadoop关键技术

学习如何安装运行各种大数据软件以及如何进行初级编程实践，包括Hadoop、HDFS、MapReduce等安装、操作和编程。其中会介绍一些Hadoop的应用案例，并通过一些实验初步了解Hadoop的操作。

第1章　Hadoop概论1.1　缘于搜索的Hadoop1.1.1　Hadoop简介1.1.2　Hadoop发展1.2　大数据、Hadoop的关系1.3　Hadoop设计思想与架构1.3.1　数据存储与切分1.3.2　MapReduce模型1.3.3　MPI和MapReduce第2章　Hadoop存储系统2.1　基本概念2.1.1　NameNode2.1.2　DateNode2.1.3　客户端2.1.4　块2.2　HDFS的特性和目标2.2.1　HDFS的特性2.2.2　HDFS的目标2.3　HDFS架构2.3.1　Master/Slave架构2.3.2　NameNode和Secondary NameNode通信模型2.3.3　文件存取机制2.4　HDFS核心设计2.5　HDFS权限管理第3章　HDFS的使用3.1　HDFS环境准备3.2　HDFS命令的使用3.3　HDFS Java API的使用方法第4章　MapReduce计算框架4.1　Hadoop MapReduce简介4.2　MapReduce模型4.2.1　MapReduce编程模型4.2.2　MapReduce实现原理

第5章　Hadoop命令系统5.1　Hadoop命令系统的组成5.2　用户命令

第6章　Hadoop作业调度系统6.1　作业调度概述6.1.1　相关概念6.1.2　作业调度流程6.1.3　集群资源组织与管理6.1.4　队列控制和权限管理6.1.5　插件式调度框架

第7章　Hadoop集群搭建7.1　Hadoop版本的选择7.2　集群基础硬件需求7.3　安装Hadoop实验

实验一：熟悉常用的 Linux 操作和 Hadoop 操作

实验二：熟悉常用的 HDFS 操作

实验三：熟悉常用的 HBase 操作

实验四：NoSQL 和关系数据库的操作比较

实验五：MapReduce 初级编程实践

二、Spark内存计算框架

介绍为什么会出现Spark？Spark是什么？Spark能做什么？还有Spark安装、使用以及编程基础，并初步了解Spark SQL等核心技术。其中穿插一些Spark的典型应用案例，并通过动手实验初步体验Spark的应用。

第8章 Spark概述8．3．1 Spark的出现与发展8．3．2 Spark协议族8．3．3 Spark的应用及优势第9章 Spark原理9．1 Spark工作原理9．2 Spark架构及运行机制9．2．1 Spark系统架构与节点角色9．2．2 Spark作业执行过程9．2．3 应用初始化9．2．4 构建RDD有向无环图9．2．5 RDD有向无环图拆分

第10章 RDD算子10．1 创建算子10．1．1 基于集合类型数据创建RDD10．1．2 基于外部数据创建RDD10．2 transformation变换算子10．2．1对Value型RDD进行变换10．2．2对Key/ Value型RDD进行变换10.3 action行动算子10．3．1 数据运算类行动算子10．3．2 存储型行动算子

第11章安装和使用Spark11．1 安装Spark11．2 编写和运行Spark程序实验：

实验1：Linux系统基本命令和Hadoop使用方法

实验2：RDD基本操作

实验3：迭代式算法编程实践

实验4：自定义分匙、排序、合并

实验5：利用DataFrame实现数据库的读写

实验 6：利用 Spark Streaming 实现流数据处理

Hadoop关键技术 Spark内存计算框架

讲师:赵卫东 发布日期:06-03 浏览量:708

讲师:赵卫东发布日期:06-03 浏览量:708