hadoop 大数据技术培训 5天

讲师:孙增辉 发布日期:02-03 浏览量:713


大数据处理技术培训
课程介绍
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高 容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。    
课程目标
掌握大数据方法体系
掌握Hadoop原理技术
熟悉各项大数据处理手段和工具的使用。
培训对象
全省互联网分析人员
课程长度
5天
课程内容
第1天
主题
Hadoop入门,了解什么是hadoop大纲
1、Hadoop产生背景
2、Hadoop在大数据、云计算中的位置和关系
3、国内外Hadoop应用案例介绍
4、国内Hadoop的课程大纲介绍
5、Hadoop生态圈以及各组成部分的简介
6、Hadoop核心MapReduce例子说明
主题
分布式文件系统HDFS
大纲
1、分布式文件系统DFS简介
2、HDFS的系统组成介绍
3、HDFS的组成部分详解
4、副本存放策略及路由规则
5、命令行接口
6、Java接口
7、客户端与HDFS的数据流讲解
8、HDFS的可用性(HA)
第2天
主题
初级MapReduce大纲
1、如何理解map、reduce计算模型
2、剖析伪分布式下MapReduce作业的执行过程
3、序列化
4、MapReduce的类型与格式
5、MapReduce开发环境搭建
6、MapReduce应用开发
7、更多示例讲解,熟悉MapReduce算法原理
主题
高级MapReduce大纲
1、使用压缩分隔减少输入规模
2、利用Combiner减少中间数据
3、编写Partitioner优化负载均衡
4、MapReduce优化
5、编程实战
第3天
主题
Hadoop集群与管理
大纲
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序
主题
HBase基础知识
大纲
1、HBase定义
2、HBase与RDBMS的对比
3、数据模型
4、系统架构
5、HBase上的MapReduce
6、表的设计
第4天
主题
HBase集群及其管理
大纲
1、集群的搭建过程讲解
2、集群的监控
3、集群的管理
主题
Zookeeper
大纲
1、zookeeper的功能
2、zookeeper集群搭建
3、查看zookeeper中数据的存储
第5天
主题
Hive
大纲
1、数据仓库基础知识
2、Hive定义
3、Hive体系结构简介
4、Hive集群
5、客户端简介
主题
HiveQL大纲
1、HiveQL定义
2、HiveQL与SQL的比较
3、数据类型
4、表与表分区概念
5、表的操作与CLI客户端演示
6、数据导入与CLI客户端演示
7、查询数据与CLI客户端演示
8、数据的连接与CLI客户端演示
9、用户自定义函数(UDF)的开发与演示  

分享
联系客服
返回顶部