大数据与人工智能提纲
讲师:叶梓 发布日期:03-03 浏览量:342
(一)统计分析、数据仓库与可视化表达
综述(大数据、人工智能、数据挖掘、机器学习:这些词的确切含义)
假设检验:“小数据”时代是怎么玩的?
“回归”是数据挖掘算法吗?
度量、指标与维度
星型模型与雪花模型
下钻与上卷
数据仓库的应用案例
图表该怎么画才对?
(二)大数据相关技术综述hadoop:HDFS、Map-Reduce、Hbase、Hive、sqoop、pig、oozie等
spark:scala、spark-SQL、spark-Streaming等
搜索引擎:lucene(solr)、ES
并发的机器学习工具:R-hadoop、spark-MLLIB、 spark-R、pyspark(三)存储在hbase中的数据
NoSQL(key-value)
Hbase:安装
行键与列簇
如何利用Hbase的特点存储行业数据
应用程序如何访问Hbase中的数据
数据迁移工具:sqoopHbase的应用场景
(四)Hive:为SQL开发者留的活路
Hive:安装(单用户与多用户)
Hive:基本操作
Hive:与典型的关系型数据库的区别
存储业务数据时的注意点
如果“想慢”,你还可以这样…(不恰当使用hive的案例介绍)
Hive的应用场景
(六)Spark各组件的应用
Hadoop最大的特点是什么?
Spark概述与安装
Scala:你可以一直“点”下去
RDD:“映射”、“转换”解决一切
spark-SQL
spark-streaming
spark-graphXspark-MLLIB
应用场景
(七)机器学习-1
数据挖掘、知识发现与机器学习
工具:(早期)SPSS、SAS;
目前流行的工具R、Python等
决策树(熵、贪心法、连续的和离散的)
聚类(k-means、k-medoid)
监督学习、无监督学习的差异
机器学习性能评价指标
(八)机器学习-2
KNN
关联规则(频繁项集、Apriori、支持度、置信度、提升度)
神经网络(神经元、激励函数、前馈神经网络的BP算法)
SVM(最大间隔、核函数、多分类的支持向量机)
(九)机器学习-3
“概率派”与“贝叶斯派”
朴素贝叶斯模型(皮马印第安人患糖尿病风险预测)
极大似然估计与EM算法
HMM(三个基本问题:评估、解码、学习)
(十)机器学习-4
遗传算法 (交叉、选择、变异,“同宿舍”问题)
无监督学习
集成学习(adaboost、RF)
强化学习
(十一)深度学习-1
连接主义的兴衰
地形要更陡:改进的目标函数
0.9的100次方等于几?克服梯度消散的方法(改进的激励函数、BN)
利用“惯性”下山:改进的优化算法(Adagrad、RMSprop、Adam)
防止“大锅饭”:dropout
记忆的关键是“合理的忘记”:weight decay
(十二)深度学习-2
让AI理解图像:典型CNN
各种CNN
让AI理解语言:RNN与LSTM、GRU
左右互搏术:GAN
电子游戏的新玩法:DQN