大数据与人工智能提纲

讲师:叶梓发布日期:03-03 浏览量:378

（一）统计分析、数据仓库与可视化表达

综述（大数据、人工智能、数据挖掘、机器学习：这些词的确切含义）

假设检验：“小数据”时代是怎么玩的？

“回归”是数据挖掘算法吗？

度量、指标与维度

星型模型与雪花模型

下钻与上卷

数据仓库的应用案例

图表该怎么画才对？

（二）大数据相关技术综述hadoop：HDFS、Map-Reduce、Hbase、Hive、sqoop、pig、oozie等

spark：scala、spark-SQL、spark-Streaming等

搜索引擎：lucene（solr）、ES

并发的机器学习工具：R-hadoop、spark-MLLIB、 spark-R、pyspark（三）存储在hbase中的数据

NoSQL（key-value）

Hbase：安装

行键与列簇

如何利用Hbase的特点存储行业数据

应用程序如何访问Hbase中的数据

数据迁移工具：sqoopHbase的应用场景

（四）Hive：为SQL开发者留的活路

Hive：安装（单用户与多用户）

Hive：基本操作

Hive：与典型的关系型数据库的区别

存储业务数据时的注意点

如果“想慢”，你还可以这样…（不恰当使用hive的案例介绍）

Hive的应用场景

（六）Spark各组件的应用

Hadoop最大的特点是什么？

Spark概述与安装

Scala：你可以一直“点”下去

RDD：“映射”、“转换”解决一切

spark-SQL

spark-streaming

spark-graphXspark-MLLIB

应用场景

（七）机器学习-1

数据挖掘、知识发现与机器学习

工具：（早期）SPSS、SAS；

目前流行的工具R、Python等

决策树（熵、贪心法、连续的和离散的）

聚类（k-means、k-medoid）

监督学习、无监督学习的差异

机器学习性能评价指标

（八）机器学习-2

KNN

关联规则（频繁项集、Apriori、支持度、置信度、提升度）

神经网络（神经元、激励函数、前馈神经网络的BP算法）

SVM（最大间隔、核函数、多分类的支持向量机）

（九）机器学习-3

“概率派”与“贝叶斯派”

朴素贝叶斯模型（皮马印第安人患糖尿病风险预测）

极大似然估计与EM算法

HMM（三个基本问题：评估、解码、学习）

（十）机器学习-4

遗传算法（交叉、选择、变异，“同宿舍”问题）

无监督学习

集成学习（adaboost、RF）

强化学习

（十一）深度学习-1

连接主义的兴衰

地形要更陡：改进的目标函数

0.9的100次方等于几？克服梯度消散的方法（改进的激励函数、BN）

利用“惯性”下山：改进的优化算法（Adagrad、RMSprop、Adam）

防止“大锅饭”：dropout

记忆的关键是“合理的忘记”：weight decay

（十二）深度学习-2

让AI理解图像：典型CNN

各种CNN

让AI理解语言：RNN与LSTM、GRU

左右互搏术：GAN

电子游戏的新玩法：DQN

大数据与人工智能提纲

讲师:叶梓 发布日期:03-03 浏览量:378

讲师:叶梓发布日期:03-03 浏览量:378