大数据与人工智能提纲

讲师:叶梓 发布日期:03-03 浏览量:342


(一)统计分析、数据仓库与可视化表达

综述(大数据、人工智能、数据挖掘、机器学习:这些词的确切含义)

假设检验:“小数据”时代是怎么玩的?

“回归”是数据挖掘算法吗?

度量、指标与维度

星型模型与雪花模型

下钻与上卷

数据仓库的应用案例

图表该怎么画才对?

(二)大数据相关技术综述hadoop:HDFS、Map-Reduce、Hbase、Hive、sqoop、pig、oozie等

spark:scala、spark-SQL、spark-Streaming等

搜索引擎:lucene(solr)、ES

并发的机器学习工具:R-hadoop、spark-MLLIB、 spark-R、pyspark(三)存储在hbase中的数据

NoSQL(key-value)

Hbase:安装

行键与列簇

如何利用Hbase的特点存储行业数据

应用程序如何访问Hbase中的数据

数据迁移工具:sqoopHbase的应用场景

(四)Hive:为SQL开发者留的活路

Hive:安装(单用户与多用户)

Hive:基本操作

Hive:与典型的关系型数据库的区别

存储业务数据时的注意点

如果“想慢”,你还可以这样…(不恰当使用hive的案例介绍)

Hive的应用场景

(六)Spark各组件的应用

Hadoop最大的特点是什么?

Spark概述与安装

Scala:你可以一直“点”下去

RDD:“映射”、“转换”解决一切

spark-SQL

spark-streaming

spark-graphXspark-MLLIB

应用场景

(七)机器学习-1

数据挖掘、知识发现与机器学习

工具:(早期)SPSS、SAS;

目前流行的工具R、Python等

决策树(熵、贪心法、连续的和离散的)

聚类(k-means、k-medoid)

监督学习、无监督学习的差异

机器学习性能评价指标

(八)机器学习-2

KNN

关联规则(频繁项集、Apriori、支持度、置信度、提升度)

神经网络(神经元、激励函数、前馈神经网络的BP算法)

SVM(最大间隔、核函数、多分类的支持向量机)

(九)机器学习-3

“概率派”与“贝叶斯派”

朴素贝叶斯模型(皮马印第安人患糖尿病风险预测)

极大似然估计与EM算法

HMM(三个基本问题:评估、解码、学习)

(十)机器学习-4

遗传算法 (交叉、选择、变异,“同宿舍”问题)

无监督学习

集成学习(adaboost、RF)

强化学习

(十一)深度学习-1

连接主义的兴衰

地形要更陡:改进的目标函数

0.9的100次方等于几?克服梯度消散的方法(改进的激励函数、BN)

利用“惯性”下山:改进的优化算法(Adagrad、RMSprop、Adam)

防止“大锅饭”:dropout

记忆的关键是“合理的忘记”:weight decay

(十二)深度学习-2

让AI理解图像:典型CNN

各种CNN

让AI理解语言:RNN与LSTM、GRU

左右互搏术:GAN

电子游戏的新玩法:DQN

分享
联系客服
返回顶部