机器学习与数据挖掘
机器学习与数据挖掘
DAY1:
一、机器学习基本知识
1.机器学习初步知识
1.1.概念
1.2.ML分类及算法
2 高等数学及概率论知识
2.1导数/梯度
2.2.Taylor
2.3.凸函数
2.4.古典概率
2.5.贝叶斯公式
2.6.常见概率分布
二、数理统计与参数估计
1.重要统计量
1.1 期望
1.2.方差
1.3.协方差与相关系数
1.4 独立与不相关
2.重要定理与不等式
2.1.Jensen不等式
2.2 契比雪夫不等式
2.3.大数定理
2.4.中心极限定理
3.用样本估计参数
3.1 矩估计
3.2 极大似然估计
DAY2:
三、矩阵分析与应用
1.线性代数基本知识
2.特征分解
3.万能矩阵分解
四、凸优化初步
1.优化问题基本知识
2.凸集和凸函数基础
3.凸优化问题
五、线性回归与逻辑回归
1.线性回归
1.1.定义与问题引入
1.2.损失函数
1.3.梯度下降
1.4.过拟合与正则化
2.逻辑回归
2.1.定义与问题引入
2.2.损失函数
2.3.梯度下降与正则化及示例
3.工程应用经验
3.1.优缺点和应用场景
3.2.样本处理
3.3.特征处理
3.4.算法调优
DAY3:
六、特征工程
1.前言
1.1.机器学习与特征工程的关联
1.2.实际工业界的特征工程那些事儿
2.数据与特征处理
2.1.数据选择/清洗/采样
2.2.数值型/类别型/日期型/文本型特征处理
2.3.组合特征处理
2.4.特征处理案例分析
3.特征选择
3.1.Filter/Wrapper/Embedded
3.2.开发包
4.特征工程案例
七、工作流程与模型优化
1.工作流程(数据处理-特征工程-模型选择-交叉验证)
2.模型优化
3.案例分享
DAY4:
八、信息论、最大熵模型与EM算法
1.统计基础回顾
2.信息论基础
3.最大熵模型
4.EM算法
九、推荐系统及应用
1.互联网需求变更
1.1.推荐系统广泛应用
1.2.推荐系统需求
1.3.推荐系统结构与评估
2.推荐算法初步
2.1.基于内容推荐
2.2.协同过滤
3.推荐算法进阶
3.1.矩阵分解与隐语义模型
4.推荐系统案例
十、聚类算法与应用
1.K-means聚类
2.层次聚类
3.混合高斯模型
4.案例分享
DAY5:
十一、决策树与随机森林
1.信息熵
2.决策数学习算法
3.Bagging与随机森林
4.Adaboost/GDBT
十二、SVM
1.向量机知识结构
2.向量机的原理
3.算法推导核心过程
4.核函数
十三、贝叶斯方法
1.贝叶斯公式
2.朴素贝叶斯
3.朴素贝叶斯在工程应用
4.贝叶斯网络
DAY6:
十四 主题模型
1.主题模型的直观理解
2.pLSA模型及优化思路
3.Jensen不等式及变分EM
4.LDA模型及优化思路
5.Dirichlet分布的特性
6.主题模型的应用
十五 贝叶斯推理
1.马尔可夫链和MCMC算法
2.Gibbs采样
3.LDA的Gibbs采样推断
4.重温Jensen不等式及LDA的变分EM
5. KL-divergence和变分EM
DAY7:
十六、人工神经网络
1.基本概念
1.1.起源
1.2.基本结构
2.神奇的分类能力与背后的原理
2.1.非线性切分问题
2.2.感知器与逻辑门
2.3.强大的空间非线性切分能力
3.代码与示例
3.1.手把手展示神经网络的非线性切分能力
3.2.Tensorflow多层感知器非线性切分
十七、卷积神经网络
1.神经网络与卷积神经网络
1.1.层级结构
1.2.数据处理
1.3.训练算法
1.4.优缺点
2.实际搭建与训练CNN
2.1.典型CNN网络
2.2.训练与优化
3.常用框架与应用
3.1.常用框架
3.2.广泛应用
DAY8:
十八、循环神经网络与LSTM
1.神经网络与循环神经网络
1.1.强大的功能
1.2.层级结构
1.3.多种RNN
2.LSTM
2.1.长时依赖问题
2.2.“记忆细胞”与状态
3.LSTM变体
十九、案例分享
1.证券行业-个性化推荐与营销
2.银行行业-流水预警与高价值人群挖掘
3.手机行业-舆情监控与数据洞察