Python机器学习(算法篇)

讲师:傅一航发布日期:06-20 浏览量:551

Python机器学习算法实战【课程目标】

本课程为高级课程，专注于机器学习算法，原理，以及算法实现及优化。

通过本课程的学习，达到如下目的：

熟悉常见的机器学习的算法。

掌握机器学习的算法原理，以及数据推导。

学会使用Python来实现机器学习算法，以及优化算法。

掌握scikit-learn扩展库来实现机器学习算法。

【授课时间】

3-5天时间

【授课对象】

IT系统部、大数据系统开发部、大数据建模等IT技术人员。

【学员要求】

本课程只讲算法实现，不涉及完整的数据建模和模型使用，所以要求学员之前已经掌握数据建模基础，熟悉建模过程。

每个学员自备一台便携机(必须)。

要求有Python开发基础，事先安装Python 3.9版本以上。

要求有基本的数据分析和数据挖掘的知识。

注：讲师现场提供开源的安装程序、扩展库，以及现场分析的数据源。

【授课方式】

机器学习任务 + 算法原理 + 数学推导 + Python实现

从任务出发，了解算法原理，以及数学推导过程，全过程演练操作，让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。

【课程大纲】

机器学习基础

机器学习简介

机器学习的种类

监督学习/无监督学习/半监督学习/强化学习

批量学习和在线学习

基于实例与基于模型

机器学习的主要战挑

数据量不足

数据质量差

无关特征

过拟合/拟合不足

机器学习任务

监督：分类、回归

无监督：聚类、降维、关联规则

机器学习基本过程

机器学习常用库

预测建模基础

数据建模六步法

选择模型：基于业务选择恰当的数据模型

属性筛选：选择对目标变量有显著影响的属性来建模

训练模型：采用合适的算法，寻找到最合适的模型参数

评估模型：进行评估模型的质量，判断模型是否可用

优化模型：如果评估结果不理想，则需要对模型进行优化

应用模型：如果评估结果满足要求，则可应用模型于业务场景

数据挖掘常用的模型

数值预测模型：回归预测、时序预测等

分类预测模型：逻辑回归、决策树、神经网络、支持向量机等

市场细分：聚类、RFM、PCA等

产品推荐：关联分析、协同过滤等

产品优化：回归、随机效用等

产品定价：定价策略/最优定价等

属性筛选/特征选择/变量降维

基于变量本身特征

基于相关性判断

因子合并（PCA等）

IV值筛选（评分卡使用）

基于信息增益判断（决策树使用）

训练模型及实现算法

模型原理

算法实现

模型评估

评估指标

评估方法

过拟合评估

模型优化

优化模型：选择新模型/修改模型

优化数据：新增显著自变量

优化公式：采用新的计算公式

模型应用

模型解读

模型部署

模型应用

好模型是优化出来的

特征工程处理

数据预处理的主要任务

数据集成：多个数据集的合并

数据清洗：异常值的处理

数据处理：数据筛选、数据精简、数据平衡

变量处理：变量变换、变量派生、变量精简

数据归约：实现降维，避免维灾难

数据集成

数据追加（添加数据）

变量合并（添加变量）

数据清洗（异常数据处理）

取值范围限定

重复值处理

无效值/错误值处理

缺失值处理

离群值/极端值处理

特征工程

变量变换：原变量取值更新，比如标准化

变量派生：根据旧变量生成新的变量

类型转换：数值型与类别型相互转换

特征选择：选择合适的自变量来建模

变量合并：多个变量合并，减少变量个数

变量变换

为什么要做变量变换？

函数转换：中心化、对数变换、平方根变换…

标准化转换：min-max、mean、max absolution、Z-score…

正则化转换：将数据缩放到单位范式(L1/L2变换)

正态化转换：将变量转换成正态分布(Box-Cox、Yeo-Johnson)

类型转换

数字化：将字符串转换成数字

离散化：将数值型转换成类别型

哑变量化：将类别型转换成数值型

特征选择

特征选择模式：Filter/Wrapper/Embedded

Filter特征选择：选择重要变量，剔除不重要的变量

从变量本身考虑：方差阈值法

从输入变量与目标变量的相关性考虑

变量合并

因子分析（FA）

因子分析的原理

因子个数如何选择

如何解读因子含义

主成分分析（PCA）

案例：提取影响电信客户流失的主成分分析

回归算法实现

建模的本质，其实是一个最优化问题

回归模型的基础

基本概念：损失函数

线性回归常用算法

普通最小二乘法OLS

梯度下降算法

牛顿法/拟牛顿法

最小二乘法

数学推导

OLS存在的问题

过拟合解决方法：正则化

岭回归（Ridge）

套索回归Lasso

ElasticNet回归

各种算法的适用场景

超大规模数据集的回归模型：迭代算法

梯度概念

梯度下降/上升算法

批量梯度BGD/随机梯度SGD/小批量梯度MBGD

学习率的影响

早期停止法

梯度算法的关键问题

牛顿法/拟牛顿法

泰勒公式(Taylor)

牛顿法(Newton)

拟牛顿法(Quasi-Newton)的优化

DFP/BFGS/L-BFGS

算法比较

逻辑回归算法

逻辑回归基础

LR的常用算法

最大似然估计法

梯度算法

牛顿法

最大似然估计法

似然函数/损失函数

数学推导

模型优化

迭代样本的随机选择

变化的学习率

逻辑回归+正则项

求解算法与惩罚项的关系

多元逻辑回归处理

ovoovr优缺点比较

逻辑回归建模实战

案例：用sklearn库实现银行贷款违约预测

案例：订阅者用户的典型特征（二元逻辑回归）

案例：通信套餐的用户画像（多元逻辑回归）

决策树算法

决策树简介

演练：识别银行欠货风险，提取欠贷者的特征

决策树的三个关键问题

最优属性选择

熵、基尼系数

信息增益、信息增益率

属性最佳划分

多元划分与二元划分

连续变量最优划分

决策树修剪

剪枝原则

预剪枝与后剪枝

构建决策树的算法

ID3、C4.5、C5.0

CART

决策树的超参优化

决策树的解读

决策树建模过程

案例：商场酸奶购买用户特征提取

案例：客户流失预警与客户挽留

案例：识别拖欠银行货款者的特征，避免不良货款

案例：识别电信诈骗者嘴脸，让通信更安全

案例：电力窃漏用户自动识别

神经网络算法

神经网络简介（ANN）

神经元基本原理

加法器

激活函数

神经网络的结构

隐藏层数量

神经元个数

神经网络的建立步骤

神经网络的关键问题

BP算法实现

MLP多层神经网络

学习率的设置

案例：评估银行用户拖欠货款的概率

案例：神经网络预测产品销量

线性判别算法

判别分析简介

判别分析算法

中心和方差

类间散席Sb

类内散席Sw特征值和特征向量

多分类LDA算法

算法实战

案例：MBA学生录取判别分析

案例：上市公司类别评估

最近邻算法（KNN）

KNN的基本原理

K近邻的关键问题

距离公式

投票机制

KNN算法实现

Brute（蛮力计算）

Kd_tree（KD树）

Ball_tre（球树）

算法比较

贝叶斯算法（NBN）

贝叶斯简介

贝叶斯分类原理

先验概率和后验概率

条件概率和类概率

常见贝叶斯网络

计算类别属性的条件概率

估计连续属性的条件概率

预测分类概率（计算概率）

拉普拉斯修正

案例：评估银行用户拖欠货款的概率

支持向量机算法（SVM）

支持向量机简介

适用场景

支持向量机原理

支持向量

最大边界超平面

线性不可分处理

松弛系数

非线性SVM分类

常用核函数

线性核函数

多项式核

高斯RBF核

核函数的选择原则

SMO算法

模型集成优化篇

模型的优化思想

集成模型的框架

Bagging

Boosting

Stacking

集成算法的关键过程

弱分类器如何构建

组合策略：多个弱学习器如何形成强学习器

Bagging集成算法

数据/属性重抽样

决策依据：少数服从多数

随机森林RandomForestBoosting集成算法

基于误分数据建模

样本选择权重更新

决策依据：加权投票

AdaBoost模型

GBDT模型

XGBoost模型

LightGBM模型

聚类分析（客户细分）实战

聚类基本原理

K均值聚类算法

K均值算法

距离计算公式

闵可夫斯基距离(Minkowski Distance)

曼哈顿距离(Manhattan Distance)

欧氏距离(Euclidean Distance)

切比雪夫距离(Chebyshev Distance)

余弦距离(Cosine)

Pearson相似距离

马哈拉诺比斯距离（Mahalanobis）

汉明距离(Hamming distance)

杰卡德相似系数(Jaccard similarity coefficient)

相对熵（K-L距离）

K均值算法的关键问题

初始中心的选取方式

最优K值的选取

聚类算法的评价方法

Elbow method（手肘法）

Calinski-Harabasz Index（CH准则法）

Silhouette Coefficient（轮廓系数法）

Gap Statistic（间隔统计量法）

Canopy算法

算法实战

案例：使用SKLearn实现K均值聚类

关联规则算法

关联规则基本原理

常用关联规则算法

Apriori算法

发现频繁集

生成关联规则

FP-Growth算法

构建FP树

提取规则

算法实战

案例：使用apriori库实现关联分析

案例：中医证型关联规则挖掘

协同过滤算法

协同过滤基本原理

协同过滤的两各类型

基于用户的协同过滤UserCF基于物品的协同过滤ItemCF相似度评估常用公式

UserCF算法实现

计算用户间的兴趣相似度

筛选前K个相似用户

合并相似用户购买过的物品集

剔除该用户已经购买过的产品，得到候选物品集

计算该用户对物品的喜欢程度，物品集排序

优先推荐前N个物品

ItemCF算法实现

计算物品间的相似度

筛选前K个喜欢的物品

合并与前K个物品相似的前L个物品集

剔除该用户已经购买过的物品，得到候选物品集

计算该用户到候选物品的喜爱程度，物品排序

优先推荐前N个物品

关于冷启动问题

协同过滤算法比较

结束：课程总结与问题答疑。

Python机器学习(算法篇)

讲师:傅一航 发布日期:06-20 浏览量:551

讲师:傅一航发布日期:06-20 浏览量:551