Python数据挖掘开发实战

讲师:尹传亮发布日期:06-19 浏览量:605

Python实现大数据挖掘技术培训【课程目标】

Python已经成为数据分析和数据挖掘的首选语言，作为除了Java、C/C++/C#外最受欢迎的语言。

本课程基于Python工具来实现大数据的数据分析和数据挖掘项目。基于业务问题，在数据挖掘标准过程指导下，采用Python分析工具，实现数据挖掘项目的每一步操作，从数据预处理、数据建模、数据可视化，到最终数据挖掘结束，帮助学员掌握Python用于数据挖掘，提升学员的数据化运营及数据挖掘的能力。

通过本课程的学习，达到如下目的：

全面掌握Python语言以及其编程思想。

掌握常用扩展库的使用，特别是数据挖掘相关库的使用。

学会使用Python完成数据挖掘项目整个过程。

掌握利用Python实现可视化呈现。掌握数据挖掘常见算法在Python中的实现。

【授课时间】

2-5天时间

（要根据学员的实际情况调整重点内容及时间）

【授课对象】

业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。

【学员要求】

课程为实战课程，要求：

每个学员自备一台便携机(必须)。

便携机中事先安装好Python 3.6版本及以上。

安装好Numpy,Pandas,sklearn等常用库。

注：讲师现场提供开源的安装程序、扩展库，以及现场分析的数据源。

【授课方式】

语言基础 + 挖掘模型 + 案例演练 + 开发实践 + 可视化呈现

采用互动式教学，围绕业务问题，展开数据分析过程，全过程演练操作，让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。

【课程大纲】

数据对象基本操作

目的：掌握数据集结构及基本处理方法，进一步巩固Python语言

数据挖掘常用扩展库介绍

Numpy数组处理支持

Scipy矩阵计算模块

Matplotlib数据可视化工具库

Pandas数据分析和探索工具

StatsModels统计建模库

Scikit-Learn机器学习库

Keras深度学习（神经网络）库

Gensim文本挖掘库

数据集构建

Index, Series, DataFrame对象

手工构建（创建索引、序列、数据集）

读取文件（CSV文件、Excel文件）

读取数据库

数据集保存（CSV、Excel）

数据集基本操作

基本属性访问

shape,ndim,index,columns,values,empty,size

数据类型处理：查看、修改、转换

排序

排序依据：标题、索引、字段

排序顺序：升序、降序

自定义排序：按标题、索引、字段、有序类别变量排序

基本访问

行访问、列访问、值访问

访问方式：标签、位置

访问类型：单行列、多行列、连续行列

布尔数组访问

字段管理、新增、删除、修改、替换、移位

数据筛选：条件筛选、多值筛选、筛选空值/非空值

演练：用Python实现数据的基本访问

大数据预处理

目的：掌握数据预处理的基本环节，以及Python的实现。

预处理任务

数据清洗

数据集成

数据处理

变量处理

数据清洗

重复值处理

重复字段、重复标题、重复索引

处理方式：查找、删除、修改

错误值处理

查找错误值

置空/删除

重新编码/替换

离群值处理：

检测标题：3σ准则，IQR准则，K均值

处理方式：查找、置空、截尾、缩尾

基于K均值的离群值检测

缺失值处理：

查找、删除

插补(固定值/均值/向下填充/向上填充/插入法/拉格朗日)

数据集成

数据追加

变量合并（连接类型）

数据处理

数据筛选

数据抽样

简单抽样（有放回、无放回）

分层抽样

离散化/分箱

等宽

等频

自定义间隔

K均值

变量处理

处理方式：变量变换、变量派生

规范化：min-max /mean-std/exp-max

哑变量化

案例：用Python实现数据预处理

数据可视化处理

目的：掌握作图扩展库，实现数据可视化

统计基础

数值变量：描述统计

类别变量：分类计数

分类统计：分类汇总

常用的Python作图库

Matplotlib库

Pygal库

各种图形的画法

柱状图

直方图

饼图

折线图

散点图

…

演练：用Python库作图来实现产品销量分析，并可视化

影响因素分析/特征选择

目的：掌握判断事物间相关性的常用方法，熟悉建模前如何进行属性筛选/特征选择，以实现降维的目的。

影响因素分析常用方法

相关分析

相关分析原理

相关系数公式种类

Pearson相关系数

Spearman等级相关系数

Kendall等级相关系数

方差分析

方差分析原理

方差分析种类

单因素方差分析

多因素方差分析

协方差分析

列联分析/卡方检验

列联分析原理

计数与期望值

卡方检验公式

主成分分析：降维

PCA方法原理

回归预测模型实战

常用数值预测的模型

通用预测模型：回归模型

季节性预测模型：相加、相乘模型

新产品预测模型：珀尔曲线与龚铂兹曲线

回归分析概念

常见回归分析类别

回归分析常见算法

普通最小二乘法OLS

岭回归（RR）

套索回归Lasso

ElasticNet回归

回归模型的评估

判定系数R^2

平均误差率MAPE

分类预测模型实战

常见分类预测的模型与算法

如何评估分类预测模型的质量

正确率、查准率、召回率、F1

ROC曲线

逻辑回归分析模型

逻辑回归的原理

逻辑回归建模的步骤

案例：用sklearn库实现银行贷款违约预测

决策树模型

决策树分类的原理

决策树的三个关键问题

决策树算法与实现

案例：电力窃漏用户自动识别

决策树算法

最优属性选择算法：ID3、ID4.0、ID5.0

连续变量分割算法

树剪枝：预剪枝、后剪枝

人工神经网络模型（ANN）

神经网络概述

神经元工作原理

常见神经网络算法（BP、LM、RBF、FNN等）

案例：神经网络预测产品销量

支持向量机（SVM）

SVM基本原理

维灾难与核心函数

案例：基于水质图像的水质评价

贝叶斯分析

条件概率

常见贝叶斯网络

聚类分析（客户细分）实战

客户细分常用方法

聚类分析（Clustering）

聚类方法原理介绍及适用场景

常用聚类分析算法

聚类算法的评价

案例：使用SKLearn实现K均值聚类

案例：使用TSNE实现聚类可视化

RFM模型分析

RFM模型，更深入了解你的客户价值

RFM模型与市场策略

案例：航空公司客户价值分析

关联规则分析实战

关联规则概述

常用关联规则算法

Apriori算法

发现频繁集

生成关联规则

FP-Growth算法

构建FP树

提取规则

时间序列分析

案例：使用apriori库实现关联分析

案例：中医证型关联规则挖掘

案例实战

客户流失预测和客户挽留模型

银行欠贷风险预测模型

结束：课程总结与问题答疑。

Python数据挖掘开发实战

讲师:尹传亮 发布日期:06-19 浏览量:605

讲师:尹传亮发布日期:06-19 浏览量:605