Python课程

讲师:尹传亮 发布日期:06-19 浏览量:498


Python课程一、数据挖掘导论

数据挖掘的基本任务与步骤:目标、数据探索、数据预处理、建模、模型评价

有监督学习

无监督学习和半监督学习算法模型

Sklean 数据挖掘和机器学习算法库介绍

大数据建模常见问题

问题引出:客户行为分析-用户用电异常的识别

二、Python 编程快速入门

Python 编程环境与语法快速入门

基础数据结构:字符串处理及应用

数据结构:列表、元组、集合、字典

Python 控制流:IF 与 while、for 循环

函数与模块定义

Python 文件读写

Python 面向对象编程思想

Python 异常处理

实验:

—— 读写 CSV 文件

—— 处理 Excel 文件

三、Python 数据分析进阶

Python 并行编程:多线程与多进程实现

—— 进程与线程概念

—— 进程同步机制

—— 多进程实现

—— 多线程实现

轻松访问数据库

—— 连接访问 Sqlite

—— 操纵 MySQL

—— Python 的对象关系映射模型

实验:

—— 多进程读取超大文件

—— SQLite 读写练习南京•杭州•上海

五、Scikit-learn 数据预处理实践

数据统计量:期望/方差/偏度/峰度

协方差和相关系数、方差与标准差

数据描述:集中趋势、离散程度、分位数

数据可视化:直方图、盒图、散点图

数据预处理基本方法

数据归一化方法

对数据进行降维,主成分分析 PCA

实验:

—— 利用随机森林做特征筛选

—— 数据预处理:归一化、缺失值处理

—— 降维 PCA 实现

—— 找出较好的特征组合:PCA 与 LDA 效果对比

—— 随机森林评估特征重要性

四、Python 数据分析进阶

 高性能矩阵计算工具 Numpy:

—— Numpy 数组与元素索引、

—— 矩阵计算、

—— 通用函数、计算统计量

 以表格处理数据——高级数据分析包

—— Pandas:数据框架 Dataframe

—— 快速索引数据

—— 常用函数

—— 快速可视化分析

—— 汇总与统计

实验:基于 Pandas 的数据预处理

五、数据可视化分析



Matplotlib 绘图库介绍

快速绘图

常见绘图函数:散点图、柱状图、盒图

图片处理

三维绘图演示

Pandas 快速绘图南京•杭州•上海

实验:

—— 绘制常见统计图

—— 利用 Pandas 获取数据并绘图

七、Scikit-Learn 数据挖掘实践 1

数值预测:Logistic/Softmax 回归/随机森林

梯度下降算法:BGD 与 SGD 介绍

Sklean 决策树算法实现: ID3、C4.5、CART 决策树算法

用 Bagging 改善分类性能

随机森林方法

决策树用于分析挖掘的建模实现和决策树的评估

Sklean 决策树算法应用编程

实验:

—— 用随机森林预测数值

—— 决策树编程演示

—— 决策树分析客户数据

八、 Scikit-Learn 数据挖掘实践 2:支持向量机 SVM

线性可分软间隔 SVM

损失函数的理解

支持向量回归 SVR

不平衡数据集的处理

分类器性能评价

支持向量机的参数调优

分类器性能评价

实验:

—— 银行信贷客户分类

—— Grid 法调参

—— 不平衡分布对性能的影响

—— 交叉验证

—— 多分类器性能比较:ROC 曲线

—— 问题讨论:用电异常行为识别

六、无监督学习:Scikit-Learn 聚类分析

Jaccard 相似度

Pearson 相关系数与余弦相似度南京•杭州•上海

层次聚类

K-means 聚类

半监督 AP 聚类算法及其应用

密度聚类 DBSCAN

聚类评价和结果指标

实验:

—— K-Means 算法原理和实现

—— 密度聚类

—— 比较不同的聚类算法

—— 问题讨论:客户分级

九、神经网络实践

神经网络基本原理

浅层神经网络与深层网络分析

神经网络用于数值预测

神经网络用于分类

Scikit-Learn 神经网络实现

案例分享:阿里云天池赛电力 AI:预测用电量

十七、Python 数据挖掘项目实践

根据客户数据集特点,完成数据的预处理、特征筛选

客户流失问题建模与分类

客户分级建模

解决方案讨论

大数据挖掘技术的发展

案例分享:用户画像

需新增重点内容:

基于阿里MAXCOMPUTE的相关PYTHON函数学习

多增加PYTHON机器学习的实验课

大数据应用解决实践方法及案例

分享
联系客服
返回顶部