Python数据分析与可视化呈现-2天
讲师:张晓如 发布日期:01-19 浏览量:513
Python数据分析与可视化呈现
课程背景
互联网的飞速发展伴随着海量信息的产生,而海量信息的背后对应的则是海量数据如何从这些海量数据中获取有价值的信息来供人们学习和工作使用,这就不得不用到大数据挖掘和分析技术。数据分析作为大数据技术的核心一环,其重要性不言而喻。
在数据分析领域,Python语言以其简单易用,并提供了优秀、好用的第三方库和数据分析的完整框架而深受数据分析人员的青睐。可以说,Python 已经当仁不让地成为了数据分析人员的一把“利器”。程序员想要进入数据分析行业,首先要掌握 Python 数据分析技术,只有这样才能在严峻的就业市场中具有较强的竞争力。
课程收益
通过本课程学习,达到如下目的:
能够搭建自己的编程开发环境,并掌握Python编程的基础语法知识、精髓其编程思想;
学会使用Pandas库完成数据的导入导出、数据整理和数据多角度分析的方法;
学会使用Matplotlib模块绘制常用图表和高大上图表,以及如何与EXCEL联动;
了解机器学习概念,会使用Sklearn模块进行线性回归、逻辑回归的分析方法。
能结合课程学习到的方法和工具对本职工作中遇到的场景进行针对性分析。
培训对象
本课程适用于职场从事数据分析或和数据分析工作相关的职场人士。
授课讲师
张晓如 老师(微软OFFICE大师级认证)
授课时间
标准2天(6小时/天),也可根据需求调整为3天或1天。
课程大纲PartⅠ、数据分析理念
*了解数据分析的方法、工具和流程。
什么是数据分析?
概念与目的
发现数据规律——找到可行方案——指导管理决策。
数据分析三阶段
描述性分析,发生了何事
诊断性分析,为何发生
预测性分析,将发生何事
数据分析方法
对比分析
同比分析
环比分析
回归分析
聚类分析
时间序列分析
数据分析的工具
常规工具VS高大上工具
数据分析流程
步骤1:明确目的
确定分析目的:要解决什么样的业务问题
确定分析思路:分解业务问题,构建分析框架
步骤2:数据收集
明确收集数据范围
确定收集来源
确定收集方法
步骤3:数据预处理
数据质量评估
数据清洗、数据处理和变量处理
步骤4:数据分析
选择合适的分析方法
构建合适的分析模型
选择合适的分析工具
步骤5:数据展示
选择恰当的图表
选择合适的可视化工具
步骤6:报表撰写
选择报告种类
完整的报告结构
Part2、Python环境搭建与编程基础
*搭建自己的Python编程开发环境,并掌握Python编程思想、编程语句、数据结构。
认识Python与环境搭建
What——什么是Python
Anaconda如何下载、安装、配置
IDLE VS Jupyter Notebook VS Spyder
Python初体验——十秒钟快速创建100个Excel工作薄并统一命名
Spyder界面介绍
Python文件的打开、编辑与保存
案例:认识一下Python代码的整体构成
变量与数据类型
变量的赋值与命名规则
数值型:整型与浮点型
字符型:字符型的定义
逻辑型:1和0,或TRUE和FALSE
数据类型的查询:TYPE函数
数据类型的运算:数值型/字符型/逻辑型如何运算
数据类型的转换:Str()函数、int()函数、float()函数
数据结构
列表(LIST):如何定义/访问/增加/修改/删除
字典(DICTIONARY):如何定义/访问/增加/修改/删除
元组:如何定义/访问
集合:如何定义/访问
编码基本规则与流程控制语句
缩进、注释、其他规则
If语句——选择结构
For语句——循环结构
While语句——循环结构
循环结构中的break语句和continue语句
控制语句的嵌套
函数
常用内置函数:print()input()replace()/strip()/split()open()……
如何自定义函数:def语句
模块的类别、安装、导入
内置模块
第三方模块
用PIP命令安装、卸载、升级模块
Import语句导入模块
From语句导入模块
练习:基本Python编程语句实战操作。
Part3、Pandas模块数据分析
*学习Pandas对文件的读写操作、数据整理和数据分析方法。
pandas数据结构
Series对象:如何定义/访问/增加/修改/删除
DataFrame对象:如何定义/访问/增加/修改/删除
读、写数据
读、写文本文件
读、写Excel文件
读、写数据库数据
读、写网页
数据操作
数据的增、删、改、查
NaN数据处理
时间数据的处理
数据的抽取:字段拆分、记录抽取、随机抽样
数据的预处理
处理缺失值
去除重复数据
处理异常值
合并数据:追加合并、匹配合并
数据标准化:0-1标准化
数据的分组与聚合
数据分组
数据聚合
基础数据分析方法
批量升序/降序排序一个工作薄中的所有工作表
使用描述统计呈现数据的相关指标(如平均值、极值、%分位值、峰度系数、偏度系数等)
进阶数据分析方法
制作数据透视表进行交叉分析
分组对比分析(定性分组与定量分组)
使用相关系数判断数据的相关性
案例实操:超市交易数据清洗、查看员工业绩波动、分析员工业绩。
Part4、Matplotlib模块数据可视化
*学习常用图表的绘制,以及如何与EXCEL联动。
制作简单图表
条形图
饼图
折线图
柱形图
导入Excel数据制作简单图表
散点图
面积图
箱形图
图表保存回Excel
制作组合图表
双折线图
设置图表相关元素
标题、图例、数据标签
绘图区域切分为多个空间
模块的交互使用
Xlwings模块与pandas模块的交互
Xlwings模块与matplotlib模块的交互
可视化模块拓展
Seaborn模块可视化制作分类图
Pyecharts模块制作箱线图
案例实操:绘制图表并在EXCEL文件中自动呈现
Part5、Sklearn机器学习实战
*了解机器学习概念,掌握线性回归、逻辑回归的分析方法。
机器学习基本概念
机器学习库sklearn简介.
扩展库sklearn常用模块与对象.
选择合适的模型和算法
线性回归算法的原理与应用
线性回归模型的原理.
sklearn中线性回归模型的简单应用+
岭回归的基本原理与sklearn实现
使用线性回归模型预测儿童身高·.
逻辑回归算法的原理与应用·
..逻辑回归算法的原理与应用sklear实现
使用逻辑回归算法预测.考试能否及格
朴素贝叶斯算法的原理与应用
基本概念..
朴素贝叶斯算法分类的原理与sklearn实现
使用朴素贝叶斯算法对中文..邮件进行分类...
Part6、综合案例实战(选讲)
使用线性回归分析对销售收入进行分析和预测
使用Pandas、sklearn模块对客户价值进行分析
特别注意
学员自备电脑(建议一人一台),老师讲解示范后学员操作练习;本课程内容及顺序可能根据学员需求及难度而调整。