Python数据分析与自动化办公-3天

讲师:张晓如 发布日期:01-19 浏览量:543


Python数据分析与自动化办公

课程背景

互联网的飞速发展伴随着海量信息的产生,而海量信息的背后对应的则是海量数据如何从这些海量数据中获取有价值的信息来供人们学习和工作使用,这就不得不用到大数据挖掘和分析技术。数据分析作为大数据技术的核心一环,其重要性不言而喻。

在数据分析领域,Python语言以其简单易用,并提供了优秀、好用的第三方库和数据分析的完整框架而深受数据分析人员的青睐。可以说,Python 已经当仁不让地成为了数据分析人员的一把“利器”。程序员想要进入数据分析行业,首先要掌握 Python 数据分析技术,只有这样才能在严峻的就业市场中具有较强的竞争力。

课程收益

通过本课程学习,达到如下目的:

能够搭建自己的编程开发环境,并掌握Python编程的基础语法知识、精髓其编程思想;

了解Numpy库多维数组的创建、切片和索引方法,以及数组的运算和存取。

学会使用Pandas库完成数据的导入导出、数据整理和数据多角度分析的方法;

*学习正则表达式及如何爬取网络数据进行数据分析。

能结合课程学习到的方法和工具对本职工作中遇到的场景进行针对性分析。

培训对象

本课程适用于数据分析人士、与数据分析工作相关的职场人士以及希望提高自动化办公水平的其他职场人士。

 授课讲师

张晓如 老师(微软OFFICE大师级认证)

 授课时间

3天(6小时/天)。

课程大纲PartⅠ、数据分析理念

*了解数据分析的方法、工具和流程。

什么是数据分析?

概念与目的

发现数据规律——找到可行方案——指导管理决策。

数据分析三阶段

描述性分析,发生了何事

诊断性分析,为何发生

预测性分析,将发生何事数据分析方法

对比分析

同比分析

环比分析

回归分析

聚类分析

时间序列分析

数据分析的工具

常规工具VS高大上工具

数据分析流程

步骤1:明确目的

确定分析目的:要解决什么样的业务问题

确定分析思路:分解业务问题,构建分析框架

步骤2:数据收集

明确收集数据范围

确定收集来源

确定收集方法

步骤3:数据预处理

数据质量评估

数据清洗、数据处理和变量处理

步骤4:数据分析

选择合适的分析方法

构建合适的分析模型

选择合适的分析工具

步骤5:数据展示

选择恰当的图表

选择合适的可视化工具

步骤6:报表撰写

选择报告种类

完整的报告结构

Part2、Python环境搭建

*搭建自己的Python编程开发环境。

认识Python与环境搭建

What——什么是Python

Anaconda如何下载、安装与配置

IDLE VS Jupyter Notebook VS Spyder

Python初体验——十秒钟快速创建100个Excel工作薄并统一命名

Spyder界面介绍

Python文件的打开、编辑与保存

案例:认识一下Python代码的整体构成

模块的类别、安装、导入

内置模块

第三方模块

用PIP命令安装、卸载、升级模块

Import语句导入模块

From语句导入模块

实战:搭建并配置自己的Python运行环境。

Part3、Python编程基础

*掌握Python编程思想、编程语句、数据结构。

变量与数据类型

变量的赋值与命名规则

数值型:整型与浮点型

字符型:字符型的定义

逻辑型:1和0,或TRUE和FALSE

数据类型的查询:TYPE函数

数据类型的运算:数值型/字符型/逻辑型如何运算

数据类型的转换:Str()函数、int()函数、float()函数

数据结构

列表(LIST):如何定义/访问/增加/修改/删除

字典(DICTIONARY):如何定义/访问/增加/修改/删除

元组:如何定义/访问

集合:如何定义/访问

编码基本规则与流程控制语句

缩进、注释、其他规则

If语句——选择结构

For语句——循环结构

While语句——循环结构

循环结构中的break语句和continue语句

控制语句的嵌套

函数

常用内置函数:print()input()replace()/strip()/split()open()……

如何自定义函数:def语句

练习:基本Python编程语句实战操作。

Part4、NumPy入门与实战

*学习NumPy库对多维数组的创建、切片和索引方法,以及数组的运算和存取。

ndarray多维数组

创建ndarray多维数组

Ndarray的对象属性、数据类型及变换

数组的索引和切片

数组索引方法

数组切片方法

数组的运

数组和标量间的运算

数组的条件逻辑运算

统计运算

数组内如何排序

Part5、数据预处理

*学习Pandas库和xlwing库对文件的读写操作、数据整理的方法。

pandas数据结构

Series对象:如何定义/访问/增加/修改/删除

DataFrame对象:如何定义/访问/增加/修改/删除

读、写数据

读、写文本文件

读、写Excel文件

读、写数据库数据

读、写网页

数据操作

数据的增、删、改、查

NaN数据处理

时间数据的处理

数据的抽取:字段拆分、记录抽取、随机抽样

数据的预处理

处理缺失值

去除重复数据

处理异常值

合并数据:追加合并、匹配合并

数据标准化:0-1标准化

数据的分组与聚合

数据分组

数据聚合

Part6、Pandas模块数据分析

*学习Pandas中常用的数据分析方法。

基础数据分析方法

批量升序/降序排序一个工作薄中的所有工作表

使用描述统计呈现数据的相关指标(如平均值、极值、%分位值、峰度系数、偏度系数等)

进阶数据分析方法

制作数据透视表进行交叉分析

分组对比分析(定性分组与定量分组)

使用相关系数判断数据的相关性

数据建模进行回归分析

时间序列分析

Datetime模块的时间数据类型

如何把字符型转为时间型数据

时间序列如何索引和切片数据

如何创建介于某时间区间的时间数据(天/月/固定天数)

案例实操:超市交易数据清洗、查看员工业绩波动、分析员工业绩。

Part7、Python自动化办公

*实操内容,学员动手实操完成下述工作中常见的办公场景需求。

文件夹管理

自动获取文件夹中所有文件的名称

文件夹内容自动分类整理

自动清理文件夹中的重复文件

自动按照日期对图片进行分类并放置的不同文件夹中

文件合并、加密与转换(PDF/WORD/PPT)

批量合并PDF文件

批量加密PDF文件

批量为PDF文件添加水印

批量生成多份WORD文档(邮件合并)

将WORD文档批量转换为PDF文件

批量提取PPT中的文字

批量提取PPT中的图片

如何将PPT导出为图片和PDF

使用xlwing库批量处理工作薄/工作表/行/列(EXCEL)

批量新建、保存、关闭工作薄

批量打开一个文件夹下的所有工作薄

批量重命名一个工作薄中的工作表名称

批量打印工作薄中的指定工作表/指定页

按条件将EXCEL中的多个工作表合并为一个工作表

按条件将EXCEL中的一个工作表拆分为多个工作薄

邮件自动化

电子邮箱设置

利用yagmail库发送邮件基础操作

账户设置、正文设置、发送设置

利用yagmail库发送邮件高级操作

插入图片

插入附件

插入链接

多个收件人

发网页型正文

定时发送邮件

利用Imbox库获取邮件高级操作

获取邮件主题、发件人、收件人

自动删除邮件、归档邮件

自动下载附件

学习keyring库保护邮件授权码

Part8、爬取网络数据进行分析

*学习正则表达式及如何爬取网络数据进行数据分析。

认识网页结构和网页源代码

查看源代码

查看网页结构(区块/列表/标题/链接/元素)

正则表达式

认识普通字符和元字符

使用正则表达式提取数据

Request模块获取网页源代码

Selenium模块获取网页源代码

Selenium模块模拟鼠标和键盘操作

爬虫实战:

爬取某网站图书销量排行榜数据并分析

爬取某网站关于某关键词的实时新闻数据

爬取新闻热点排行榜

特别注意

学员自备电脑(建议一人一台),老师讲解示范后学员操作练习;本课程内容及顺序可能根据学员需求及难度而调整。
分享
联系客服
返回顶部