python 爬虫实战

讲师:纪贺元发布日期:09-28 浏览量:500

用python编制网络爬虫

课程时间：2天（14小时）

纪贺元

课程简介：

19716755676900 您需要在各种网站上抓取数据吗？例如金融、证券、期货、各种行业网站，甚至于您想在网上抓取网络小说的内容吗？或者新闻以及评论？

这就是网络爬虫的功能！

您可能想，抓取网页数据，做爬虫工具，这是专业人员的事情啊，我干嘛要做？

But，您的公司可能就没有外包爬虫软件的预算，另外各种网站复杂多变，花了钱请被人做的爬虫软件，网站一改版，就不能用了。

求人不如求己！拥有编制爬虫的能力，对您的帮助多多，也是职场能力和hard skill的重大提升！

课程适用对象：金融、互联网、市场营销等相应职能人员等。

课程教学方式：讲师讲授+互动+软件现场操作

课程大纲

Python简介

Python安装

python包安装及介绍

pycharm工具的安装

选择python做爬虫的理由

Python程序基础

变量

过程与函数

对象

案例：编程即对象，python处理excel文件对象

Python基本语句

输入输出语句

条件判断语句

If、else、elseif、嵌套代码块等。

循环语句

包括for、while以及跳出循环的基础技巧。

Python数据结构

列表

元祖

字典

集合

python代码的调试过程

运行程序

单步调试

添加断点

添加监视

EXCEL和txt格式文本的读写

Python可以读取各种常见的数据格式，但是工作中最常见的还是对于EXCEL和TXT文本的读取，python有专门针对EXCEL和TXT文本的工作包，可以方便地读写，对EXCEL也可以做各种格式：

Xlsx文件的读写

txt文本的读写

7. 爬虫原理和网页构造（1）爬虫原理

介绍网络连接和爬虫的原理。

（2）网页构造

介绍网页的一般结构和html的基本构造。

html元素和标签

CSS简介

爬虫三大库

Python提供了requests、beautifulsoup和Lxml三种常用的爬取网络信息的方法，其中以beautifulsoup最为常用：

Requests库的使用

Beautifulsoup库的使用

各种爬取实例

包括数字、表格、文本、图片、文件下载等。

案例分析：爬取金融期货网站表格数据

正则表达式

正则表达式是加速爬虫抓取的强大技术，也是爬虫技术的重要基础：

正则表达式常用符号

Re模块及其方法

案例分析：抓取《斗破苍穹》全文小说

表单交互和模拟登录

表单交互是在爬取数据时由程序自动实现和网页的交互，模拟登录是在爬取数据过程中用技术手段实现自动登录：

Selenium包的调用

网页翻页

表格输入和查询

python 爬虫实战

讲师:纪贺元 发布日期:09-28 浏览量:500

讲师:纪贺元发布日期:09-28 浏览量:500