python 爬虫实战

讲师:纪贺元 发布日期:09-28 浏览量:477


用python编制网络爬虫

课程时间:2天(14小时)

纪贺元

课程简介:

19716755676900 您需要在各种网站上抓取数据吗?例如金融、证券、期货、各种行业网站,甚至于您想在网上抓取网络小说的内容吗?或者新闻以及评论?

这就是网络爬虫的功能!

您可能想,抓取网页数据,做爬虫工具,这是专业人员的事情啊,我干嘛要做?

But,您的公司可能就没有外包爬虫软件的预算,另外各种网站复杂多变,花了钱请被人做的爬虫软件,网站一改版,就不能用了。

求人不如求己!拥有编制爬虫的能力,对您的帮助多多,也是职场能力和hard skill的重大提升!

课程适用对象:金融、互联网、市场营销等相应职能人员等。

课程教学方式:讲师讲授+互动+软件现场操作

课程大纲

Python简介

Python安装

python包安装及介绍

pycharm工具的安装

选择python做爬虫的理由

Python程序基础

变量

过程与函数

对象

案例:编程即对象,python处理excel文件对象

Python基本语句

输入输出语句

条件判断语句

If、else、elseif、嵌套代码块等。

循环语句

包括for、while以及跳出循环的基础技巧。

Python数据结构

列表

元祖

字典

集合

python代码的调试过程

运行程序

单步调试

添加断点

添加监视

EXCEL和txt格式文本的读写

Python可以读取各种常见的数据格式,但是工作中最常见的还是对于EXCEL和TXT文本的读取,python有专门针对EXCEL和TXT文本的工作包,可以方便地读写,对EXCEL也可以做各种格式:

Xlsx文件的读写

txt文本的读写

7. 爬虫原理和网页构造(1)爬虫原理

介绍网络连接和爬虫的原理。

(2)网页构造

介绍网页的一般结构和html的基本构造。

html元素和标签

CSS简介

爬虫三大库

Python提供了requests、beautifulsoup和Lxml三种常用的爬取网络信息的方法,其中以beautifulsoup最为常用:

Requests库的使用

Beautifulsoup库的使用

各种爬取实例

包括数字、表格、文本、图片、文件下载等。

案例分析:爬取金融期货网站表格数据

正则表达式

正则表达式是加速爬虫抓取的强大技术,也是爬虫技术的重要基础:

正则表达式常用符号

Re模块及其方法

案例分析:抓取《斗破苍穹》全文小说

表单交互和模拟登录

表单交互是在爬取数据时由程序自动实现和网页的交互,模拟登录是在爬取数据过程中用技术手段实现自动登录:

Selenium包的调用

网页翻页

表格输入和查询

分享
联系客服
返回顶部