python 爬虫实战
讲师:纪贺元 发布日期:09-28 浏览量:477
用python编制网络爬虫
课程时间:2天(14小时)
纪贺元
课程简介:
19716755676900 您需要在各种网站上抓取数据吗?例如金融、证券、期货、各种行业网站,甚至于您想在网上抓取网络小说的内容吗?或者新闻以及评论?
这就是网络爬虫的功能!
您可能想,抓取网页数据,做爬虫工具,这是专业人员的事情啊,我干嘛要做?
But,您的公司可能就没有外包爬虫软件的预算,另外各种网站复杂多变,花了钱请被人做的爬虫软件,网站一改版,就不能用了。
求人不如求己!拥有编制爬虫的能力,对您的帮助多多,也是职场能力和hard skill的重大提升!
课程适用对象:金融、互联网、市场营销等相应职能人员等。
课程教学方式:讲师讲授+互动+软件现场操作
课程大纲
Python简介
Python安装
python包安装及介绍
pycharm工具的安装
选择python做爬虫的理由
Python程序基础
变量
过程与函数
对象
案例:编程即对象,python处理excel文件对象
Python基本语句
输入输出语句
条件判断语句
If、else、elseif、嵌套代码块等。
循环语句
包括for、while以及跳出循环的基础技巧。
Python数据结构
列表
元祖
字典
集合
python代码的调试过程
运行程序
单步调试
添加断点
添加监视
EXCEL和txt格式文本的读写
Python可以读取各种常见的数据格式,但是工作中最常见的还是对于EXCEL和TXT文本的读取,python有专门针对EXCEL和TXT文本的工作包,可以方便地读写,对EXCEL也可以做各种格式:
Xlsx文件的读写
txt文本的读写
7. 爬虫原理和网页构造(1)爬虫原理
介绍网络连接和爬虫的原理。
(2)网页构造
介绍网页的一般结构和html的基本构造。
html元素和标签
CSS简介
爬虫三大库
Python提供了requests、beautifulsoup和Lxml三种常用的爬取网络信息的方法,其中以beautifulsoup最为常用:
Requests库的使用
Beautifulsoup库的使用
各种爬取实例
包括数字、表格、文本、图片、文件下载等。
案例分析:爬取金融期货网站表格数据
正则表达式
正则表达式是加速爬虫抓取的强大技术,也是爬虫技术的重要基础:
正则表达式常用符号
Re模块及其方法
案例分析:抓取《斗破苍穹》全文小说
表单交互和模拟登录
表单交互是在爬取数据时由程序自动实现和网页的交互,模拟登录是在爬取数据过程中用技术手段实现自动登录:
Selenium包的调用
网页翻页
表格输入和查询