作品简介

本书从Python 3.8的安装开始,详细讲解从网页基础到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的网络爬虫,并有针对性地讲解几种Python网络爬虫。本书共12章,涵盖的内容有网络爬虫的技术基础、Python常用IDE的使用、Python数据的存储、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、PyQuery模块、Selenium模拟浏览器、PySpider框架图片验证识别、爬取App、爬虫与反爬虫等。本书内容丰富,实例典型,实用性强,适合Python网络爬虫初学者、Python数据分析与挖掘技术初学者以及高等院校和培训学校相关专业的师生阅读。

胡松涛,高级工程师,参与多个Linux开源项目,github知名代码分享者,活跃于国内著名的多个开源论坛。

作品目录

  • 内容简介
  • 前言
  • 第1章 Python环境配置
  • 1.1 Python简介
  • 1.2 Python 3.8.0开发环境配置
  • 1.3 本章小结
  • 第2章 爬虫基础快速入门
  • 2.1 HTTP基本原理
  • 2.2 网页基础
  • 2.3 爬虫的基本原理
  • 2.4 会话和Cookies
  • 2.5 代理的基本原理
  • 2.6 本章小结
  • 第3章 数据存储与解析
  • 3.1 文件存储
  • 3.2 关系型数据库存储
  • 3.3 非关系型数据库存储
  • 3.4 lxml模块解析数据
  • 3.5 本章小结
  • 第4章 Python爬虫常用模块
  • 4.1 Python网络爬虫技术核心
  • 4.2 Python 3标准库之urllib.request模块
  • 4.3 Python 3标准库之logging模块
  • 4.4 re模块(正则表达式)
  • 4.5 其他有用模块
  • 4.6 本章小结
  • 第5章 Scrapy爬虫框架
  • 5.1 安装Scrapy
  • 5.2 Scrapy选择器XPath和CSS
  • 5.3 Scrapy爬虫实战一:今日影视
  • 5.4 Scrapy爬虫实战二:天气预报
  • 5.5 Scrapy爬虫实战三:获取代理
  • 5.6 Scrapy爬虫实战四:糗事百科
  • 5.7 Scrapy爬虫实战五:爬虫攻防
  • 5.8 本章小结
  • 第6章 BeautifulSoup爬虫
  • 6.1 安装BeautifulSoup环境
  • 6.2 BeautifulSoup解析器
  • 6.3 bs4爬虫实战一:获取百度贴吧内容
  • 6.4 bs4爬虫实战二:获取双色球中奖信息
  • 6.5 bs4爬虫实战三:获取起点小说信息
  • 6.6 bs4爬虫实战四:获取电影信息
  • 6.7 bs4爬虫实战五:获取音悦台榜单
  • 6.8 本章小结
  • 第7章 PyQuery模块
  • 7.1 PyQuery模块
  • 7.2 PyQuery模块的用法
  • 7.3 CSS筛选器的使用
  • 7.4 PyQuery爬虫实战一:爬取百度风云榜
  • 7.5 PyQuery爬虫实战二:爬取微博热搜
  • 7.6 本章小结
  • 第8章 Selenium模拟浏览器
  • 8.1 安装Selenium模块
  • 8.2 浏览器选择
  • 8.3 Selenium&PhantomJS抓取数据
  • 8.4 Selenium&PhantomJS实战一:获取代理
  • 8.5 Selenium&PhantomJS实战二:漫画爬虫
  • 8.6 本章小结
  • 第9章 PySpider框架的使用
  • 9.1 安装PySpider
  • 9.2 PySpider实战一:优酷影视排行
  • 9.3 PySpider实战二:电影下载
  • 9.4 PySpider实战三:音悦台MusicTop
  • 9.5 本章小结
  • 第10章 图形验证识别技术
  • 10.1 图像识别开源库:Tesseract
  • 10.2 对网络验证码的识别
  • 10.3 实战三:破解滑块验证码
  • 10.4 本章小结
  • 第11章 爬取App
  • 11.1 Charles的使用
  • 11.2 Mitmproxy的使用
  • 11.3 实战:使用Mitmdump爬取App
  • 11.4 Appium的基本使用
  • 11.5 本章小结
  • 第12章 爬虫与反爬虫
  • 12.1 防止爬虫IP被禁
  • 12.2 在爬虫中使用Cookies
  • 12.3 本章小结
展开全部