作品简介

本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。第1章介绍Python的安装配置和基础语法。第2章介绍爬虫类型、抓取策略以及网络基础知识。第3章介绍Python常用库。第4章介绍正则表达式的语法、匹配规则。第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法。第6章介绍抓包利器Fiddler。第7章介绍数据存储。第8章介绍Scrapy爬虫框架。第9章介绍多线程爬虫。第10章介绍动态网页爬虫。第11章介绍分布式爬虫。第12章介绍电商网站商品信息爬虫项目。第13章介绍生活娱乐点评类信息爬虫。第14章介绍图片信息类爬虫项目。

赵国生,王健编著。

作品目录

  • 前言
  • 第1章 Python环境搭建及基础学习
  • 1.1 Python 3.6的安装与配置
  • 1.2 IDE工具:PyCharm的安装
  • 1.3 基础语法
  • 1.4 字符串
  • 1.5 数据结构
  • 1.6 控制语句
  • 1.7 函数、模块和包
  • 1.8 文件的读写操作
  • 1.9 面向对象
  • 1.10 本章小结
  • 练习题
  • 第2章 爬虫原理和网络基础
  • 2.1 爬虫是什么
  • 2.2 爬虫的意义
  • 2.3 爬虫的原理
  • 2.4 爬虫技术的类型
  • 2.5 爬虫抓取策略
  • 2.6 反爬虫和反反爬虫
  • 2.7 网络基础
  • 2.8 本章小结
  • 练习题
  • 第3章 Python常用库
  • 3.1 Python库的介绍
  • 3.2 urllib库
  • 3.3 request库
  • 3.4 lxml库
  • 3.5 Beautiful Soup库
  • 3.6 实战案例
  • 3.7 本章小结
  • 练习题
  • 第4章 正则表达式
  • 4.1 概念介绍
  • 4.2 正则表达式语法
  • 4.3 匹配规则
  • 4.4 re模块常用函数
  • 4.5 本章小结
  • 练习题
  • 第5章 验证码
  • 5.1 PIL库
  • 5.2 Tesseract库
  • 5.3 TensorFlow库
  • 5.4 4种验证码的解决思路
  • 5.5 OCR处理验证码
  • 5.6 实战案例
  • 5.7 本章小结
  • 练习题
  • 第6章 抓包利器Fiddler
  • 6.1 Fiddler简介
  • 6.2 Fiddler的安装和配置
  • 6.3 Fiddler捕获会话
  • 6.4 QuickExec命令行的使用
  • 6.5 Fiddler断点功能
  • 6.6 Fiddler的实用工具
  • 6.7 实战案例
  • 6.8 本章小结
  • 练习题
  • 第7章 数据存储
  • 7.1 数据的基本存储
  • 7.2 数据存储至MySQL数据库
  • 7.3 数据存储至MongoDB数据库
  • 7.4 数据存储至XML
  • 7.5 常见数据存储方式的比较
  • 7.6 本章小结
  • 练习题
  • 第8章 Scrapy爬虫框架
  • 8.1 Scrapy框架介绍
  • 8.2 Scrapy框架详解
  • 8.3 Scrapy框架中的Selector
  • 8.4 Beautiful Soup库的使用
  • 8.5 CrawlSpider的使用
  • 8.6 Scrapy Shell的使用
  • 8.7 Scrapyrt的使用
  • 8.8 Scrapy对接Selenium
  • 8.9 实战案例
  • 8.10 本章小结
  • 练习题
  • 第9章 多线程爬虫
  • 9.1 多线程和Threading模块
  • 9.2 使用Thread类创建实例
  • 9.3 多线程方法的使用
  • 9.4 Queue线程安全队列
  • 9.5 实战案例
  • 9.6 本章小结
  • 练习题
  • 第10章 动态网页爬虫
  • 10.1 浏览器开发者工具
  • 10.2 异步加载技术
  • 10.3 表单交互与模拟登录
  • 10.4 Selenium模拟浏览器
  • 10.5 实战案例
  • 10.6 本章小结
  • 练习题
  • 第11章 分布式爬虫
  • 11.1 分布式爬虫概述
  • 11.2 Scrapy-redis分布式组件
  • 11.3 redis数据库
  • 11.4 Scrapy-redis源码分析
  • 11.5 通过scrapy_redis实现分布式爬虫
  • 11.6 实战案例
  • 11.7 本章小结
  • 练习题
  • 第12章 电商网站商品信息爬虫项目
  • 12.1 商品信息爬虫功能分析
  • 12.2 商品信息爬虫实现思路
  • 12.3 电商网站商品信息编写实战
  • 12.4 pyquery解析电商网站商品信息
  • 12.5 运行代码
  • 12.6 本章小结
  • 练习题
  • 第13章 生活娱乐点评类信息爬虫项目
  • 13.1 功能分析
  • 13.2 请求-响应关系
  • 13.3 请求头和请求体
  • 13.4 通过Selenium模拟浏览器抓取
  • 13.5 实战演练Scrapy框架实例
  • 13.6 调试与运行
  • 13.7 本章小结
  • 练习题
  • 第14章 图片信息类爬虫项目
  • 14.1 功能分析
  • 14.2 实现思路
  • 14.3 程序执行
  • 14.4 实战演练图片验证码
  • 14.5 调试运行
  • 14.6 本章小结
  • 练习题
  • 练习题答案
展开全部