作品简介

随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。

在大数据时代,聚焦网络爬虫的应用需求越来越大。本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。

作品目录

  • 前言
  • 第一篇 理论基础篇
  • 第1章 什么是网络爬虫
  • 第2章 网络爬虫技能总览
  • 第二篇 核心技术篇
  • 第3章 网络爬虫实现原理与实现技术
  • 第4章 Urllib库与URLError异常处理
  • 第5章 正则表达式与Cookie的使用
  • 第6章 手写Python爬虫
  • 第7章 学会使用Fiddler
  • 第8章 爬虫的浏览器伪装技术
  • 第9章 爬虫的定向爬取技术
  • 第三篇 框架实现篇
  • 第10章 了解Python爬虫框架
  • 第11章 爬虫利器——Scrapy安装与配置
  • 第12章 开启Scrapy爬虫项目之旅
  • 第13章 Scrapy核心架构
  • 第14章 Scrapy中文输出与存储
  • 第15章 编写自动爬取网页的爬虫
  • 第16章 CrawlSpider
  • 第17章 Scrapy高级应用
  • 第四篇 项目实战篇
  • 第18章 博客类爬虫项目
  • 第19章 图片类爬虫项目
  • 第20章 模拟登录爬虫项目
展开全部