作品简介

本书共有八个项目,围绕网络爬虫三部曲“爬取—解析—存储”较为全面地介绍关于不同场景下利用Python爬取网络数据的基础知识和方法,让读者通过编写简单的静态爬虫和动态爬虫,使用Scrapy爬虫框架完成对爬虫理论和实践技能的学习。内容分为基础知识篇、中阶知识篇和实战篇。项目一至项目三介绍爬虫的基本概念、网页基础知识和Python基本语法等;项目四和项目五利用实例演示介绍有关爬取库、解析库等爬虫中阶知识;项目六至项目八则是实战篇,主要介绍数据存储的实例和利用动态网页爬取数据的综合案例,再次完整展现爬虫三部曲“爬取—解析—存储”,以及Scrapy爬虫框架的概念和实施。

本书面向对网络爬虫技术感兴趣的读者,介绍了使用Python语言编写爬虫的各种技巧和方法,可供大数据技术等相关专业的学生参考使用,也可作为大数据技术爱好者的自学用书。

主编:纪娜,张笑

作品目录

  • 《网络爬虫开发》编委会
  • 前言
  • 爬虫基础篇
  • 项目一 初识爬虫
  • 任务一 认识网络爬虫
  • 任务二 网络爬虫的合法性与robots协议
  • 任务三 认识反爬虫
  • 任务四 拓展知识
  • 内容小结
  • 课后习题
  • 实施评量单
  • 项目二 Web基础
  • 任务一 HTTP基本原理
  • 任务二 网页基础
  • 任务三 会话和cookie机制
  • 任务四 谷歌浏览器开发者工具
  • 任务五 拓展知识
  • 内容小结
  • 实训任务
  • 课后习题
  • 实施评量单
  • 项目三 Python语言基础
  • 任务一 认识Python语言并搭建开发环境
  • 任务二 Python基础语法
  • 任务三 Python常用语句
  • 任务四 字符串与正则表达式
  • 任务五 列表、元组和字典
  • 任务六 拓展知识Python函数
  • 内容小结
  • 课后习题
  • 实施评量单
  • 爬虫中阶篇
  • 项目四 常用的网络请求库
  • 任务一 认识HTTP请求
  • 任务二 urllib网络请求库
  • 任务三 requests网络请求库
  • 任务四 拓展知识:httpx请求库
  • 内容小结
  • 实训任务
  • 课后习题
  • 实施评量单
  • 项目五 网页数据的解析提取
  • 任务一 网络解析基础
  • 任务二 用XPath解析网页
  • 任务三 使用Beautiful Soup解析网页
  • 任务四 PyQuery解析库
  • 任务五 拓展知识:正则表达式的解析
  • 内容小结
  • 实训任务
  • 课后习题
  • 实施评量单
  • 爬虫实战篇
  • 项目六 数据存储
  • 任务一 数据存储在文本文件中
  • 任务二 综合任务——“智游陕西,畅享三 秦”,爬取陕西热门景点数据
  • 任务三 关系型数据库
  • 任务四 使用Python连接MySQL数据库进行读写操作
  • 任务五 拓展知识:MongoDB数据库
  • 内容小结
  • 实训任务
  • 实施评量单
  • 项目七 常规动态网页爬取
  • 任务一 逆向分析爬取动态网页
  • 任务二 Selenium的安装与使用
  • 任务三 AJAX的使用
  • 任务四 综合任务——使用Selenium进行岗位信息和岗位需求爬取
  • 内容小结
  • 实训任务
  • 课后习题
  • 实施评量单
  • 项目八 Scrapy爬虫框架
  • 任务一 Scrapy的安装与使用
  • 任务二 综合任务——爬取豆瓣电影Top250信息
  • 内容小结
  • 课后习题
  • 实施评量单
  • 参考文献
展开全部