作品简介

网络爬虫技术的重点之一是网络爬虫框架,因此本书结合网络爬虫框架的相关案例重点介绍网络爬虫的常见框架,包括PySpider网络爬虫框架的安装和使用,Scrapy网络爬虫框架的安装和使用,以及Scrapy网络爬虫管理与部署。另外,本书对Python网络爬虫开发需要的reguests库、Scrapy解析库、存储库、XPath进行了介绍,并介绍了requests库、正则表达式、XPath等的使用方法,还重点讲解了这些库的实际应用。

本书以Python网络爬虫开发为主线,兼顾理论与实战,全面介绍可操作的Python环境与系统开发相关知识,以及大数据算法、大数据分析、大数据系统互补的作用。另外,本书还赠送课程大纲、教学课件PPT、实验手册、各章习题及答案、期末试卷及答案、教学和实验视频,方便教师授课。

本书可作为高等院校大数据、计算机、电子信息、软件技术相关专业研究生和高年级本科生的教材,也可作为大数据及编程爱好者的参考用书。

主编:邓维,李贝,汤小洋

作品目录

  • 前言 PREFACE
  • 本书内容
  • 本书使用对象
  • 本书赠送资源
  • 第1章 网络爬虫概述
  • 1.1 网络爬虫简介
  • 1.2 网络爬虫的攻防战
  • 1.3 反网络爬虫技术及解决方案
  • 1.4 本章习题
  • 第2章 Python基本知识介绍
  • 2.1 Python编程
  • 2.2 HTML基本原理
  • 2.3 基本库的使用
  • 2.4 实战案例:百度新闻的抓取
  • 2.5 本章习题
  • 第3章 原生态网络爬虫开发
  • 3.1 requests库详解
  • 3.2 正则表达式
  • 3.3 实战案例:环球新闻的抓取
  • 3.4 本章习题
  • 第4章 解析HTML内容
  • 4.1 XPath的介绍与使用
  • 4.2 lxml库的安装与使用
  • 4.3 Chrome浏览器分析网站
  • 4.4 BeautifulSoup的安装与使用
  • 4.5 实战案例:BeautifulSoup的使用
  • 4.6 页面请求与JSON
  • 4.7 模拟浏览器
  • 4.8 实战案例:小说网站的抓取
  • 4.9 模拟登录与验证
  • 4.10 验证码
  • 4.11 实战案例:模拟登录及验证
  • 4.12 本章习题
  • 第5章 Python与数据库
  • 5.1 MySQL数据库的安装与应用
  • 5.2 MongoDB的安装与使用
  • 5.3 Python库pymongo
  • 5.4 本章习题
  • 第6章 Python网络爬虫框架
  • 6.1 Python网络爬虫的常见框架
  • 6.2 PySpider网络爬虫框架简介
  • 6.3 Scrapy网络爬虫框架简介
  • 6.4 PySpider与Scrapy的区别
  • 6.5 PySpider网络爬虫框架的安装和使用
  • 6.6 Scrapy网络爬虫框架的安装和使用
  • 6.7 Scrapy网络爬虫管理与部署
  • 6.8 本章习题
  • 第7章 综合性实战案例
  • 7.1 实战案例1:瀑布流抓取
  • 7.2 实战案例2:网络爬虫攻防战
  • 7.3 实战案例3:分布式抓取
  • 7.4 实战案例4:微信公众号文章点赞阅读数抓取
  • 本章习题
  • 参考文献
展开全部