作品简介

本书主要讲解了如何使用Python编写网络爬虫程序,内容包括Python环境搭建、Python的基础语法、爬虫基础知识、网络基础知识、常用爬虫库和解析库、数据持久化存储、Web API和异步数据抓取技术、Selenium和ChromeDriver的用法,以及Scrapy爬虫框架的基本原理和操作。最后介绍了一个网络爬虫的综合案例,以巩固前面所学的知识。本书适合作为高等职业院校大数据技术与应用专业的教材,也适合有一定Python编程经验并且对爬虫技术感兴趣的读者阅读。

主编:李俊翰,付雯

作品目录

  • 前言
  • 任务1 Python环境搭建
  • 1.1 任务描述
  • 1.2 Python概述
  • 1.3 Python编程环境搭建
  • 1.4 安装集成开发环境PyCharm
  • 1.5 Python的数据类型
  • 1.6 Python语句与函数
  • 1.7 任务实现
  • 1.8 小结
  • 1.9 习题
  • 任务2 实现简单数据采集
  • 2.1 任务描述
  • 2.2 网络爬虫基础知识
  • 2.3 网络基础知识
  • 2.4 requests库的安装及使用
  • 2.5 lxml库和BeautifulSoup库的安装及使用
  • 2.6 任务实现
  • 2.7 小结
  • 2.8 习题
  • 任务3 存储数据
  • 3.1 任务描述
  • 3.2 MySQL的安装及使用
  • 3.3 PyMySQL的使用
  • 3.4 CSV和JSON格式
  • 3.5 任务实现
  • 3.6 小结
  • 3.7 习题
  • 任务4 使用Web API采集数据
  • 4.1 任务描述
  • 4.2 GitHub
  • 4.3 Web API
  • 4.4 任务实现
  • 4.5 小结
  • 4.6 习题
  • 任务5 使用AJAX采集数据
  • 5.1 任务描述
  • 5.2 AJAX
  • 5.3 任务实现
  • 5.4 小结
  • 5.5 习题
  • 任务6 主流验证码解析
  • 6.1 验证码概述
  • 6.2 自定义图形验证码解析
  • 6.3 滑动验证码解析
  • 6.4 点击式验证码解析
  • 6.5 小结
  • 6.6 习题
  • 任务7 模拟登录
  • 7.1 使用Selenium和ChromeDriver实现模拟登录
  • 7.2 使用Cookie实现模拟登录
  • 7.3 小结
  • 7.4 习题
  • 任务8 使用Scrapy爬虫框架采集数据
  • 8.1 任务描述
  • 8.2 Scrapy
  • 8.3 Scrapy的安装
  • 8.4 Scrapy各组件的用法
  • 8.5 任务实现
  • 8.6 小结
  • 8.7 习题
  • 任务9 综合案例
  • 9.1 任务描述
  • 9.2 页面分析
  • 9.3 模拟登录
  • 9.4 获取静态数据
  • 9.5 获取动态数据
  • 9.6 数据持久化保存
  • 9.7 小结
展开全部