作品简介

本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基础知识,然后介绍了urllib、Requests请求库以及XPath、Beautiful Soup等解析库,接着介绍了selenium对动态网站的爬取和Scrapy爬虫框架,最后介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。本书所有代码和相关素材可以到GitHub下载获取,地址为https://github.com/sfvsfv/Crawer

本书主要面向对网络爬虫感兴趣的初学者。

杨涵文,周培源,陈姗姗著。

作品目录

  • 前言 PREFACE
  • CHAPTER 1 第1章 HTML与CSS基础
  • 1.1 概述引导
  • 1.2 Hbuilder软件下载与使用
  • 1.3 HTML基础
  • 1.4 免费网页部署
  • 1.5 为什么要使用CSS框架
  • 1.6 选择器
  • 1.7 CSS和HTML的结合方式
  • 1.8 CSS的常见属性
  • 1.9 作业习题
  • CHAPTER 2 第2章 urllib、Requests基础与实战
  • 2.1 urllib的使用
  • 2.2 万能视频下载
  • 2.3 Requests中get的使用
  • 2.4 Requests中post的使用
  • 2.5 Requests进阶
  • 2.6 实战演练
  • CHAPTER 3 第3章 正则表达式基础与实战
  • 3.1 正则表达式的定义
  • 3.2 Python中的正则表达式
  • 3.3 正则表达式函数
  • 3.4 特殊字符的使用
  • 3.5 特殊序列
  • 3.6 集合练习
  • 3.7 匹配对象
  • 3.8 正则实战:段子爬取
  • 3.9 作业习题
  • CHAPTER 4 第4章 XPath基础与实战
  • 4.1 开始使用XPath
  • 4.2 属性的匹配
  • 4.3 XPath处理HTML常用方法
  • 4.4 实战学习:房产网站爬取
  • 4.5 多线程爬虫
  • 4.6 作业习题
  • CHAPTER 5 第5章 Beautiful Soup基础与实战
  • 5.1 什么是Beautiful Soup
  • 5.2 解析器
  • 5.3 解析库的基本使用
  • 5.4 find all方法搜索节点
  • 5.5 find方法搜索节点
  • 5.6 CSS选择器
  • 5.7 实战一:爬取诗词网站
  • 5.8 实战二:爬取求职网站
  • CHAPTER 6 第6章 selenium自动化测试与实战
  • 6.1 环境搭建
  • 6.2 单个元素定位
  • 6.3 元素等待
  • 6.4 浏览器控制
  • 6.5 鼠标控制
  • 6.6 键盘控制
  • 6.7 多个元素定位
  • 6.8 文件上传
  • 6.9 获取cookie
  • 6.10 窗口截图
  • 6.11 策略补充
  • 6.12 字符验证码
  • 6.13 自动发送QQ邮箱
  • CHAPTER 7 第7章 Scrapy框架与实战
  • 7.1 框架介绍
  • 7.2 Scrapy入门
  • 7.3 实战一:图片多页下载
  • 7.4 实战二:视频分析
  • 7.5 实战三:文字爬取
  • 7.6 Pipelines的多文件执行
  • 7.7 日志记录
  • 7.8 使用选择器
  • 7.9 CrawlSpider的使用
  • 7.10 内置图片下载器
  • 7.11 存储到数据库
  • CHAPTER 8 第8章 Linux基础
  • 8.1 为什么学习Linux?
  • 8.2 安装虚拟机
  • 8.3 文件管理
  • 8.4 进程管理
  • 8.5 定时任务
展开全部