作品简介

目前,图书市场上仅有的几本Python网络爬虫类图书,要么是国外优秀图书,但书籍翻译隐晦,阅读难度大,而且往往由于网络原因,使得书中的案例不能正常使用,因此不适合初学者;要么是国内资料,但质量参差不齐,而且不成系统,同样不适合初学者。整个图书市场上还鲜见一本适合初学者阅读的Python网络爬虫类图书。本书便是基于这个原因而编写。本书从Python语言基础讲起,然后深入浅出地介绍了爬虫原理、各种爬虫技术及22个爬虫实战案例。本书全部选用国内网站作为爬虫案例,便于读者理解和实现,同时也可以大大提高读者对Python网络爬虫项目的实战能力。

罗攀,知名论坛Python爬虫专题管理员。擅长Python爬虫技术,并对Python数据分析与挖掘也有研究。曾经在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。目前从事线上Python网络爬虫的培训工作。

蒋仟,喜爱并擅长Python编程,并将Python作为学术研究手段。在数据采集、数据分析等方面均有较为深入的研究。对Python网络爬虫技术应用也颇有心得。目前从事林业遥感技术的研究,并利用业余时间兼职从事Python培训方面的工作。

作品目录

  • 前言
  • 第1章 Python零基础语法入门
  • 1.1 Python与PyCharm安装
  • 1.2 变量和字符串
  • 1.3 函数与控制语句
  • 1.4 Python数据结构
  • 1.5 Python文件操作
  • 1.6 Python面向对象
  • 第2章 爬虫原理和网页构造
  • 2.1 爬虫原理
  • 2.2 网页构造
  • 第3章 我的第一个爬虫程序
  • 3.1 Python第三方库
  • 3.2 爬虫三大库
  • 3.3 综合案例1——爬取北京地区短租房信息
  • 3.4 综合案例2——爬取酷狗TOP500的数据
  • 第4章 正则表达式
  • 4.1 正则表达式常用符号
  • 4.2 re模块及其方法
  • 4.3 综合案例1——爬取《斗破苍穹》全文小说
  • 4.4 综合案例2——爬取糗事百科网的段子信息
  • 第5章 Lxml库与Xpath语法
  • 5.1 Lxml库的安装与使用方法
  • 5.2 Xpath语法
  • 5.3 综合案例1——爬取豆瓣网图书TOP250的数据
  • 5.4 综合案例2——爬取起点中文网小说信息
  • 第6章 使用API
  • 6.1 API的使用
  • 6.2 解析JSON数据
  • 6.3 综合案例1——爬取PEXELS图片
  • 6.4 综合案例2——爬取糗事百科网的用户地址信息
  • 第7章 数据库存储
  • 7.1 MongoDB数据库
  • 7.2 MySQL数据库
  • 7.3 综合案例1——爬取豆瓣音乐TOP250的数据
  • 7.4 综合案例2——爬取豆瓣电影TOP250的数据
  • 第8章 多进程爬虫
  • 8.1 多线程与多进程
  • 8.2 综合案例1——爬取简书网热评文章
  • 8.3 综合案例2——爬取转转网二手市场商品信息
  • 第9章 异步加载
  • 9.1 异步加载技术与爬虫方法
  • 9.2 综合案例1——爬取简书网用户动态信息
  • 9.3 综合案例2——爬取简书网7日热门信息
  • 第10章 表单交互与模拟登录
  • 10.1 表单交互
  • 10.2 模拟登录
  • 10.3 综合案例1——爬取拉勾网招聘信息
  • 10.4 综合案例2——爬取新浪微博好友圈信息
  • 第11章 Selenium模拟浏览器
  • 11.1 Selenium和PhantomJS
  • 11.2 Selenium和PhantomJS的配合使用
  • 11.3 综合案例1——爬取QQ空间好友说说
  • 11.4 综合案例2——爬取淘宝商品信息
  • 第12章 Scrapy爬虫框架
  • 12.1 Scrapy的安装和使用
  • 12.2 综合案例1——爬取简书网热门专题信息
  • 12.3 综合案例2——爬取知乎网Python精华话题
  • 12.4 综合案例3——爬取简书网专题收录文章
  • 12.5 综合案例4——爬取简书网推荐信息
展开全部