作品简介

使用Python编写网络爬虫程序获取互联网上的大数据是当前的热门专题。本书内容包括三部分:基础部分、进阶部分和项目实践。基础部分(第1~7章)主要介绍爬虫的三个步骤——获取网页、解析网页和存储数据,并通过诸多示例的讲解,让读者能够从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第8~13章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第14~17章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。

唐松,康奈尔大学信息科学研究生,高考获全额奖学金就读于香港中文大学计量营销和金融学,毕业后与IBM合作A100项目,为美的、中信等公司实践大数据落地项目,热衷将数据科学与商业结合应用。

作品目录

  • 前言
  • 第1章 网络爬虫入门
  • 1.1 为什么要学网络爬虫
  • 1.2 网络爬虫是否合法
  • 1.3 网络爬虫的基本议题
  • 第2章 编写第一个网络爬虫
  • 2.1 搭建Python平台
  • 2.2 Python使用入门
  • 2.3 编写第一个简单的爬虫
  • 2.4 Python实践:基础巩固
  • 第3章 静态网页抓取
  • 3.1 安装Requests
  • 3.2 获取响应内容
  • 3.3 定制Requests
  • 3.4 Requests爬虫实践:TOP250电影数据
  • 第4章 动态网页抓取
  • 4.1 动态抓取的实例
  • 4.2 解析真实地址抓取
  • 4.3 通过Selenium模拟浏览器抓取
  • 4.4 Selenium爬虫实践:深圳短租数据
  • 第5章 解析网页
  • 5.1 使用正则表达式解析网页
  • 5.2 使用BeautifulSoup解析网页
  • 5.3 使用lxml解析网页
  • 5.4 总结
  • 5.5 BeautifulSoup爬虫实践:房屋价格数据
  • 第6章 数据存储
  • 6.1 基本存储:存储至TXT或CSV
  • 6.2 存储至MySQL数据库
  • 6.3 存储至MongoDB数据库
  • 6.4 总结
  • 6.5 MongoDB爬虫实践:虎扑论坛
  • 第7章 Scrapy框架
  • 7.1 Scrapy是什么
  • 7.2 安装Scrapy
  • 7.3 通过Scrapy抓取博客
  • 7.4 Scrapy爬虫实践:财经新闻数据
  • 第8章 提升爬虫的速度
  • 8.1 并发和并行,同步和异步
  • 8.2 多线程爬虫
  • 8.3 多进程爬虫
  • 8.4 多协程爬虫
  • 8.5 总结
  • 第9章 反爬虫问题
  • 9.1 为什么会被反爬虫
  • 9.2 反爬虫的方式有哪些
  • 9.3 如何“反反爬虫”
  • 9.4 总结
  • 第10章 解决中文乱码
  • 10.1 什么是字符编码
  • 10.2 Python的字符编码
  • 10.3 解决中文编码问题
  • 10.4 总结
  • 第11章 登录与验证码处理
  • 11.1 处理登录表单
  • 11.2 验证码的处理
  • 11.3 总结
  • 第12章 服务器采集
  • 12.1 为什么使用服务器采集
  • 12.2 使用动态IP拨号服务器
  • 12.3 使用Tor代理服务器
  • 第13章 分布式爬虫
  • 13.1 安装Redis
  • 13.2 修改Redis配置
  • 13.3 Redis分布式爬虫实践
  • 13.4 总结
  • 第14章 爬虫实践一:维基百科
  • 14.1 项目描述
  • 14.2 网站分析
  • 14.3 项目实施:深度优先的递归爬虫
  • 14.4 项目进阶:广度优先的多线程爬虫
  • 14.5 总结
  • 第15章 爬虫实践二:知乎Live
  • 15.1 项目描述
  • 15.2 网站分析
  • 15.3 项目实施
  • 15.4 总结
  • 第16章 爬虫实践三:百度地图API
  • 16.1 项目描述
  • 16.2 获取API秘钥
  • 16.3 项目实施
  • 16.4 总结
  • 第17章 爬虫实践四:畅销书籍
  • 17.1 项目描述
  • 17.2 网站分析
  • 17.3 项目实施
  • 17.4 总结
展开全部