作品简介

本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富,实例典型,实用性强。适合Python网络爬虫初学者、数据分析与挖掘技术初学者,以及高校及培训学校相关专业的师生阅读。

胡松涛,高级工程师,参与多个Linux开源项目,github知名代码分享者,活跃于国内著名的多个开源论坛。出版图书《树莓派开发从零开始学--超好玩的智能小硬件制作书》。

作品目录

  • 内容简介
  • 前言
  • 第1章 Python环境配置
  • 1.1 Python简介
  • 1.1.1 Python的历史由来
  • 1.1.2 Python的现状
  • 1.1.3 Python的应用
  • 1.2 Python开发环境配置
  • 1.2.1 Windows下安装Python
  • 1.2.2 Windows下安装配置pip
  • 1.2.3 Linux下安装Python
  • 1.2.4 Linux下安装配置pip
  • 1.2.5 永远的开始:hello world
  • 1.3 本章小结
  • 第2章 Python基础
  • 2.1 Python变量类型
  • 2.1.1 数字
  • 2.1.2 字符串
  • 2.1.3 列表
  • 2.1.4 元组
  • 2.1.5 字典
  • 2.2 Python语句
  • 2.2.1 条件语句——if else
  • 2.2.2 有限循环——for
  • 2.2.3 无限循环——while
  • 2.2.4 中断循环——continue、break
  • 2.2.5 异常处理——try except
  • 2.2.6 导入模块——import
  • 2.3 函数和类
  • 2.3.1 函数
  • 2.3.2 类
  • 2.4 Python代码格式
  • 2.4.1 Python代码缩进
  • 2.4.2 Python命名规则
  • 2.4.3 Python代码注释
  • 2.5 Python调试
  • 2.5.1 Windows下IDLE调试
  • 2.5.2 Linux下pdb调试
  • 2.6 本章小结
  • 第3章 简单的Python脚本
  • 3.1 九九乘法表
  • 3.1.1 Project分析
  • 3.1.2 Project实施
  • 3.2 斐波那契数列
  • 3.2.1 Project分析
  • 3.2.2 Project实施
  • 3.3 概率计算
  • 3.3.1 Project分析
  • 3.3.2 Project实施
  • 3.4 读写文件
  • 3.4.1 Project分析
  • 3.4.2 project实施
  • 3.5 本章小结
  • 第4章 Python爬虫常用模块
  • 4.1 Python标准库之urllib2模块
  • 4.1.1 urllib2请求返回网页
  • 4.1.2 urllib2使用代理访问网页
  • 4.1.3 urllib2修改header
  • 4.2 Python标准库——logging模块
  • 4.2.1 简述logging模块
  • 4.2.2 自定义模块myLog
  • 4.3 其他有用模块
  • 4.3.1 re模块(正则表达式操作)
  • 4.3.2 sys模块(系统参数获取)
  • 4.3.3 time模块(获取时间信息)
  • 4.4 本章小结
  • 第5章 Scrapy爬虫框架
  • 5.1 安装Scrapy
  • 5.1.1 Windows下安装Scrapy环境
  • 5.1.2 Linux下安装Scrapy
  • 5.1.3 vim编辑器
  • 5.2 Scrapy选择器XPath和CSS
  • 5.2.1 XPath选择器
  • 5.2.2 CSS选择器
  • 5.2.3 其他选择器
  • 5.3 Scrapy爬虫实战一:今日影视
  • 5.3.1 创建Scrapy项目
  • 5.3.2 Scrapy文件介绍
  • 5.3.3 Scrapy爬虫编写
  • 5.4 Scrapy爬虫实战二:天气预报
  • 5.4.1 项目准备
  • 5.4.2 创建编辑Scrapy爬虫
  • 5.4.3 数据存储到json
  • 5.4.4 数据存储到MySQL
  • 5.5 Scrapy爬虫实战三:获取代理
  • 5.5.1 项目准备
  • 5.5.2 创建编辑Scrapy爬虫
  • 5.5.3 多个Spider
  • 5.5.4 处理Spider数据
  • 5.6 Scrapy爬虫实战四:糗事百科
  • 5.6.1 目标分析
  • 5.6.2 创建编辑Scrapy爬虫
  • 5.6.3 Scrapy项目中间件——添加headers
  • 5.6.4 Scrapy项目中间件——添加proxy
  • 5.7 scrapy爬虫实战五:爬虫攻防
  • 5.7.1 创建一般爬虫
  • 5.7.2 封锁间隔时间破解
  • 5.7.3 封锁Cookies破解
  • 5.7.4 封锁user-agent破解
  • 5.7.5 封锁IP破解
  • 5.8 本章小结
  • 第6章 Beautiful Soup爬虫
  • 6.1 安装Beautiful Soup环境
  • 6.1.1 Windows下安装Beautiful Soup
  • 6.1.2 Linux下安装Beautiful Soup
  • 6.1.3 最强大的IDE——Eclipse
  • 6.2 BeautifulSoup解析器
  • 6.2.1 bs4解析器选择
  • 6.2.2 lxml解析器安装
  • 6.2.3 使用bs4过滤器
  • 6.3 bs4爬虫实战一:获取百度贴吧内容
  • 6.3.1 目标分析
  • 6.3.2 项目实施
  • 6.3.3 代码分析
  • 6.3.4 Eclipse调试
  • 6.4 bs4爬虫实战二:获取双色球中奖信息
  • 6.4.1 目标分析
  • 6.4.2 项目实施
  • 6.4.3 保存结果到Excel
  • 6.4.4 代码分析
  • 6.5 bs4爬虫实战三:获取起点小说信息
  • 6.5.1 目标分析
  • 6.5.2 项目实施
  • 6.5.3 保存结果到MySQL
  • 6.5.4 代码分析
  • 6.6 bs4爬虫实战四:获取电影信息
  • 6.6.1 目标分析
  • 6.6.2 项目实施
  • 6.6.3 bs4反爬虫
  • 6.6.4 代码分析
  • 6.7 bs4爬虫实战五:获取音悦台榜单
  • 6.7.1 目标分析
  • 6.7.2 项目实施
  • 6.7.3 代码分析
  • 6.8 本章小结
  • 第7章 Mechanize模拟浏览器
  • 7.1 安装Mechanize模块
  • 7.1.1 Windows下安装Mechanize
  • 7.1.2 Linux下安装Mechanize
  • 7.2 Mechanize测试
  • 7.2.1 Mechanize百度
  • 7.2.2 Mechanize光猫F460 
  • 7.3 Mechanize实站一:获取Modem信息
  • 7.3.1 获取F460数据
  • 7.3.2 代码分析
  • 7.4 Mechanize实战二:获取音悦台公告
  • 7.4.1 登录原理
  • 7.4.2 获取Cookie的方法
  • 7.4.3 获取Cookie
  • 7.4.4 使用Cookie登录获取数据
  • 7.5 本章总结
  • 第8章 Selenium模拟浏览器
  • 8.1 安装Selenium模块
  • 8.1.1 Windows下安装Selenium模块
  • 8.1.2 Linux下安装Selenium模块
  • 8.2 浏览器选择
  • 8.2.1 Webdriver支持列表
  • 8.2.2 Windows下安装PhantomJS
  • 8.2.3 Linux下安装PhantomJS
  • 8.3 Selenium&PhantomJS抓取数据
  • 8.3.1 获取百度搜索结果
  • 8.3.2 获取搜索结果
  • 8.3.3 获取有效数据位置
  • 8.3.4 从位置中获取有效数据
  • 8.4 Selenium&PhantomJS实战一:获取代理
  • 8.4.1 准备环境
  • 8.4.2 爬虫代码
  • 8.4.3 代码解释
  • 8.5 Selenium&PhantomJS实战二:漫画爬虫
  • 8.5.1 准备环境
  • 8.5.2 爬虫代码
  • 8.5.3 代码解释
  • 8.6 本章总结
展开全部