作品简介

本书从初学者的视角出发,以案例实操为核心,系统地介绍网络爬虫的原理、工具使用与爬取技术,并详细讲解数据分析的各种技巧。本书主要内容包括:Python基础语法,数据分析工具NumPy、Pandas、Matplotlib的使用,网络爬虫库Urllib、BeautifulSoup、Scrapy,正则表达式在网络爬虫中的应用,数据预处理与数据分析方法、中文文本处理、文本向量化技术,以及机器学习算法在数据分析中的应用。书中还给出了大量案例和项目,可以帮助读者快速上手,提高实用技能。

本书内容丰富,注重实操,适用于网络爬虫岗位、数据分析岗位的初级工程师和各类工程技术人员,还可作为高校经济、管理、人文社科、大数据等专业的教学用书。

马国俊,计算专业硕士,教授,从业20余年,主要从事大数据技术的教学、项目开发与研究工作,先后在国内外刊物发表学术论文40余篇,获取软件著作权3项;主持、参与各类项目5项,获得奖项若干。

作品目录

  • 内容简介
  • 前言
  • 第1章 Python基础语法
  • 1.1 搭建Python开发环境
  • 1.2 Python语法入门
  • 1.3 函数及用法
  • 1.4 函数的特殊操作
  • 1.5 Python的数据结构
  • 1.6 动手练习
  • 第2章 数据科学库之NumPy
  • 2.1 NumPy库中的ndarray对象
  • 2.2 NumPy常见操作
  • 2.3 索引和切片操作
  • 2.4 动手练习
  • 第3章 数据处理库之Pandas
  • 3.1 Series对象及操作
  • 3.2 DataFrame对象及操作
  • 3.3 DataFrame同各种文件交互
  • 3.4 动手练习
  • 第4章 数据可视化库之Matplotlib
  • 4.1 绘制各类图形
  • 4.2 设置坐标
  • 4.3 增加可视化美观效果
  • 4.4 设置子图效果
  • 4.5 高级图表的绘制方式
  • 4.6 动手练习
  • 第5章 数据获取之网络爬虫
  • 5.1 和爬虫有关的HTTP协议
  • 5.2 通过Urllib库获取网页信息
  • 5.3 通过BeautifulSoup提取页面信息
  • 5.4 通过正则表达式截取信息
  • 5.5 动手练习
  • 第6章 用Scrapy框架爬取数据
  • 6.1 Scrapy框架概述
  • 6.2 简单爬虫范例
  • 6.3 复杂爬虫范例
  • 6.4 动手练习
  • 第7章 数据预处理与数据分析方法
  • 7.1 基于Python的数据预处理
  • 7.2 Python与MySQL数据库的交互
  • 7.3 描述性统计
  • 7.4 概率分析方法与推断统计
  • 7.5 基于时间序列的统计方法
  • 7.6 动手练习
  • 第8章 中文文本处理
  • 8.1 中文文本处理概述
  • 8.2 基于结巴库的文本处理
  • 8.3 引入自定义信息
  • 8.4 基于NLTK库的文本处理
  • 8.5 动手练习
  • 第9章 文本向量化技术
  • 9.1 文本向量化技术概述
  • 9.2 基于Gensim的文本向量化分析
  • 9.3 向量化技术的使用场景
  • 9.4 动手练习
  • 第10章 基于机器学习的分析方法
  • 10.1 基础知识
  • 10.2 线性回归分析方法
  • 10.3 岭回归和Lasso回归分析法
  • 10.4 基于机器学习的分类分析方法
  • 10.5 基于手写体数字识别的分类范例
  • 10.6 动手练习
  • 第11章 电影评论数据分析案例
  • 11.1 用Scrapy爬取电影评论数据
  • 11.2 对爬取的电影评论数据进行分析
  • 11.3 动手练习
  • 第12章 二手房数据分析案例
  • 12.1 用Scrapy爬取二手房数据
  • 12.2 数据预处理与数据分析
  • 12.3 动手练习
  • 第13章 通过电子邮件发送数据分析结果
  • 13.1 实现发送电子邮件的功能
  • 13.2 以电子邮件的形式发送RSI指标图
  • 13.3 以电子邮件的形式发送基于RSI指标的买卖点
  • 13.4 动手练习
展开全部