Python网络爬虫与数据分析从入门到实践电子书免费在线阅读,免费在线试读,作者：马国俊

书名
Python网络爬虫与数据分析从入门到实践
全流程实战讲解网络爬虫、数据清洗、文本处理、机器学习算法、数据分析与可视化
作者马国俊
出版社清华大学出版社 / 2023-03
ISBN书号9787302627814
字数约 92,000 字
全本定价￥55.86

作品简介

本书从初学者的视角出发，以案例实操为核心，系统地介绍网络爬虫的原理、工具使用与爬取技术，并详细讲解数据分析的各种技巧。本书主要内容包括：Python基础语法，数据分析工具NumPy、Pandas、Matplotlib的使用，网络爬虫库Urllib、BeautifulSoup、Scrapy，正则表达式在网络爬虫中的应用，数据预处理与数据分析方法、中文文本处理、文本向量化技术，以及机器学习算法在数据分析中的应用。书中还给出了大量案例和项目，可以帮助读者快速上手，提高实用技能。

本书内容丰富，注重实操，适用于网络爬虫岗位、数据分析岗位的初级工程师和各类工程技术人员，还可作为高校经济、管理、人文社科、大数据等专业的教学用书。

马国俊，计算专业硕士，教授，从业20余年，主要从事大数据技术的教学、项目开发与研究工作，先后在国内外刊物发表学术论文40余篇，获取软件著作权3项；主持、参与各类项目5项，获得奖项若干。

作品目录

内容简介
前言
第1章　Python基础语法
1.1　搭建Python开发环境
1.2　Python语法入门
1.3　函数及用法
1.4　函数的特殊操作
1.5　Python的数据结构
1.6　动手练习
第2章　数据科学库之NumPy
2.1　NumPy库中的ndarray对象
2.2　NumPy常见操作
2.3　索引和切片操作
2.4　动手练习
第3章　数据处理库之Pandas
3.1　Series对象及操作
3.2　DataFrame对象及操作
3.3　DataFrame同各种文件交互
3.4　动手练习
第4章　数据可视化库之Matplotlib
4.1　绘制各类图形
4.2　设置坐标
4.3　增加可视化美观效果
4.4　设置子图效果
4.5　高级图表的绘制方式
4.6　动手练习
第5章　数据获取之网络爬虫
5.1　和爬虫有关的HTTP协议
5.2　通过Urllib库获取网页信息
5.3　通过BeautifulSoup提取页面信息
5.4　通过正则表达式截取信息
5.5　动手练习
第6章　用Scrapy框架爬取数据
6.1　Scrapy框架概述
6.2　简单爬虫范例
6.3　复杂爬虫范例
6.4　动手练习
第7章　数据预处理与数据分析方法
7.1　基于Python的数据预处理
7.2　Python与MySQL数据库的交互
7.3　描述性统计
7.4　概率分析方法与推断统计
7.5　基于时间序列的统计方法
7.6　动手练习
第8章　中文文本处理
8.1　中文文本处理概述
8.2　基于结巴库的文本处理
8.3　引入自定义信息
8.4　基于NLTK库的文本处理
8.5　动手练习
第9章　文本向量化技术
9.1　文本向量化技术概述
9.2　基于Gensim的文本向量化分析
9.3　向量化技术的使用场景
9.4　动手练习
第10章　基于机器学习的分析方法
10.1　基础知识
10.2　线性回归分析方法
10.3　岭回归和Lasso回归分析法
10.4　基于机器学习的分类分析方法
10.5　基于手写体数字识别的分类范例
10.6　动手练习
第11章　电影评论数据分析案例
11.1　用Scrapy爬取电影评论数据
11.2　对爬取的电影评论数据进行分析
11.3　动手练习
第12章　二手房数据分析案例
12.1　用Scrapy爬取二手房数据
12.2　数据预处理与数据分析
12.3　动手练习
第13章　通过电子邮件发送数据分析结果
13.1　实现发送电子邮件的功能
13.2　以电子邮件的形式发送RSI指标图
13.3　以电子邮件的形式发送基于RSI指标的买卖点
13.4　动手练习

展开全部