数据采集与预处理技术应用电子书免费在线阅读,免费在线试读,作者：安俊秀等

书名
数据采集与预处理技术应用
面向新工科高等院校大数据专业系列教材
作者安俊秀等
出版社机械工业出版社 / 2023-08
ISBN书号9787111733850
字数约 77,000 字
全本定价￥42.00

作品简介

本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章，主要包括数据采集与预处理概述，大数据开发环境的搭建，使用Flume采集系统日志数据，使用Kafka采集系统日志数据，其他常用的系统日志数据采集工具，使用网络爬虫采集Web数据，Python数据预处理库的使用，使用ETL工具Kettle进行数据预处理，以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作，实现了理论与实践的有机结合，帮助读者更好地学习和掌握数据采集与预处理的关键技术。

本书可以作为高等院校大数据专业的大数据课程教材，也可以作为计算机相关专业的专业课或选修课教材，同时也可以作为从事大数据相关专业的工作人员的参考用书。

安俊秀，成都信息工程大学教授，访问学者，硕士生导师。软件自动生成与智能服务四川省重点实验室学术带头人（知识本体和大数据方向）。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作，已发表研究领域相关论文40余篇，主编大数据与人工智能方面专著或教材10余部。

作品目录

面向新工科高等院校大数据专业系列教材编委会成员名单
出版说明
前言
第1章数据采集与预处理概述
1.1 大数据简介
1.2 数据分析简介
1.3 数据采集简介
1.4 数据预处理简介
习题
第2章大数据开发环境的搭建
2.1 安装Python与JDK
2.2 MySQL数据库的安装与配置
2.3 Hadoop的安装与配置
2.4 在Hadoop集群上运行WordCount
习题
第3章使用Flume采集系统日志数据
3.1 Flume概述
3.2 Flume的安装运行
3.3 Flume的核心组件
3.4 Flume拦截器与选择器
3.5 Flume负载均衡与故障转移
3.6 实践案例：使用Flume采集数据上传到HDFS
习题
第4章使用Kafka采集系统日志数据
4.1 Kafka概述
4.2 Kafka的安装部署
4.3 Kafka的基本架构
4.4 实践案例：使用Kafka采集本地日志数据
4.5 实践案例：Kafka与Flume结合采集日志数据
习题
第5章其他常用的系统日志数据采集工具
5.1 Scribe
5.2 Chukwa
5.3 Splunk
5.4 日志易
5.5 Logstash
5.6 Fluentd
习题
第6章使用网络爬虫采集Web数据
6.1 网络爬虫概述
6.2 网络爬虫基础
6.3 常见的网络爬虫框架
6.4 实践案例：使用Scrapy爬取电商网站数据
习题
第7章 Python数据预处理库的使用
7.1 Python与数据分析
7.2 NumPy：数组与向量计算
7.3 Pandas：数据结构化操作
7.4 SciPy：科学化计算
7.5 Matplotlib：数据可视化
7.6 实践案例：使用Python预处理旅游路线数据
习题
第8章使用ETL工具Kettle进行数据预处理
8.1 Kettle概述
8.2 Kettle的安装与配置
8.3 Kettle的基本使用
8.4 实践案例：使用Kettle处理某电商网站数据
习题
第9章其他常用的数据预处理工具
9.1 Pig
9.2 OpenRefine
9.3 实践案例：使用Pig和OpenRefine预处理二手房数据
习题
参考文献

展开全部