作品简介

本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。

本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。

安俊秀,成都信息工程大学教授,访问学者,硕士生导师。软件自动生成与智能服务四川省重点实验室学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作,已发表研究领域相关论文40余篇,主编大数据与人工智能方面专著或教材10余部。

作品目录

  • 面向新工科高等院校大数据专业系列教材编委会成员名单
  • 出版说明
  • 前言
  • 第1章 数据采集与预处理概述
  • 1.1 大数据简介
  • 1.2 数据分析简介
  • 1.3 数据采集简介
  • 1.4 数据预处理简介
  • 习题
  • 第2章 大数据开发环境的搭建
  • 2.1 安装Python与JDK
  • 2.2 MySQL数据库的安装与配置
  • 2.3 Hadoop的安装与配置
  • 2.4 在Hadoop集群上运行WordCount
  • 习题
  • 第3章 使用Flume采集系统日志数据
  • 3.1 Flume概述
  • 3.2 Flume的安装运行
  • 3.3 Flume的核心组件
  • 3.4 Flume拦截器与选择器
  • 3.5 Flume负载均衡与故障转移
  • 3.6 实践案例:使用Flume采集数据上传到HDFS
  • 习题
  • 第4章 使用Kafka采集系统日志数据
  • 4.1 Kafka概述
  • 4.2 Kafka的安装部署
  • 4.3 Kafka的基本架构
  • 4.4 实践案例:使用Kafka采集本地日志数据
  • 4.5 实践案例:Kafka与Flume结合采集日志数据
  • 习题
  • 第5章 其他常用的系统日志数据采集工具
  • 5.1 Scribe
  • 5.2 Chukwa
  • 5.3 Splunk
  • 5.4 日志易
  • 5.5 Logstash
  • 5.6 Fluentd
  • 习题
  • 第6章 使用网络爬虫采集Web数据
  • 6.1 网络爬虫概述
  • 6.2 网络爬虫基础
  • 6.3 常见的网络爬虫框架
  • 6.4 实践案例:使用Scrapy爬取电商网站数据
  • 习题
  • 第7章 Python数据预处理库的使用
  • 7.1 Python与数据分析
  • 7.2 NumPy:数组与向量计算
  • 7.3 Pandas:数据结构化操作
  • 7.4 SciPy:科学化计算
  • 7.5 Matplotlib:数据可视化
  • 7.6 实践案例:使用Python预处理旅游路线数据
  • 习题
  • 第8章 使用ETL工具Kettle进行数据预处理
  • 8.1 Kettle概述
  • 8.2 Kettle的安装与配置
  • 8.3 Kettle的基本使用
  • 8.4 实践案例:使用Kettle处理某电商网站数据
  • 习题
  • 第9章 其他常用的数据预处理工具
  • 9.1 Pig
  • 9.2 OpenRefine
  • 9.3 实践案例:使用Pig和OpenRefine预处理二手房数据
  • 习题
  • 参考文献
展开全部