作品简介
本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。
本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。
安俊秀,成都信息工程大学教授,访问学者,硕士生导师。软件自动生成与智能服务四川省重点实验室学术带头人(知识本体和大数据方向)。并行计算与大数据研究所负责人。长期从事数据科学与大数据技术相关的研究与教学工作,已发表研究领域相关论文40余篇,主编大数据与人工智能方面专著或教材10余部。
