作品简介

本书基于开源Hadoop生态圈的主流技术,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。通过本书的学习,读者可以理解大数据相关技术的原理,迅速掌握大数据技术的操作,为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。

张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,教育部全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。

曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育“十一五”规划教材1部;“十三五”职业教育国家规划教材1部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。

作品目录

  • 前言
  • 第一部分 基础篇
  • 第1章 浅谈大数据
  • 1.1 大数据产生的背景
  • 1.2 大数据概述
  • 1.3 大数据挖掘概述
  • 1.4 大数据平台
  • 1.5 小结
  • 第2章 大数据基础架构Hadoop——实现大数据分布式存储与计算
  • 2.1 Hadoop技术概述
  • 2.2 Hadoop应用场景介绍
  • 2.3 Hadoop生态系统
  • 2.4 Hadoop安装配置
  • 2.5 Hadoop HDFS文件操作命令
  • 2.6 Hadoop MapReduce编程开发
  • 2.7 场景应用:电影网站用户影评分析
  • 2.8 小结
  • 第3章 数据仓库Hive——实现大数据查询与处理
  • 3.1 Hive技术概述
  • 3.2 Hive应用场景介绍
  • 3.3 Hive安装配置
  • 3.4 HiveQL查询语句
  • 3.5 Hive自定义函数的使用
  • 3.6 场景应用:基站掉话率排名统计
  • 3.7 小结
  • 第4章 分布式协调框架ZooKeeper——实现应用程序分布式协调服务
  • 4.1 ZooKeeper技术概述
  • 4.2 ZooKeeper应用场景介绍
  • 4.3 ZooKeeper分布式安装配置
  • 4.4 ZooKeeper客户端常用命令
  • 4.5 ZooKeeper Java API操作
  • 4.6 场景应用:服务器上下线动态监控
  • 4.7 小结
  • 第5章 分布式数据库HBase——实现大数据存储与快速查询
  • 5.1 HBase技术概述
  • 5.2 HBase应用场景介绍
  • 5.3 HBase安装配置
  • 5.4 HBase Shell操作
  • 5.5 HBase高级应用
  • 5.6 场景应用:用户通话记录数据存储设计及查询
  • 5.7 小结
  • 第6章 分布式计算框架Spark——实现大数据分析与挖掘
  • 6.1 Spark技术概述
  • 6.2 Spark应用场景介绍
  • 6.3 Spark集群安装配置
  • 6.4 Spark Core——底层基础框架
  • 6.5 Spark SQL——查询引擎框架
  • 6.6 Spark MLlib——机器学习库
  • 6.7 Spark Streaming——流计算框架
  • 6.8 小结
  • 第7章 大数据采集框架Flume——实现日志数据实时采集
  • 7.1 Flume技术概述
  • 7.2 Flume应用场景介绍
  • 7.3 Flume安装与配置
  • 7.4 Flume核心组件的常见类型及参数配置
  • 7.5 Flume采集方案设计与实践
  • 7.6 场景应用:广告日志数据采集系统
  • 7.7 小结
  • 第8章 消息订阅系统Kafka——实现大数据实时传输
  • 8.1 Kafka技术概述
  • 8.2 Kafka应用场景介绍
  • 8.3 Kafka集群的安装
  • 8.4 Kafka的基础操作
  • 8.5 Kafka Java API的使用
  • 8.6 场景应用:广告日志数据实时传输
  • 8.7 小结
  • 第二部分 实战篇
  • 第9章 图书热度实时分析系统
  • 9.1 背景与目标
  • 9.2 创建IDEA项目并添加依赖
  • 9.3 图书数据采集
  • 9.4 图书热度指标构建
  • 9.5 图书热度实时计算
  • 9.6 图书热度实时分析过程的完整实现
  • 9.7 小结
  • 第10章 O2O优惠券个性化投放
  • 10.1 背景与目标
  • 10.2 数据探索及预处理
  • 10.3 多维度指标构建
  • 10.4 模型构建
  • 10.5 模型评价
  • 10.6 O2O平台营销手段和策略分析
  • 10.7 小结
  • 第11章 消费者人群画像——信用智能评分
  • 11.1 背景与目标
  • 11.2 数据探索
  • 11.3 数据预处理
  • 11.4 消费者信用特征关联
  • 11.5 模型构建
  • 11.6 模型加载应用
  • 11.7 小结
展开全部