作品简介

从2015年开始,国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、大数据采集、管理、分析以及可视化等方面得到指导和应用帮助。因此编写了这本大数据技术的快速入门书。 本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析等内容。最后还给出两个案例:环保大数据和公安大数据,供读者参考。 本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,IT经理,CTO,CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。

杨正洪,是国内知名大数据专家,毕业于美国State University of New York at Stony Brook,在IBM公司从事大数据相关研发工作12年多。从2003~2013年,杨正洪在美国加州的IBM硅谷实验室(IBM Silicon Valley Lab)负责IBM大数据平台的设计、研发和实施,主持了保险行业、金融行业、政府行业的大数据系统的架构设计和实施。

杨正洪是华中科技大学和中国地质大学客座教授,拥有国家专利,是湖北省2013年海外引进人才。受武汉市政府邀请,杨正洪于2012年12月发起成立武汉市云升科技发展有限公司,并获得东湖高新技术开发区办公场所和资金支持。目前公司在浙江和上海分别有全资子公司,在美国硅谷设有研发中心。公司的核心产品是大数据管理平台EasyDoop,并以EasyDoop为基础研发了公安大数据产品和环保大数据产品。这些产品在公安和环保行业得到成功实施,三次被中央电视台新闻联播节目播报,省部长级政府领导亲自考察,并给予了很高的评价。

杨正洪参与了多项大数据相关标准的制定工作,曾受邀参与了公安部主导的“信息安全技术-大数据平台安全管理产品安全技术要求”的国家标准制定。

作品目录

  • 前言
  • 第1章 大数据时代
  • 1.1 什么是大数据
  • 1.2 大数据的四大特征
  • 1.3 大数据的商用化
  • 1.4 大数据分析
  • 1.5 大数据与云计算的关系
  • 1.6 大数据的国家战略
  • 1.6.1 政府大数据的价值
  • 1.6.2 政府大数据的应用场景
  • 1.7 企业如何迎接大数据
  • 1.7.1 评估大数据方案的维度
  • 1.7.2 业务价值维度
  • 1.7.3 数据维度
  • 1.7.4 现有IT环境和成本维度
  • 1.7.5 数据治理维度
  • 1.8 大数据产业链分析
  • 1.8.1 技术分析
  • 1.8.2 角色分析
  • 1.8.3 大数据运营
  • 1.9 大数据交易
  • 1.10 大数据之我见
  • 第2章 大数据软件框架
  • 2.1 Hadoop框架
  • 2.1.1 HDFS(分布式文件系统)
  • 2.1.2 MapReduce(分布式计算框架)
  • 2.1.3 YARN(集群资源管理器)
  • 2.1.4 Zookeeper(分布式协作服务)
  • 2.1.5 Ambari(管理工具)
  • 2.2 Spark(内存计算框架)
  • 2.2.1 Scala
  • 2.2.2 Spark SQL
  • 2.2.3 Spark Streaming
  • 2.3 实时流处理框架
  • 2.4 框架的选择
  • 第3章 安装与配置大数据软件
  • 3.1 Hadoop发行版
  • 3.1.1 Cloudera
  • 3.1.2 HortonWorks
  • 3.1.3 MapR
  • 3.2 安装Hadoop前的准备工作
  • 3.2.1 Linux主机配置
  • 3.2.2 配置Java环境
  • 3.2.3 安装NTP和python
  • 3.2.4 安装和配置openssl
  • 3.2.5 启动和停止特定服务
  • 3.2.6 配置SSH无密码访问
  • 3.3 安装Ambari和HDP
  • 3.3.1 配置安装包文件
  • 3.3.2 安装Ambari
  • 3.3.3 安装和配置HDP
  • 3.4 初识Hadoop
  • 3.4.1 启动和停止服务
  • 3.4.2 使用HDFS
  • 3.5 Hadoop的特性
  • 第4章 大数据存储:文件系统
  • 4.1 HDFS shell命令
  • 4.2 HDFS配置文件
  • 4.3 HDFS API编程
  • 4.3.1 读取HDFS文件内容
  • 4.3.2 写HDFS文件内容
  • 4.4 HDFS API总结
  • 4.4.1 Configuration类
  • 4.4.2 FileSystem抽象类
  • 4.4.3 Path类
  • 4.4.4 FSDataInputStream类
  • 4.4.5 FSDataOutputStream类
  • 4.4.6 IOUtils类
  • 4.4.7 FileStatus类
  • 4.4.8 FsShell类
  • 4.4.9 ChecksumFileSystem抽象类
  • 4.4.10 其他HDFS API实例
  • 4.4.11 综合实例
  • 4.5 HDFS文件格式
  • 4.5.1 SequenceFile
  • 4.5.2 TextFile(文本格式)
  • 4.5.3 RCFile
  • 4.5.4 Avro
  • 第5章 大数据存储:数据库
  • 5.1 NoSQL
  • 5.2 HBase管理
  • 5.2.1 HBase表结构
  • 5.2.2 HBase系统架构
  • 5.2.3 启动并操作HBase数据库
  • 5.2.4 HBase Shell工具
  • 5.3 HBase编程
  • 5.3.1 增删改查API
  • 5.3.2 过滤器
  • 5.3.3 计数器
  • 5.3.4 原子操作
  • 5.3.5 管理API
  • 5.4 其他NoSQL数据库
  • 第6章 大数据访问:SQL引擎层
  • 6.1 Phoenix
  • 6.1.1 安装和配置Phoenix
  • 6.1.2 在eclipse上开发phoenix程序
  • 6.1.3 Phoenix SQL工具
  • 6.1.4 Phoenix SQL语法
  • 6.2 Hive
  • 6.2.1 Hive架构
  • 6.2.2 安装Hive
  • 6.2.3 Hive和MySQL的配置
  • 6.2.4 Hive CLI
  • 6.2.5 Hive数据类型
  • 6.2.6 HiveQL DDL
  • 6.2.7 HiveQL DML
  • 6.2.8 Hive编程
  • 6.2.9 HBase集成
  • 6.2.10 XML和JSON数据
  • 6.2.11 使用Tez
  • 6.3 Pig
  • 6.3.1 Pig语法
  • 6.3.2 Pig和Hive的使用场景比较
  • 6.4 ElasticSearch(全文搜索引擎)
  • 6.4.1 全文索引的基础知识
  • 6.4.2 安装和配置ES
  • 6.4.3 ES API
  • 第7章 大数据采集和导入
  • 7.1 Flume
  • 7.1.1 Flume架构
  • 7.1.2 Flume事件
  • 7.1.3 Flume源
  • 7.1.4 Flume拦截器(Interceptor)
  • 7.1.5 Flume通道选择器(Channel Selector)
  • 7.1.6 Flume通道
  • 7.1.7 Flume接收器
  • 7.1.8 负载均衡和单点失败
  • 7.1.9 Flume监控管理
  • 7.1.10 Flume实例
  • 7.2 Kafka
  • 7.2.1 Kafka架构
  • 7.2.2 Kafka与JMS的异同
  • 7.2.3 Kafka性能考虑
  • 7.2.4 消息传送机制
  • 7.2.5 Kafka和Flume的比较
  • 7.3 Sqoop
  • 7.3.1 从数据库导入HDFS
  • 7.3.2 增量导入
  • 7.3.3 将数据从Oracle导入Hive
  • 7.3.4 将数据从Oracle导入HBase
  • 7.3.5 导入所有表
  • 7.3.6 从HDFS导出数据
  • 7.3.7 数据验证
  • 7.3.8 其他Sqoop功能
  • 7.4 Storm
  • 7.4.1 Storm基本概念
  • 7.4.2 spout
  • 7.4.3 bolt
  • 7.4.4 拓扑
  • 7.4.5  Storm总结
  • 7.5 Splunk
  • 第8章 大数据管理平台
  • 8.1 大数据建设总体架构
  • 8.2 大数据管理平台的必要性
  • 8.3 大数据管理平台的功能
  • 8.3.1 推进数据资源全面整合共享
  • 8.3.2 增强数据管理水平
  • 8.3.3 支撑创新大数据分析
  • 8.4 数据管理平台(DMP)
  • 8.5 EasyDoop案例分析
  • 8.5.1 大数据建模平台
  • 8.5.2 大数据交换和共享平台
  • 8.5.3 大数据云平台
  • 8.5.4 大数据服务平台
  • 8.5.5 EasyDoop平台技术原理分析
  • 第9章 Spark技术
  • 9.1 Spark框架
  • 9.1.1 安装Spark
  • 9.1.2 配置Spark
  • 9.2 Spark Shell
  • 9.3 Spark编程
  • 9.3.1 编写Spark API程序
  • 9.3.2 使用sbt编译并打成jar包
  • 9.3.3 运行程序
  • 9.4 RDD
  • 9.4.1 RDD算子和RDD依赖关系
  • 9.4.2 RDD转换操作
  • 9.4.3 RDD行动(Action)操作
  • 9.4.4 RDD控制操作
  • 9.4.5 RDD实例
  • 9.5 Spark SQL
  • 9.5.1 DataFrame
  • 9.5.2 RDD转化为DataFrame
  • 9.5.3 JDBC数据源
  • 9.5.4 Hive数据源
  • 9.6 Spark Streaming
  • 9.6.1 DStream编程模型
  • 9.6.2 DStream操作
  • 9.6.3 性能考虑
  • 9.6.4 容错能力
  • 9.7 GraphX图计算框架
  • 9.7.1 属性图
  • 9.7.2 图操作符
  • 9.7.3 属性操作
  • 9.7.4 结构操作
  • 9.7.5 关联(join)操作
  • 9.7.6 聚合操作
  • 9.7.7 计算度信息
  • 9.7.8 缓存操作
  • 9.7.9 图算法
  • 第10章 大数据分析
  • 10.1 数据科学
  • 10.1.1 探索性数据分析
  • 10.1.2 描述统计
  • 10.1.3 数据可视化
  • 10.2 预测分析
  • 10.2.1 预测分析实例
  • 10.2.2 回归(Regression)分析预测法
  • 10.3 机器学习
  • 10.3.1 机器学习的市场动态
  • 10.3.2 机器学习分类
  • 10.3.3 机器学习算法
  • 10.4 Spark MLib
  • 10.4.1 MLib架构
  • 10.4.2 MLib算法库
  • 10.4.3 决策树
  • 10.5 深入了解算法
  • 10.5.1 分类算法
  • 10.5.2 预测算法
  • 10.5.3 聚类分析
  • 10.5.4 关联分析
  • 10.5.5 异常值分析算法
  • 10.5.6 协同过滤(推荐引擎)算法
  • 10.6 Mahout简介
  • 第11章 案例分析:环保大数据
  • 11.1 环保大数据管理平台
  • 11.2 环保大数据应用平台
  • 11.2.1 环境自动监测监控服务
  • 11.2.2 综合查询服务
  • 11.2.3 统计分析服务
  • 11.2.4 GIS服务
  • 11.2.5 视频服务
  • 11.2.6 预警服务
  • 11.2.7 应急服务
  • 11.2.8 电子政务服务
  • 11.2.9 智能化运营管理系统
  • 11.2.10 环保移动应用系统
  • 11.2.11 空气质量发布系统
  • 11.3 环保大数据分析系统
  • 第12章 案例分析:公安大数据
  • 12.1 总体架构设计
  • 12.2 建设内容
  • 12.3 建设步骤
  • 附录 1 数据量的单位级别
  • 附录 2 Linux Shell常见命令
  • 附录 3 Ganglia(分布式监控系统)
  • 附录 4 auth-ssh脚本
  • 附录 5 作者简介
展开全部