作品简介

目前国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、采集、存储、访问、安全、分析与开发等方面得到指导和帮助。因此编写了这本大数据技术的入门书。

本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析、大数据开发、大数据环境自动化部署(Docker和K8s)等内容。

本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员、IT经理、CTO、CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。

杨正洪

毕业于美国State University of New York at Stony Brook,在美国硅谷从事AI和大数据相关研发工作10多年,华中科技大学和中国地质大学客座教授,湖北省2013年海外引进人才,拥有多项国家专利。参与了大数据和人工智能的国家标准的制定,在2016年参与了公安部主导的“信息安全技术:大数据平台安全管理产品安全技术要求”的国家标准制定。作者还是中关村海外智库专家顾问和住建部中规院专家顾问,担任了在美上市公司CTO、北京某国企CIO和上海某国企高级副总裁等职。多年从事人工智能与大数据技术的工作,出版了《智慧城市》等多本书籍。

作品目录

  • 内容简介
  • 前言
  • 本书内容组织
  • 作者与技术支持邮箱
  • 第1章 大数据时代
  • 1.1 什么是大数据
  • 1.2 大数据与云计算的关系
  • 1.3 Hadoop和云平台的应用实例
  • 1.4 数据湖(Data Lake)
  • 1.5 企业如何走向大数据
  • 第2章 大数据软件框架
  • 2.1 Hadoop框架
  • 2.2 Spark(内存计算框架)
  • 2.3 实时流处理框架
  • 2.4 云端消息队列
  • 2.5 框架的选择
  • 2.6 Hadoop发行版
  • 2.7 Mac上安装Hadoop
  • 2.8 Linux上安装Hadoop
  • 2.9 AWS云平台上安装Hadoop
  • 第3章 大数据集群
  • 3.1 集群实例分析
  • 3.2 YARN
  • 3.3 资源的调度器
  • 3.4 深入研究Resource Manager
  • 3.5 集群配置文件总览
  • 3.6 自动伸缩(Auto Scaling)集群
  • 3.7 迁移Hadoop集群
  • 3.8 增加Instance
  • 第4章 大数据存储:文件系统和云存储
  • 4.1 HDFS shell命令
  • 4.2 配置HDFS
  • 4.3 HDFS API编程
  • 4.4 HDFS API总结
  • 4.5 HDFS文件格式
  • 4.6 云存储S3
  • 第5章 大数据存储:数据库
  • 5.1 NoSQL
  • 5.2 HBase概述
  • 5.3 HBase编程
  • 5.4 其他NoSQL数据库
  • 5.5 云数据库
  • 第6章 大数据访问:SQL引擎层
  • 6.1 Phoenix
  • 6.2 Hive
  • 6.3 Pig
  • 6.4 ElasticSearch(全文搜索引擎)
  • 6.5 Presto
  • 第7章 大数据采集和导入
  • 7.1 Flume
  • 7.2 Kafka
  • 7.3 Sqoop
  • 7.4 Storm
  • 7.5 Amazon Kinesis
  • 7.6 其他工具
  • 第8章 大数据安全管控
  • 8.1 数据主权和合规性
  • 8.2 云端安全
  • 8.3 云端监控
  • 8.4 云端备份和恢复
  • 8.5 大数据安全
  • 第9章 大数据快速处理平台:Spark
  • 9.1 Spark框架
  • 9.2 Spark Shell
  • 9.3 Spark编程
  • 9.4 RDD
  • 9.5 Spark SQL
  • 9.6 Spark Streaming
  • 第10章 大数据分析
  • 10.1 数据科学
  • 10.2 预测分析
  • 10.3 机器学习
  • 10.4 算法
  • 10.5 大数据分析总体架构
  • 10.6 微服务
  • 第11章 大数据环境自动化部署:Docker和Kubernetes
  • 11.1 什么是Docker?
  • 11.2 镜像文件
  • 11.3 Docker安装
  • 11.4 Dockerfile文件
  • 11.5 Service(服务)
  • 11.6 Swarm
  • 11.7 Stack
  • 11.8 Kubernetes
  • 第12章 大数据开发管理
  • 12.1 CI/CD(持续集成/持续发布)
  • 12.2 代码管理工具GitHub
  • 12.3 项目管理JIRA
  • 12.4 项目构建工具Maven
  • 12.5 大数据软件测试
  • 附录1 数据量的单位级别
  • 附录2 AWS EC2创建步骤
  • 附录3 分布式监控系统Ganglia
  • 附录4 auth-ssh脚本
展开全部