作品简介

本书由资深大数据专家精心编写,循序渐进地介绍了Flink生态系统主流的大数据开发技术。全书共7章,第1章讲解Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,后通过一个单词计数示例带领读者快速体验Flink应用程序的编写;第2、3章讲解Flink的多种运行时架构、任务调度原理、数据分区以及Flink集群的安装部署,同时包括Flink命令行操作、应用程序提交、常用Shell命令等;第4~7章讲解了Flink流式计算DataStream API、关系型计算Table&SQL API以及图计算框架Gelly等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。本书内容翔实,实例丰富,适合Flink新手、大数据开发人员阅读,也可作为培训机构和大专院校相关专业的教学用书。

张伟洋,大数据领域资深专家,拥有多年互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。先后多次为中国海洋大学、曲阜师范大学、青岛理工大学等高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop大数据技术开发实战》《Spark大数据分析实战》等图书,公众号“奋斗在IT”的创办人。

作品目录

  • 前言
  • 第1章 初识Flink
  • 1.1 大数据开发总体架构
  • 1.2 什么是Flink
  • 1.3 Flink的应用场景
  • 1.4 流计算框架对比
  • 1.5 Flink的主要组件
  • 1.6 Flink编程模型
  • 1.7 快速体验Flink程序
  • 第2章 Flink运行架构及原理
  • 2.1 Flink运行时架构
  • 2.2 Flink任务调度原理
  • 2.3 Flink数据分区
  • 第3章 Flink安装及部署
  • 3.1 Flink集群搭建
  • 3.2 Flink HA模式
  • 3.3 Flink命令行界面
  • 3.4 Flink应用提交
  • 3.5 Flink Shell的使用
  • 第4章 Flink DataStream API
  • 4.1 基本概念
  • 4.2 执行模式
  • 4.3 作业流程
  • 4.4 程序结构
  • 4.5 Source数据源
  • 4.6 Transformation数据转换
  • 4.7 Sink数据输出
  • 4.8 数据类型与序列化
  • 4.9 分区策略
  • 4.10 窗口计算
  • 4.11 水印
  • 4.12 状态管理
  • 4.13 容错机制
  • 4.14 案例分析:计算5秒内输入的单词数量
  • 4.15 案例分析:统计5分钟内每个用户产生的日志数量
  • 4.16 案例分析:统计24小时内每个用户的订单平均消费额
  • 4.17 案例分析:计算5秒内每个信号灯通过的汽车数量
  • 4.18 案例分析:Flink整合Kafka计算实时单词数量
  • 4.19 案例分析:天猫双十一实时交易额统计
  • 第5章 Flink Table API&SQL
  • 5.1 基本概念
  • 5.2 动态表
  • 5.3 TableEnvironment API
  • 5.4 Table API
  • 5.5 SQL API
  • 5.6 TopN查询
  • 5.7 Catalog元数据管理
  • 5.8 Flink SQL整合Kafka
  • 5.9 Flink SQL CLI
  • 5.10 Flink SQL整合Hive
  • 5.11 案例分析:Flink SQL实时单词计数
  • 5.12 案例分析:Flink SQL实时计算5秒内用户订单总金额
  • 5.13 案例分析:微博用户行为分析
  • 5.14 案例分析:Flink SQL智慧交通数据分析
  • 第6章 Flink内核源码
  • 6.1 流图
  • 6.2 作业图
  • 6.3 执行图
  • 第7章 Gelly图计算
  • 7.1 什么是Gelly
  • 7.2 第一个Gelly程序
  • 7.3 Gelly数据结构
  • 7.4 如何使用Gelly
  • 7.5 图操作
  • 7.6 图常用API
  • 7.7 案例分析:Gelly计算社交网络中粉丝的平均年龄
展开全部