作品简介

ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态的计算,广泛应用于大数据相关的实际业务场景中。

《Flink入门与实战/大数据技术丛书》是一本从零开始讲解Flink的入门教材,学习《Flink入门与实战/大数据技术丛书》需要有Java编程基础。

《Flink入门与实战/大数据技术丛书》共分10章,内容包括Flink开发环境搭建、Flink架构和原理、时间和窗口、状态管理和容错机制、数据类型与序列化、DataStreamAPI和DataSetAPI、TableAPI和SQL、Flink并行、Flink部署与应用,最后以一个Flink实战项目为例,对Flink相关知识进行综合实践,其中涉及Web页面展示、WebSocket协议和Node.js服务等技术。

《Flink入门与实战/大数据技术丛书》内容详尽、示例丰富,适合作为Flink初学者必备的参考书,也非常适合作为高等院校和培训机构大数据及相关专业的师生教学参考。

《Flink入门与实战/大数据技术丛书》针对Flink初学者,详细介绍Flink架构、原理、大数据处理机制和处理方法,以及Flink并行、部署与集群等方面的知识,最后通过—个实战项目来提高读者解决实际问题的能力。

汪明,中国矿业大学硕士,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《Python大数据处理库PySpark实战》《TypeScript实战》《Go并发编程实战》。

作品目录

  • 内容简介
  • 前言
  • 本书涉及的技术和框架
  • 本书特点
  • 本书读者
  • 源码下载
  • 第1章 Flink环境搭建
  • 1.1 下载安装
  • 1.2 配置与开发工具
  • 1.3 编译
  • 1.4 运行Flink应用
  • 1.5 本章小结
  • 第2章 定义、架构与原理
  • 2.1 流处理的应用场景
  • 2.2 流处理的原理
  • 2.3 Flink架构分析
  • 2.4 Flink中的几个语义——Streams、State、Time、API
  • 2.5 Flink组件
  • 2.6 本章小结
  • 第3章 时间和窗口
  • 3.1 时间
  • 3.2 Timestamp和Watermark
  • 3.3 EventTime+Watermark解决乱序数据
  • 3.4 WindowAssigner、Evictor以及Trigger
  • 3.5 Window内部实现
  • 3.6 Window使用
  • 3.7 Window聚合分类
  • 3.8 本章小结
  • 第4章 状态管理及容错机制
  • 4.1 什么是状态
  • 4.2 什么场景会用到状态
  • 4.3 状态的类型与使用
  • 4.4 Checkpoint机制
  • 4.5 SavePoint机制
  • 4.6 本章小结
  • 第5章 数据类型与序列化
  • 5.1 Flink的数据类型
  • 5.2 序列化原理
  • 5.3 Flink的序列化过程
  • 5.4 序列化的最佳实践
  • 5.5 本章小结
  • 第6章 DataStream API和DataSet API
  • 6.1 DataStream API
  • 6.2 DataSet API
  • 6.3 迭代计算
  • 6.4 广播变量与分布式缓存
  • 6.5 语义注解
  • 6.6 本章小结
  • 第7章 Table API和SQL
  • 7.1 TableEnviroment
  • 7.2 WordCount
  • 7.3 Table API的操作
  • 7.4 DataStream、DataSet和Table之间的转换
  • 7.5 window aggregate与non-window aggregate
  • 7.6 Flink SQL使用
  • 7.7 自定义函数
  • 7.8 本章小结
  • 第8章 并行
  • 8.1 Flink并行度
  • 8.2 TaskManager和Slot
  • 8.3 并行度的设置
  • 8.4 并行度案例分析
  • 8.5 本章小结
  • 第9章 Flink部署与应用
  • 9.1 Flink集群部署
  • 9.2 Flink高可用配置
  • 9.3 Flink安全管理
  • 9.4 Flink集群升级
  • 9.5 本章小结
  • 第10章 Flink项目实战
  • 10.1 实时数据清洗(实时ETL)
  • 10.2 实时数据报表
  • 10.3 本章小结
展开全部