作品简介

这是一本大数据技术入门的简明教材。全书理论和实践相结合,以应用实战为主,深入浅出地讲解每个知识点,对每个应用实验按学习习惯,分步骤讲解,每个步骤都有文字说明和效果截图,使读者能清晰地知晓动手实操的效果和错误之处。全书分为9章,全面介绍了大数据技术的相关基础知识、HDFS和数据库、采集传输工具、挖掘分析算法、Spark计算框架、可视化、大数据安全、大数据应用等内容,着重介绍了HDFS分布式文件系统、NoSQL等各种数据库、数据仓库Hive,以及数据采集分析技术,并配套了详细的实验教程以及练习题。本书适合作为高等院校计算机、软件工程、大数据专业高职、本科生的教材,同时可供企业中从事大数据开发的工程师和科技工作者参考。

陈建平

学士,大数据专家讲师,福建师范大学毕业。2006年从事大数据相关的工作,2010年开始从事大数据培训工作,15人以上的大数据团队带队经验。曾承担过BI工程师、数据挖掘工程师、大数据架构师、数据科学家、大数据技术总监、合伙人等职位,曾参与和组织过个性化推荐大数据和图像处理的人工智能等20多个项目,曾在上海IBM公司担任过高级数据挖掘工程师。多次受邀参加学校大数据实验室专家和高校专业论证会等。

陈志德

博士,教授。1999年毕业于福建师范大学数学系,获学士学位;2002年毕业于福州大学数学系,获硕士学位;2005年毕业于复旦大学计算机科学与工程系,获博士学位;2005年至今在福建师范大学数学与计算机科学学院工作,任网络空间安全系副主任。主要研究方向包括网络与信息安全、物联网与移动计算等,指导硕士研究生30多人,指导研究生的学位论文曾获校优秀硕士论文一等奖。近年来主持福建省自然科学基金、福建省科技厅K类基金等项目10项,参与国家自然科学基金和省科技厅高校产学合作科技重大项目课题各1项。出版学术专著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation:Practice and Experience等期刊发表学术论文40多篇,申请专利10多项,软件著作权10多项。担任CTCIS和NSS等国内和国际学术会议的程序委员会委员。

席进爱

上海瀚途英烁副总裁/CIO,拥有SIFM、CFA、高级大数据分析师证书。历任上海朝阳永续股份有限公司董事/冰创科技CEO、上海大智慧基金执行总裁、上海证券通产品中心总经理。13年金融领域丰富经验,业务涉及证券、基金、银行、保险。主导并负责多家公司从0到1组建团队、搭建系统和拓展业务,成功运作多起千万级用户平台。目前主要致力于AI和大数据技术的落地应用,研发有智能机器人、智能投研、智能投顾和智能营销四大系统,带领公司成功入选百度AI加速器第4期成员企业。

作品目录

  • 内容简介
  • 主编介绍
  • 前言
  • 关于本书
  • 本书适合的读者
  • 联系方式与资源下载
  • 第1章 了解大数据
  • 1.1 大数据处理的基础技术
  • 1.2 主流大数据技术
  • 1.3 大数据平台解决方案
  • 1.4 大数据发展现状和趋势
  • 1.5 习题
  • 第2章 大数据基础软件
  • 2.1 Linux基础介绍
  • 2.2 Java基础介绍
  • 2.3 SQL语言基础介绍
  • 2.4 实验一:在Linux中安装和使用Java
  • 2.5 实验二:在Linux中安装和使用MySQL
  • 2.6 习题
  • 第3章 大数据采集
  • 3.1 大数据采集技术介绍
  • 3.2 常见采集工具和厂商
  • 3.3 八爪鱼采集器介绍
  • 3.4 爬山虎采集器介绍
  • 3.5 流数据采集工具Flume
  • 3.6 数据传输工具Sqoop介绍
  • 3.7 实验三:Sqoop的安装配置及使用
  • 3.8 实验四:Kafka的安装、配置及使用
  • 第4章 大数据存储
  • 4.1 数据库和数据仓库
  • 4.2 分布式文件系统HDFS
  • 4.3 分布式分析引擎Kylin介绍
  • 4.4 大数据仓库Hive
  • 4.5 NoSQL数据库
  • 4.6 键-值存储数据库Memcached、Redis
  • 4.7 面向文档数据库MongoDB介绍
  • 4.8 实验五:Hadoop的安装、配置及HDFS使用
  • 4.9 实验六:Redis数据库的安装与使用
  • 4.10 实验七:HBase的安装和配置
  • 4.11 习题
  • 第5章 Spark内存计算框架
  • 5.1 Spark简介
  • 5.2 Spark技术原理
  • 5.3 Spark SQL介绍
  • 5.4 Spark Streaming实时处理技术
  • 5.5 Spark MLlib数据挖掘库
  • 5.6 Spark GraphX图处理技术
  • 5.7 Spark编程实例
  • 第6章 大数据分析挖掘
  • 6.1 大数据分析概述
  • 6.2 分类算法概述
  • 6.3 决策树算法介绍
  • 6.4 推荐算法介绍
  • 6.5 Apriori算法介绍
  • 第7章 大数据可视化
  • 7.1 大数据可视化概述
  • 7.2 大数据可视化工具概述
  • 7.3 Tableau大数据可视化技术简介
  • 7.4 Power BI大数据可视化技术简介
  • 7.5 实验八:ECharts的安装与使用
  • 第8章 大数据安全
  • 8.1 大数据安全的挑战与对策
  • 8.2 数据管理安全
  • 8.3 数据安全分析
  • 第9章 大数据应用
  • 9.1 企业大数据应用
  • 9.2 互联网大数据
  • 9.3 零售大数据
  • 9.4 医疗大数据
  • 9.5 大数据未来展望
  • 9.6 大数据和云计算的关系
  • 参考文献
展开全部