作品简介

对大数据的搜索与挖掘,在当今的“互联网+”时代是很有必要的。本书提出的分布式大数据搜索与日志挖掘及可视化方案是基于ELK Stack而提出的,它能有效应对海量大数据所带来的分布式存储与处理、全文检索、日志挖掘、可视化等问题。构建在全文检索开源软件Lucene之上的Elasticsearch,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析。据国际权威的数据库产品评测机构DB-Engines的统计,在2016年1月,Elasticsearch已超过Solr等,成为排名第一的搜索引擎类应用;Logstash能有效处理来源于各种数据源的日志信息;Kibana能得出可视化分析结果。了解基于ELK Stack的大数据搜索与日志挖掘及可视化方案,掌握Elasticsearch、Logstash、Kibana的基本使用方法和技巧,很有必要。

高凯,汉族、教授,博士毕业于上海交通大学计算机应用技术专业,省级重点学科“计算机软件与理论”中“信息检索与云计算”方向学术带头人,硕士研究生导师;中国计算机学会会员,fnternational Journa/ of Computer App/ications inTechnology副主编(2013—2017),5th、6th、7th International Conference on Modelling,Identification and Control程序委员会委员;主要研究方向为大数据搜索与挖掘、自然语言处理、网络信息检索、社会计算等;近几年出版了《大数据搜索与挖掘》、《信息检索与智能处理》、《网络信息检索技术及搜索引擎系统开发》等学术专著及多部规划教材,在国内外学术期刊Expert Systems With Applications、InternationalJournal on Intelligent Information and DatabaseSystem、International Journal on Modelling,ldentification and Control、《中文信息学报》、《电子学报》、《小型微型计算机系统》等以及PAKDD等国际学术会议上发表学术论文几十篇;主持及参与国家、省级科研课题多项;申请软件著作权登记十余项;目前在研课题有国家自然科学基金课题、省自然科学基金课题等。

作品目录

  • 序言 Preface
  • 第2版前言 Foreword
  • 第1版前言 Foreword
  • 第1章 概述
  • 1.1 Elasticsearch的安装与简单配置
  • 1.2 走进Elasticsearch
  • 1.2.1 相关概念
  • 1.2.2 Elasticsearch API的简单使用方式
  • 1.2.3 部分插件简介
  • 1.2.4 Elasticsearch基本架构
  • 1.3 Elasticsearch索引及其构建
  • 1.3.1 概述
  • 1.3.2 借助Head工具构建索引
  • 1.3.3 Mapping简述
  • 1.4 信息检索及其构建
  • 1.5 中文分词插件
  • 1.6 实例
  • 1.7 扩展知识与阅读
  • 1.8 本章小结
  • 第2章 文档索引及管理
  • 2.1 文档索引概述
  • 2.2 建立索引
  • 2.3 通过映像Mapping配置索引
  • 2.3.1 在索引中使用映像
  • 2.3.2 管理/配置映像
  • 2.3.3 获取映像信息
  • 2.3.4 删除映像
  • 2.4 管理索引文件
  • 2.4.1 打开、关闭、检测、删除索引文件
  • 2.4.2 清空索引缓存
  • 2.4.3 刷新索引数据
  • 2.4.4 优化索引数据
  • 2.4.5 flush操作
  • 2.5 设置中文分词器
  • 2.6 对文档的其他操作
  • 2.6.1 获取指定的文档信息
  • 2.6.2 删除文档中的信息
  • 2.6.3 数据更新
  • 2.6.4 基于POST方式批量获取文档
  • 2.6.5 删除部分文档
  • 2.7 实例
  • 2.8 扩展知识与阅读
  • 2.9 本章小结
  • 第3章 信息检索与结果过滤
  • 3.1 实验数据集描述
  • 3.2 简单检索
  • 3.3 基本检索
  • 3.3.1 设置不同字段的排序权重
  • 3.3.2 指定返回的字段子集
  • 3.3.3 term查询、terms查询、wildcard通配符查询
  • 3.3.4 match、match_all、match_phrase查询
  • 3.3.5 query_string查询
  • 3.3.6 prefix、range查询
  • 3.3.7 more_like_this、fuzzy_like_this查询
  • 3.3.8 跨字段检索
  • 3.4 filter概述
  • 3.5 常用filter及其应用
  • 3.5.1 and filter及or filter
  • 3.5.2 bool filter
  • 3.5.3 exists filter和missing filter
  • 3.5.4 type filter
  • 3.5.5 match_all filter
  • 3.5.6 not filter
  • 3.5.7 query filter
  • 3.6 复合查询
  • 3.7 结果排序
  • 3.8 实例
  • 3.9 扩展知识与阅读
  • 3.10 本章小结
  • 第4章 信息统计分析与搜索提示
  • 4.1 facets概述
  • 4.2 各种不同的facets统计
  • 4.2.1 terms facets:指定字段的分布情况统计
  • 4.2.2 range facets:在某个范围的分布情况统计
  • 4.2.3 histogram facets
  • 4.2.4 date_histogram facets
  • 4.2.5 statistical facets
  • 4.2.6 terms_stats facets
  • 4.3 aggregations
  • 4.3.1 概述
  • 4.3.2 最值、求和、均值统计
  • 4.3.3 stats aggregation及extended stats aggregation
  • 4.3.4 terms aggregations
  • 4.3.5 range aggregations
  • 4.3.6 date_range aggregations
  • 4.3.7 histogram aggregations
  • 4.3.8 date_histogram aggregations
  • 4.3.9 filter aggregations
  • 4.3.10 missing aggregations
  • 4.4 搜索提示
  • 4.5 实例
  • 4.6 扩展知识与阅读
  • 4.7 本章小结
  • 第5章 Elasticsearch部分功能的Java客户端实现
  • 5.1 Elasticsearch节点实例化
  • 5.1.1 通过Maven添加对Elasticsearch依赖
  • 5.1.2 初始化Elasticsearch Client
  • 5.2 索引数据
  • 5.2.1 准备json数据
  • 5.2.2 索引json数据
  • 5.3 对索引文档的操作
  • 5.3.1 获取索引文档
  • 5.3.2 删除索引文档
  • 5.3.3 更新索引文档
  • 5.3.4 批量操作索引文件
  • 5.3.5 简单的统计操作
  • 5.4 信息检索
  • 5.4.1 概述
  • 5.4.2 multiSearch
  • 5.4.3 Query DSL概述
  • 5.4.4 matchQuery
  • 5.4.5 matchAllQuery
  • 5.4.6 multiMatchQuery
  • 5.4.7 boolQuery
  • 5.4.8 termQuery
  • 5.4.9 wildcardQuery
  • 5.4.10 queryString
  • 5.4.11 moreLikeThis
  • 5.4.12 filter概述
  • 5.4.13 termFilter
  • 5.4.14 existsFilter
  • 5.4.15 matchAllFilter
  • 5.4.16 queryFilter
  • 5.4.17 rangeFilter
  • 5.4.18 typeFilter
  • 5.4.19 过滤器间的组合:boolFilter、notFilter、orFilter、andFilter
  • 5.5 统计分析
  • 5.5.1 facets
  • 5.5.2 aggregations
  • 5.6 对检索结果的进一步处理
  • 5.6.1 控制每页的显示数量及显示排序依据
  • 5.6.2 基于Scroll方法的检索结果及其分页
  • 5.6.3 高亮显示检索词
  • 5.7 实例
  • 5.7.1 连接Elasticsearch
  • 5.7.2 信息采集与索引构建
  • 5.7.3 搜索模块的实现
  • 5.7.4 推荐模块的实现
  • 5.8 扩展知识与阅读
  • 5.9 本章小结
  • 第6章 Elasticsearch配置与集群管理
  • 6.1 Elasticsearch部分基本配置及其说明
  • 6.2 提高索引和查询效率的策略
  • 6.3 监控集群状态
  • 6.4 控制索引分片与副本分配
  • 6.5 集群管理
  • 6.6 扩展知识与阅读
  • 6.7 本章小结
  • 第7章 基于Logstash的日志处理
  • 7.1 概述
  • 7.2 input:处理输入的日志数据
  • 7.2.1 处理基于file方式输入的日志信息
  • 7.2.2 处理基于generator产生的日志信息
  • 7.2.3 处理基于log4j的日志信息
  • 7.2.4 处理基于redis的日志信息
  • 7.2.5 处理基于stdin方式输入的信息
  • 7.2.6 处理基于TCP传输的日志数据
  • 7.2.7 处理基于UDP传输的日志数据
  • 7.3 codecs:格式化日志数据
  • 7.3.1 json格式
  • 7.3.2 rubydebug格式
  • 7.3.3 plain格式
  • 7.4 基于filter的日志处理与转换
  • 7.4.1 json filter
  • 7.4.2 grok filter
  • 7.4.3 kv filter
  • 7.5 output:处理输出的日志数据
  • 7.5.1 将处理后的日志输出到Elasticsearch中
  • 7.5.2 将处理后的日志输出至文件中
  • 7.5.3 将处理后的部分日志输出到csv格式的文件中
  • 7.5.4 将处理后的日志输出到redis中
  • 7.5.5 将处理后的部分日志通过UDP协议输出
  • 7.5.6 将处理后的部分日志通过TCP协议输出
  • 7.5.7 将收集到的日志信息传输到自定义的HTTP接口中
  • 7.6 扩展知识与阅读
  • 7.7 本章小结
  • 第8章 基于Kibana的数据分析可视化
  • 8.1 安装Kibana
  • 8.2 Kibana概述
  • 8.2.1 在仪表盘上添加新行
  • 8.2.2 在行中添加新面板
  • 8.2.3 设置Query和Filtering
  • 8.3 常用面板类型
  • 8.3.1 histogram
  • 8.3.2 table
  • 8.3.3 map和bettermap
  • 8.3.4 terms
  • 8.3.5 text
  • 8.3.6 sparklines
  • 8.3.7 trends
  • 8.4 网站性能监控可视化应用的设计与实现
  • 8.4.1 概述
  • 8.4.2 Page View
  • 8.4.3 响应/请求时间
  • 8.4.4 流量走势与统计
  • 8.4.5 状态码监控
  • 8.4.6 UA行
  • 8.5 Kibana V4简介
  • 8.5.1 新建视图
  • 8.5.2 建立Dashboard
  • 8.5.3 配置
  • 8.6 扩展知识与阅读
  • 8.7 本章小结
  • 第9章 网络信息检索与分析实践
  • 9.1 信息采集
  • 9.2 基于Python的信息检索及Web端设计
  • 9.2.1 安装 Python及Django
  • 9.2.2 安装 Elasticsearch的Python插件
  • 9.2.3 Web页面设计
  • 9.3 基于Logstash的日志处理
  • 9.3.1 安装和配置Nginx
  • 9.3.2 设计面向日志文件的模式
  • 9.3.3 在Logstash中进行相关配置
  • 9.4 基于Kibana的日志分析结果可视化设计与实现
  • 9.4.1 图表1:状态码走势分析
  • 9.4.2 图表2:查询词分析
  • 9.4.3 图表3:分析各状态码随时间的变迁情况
  • 9.4.4 集成上述图表
  • 9.5 扩展知识与阅读
  • 9.6 本章小结
  • 参考文献
展开全部