作品简介

这是一本讲述如何用NLP技术进行文本内容理解的著作,也是一本系统讲解NLP算法的著作,是作者在NLP和内容理解领域多年经验的总结。

本书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,主要包括如下几个方面的内容:

(1)文本特征表示

文本特征表示是NLP的基石,也是内容理解的基础环节,本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景,还讲解了词向量的评判标准。

(2)内容重复理解

详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。

(3)内容通顺度识别及纠正

详细讲解了内容通顺度的识别方法以及纠正不通顺内容的方法。

(4)内容质量

详细讲解了多种内容质量相关的算法,以及如何搭建高质量的知识问答体系的流程。

(5)标签体系构建

详细讲解了针对内容理解的标签体系的建设流程和方法,以及多种相关算法。

(6)文本摘要生成

详细讲解了抽取式文本摘要和生成式文本摘要两种流行的文本摘要生成方法,以及文本摘要的常用数据集和文本摘要评价方法。

(7)文本纠错

详细讲解了文本纠错的传统方法、深度学习方法、工业界解决方案,以及常用的文本纠错工具的安装和使用。

李明琦

资深AI技术专家,现就职于BAT,担任高级算法工程师。长期致力于机器学习、深度学习、NLP等技术在实际业务场景中的落地,在内容理解方面有丰富的经验,主导的内容质量项目曾获得项目奖。

先后发表人工智能相关的学术论文2篇,申请人工智能领域的发明专利5项。在GitHub上贡献了大量内容质量、问答系统、NLP等方面的代码,在CSDN撰写了一些与算法、机器学习、内容理解相关的文章,深受欢迎。

谷雪

现为葡萄牙米尼奥大学博士生,涉及的研究领域为神经架构搜索、自然语言处理、情感分析,博士期间着力于细粒度情感原因提取。先后发表过学术论文2篇,其中一篇是神经架构搜索的综述,另一篇是基于进化策略的神经架构演化方法。在GitHub上贡献了大量深度学习、机器学习代码,在CSDN上分享了服务器配置、数据分析、图像去噪、情感分析等方向的多篇文章。

孟子尧

在人工智能技术领域有非常深厚的积累,擅长机器学习和深度学习,尤其是深度学习中的图像分类和自然语言处理等技术。热衷于开源的应用和推广,在GitHub和CSDN上贡献了许多代码和文章。在《计算机研究与发展》上发表过1篇人工智能相关论文。

作品目录

  • PREFACE前言
  • CHAPTER 1 第1章 文本特征表示
  • 1.1 语料与语料预处理
  • 1.2 文本特征表示方法
  • 1.3 词向量的评判标准
  • 1.4 本章小结
  • CHAPTER 2 第2章 内容重复理解
  • 2.1 标题重复
  • 2.2 段落重复识别实例
  • 2.3 基于相似度计算的文章判重
  • 2.4 本章小结
  • CHAPTER 3 第3章 内容通顺度识别及纠正
  • 3.1 数据增强
  • 3.2 基于FastText算法的句子通顺度识别
  • 3.3 基于TextCNN算法的分类任务实现
  • 3.4 基于TextRNN算法的分类任务实现
  • 3.5 基于Seq2Seq模型的纠正策略
  • 3.6 本章小结
  • CHAPTER 4 第4章 内容质量
  • 4.1 GBDT算法
  • 4.2 XGBoost算法
  • 4.3 知识问答质量体系的搭建
  • 4.4 本章小结
  • CHAPTER 5 第5章 标签体系构建
  • 5.1 标签体系
  • 5.2 TF-IDF算法
  • 5.3 PageRank算法
  • 5.4 TextRank算法
  • 5.5 本章小结
  • CHAPTER 6 第6章 文本摘要生成
  • 6.1 文本摘要相关介绍
  • 6.2 基于无监督的抽取式文本摘要
  • 6.3 基于有监督的抽取式文本摘要
  • 6.4 基于深度神经网络的生成式文本摘要
  • 6.5 文本摘要常用数据集
  • 6.6 文本摘要评价方法
  • 6.7 本章小结
  • CHAPTER 7 第7章 文本纠错
  • 7.1 错误来源及类型
  • 7.2 文本纠错的3种传统方法
  • 7.3 文本纠错深度学习方法
  • 7.4 工业界解决方法
  • 7.5 文本纠错工具
  • 7.6 本章小结
  • 推荐阅读
展开全部