作品简介

本书介绍了自然语言处理的原理与Java编程语言的技术实现,主要包括多种语言的文本处理、分布式算法与代码实现、自然语言处理相关系统构建等内容。

全书共分3篇:篇(章)为基础篇,着重介绍了使用Java开发自然语言处理技术会用到的基础知识;第2篇(第2-9章)为开发篇,着重讨论了自然语言处理常用的基本模块:多种语言分词与标注、语义分析、文章分析、文本相似度计算、文档排重、文本摘要、关键词提取、信息提取、拼写纠错、文本分类与聚类、文本倾向性分析等;第3篇(0-12章)为系统篇,介绍了语音识别系统、问答系统和机器翻译系统。

本书可作为高等院校计算机相关专业本科生、研究生的教材,也可为对人工智能领域感兴趣的读者提供参考。

罗刚

主要研究项目及领域:自然语言处理、人工智能、搜索引擎以前出版的图书:《自然语言处理原理与技术实现》。其他社会头衔、荣誉:东南大学社会导师,北京石油化工学院社会导师,解放军报社技术顾问,北京安妮福克斯信息咨询有限公司兼职软件工程师。

作品目录

  • 内容提要
  • 前言
  • 基础篇
  • 第1章 自然语言处理实践基础
  • 1.1 开发环境准备
  • 1.2 技术基础
  • 1.3 专业术语
  • 开发篇
  • 第2章 中文分词原理与实现
  • 2.1 接口
  • 2.2 散列表最长匹配中文分词
  • 2.3 查找词典算法
  • 2.4 Trie树最大长度匹配法
  • 2.5 概率语言模型的分词方法
  • 2.6 新词发现
  • 2.7 Android系统中文输入法
  • 2.8 词性标注
  • 2.9 词类模型
  • 2.10 未登录词识别
  • 2.11 中文分词总体结构
  • 2.12 平滑算法
  • 2.13 地名切分
  • 2.14 企业名切分
  • 2.15 结果评测
  • 2.16 专业术语
  • 第3章 语义分析
  • 3.1 句法分析树
  • 3.2 依存文法
  • 3.3 依存语言模型
  • 3.4 使用Java计算机语言的语义分析
  • 3.5 专业术语
  • 第4章 文章分析
  • 4.1 分词
  • 4.2 词性标注
  • 4.3 重点词汇提取
  • 4.4 句子时态分析
  • 4.5 专业术语
  • 第5章 文档语义
  • 5.1 相似度计算
  • 5.2 文档排重
  • 5.3 在搜索引擎中使用文档排重
  • 5.4 专业术语
  • 第6章 信息提取
  • 6.1 指代消解
  • 6.2 中文关键词提取
  • 6.3 信息提取
  • 6.4 拼写纠错
  • 6.5 输入提示
  • 6.6 专业术语
  • 第7章 自动摘要
  • 7.1 自动摘要技术
  • 7.2 指代消解
  • 7.3 多文档摘要
  • 7.4 分布式部署
  • 7.5 专业术语
  • 第8章 文本分类
  • 8.1 地名分类
  • 8.2 文本模板分类
  • 8.3 特征提取
  • 8.4 线性分类器
  • 8.5 FastText文本分类
  • 8.6 最大熵分类器
  • 8.7 文本聚类
  • 8.8 持续集成
  • 8.9 专业术语
  • 第9章 文本倾向性分析
  • 9.1 确定词语的褒贬倾向
  • 9.2 实现情感识别
  • 9.3 专业术语
  • 系统篇
  • 第10章 语音识别
  • 10.1 总体结构
  • 10.2 语音库
  • 10.3 语音
  • 10.4 Sphinx语音识别
  • 10.5 说话人识别
  • 10.6 专业术语
  • 第11章 问答系统
  • 11.1 问答系统的结构
  • 11.2 问句分析
  • 11.3 知识库
  • 11.4 AIML聊天机器人
  • 11.5 自然语言生成
  • 11.6 JavaFX开发界面
  • 11.7 专业术语
  • 第12章 机器翻译
  • 12.1 使用机器翻译API
  • 12.2 翻译日期
  • 12.3 神经机器翻译
  • 12.4 辅助机器翻译
  • 12.5 机器翻译的评价
  • 12.6 专业术语
  • 参考文献
  • 后记
展开全部