作品简介

自然语言处理是什么?谁需要学习自然语言处理?自然语言处理在哪些地方应用?相关问题一直困扰着不少初学者。针对这一情况,作者结合教学经验和工程应用编写此书。本书讲述自然语言处理相关学科知识和理论基础,并介绍使用这些知识的应用和工具,以及如何在实际环境中使用它们。由于自然语言处理的特殊性,其是一门多学科交叉的学科,初学者难以把握知识的广度和宽度,对侧重点不能全面掌握。本书针对以上情况,经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。本书旨在帮助读者快速、高效地学习自然语言处理和人工智能技术。

本书适用于具备一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的大学二年级以上的学生、科研工作者和相关技术人员。一些做工程应用的自然语言处理工程师,也可以通过阅读本书补充理论知识,理论知识的魅力在于遇到工程难题时,可以知道其背后的原因,快速、准确地解决问题。

唐聃,教授,中科院工学博士。现工作于成都信息工程大学软件工程学院。研究方向包括自然语言处理、信息安全、数据分析。曾参与多项国家863项目和中科院知识创新工程项目、省科技厅和教育厅项目;2016年入选中国科学院西部之光人才计划(中国科学院西部青年学者)。

白宁超,四川省计算机研究院软件开发工程师,曾参与多项四川省科技厅项目。其自然语言处理系列博文曾被CSDN、博客园、阿里云栖等多个技术社区转载。

作品目录

  • 主要作者简介
  • 前言
  • 第1章 基础入门
  • 1.1 什么是自然语言处理
  • 1.2 开发工具与环境
  • 1.3 实战:第一个小程序的诞生
  • 第2章 快速上手Python
  • 2.1 初识Python编程语言
  • 2.2 Python进阶
  • 2.3 Python深入——第三方库
  • 第3章 线性代数
  • 3.1 线性代数介绍
  • 3.2 向量
  • 3.3 矩阵
  • 3.4 距离计算
  • 第4章 概率论
  • 4.1 概率论介绍
  • 4.2 事件
  • 4.3 概率
  • 4.4 概率公理
  • 4.5 条件概率和全概率
  • 4.6 贝叶斯定理
  • 4.7 信息论
  • 第5章 统计学
  • 5.1 图形可视化
  • 5.2 数据度量标准
  • 5.3 概率分布
  • 5.4 统计假设检验
  • 5.5 相关和回归
  • 第6章 语言学
  • 6.1 语音
  • 6.2 词汇
  • 6.3 语法
  • 第7章 自然语言处理
  • 7.1 自然语言处理的任务和限制
  • 7.2 自然语言处理的主要技术范畴
  • 7.3 自然语言处理的难点
  • 7.4 自然语言处理展望
  • 第8章 语料库
  • 8.1 语料库浅谈
  • 8.2 语料库深入
  • 8.3 自然语言处理工具包:NLTK
  • 8.4 获取语料库
  • 8.5 综合案例:走进大秦帝国
  • 第9章 中文自动分词
  • 9.1 中文分词简介
  • 9.2 中文分词的特点和难点
  • 9.3 常见中文分词方法
  • 9.4 典型中文分词工具
  • 9.5 结巴中文分词
  • 第10章 数据预处理
  • 10.1 数据清洗
  • 10.2 分词处理
  • 10.3 特征构造
  • 10.4 特征降维与选择
  • 10.5 简单实例
  • 10.6 本章小结
  • 第11章 马尔可夫模型
  • 11.1 马尔可夫链
  • 11.2 隐马尔可夫模型
  • 11.3 向前算法解决HMM似然度
  • 11.4 文本序列标注案例:Viterbi算法
  • 第12章 条件随机场
  • 12.1 条件随机场介绍
  • 12.2 简单易懂的条件随机场
  • 第13章 模型评估
  • 13.1 从统计角度介绍模型概念
  • 13.2 模型评估与选择
  • 13.3 ROC曲线比较学习器模型
  • 第14 章命名实体识别
  • 14.1 命名实体识别概述
  • 14.2 命名实体识别的特点与难点
  • 14.3 命名实体识别方法
  • 14.4 中文命名实体识别的核心技术
  • 14.5 展望
  • 第15章 自然语言处理实战
  • 15.1 GitHub数据提取与可视化分析
  • 15.2 微博话题爬取与存储分析
  • 附录A Python与其他语言调用
  • 附录B Git项目上传简易教程
  • 参考文献
展开全部