作品简介

本书系统阐述自然语言处理基础知识,以及自然语言处理高级模型应用等高级知识。

全书共11章:第1~5章为自然语言处理的基础知识,第6~11章则将自然语言处理知识应用于实战。书中主要内容包括预训练模型、文本分类、机器阅读理解、命名实体识别、文本生成、模型蒸馏与剪枝及损失函数等知识。书中包含大量应用示例,不仅可以学会理论知识还可以灵活应用。书中示例基于Linux与PyTorch环境开发,读者在学习自然语言处理知识的同时还可学会PyTorch框架技术,内容完整、步骤清晰,提供了工程化的解决方案。本书可作为有一定深度学习基础的读者的入门书,也可作为从事自然语言处理算法工作的技术人员及培训机构的参考书。

王志立,自然语言处理工程师,曾在国际与国内的学术会议上发表学术论文多篇,先后在腾讯等多家知名企业从事大数据与人工智能算法工作,运营和分享人工智能相关知识,曾获得多项人工智能比赛国j级奖项。

雷鹏斌,深圳大学硕士,华为AI算法工程师,主要从事chatops、知识图谱的研究与应用工作,对自然语言处理各项任务的研究与应用具有经验丰富。2019—2021年在国内知名竞赛的文本分类、命名实体识别、机器阅读理解、智能问答,以及文本生成任务中摘获大量荣誉。曾参与多项课题研究,在AAAI、中文信息学报等高影响力会议上发表多篇文章。

吴宇凡,腾讯算法应用研究员,长期从事业务安全和金融量化相关算法研究和实践,已发表国际顶级会议论文多篇,申请专利数篇。

作品目录

  • 作者简介
  • 内容简介
  • 前言
  • 第1章 导论
  • 1.1 基于深度学习的自然语言处理
  • 1.2 本书章节脉络
  • 1.3 自然语言处理算法流程
  • 1.4 小结
  • 第2章 Python开发环境配置
  • 2.1 Linux服务器
  • 2.2 Python虚拟环境
  • 2.3 PyCharm远程连接服务器
  • 2.4 screen任务管理
  • 2.5 Docker技术
  • 2.6 小结
  • 第3章 自然语言处理的发展进程
  • 3.1 人工规则与自然语言处理
  • 3.2 机器学习与自热语言处理
  • 3.3 深度学习与自然语言处理
  • 3.4 小结
  • 第4章 无监督学习的原理与应用
  • 4.1 浅层无监督预训练模型
  • 4.2 深层无监督预训练模型
  • 4.3 其他预训练模型
  • 4.4 自然语言处理四大下游任务
  • 4.5 小结
  • 第5章 无监督学习进阶
  • 5.1 生成式对抗网络
  • 5.2 元学习
  • 5.3 小结
  • 第6章 预训练
  • 6.1 赛题任务
  • 6.2 环境搭建
  • 6.3 代码框架
  • 6.4 数据分析实践
  • 6.5 小结
  • 第7章 文本分类
  • 7.1 数据分析
  • 7.2 环境搭建
  • 7.3 代码框架
  • 7.4 文本分类实践
  • 7.5 小结
  • 第8章 机器阅读理解
  • 8.1 机器阅读理解的定义
  • 8.2 评测方法
  • 8.3 研究方法
  • 8.4 经典结构
  • 8.5 多文档机器阅读理解实践
  • 8.6 小结
  • 第9章 命名实体识别
  • 9.1 NER技术的发展现状
  • 9.2 命名实体识别的定义
  • 9.3 命名实体识别模型
  • 9.4 命名实体识别实验
  • 9.5 小结
  • 第10章 文本生成
  • 10.1 文本生成的发展现状
  • 10.2 基于预训练模型的文本生成模型
  • 10.3 文本生成任务实践
  • 10.4 小结
  • 第11章 损失函数与模型瘦身
  • 11.1 损失函数
  • 11.2 常用的损失函数
  • 11.3 损失函数的进阶
  • 11.4 模型瘦身
  • 11.5 小结
展开全部