作品简介

语音识别已经逐渐进入人们的日常生活。语音识别技术是涉及语言、计算机、数学等领域的交叉学科。本书介绍了包括C#、Perl、Python、Java在内的多种编程语言实践,开源语音识别工具包Kaldi的使用与代码分析,深度学习的开发环境搭建,卷积神经网络,以及语音识别中常见的语言模型——N元模型和依存模型等,让读者快速了解语音识别基础,掌握开发语音识别程序的算法。

本书从语音识别的基础开始讲起,并辅以翔实的案例,既适合需要具体实现语音识别的程序员使用,也适合有一定机器学习或语音识别基础的学生、研究者或从业者阅读。

柳若边,猎兔搜索团队核心成员,曾供职于中国万网、三星等多家业内知名公司,现任某教育培训机构专业讲师。猎兔搜索创立于2004年,专注于自然语言处理等人工智能领域的技术开发与实现。在北京和上海等地均有猎兔培训的学员,猎兔搜索出版的相关技术图书读者遍及全国各省(市、区)及海外华人圈。

作品目录

  • 作者简介
  • 内容简介
  • 前言
  • 第1章 语音识别技术
  • 1.1 总体结构
  • 1.2 Linux基础
  • 1.3 安装Micro编辑器
  • 1.4 安装Kaldi
  • 1.5 yesno例子
  • 1.6 构建一个简单的ASR
  • 1.7 Voxforge例子
  • 1.8 数据准备
  • 1.9 加权有限状态转换
  • 1.10 语音识别语料库
  • 1.11 Linux shell脚本基础
  • 第2章 C#开发语音识别
  • 2.1 准备开发环境
  • 2.2 计算卷积
  • 2.3 记录语音
  • 2.4 读入语音信号
  • 2.5 离散傅里叶变换
  • 2.6 移除静音
  • 第3章 Perl开发语音识别
  • 3.1 变量
  • 3.2 多维数组
  • 3.3 常量
  • 3.4 操作符
  • 3.5 控制流
  • 3.6 文件与目录
  • 3.7 例程
  • 3.8 执行命令
  • 3.9 正则表达式
  • 3.10 命令行参数
  • 第4章 Python开发语音识别
  • 4.1 Windows操作系统下安装Python
  • 4.2 Linux操作系统下安装Python
  • 4.3 选择版本
  • 4.4 开发环境
  • 4.5 注释
  • 4.6 变量
  • 4.7 数组
  • 4.8 列表
  • 4.9 元组
  • 4.10 字典
  • 4.11 控制流
  • 4.12 模块
  • 4.13 函数
  • 4.14 读写文件
  • 4.15 面向对象编程
  • 4.16 命令行参数
  • 4.17 数据库
  • 4.18 日志记录
  • 4.19 异常处理
  • 4.20 测试
  • 4.21 语音活动检测
  • 4.22 使用numpy
  • 第5章 Java开发语音识别
  • 5.1 实现卷积
  • 5.2 KaldiJava
  • 5.3 TensorFlow的Java接口
  • 第6章 语音信号处理
  • 6.1 使用FFmpeg
  • 6.2 标注语音
  • 6.3 时间序列
  • 6.4 端点检测
  • 6.5 动态时间规整
  • 6.6 傅里叶变换
  • 6.7 MFCC特征
  • 6.8 说话者识别
  • 6.9 解码
  • 第7章 深度学习
  • 7.1 神经网络基础
  • 7.2 卷积神经网络
  • 7.3 搭建深度学习开发环境
  • 7.4 nnet3实现代码
  • 7.5 编译Kaldi
  • 7.6 端到端深度学习
  • 7.7 Dropout解决过度拟合问题
  • 7.8 矩阵运算
  • 第8章 语言模型
  • 8.1 概率语言模型
  • 8.2 KenLM语言模型工具包
  • 8.3 ARPA文件格式
  • 8.4 依存语言模型
  • 附录
展开全部