作品简介

这是第一本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至20世纪60年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的最新技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。

本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。

王泉

美国谷歌公司资深软件工程师、声纹识别与语言识别团队主管。作者毕业于清华大学自动化系,后取得美国伦斯勒理工学院计算机工程专业博士学位,曾在美国亚马逊公司参与亚马逊智能音箱语音助手Alexa的研发。在谷歌任职期间,作者带领团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文,并开创了监督式声纹分割聚类及声纹定向人声分离这两个新兴研究方向。作者的工作曾被VentureBeat、TechCrunch、Engadget、CNET等国际著名科技媒体专题报道。

作品目录

  • 内容简介
  • 前言
  • 1 声纹技术的前世今生
  • 1.1 什么是声纹
  • 1.2 最早的声纹技术
  • 1.3 声纹技术的发展
  • 1.4 大变革:深度学习时代的来临
  • 1.5 新的机遇:智能语音助手的普及
  • 2 音频信号处理基础
  • 2.1 欲懂声纹,先学音频
  • 2.2 声学基础
  • 2.3 音频信号基础概念
  • 2.4 从信号到特征:短时分析
  • 2.5 常用的音频特征
  • 3 声纹识别技术
  • 3.1 声纹识别:声纹技术的核心
  • 3.2 声纹识别的评价指标
  • 3.3 深度学习之前的方法
  • 3.4 基于深度学习的方法
  • 3.5 声纹识别中的数据处理
  • 3.6 声纹验证
  • 3.7 常用数据集
  • 4 声纹识别的工程部署
  • 4.1 从模型到产品
  • 4.2 声纹识别常见工程问题
  • 4.3 全设备端部署
  • 4.4 全服务器端部署
  • 4.5 复合式部署
  • 5 声纹分割聚类技术
  • 5.1 分割聚类:更好地理解对话语音
  • 5.2 声纹分割聚类与多说话人识别
  • 5.3 聚类分析
  • 5.4 二次分割方法
  • 5.5 监督式方法
  • 5.6 声纹分割聚类的评价指标
  • 5.7 常用数据集
  • 6 声纹技术的其他应用
  • 6.1 声纹的力量
  • 6.2 用于语音识别
  • 6.3 用于语音合成
  • 6.4 用于语音检测
  • 6.5 用于人声分离
  • 6.6 声纹转换
  • 6.7 声纹还原度测试
  • 7 声纹技术的未来
  • 7.1 概述
  • 7.2 声纹技术的挑战
  • 7.3 对更多数据的需求
  • 7.4 声纹技术的未来研究方向
  • 7.5 结语
  • 中英词汇对照
  • 参考文献
展开全部