注册 登录 进入教材巡展
#
  • #

出版时间:2024-01

出版社:电子工业出版社

以下为《语音识别:原理与应用(第2版)》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121446337
  • 1-4
  • 461661
  • 48253710-7
  • 平塑
  • 16开
  • 2024-01
  • 380
  • 364
  • 计算机科学与技术
  • 本科 研究生及以上
作者简介
洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金两三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeechXMUSPEECH团队连续两届获东方语种识别(OLR)竞赛第one名,成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五几个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到最新的端到端(E2E)语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。

李琳,厦门大学副教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金一项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖二等奖、厦门市科技进步奖一等奖。参与指导XMUSPEECHxmuspeech团队连续两届获东方语种识别竞赛第one名。国际IEEE学会会员,CCF高级会员,NCMMSC常设机构委员会委员,CCF语音对话与听觉专业组委员会委员,NCMMSC常设机构委员会委员。
查看全部
内容简介
本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书最后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。
目录
第1章 语音识别概论 1__eol__1.1 语音的产生和感知 1__eol__1.2 语音识别过程 4__eol__1.3 语音识别发展历史 8__eol__1.4 国内语音识别现状 15__eol__1.5 语音识别建模方法 18__eol__1.5.1 DTW 19__eol__1.5.2 GMM-HMM 19__eol__1.5.3 DNN-HMM 20__eol__1.5.4 E2E模型 22__eol__1.6 语音识别开源工具 22__eol__1.7 常用语音识别数据库 23__eol__1.8 语音识别评价指标 24__eol__1.9 参考资料 25__eol__第2章 语音信号基础 28__eol__2.1 声波的特性 28__eol__2.2 声音的接收装置 29__eol__2.2.1 麦克风的性能指标 30__eol__2.2.2 麦克风阵列 31__eol__2.3 声音的采样 32__eol__2.4 声音的量化 33__eol__2.5 语音的编码 35__eol__2.6 WAV文件格式 39__eol__2.7 WAV文件分析 40__eol__2.8 本章小结 43__eol__思考练习题 43__eol__第3章 语音特征提取 44__eol__3.1 预处理 44__eol__3.2 短时傅里叶变换 48__eol__3.3 听觉特性 51__eol__3.4 线性预测 54__eol__3.5 倒谱分析 55__eol__3.6 常用的声学特征 56__eol__3.6.1 语谱图 57__eol__3.6.2 FBank 58__eol__3.6.3 MFCC 59__eol__3.6.4 PLP 60__eol__3.7 本章小结 62__eol__思考练习题 63__eol__第4章 HMM 64__eol__4.1 HMM的基本概念 66__eol__4.1.1 马尔可夫链 67__eol__4.1.2 双重随机过程 68__eol__4.1.3 HMM的定义 69__eol__4.2 HMM的三个基本问题 70__eol__4.2.1 模型评估问题 71__eol__4.2.2 最佳路径问题 74__eol__4.2.3 模型训练问题 76__eol__4.3 本章小结 78__eol__4.4 参考资料 79__eol__思考练习题 79__eol__第5章 GMM-HMM 80__eol__5.1 概率统计 81__eol__5.2 高斯分布 82__eol__5.3 GMM 85__eol__5.3.1 初始化 86__eol__5.3.2 重估计 87__eol__5.4 GMM与HMM的结合 88__eol__5.5 GMM-HMM的训练 94__eol__5.6 模型自适应 96__eol__5.6.1 MAP 96__eol__5.6.2 MLLR 97__eol__5.6.3 fMLLR 97__eol__5.6.4 SAT 98__eol__5.7 本章小结 98__eol__5.8 参考资料 98__eol__思考练习题 99__eol__第6章 基于HMM的语音识别 100__eol__6.1 建模单元 100__eol__6.2 发音过程与HMM状态 103__eol__6.3 串接HMM 104__eol__6.4 固定语法的识别 108__eol__6.5 随机语法的识别 113__eol__6.6 音素的上下文建模 119__eol__6.6.1 协同发音 120__eol__6.6.2 上下文建模 121__eol__6.6.3 决策树 122__eol__6.6.4 问题集 123__eol__6.6.5 三音子模型的训练 128__eol__6.7 本章小结 129__eol__思考练习题 130__eol__第7章 DNN-HMM 131__eol__7.1 深度学习 131__eol__7.2 DNN 132__eol__7.2.1 激活函数 133__eol__7.2.2 损失函数 135__eol__7.2.3 梯度下降算法 136__eol__7.3 DNN与HMM的结合 138__eol__7.4 不同的DNN结构 142__eol__7.4.1 CNN 143__eol__7.4.2 LSTM 147__eol__7.4.3 GRU 147__eol__7.4.4 TDNN 148__eol__7.4.5 TDNN-F 151__eol__7.5 本章小结 154__eol__7.6 参考资料 155__eol__思考练习题 155__eol__第8章 语言模型 156__eol__8.1 n-gram模型 158__eol__8.2 评价指标——困惑度 162__eol__8.3 平滑技术 163__eol__8.3.1 Good-Turing折扣法 163__eol__8.3.2 Witten-Bell折扣法 165__eol__8.3.3 Katz回退法 166__eol__8.3.4 Jelinek-Mercer插值法 169__eol__8.3.5 Kneser-Ney插值法 170__eol__8.4 语言模型的训练 172__eol__8.5 神经网络语言模型 175__eol__8.6 本章小结 180__eol__8.7 参考资料 180__eol__思考练习题 181__eol__第9章 WFST解码器 183__eol__9.1 基于动态网络的Viterbi解码 184__eol__9.2 WFST理论 189__eol__9.3 HCLG构建 193__eol__9.3.1 H的构建 194__eol__9.3.2 C的构建 195__eol__9.3.3 L的构建 196__eol__9.3.4 G的构建 197__eol__9.3.5 HCLG合并 200__eol__9.4 WFST的Viterbi解码 202__eol__9.4.1 Token的定义 202__eol__9.4.2 Viterbi算法 203__eol__9.5 Lattice解码 210__eol__9.5.1 主要数据结构 211__eol__9.5.2 令牌传播过程 212__eol__9.5.3 剪枝策略 215__eol__9.5.4 Lattice 216__eol__9.6 本章小结 218__eol__9.7 参考资料 218__eol__思考练习题 218__eol__第10章 序列区分性训练 219__eol__10.1 区分性准则 220__eol__10.1.1 MMI 220__eol__10.1.2 BMMI 221__eol__10.1.3 MPE/sMBR 221__eol__10.2 MMI求导过程 222__eol__10.3 Lattice-based MMI 224__eol__10.4 Lattice-free MMI 226__eol__10.5 Kaldi Chain模型 228__eol__10.6 本章小结 230__eol__10.7 参考资料 230__eol__思考练习题 231__eol__第11章 端到端语音识别 232__eol__11.1 CTC 233__eol__11.1.1 损失函数 234__eol__11.1.2 前向算法 238__eol__11.1.3 后向算法 241__eol__11.1.4 求导过程 242__eol__11.1.5 CTC解码 244__eol__11.2 RNN-T 247__eol__11.3 基于Attention的Encoder-Decoder模型 250__eol__11.4 Hybrid CTC/Attention 253__eol__11.5 Transformer 255__eol__11.6 Conformer 258__eol__11.7 本章小结 259__eol__11.8 参考资料 259__eol__思考练习题 261__eol__第12章 Kaldi实践 262__eol__12.1 下载与安装Kaldi 263__eol__12.1.1 获取源代码 263__eol__12.1.2 编译 264__eol__12.2 创建和配置基本的工程目录 265__eol__12.3 aishell语音识别工程 266__eol__12.3.1 数据集映射目录准备 267__eol__12.3.2 词典准备和lang目录生成 269__eol__12.3.3 语言模型训练 271__eol__12.3.4 声学特征提取与倒谱均值归一化 273__eol__12.3.5 声学模型训练与强制对齐 275__eol__12.3.6 解码测试与指标计算 277__eol__12.4 本章小结 279__eol__第13章 ESPnet实践 280__eol__13.1 数据准备 280__eol__13.1.1 映射文件准备 280__eol__13.1.2 特征提取 281__eol__13.1.3 数据
Baidu
map