新書推薦:
《
宋瑞驻村日记(2012-2022)
》
售價:HK$
115.6
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:HK$
127.4
《
人世事,几完缺 —— 啊,晚明
》
售價:HK$
115.6
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:HK$
498.0
《
真谛全集(共6册)
》
售價:HK$
1156.4
《
敦煌通史:魏晋北朝卷
》
售價:HK$
162.3
《
唯美手编16:知性优雅的编织
》
售價:HK$
54.9
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:HK$
50.4
|
編輯推薦: |
兼顾相关专业、不同层次学生对语音信号处理知识的需求,最大限度地涉及计算机学科更多更新的知识
|
內容簡介: |
本书为语音信号处理领域的指导书。作者在东南大学、南京理工大学开设的本科生课程的基础上,介绍了语音信号处理的基本原理、分析方法以及该学科领域近年来取得的一些研究成果和技术,在理论和应用之间达到了极好的平衡。全书共11章,内容包括: 绪论、语音信号处理的声学理论与模型、传统语音信号分析方法、现代语音信号处理方法、语音信号的参数估计、语音编码、语音增强、语音合成、语音识别、说话人识别、语音信号中的情感信息处理。另外,在本书的每章中都加入了复习题,供读者思考。 本书可作为高等院校计算机应用、信号与信息处理、通信与信息系统等专业的高年级本科生、研究生教材,同时也可供语音信号处理等领域的工程技术人员参考。
|
目錄:
|
第1章绪论
1.1语音信号处理的发展历史
1.1.1经典语音信号处理技术
1.1.2新兴的语音信号处理技术
1.2语音信号处理的研究内容
1.3本书的结构
第2章语音信号处理的声学理论与模型
2.1概述
2.2语音信号处理的声学基础
2.2.1语音的产生
2.2.2语音信号的感知
2.2.3掩蔽效应
2.3语音生成的数学模型
2.3.1激励模型
2.3.2声道模型
2.3.3辐射模型
2.4语音信号的特性分析
2.4.1语音信号的时域波形和频谱特性
2.4.2语音信号的语谱图
2.4.3语音信号的统计特性
2.5语音学基本概念
2.5.1语音学
2.5.2语音的分类及其声学特征
2.5.3汉语语音学
2.6小结
复习思考题
第3章传统语音信号分析方法
3.1概述
3.2语音信号数字化和预处理
3.2.1数字化
3.2.2预处理
3.3端点检测
3.3.1双门限法
3.3.2相关法的端点检测
3.3.3能零比双门限法
3.4语音信号的时域分析
3.4.1短时能量及短时平均幅度分析
3.4.2短时过零率分析
3.4.3短时相关分析
3.4.4短时平均幅度差函数
3.5语音信号的频域分析
3.5.1利用短时傅里叶变换求语音的短时谱
3.5.2语音的短时谱的临界带特征矢量
3.6语音信号的线性预测(LPC)分析
3.6.1线性预测分析的基本原理
3.6.2线性预测方程组的求解
3.6.3LPC谱估计和LPC复倒谱
3.6.4线谱对(LSP)分析
3.7小结
复习思考题
第4章现代语音信号处理方法
4.1概述
4.2同态信号处理
4.2.1同态信号处理的基本原理
4.2.2语音信号的复倒谱
4.2.3语音信号两个卷积分量的复倒谱
4.2.4语音信号倒谱分析实例
4.3小波变换
4.3.1小波变换的基本原理
4.3.2常用小波函数的介绍
4.3.3小波基和分解层数的选择
4.3.4语音信号小波变换分析实例
4.4Teager能量操作
4.4.1连续时间和离散时间的能量操作
4.4.2连续时间和离散时间的能量分离(ESA)
4.4.3语音信号Teager能量算子分析实例
4.5希尔伯特黄变换
4.5.1希尔伯特黄变换的起源
4.5.2经验模式分解
4.5.3希尔伯特黄变换的时频谱
4.6经验小波变换
4.6.1经验小波的定义
4.6.2傅里叶频谱划分
4.6.3窗的选取
4.6.4经验小波变换及其改进算法
4.6.5语音信号经验小波变换分析实例
4.7小结
复习思考题
第5章语音信号的参数估计
5.1概述
5.2基音周期估计
5.2.1基音周期估计分类
5.2.2基于自相关的基音周期估计
5.2.3基于平均幅度差函数(AMDF)的基音周期估计
5.2.4基于倒谱法(CEP)的基音周期估计
5.2.5基于简化的逆滤波跟踪(SIFT)的基音周期估计
5.2.6基于小波变换的基音周期估计
5.2.7基于倒谱和希尔伯特黄变换的基音周期估计
5.2.8基于系综经验模式分解的动态基音周期估计
5.2.9基于系综经验模式分解和倒谱法的基音周期估计
5.2.10基音周期估计的后处理
5.3共振峰估计
5.3.1传统的共振峰估计方法
5.3.2基于希尔伯特黄变换的汉语共振峰估计
5.4梅尔频率倒谱系数
5.4.1梅尔滤波器组
5.4.2MFCC特征参数提取
5.5小结
复习思考题
第6章语音编码
6.1概述
6.2语音信号压缩编码的原理
6.2.1语音编码分类
6.2.2语音压缩的基本原理
6.3语音编码的关键技术
6.3.1线性预测
6.3.2合成分析法(AnalysisBySynthesis)
6.3.3感觉加权滤波器
6.4语音编码的性能指标和评测方法
6.4.1主观评价
6.4.2客观评价
6.5语音信号的波形编码
6.5.1脉冲编码调制(PCM)
6.5.2自适应预测编码(APC)
6.5.3自适应增量调制(ADM)
6.5.4自适应差分脉冲编码调制(ADPCM)
6.5.5子带编码(SBC)
6.5.6自适应变换编码(ATC)
6.6语音信号的参数编码
6.6.1线性预测声码器
6.6.2LPC10编码器
6.7语音信号的混合编码
6.8现代通信中的语音信号编码方法
6.8.1EVS编码器概述
6.8.2EVS编码器设计指标
6.8.3EVS编码涉及的关键技术
6.8.4EVS编码器评价
6.9小结
复习思考题
第7章语音增强
7.1概述
7.2语音特性、人耳感知特性
7.2.1语音特性
7.2.2人耳感知特性
7.3传统语音增强技术
7.3.1基于滤波法的语音增强技术
7.3.2基于减谱法的语音增强技术
7.3.3基于Weiner滤波法的语音增强技术
7.3.4基于模型的语音增强技术
7.3.5基于听觉掩蔽的语音增强技术
7.3.6基于时域处理的语音增强技术
7.4现代语音增强技术
7.4.1基于非负矩阵分解的语音增强技术
7.4.2基于DNN频谱映射的语音增强技术
7.5小结
复习思考题
第8章语音合成
8.1概述
8.2共振峰合成法
8.3线性预测合成法
8.4神经网络语音合成法
8.5语音合成专用硬件简介
8.6PSOLA算法合成语音
8.7文语转换系统(TTS)
8.7.1文语转换系统的组成
8.7.2连读语音的韵律特性
8.7.3文本分析方法
8.7.4语音合成方法
8.7.5语音合成中的韵律控制
8.8小结
复习思考题
第9章语音识别
9.1概述
9.2语音识别原理和识别系统的组成
9.2.1预处理和参数分析
9.2.2语音识别
9.2.3语音识别系统的基本数据库
9.3动态时间规整(DTW)
9.4孤立字(词)识别系统
9.4.1基于MQDF的汉语塞音语音识别系统
9.4.2基于概率尺度DP识别方法的孤立字(词)识别系统
9.5连续语音识别系统
9.5.1声学基元模型
9.5.2系统语言模型
9.5.3句法分析和单词的预测方法
9.6连续语音识别系统的性能评测
9.6.1连续语音识别系统的评测方法以及系统复杂性和识别能力的测度
9.6.2综合评估连续语音识别系统时需要考虑的其他因素
9.7基于DNNHMM的语音识别系统
9.8小结
复习思考题
第10章说话人识别
10.1概述
10.2说话人识别方法和系统结构
10.2.1预处理
10.2.2说话人识别的特征提取
10.2.3特征参量评价方法
10.2.4模式匹配方法
10.2.5说话人识别中判别方法和阈值的选择
10.2.6说话人识别系统的评价
10.3应用DTW的说话人确认系统
10.4应用VQ的说话人识别系统
10.5应用HMM的说话人识别系统
10.5.1基于HMM的与文本有关的说话人识别
10.5.2基于HMM的与文本无关的说话人识别
10.5.3基于HMM的指定文本型说话人识别
10.5.4说话人识别HMM的学习方法
10.5.5鲁棒的HMM说话人识别技术
10.6应用GMM的说话人识别系统
10.6.1GMM模型的基本概念
10.6.2GMM模型的参数估计
10.6.3训练数据不充分的问题
10.6.4GMM模型的识别问题
10.6.5应用GMM和BP网络的说话人识别系统
10.7应用深度学习的说话人识别
10.7.1基于DNNUBM模型的说话人识别
10.7.2说话人识别中的embeddings特征
10.8说话人识别中尚需进一步探索的研究课题
10.8.1基础性的课题
10.8.2实用性的问题
10.9语种辨识的原理和应用
10.9.1语种辨识的基本原理和方法
10.9.2语种辨识的应用领域
10.10小结
复习思考题
第11章语音信号中的情感信息处理
11.1概述
11.2语言信号中的情感分类和情感特征分析
11.2.1语音情感识别系统模型
11.2.2语音信号中的情感分类
11.2.3语料库
11.2.4语音情感特征分析
11.2.5语音情感识别特征分析方法
11.3基于融合特征的语音情感识别方法
11.3.1特征提取
11.3.2分类器
11.3.3仿真实验
11.4基于LSTM的语音情感识别方法
11.4.1LSTM实现原理
11.4.2应用LSTM的语音情感识别
11.4.3仿真实验
11.5基于CNN的语音情感识别方法
11.5.1卷积神经网络(CNN)
11.5.2基于CNN的语音情感识别模型
11.5.3仿真实验
11.6小结
复习思考题
汉英名词术语对照
|
內容試閱:
|
人工智能技术的发展,正改变着人机交互的方式。语音是人类最直接、最方便的信息交流方式,让机器像人一样说话和听话,实现人与机器的自然交流,是人工智能领域一直追求的目标。语音信号处理的研究,可推动这一目标的逐步实现,其研究成果可广泛应用于智能办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话和电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援等领域。可见,语音信号处理技术的研究是一项极具市场价值和挑战的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走入人们的日常生活中,并不断朝着更高的目标发展。因此,开展语音信号处理的研究具有重要的理论意义和较高的实际应用价值。
语音信号处理这门学科之所以能够长期深深吸引广大科学工作者不断对其进行研究和探讨,除了它的实用性之外,另一个重要原因是它始终与信息科学中最活跃的前沿学科保持密切的联系,并共同发展。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与人工智能、心理学、生理学、计算机科学、通信与信息系统以及模式识别等学科都有着非常密切的关系。对语音信号处理的研究一直是数字信号处理技术发展的重要推动力量。因为许多信号处理新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域的。许多高速信号处理器的诞生和发展与语音信号处理技术的发展密不可分,语音信号处理的复杂性和实时性,促使人们设计更为先进的高速信号处理器。这种处理器问世之后,会先在语音信号处理中得到最有效的推广应用。语音信号处理产品对此类处理器有着巨大的需求,因此它反过来又进一步推动了微电子技术的发展。
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。与语音信号处理的理论和研究紧密结合的有两方面: 一方面是从语音的产生和对语音的感知来对其进行研究,这一研究与语音学、语言学、认知科学、心理学、生理学等学科密不可分; 另一方面是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号处理的方法和技术。
本书将系统介绍语音信号处理的基础、原理、方法和应用。全书共11章。其中,第1章为绪论。第2章介绍了语音信号处理的声学理论与模型,如语音信号处理的声学基础、语音生成的数学模型、语音信号的特性分析和语言学基本概念等,在此基础上才可以建立既实用又便于分析的语音信号产生模型和语音信号感知模型等。第3章介绍了传统语音信号分析方法,包括语音信号数字化和预处理、端点检测、语音信号的时域分析与频域分析等,传统语音分析方法均为线性方法,制约着语音分析和处理性能的进一步提高; 第4章介绍了现代语音信号的处理方法,包括同态信号处理、小波变换、Teager能量操作、希尔伯特黄变换和经验小波变换。第5章介绍了语音信号的基音周期估计和共振峰估计等,基音周期估计可以分为基于帧的估计和基于事件的估计,而共振峰估计主要包括传统的共振峰估计方法和基于希尔伯特黄变换的汉语共振峰估计方法。第6章介绍了三种编码方法,包括波形编码、参数编码与混合编码,各种编码技术的目的是减少传输码率或存储量,以提高传输或存储的效率,同时介绍了现代通信中的语音信号编码方法。第7章主要介绍语音增强的内容,首先介绍了语音特性和人耳感知特性,在此基础上根据实际情况选用合适的语音增强方法,对于传统的语音增强方法,介绍了基于滤波法、减谱法、Weiner滤波法、模型、听觉隐蔽和时域处理的语音增强技术,而对于现代语音增强技术,则从机器学习的角度出发,介绍了基于非负矩阵分解的语音增强技术和基于DNN频谱映射的语音增强技术。第8章介绍了语音合成的共振峰合成法、线性预测合成法、神经网络语音合成法和PSOLA算法等。第9章介绍了语音识别的内容,主要包括语音识别原理及识别系统的组成、动态时间规整、孤立字(词)识别系统、连续语音识别系统及其性能评测和基于DNNHMM的语音识别系统,可以分为模板匹配法、随机模型法、概率语法分析法、基于深度学习等语音识别系统。第10章主要介绍了说话人识别系统中所使用的方法,说话人识别系统的基本结构,以及说话人识别系统的应用。第11章介绍了语音信号中的情感信息处理,对语音信号中的情感做了分类,主要可以分为基本情感论和多维分析论,并给出了三种语音情感识别的方法,即基于融合特征的语音情感识别方法、基于LSTM的语音情感识别方法和基于CNN的语音情感识别方法。
语音信号处理技术是目前发展最为迅速的信息科学技术之一,其研究涉及一系列前沿课题,且处于迅速发展之中。因此本书的宗旨是在系统地介绍语音信号处理的基础、原理、方法和应用的同时,向读者介绍该学科领域近年来取得的一些新成果、新方法及新技术。数字语音信号处理属于应用科学,要学好这门课程,必须理论联系实际应用,才能很好地掌握数字语音处理的理论和技术方法。因此,本书的每一章后面都附有课外思考题。建议学习者仔细思考书中的习题,并进行计算机上机实验以获得实际经验,帮助自己尽快掌握所学的语音信号处理知识。
本书可作为人工智能、计算机、电子信息等专业工程技术人员、教师和研究生的参考书。因为语音信号处理技术是一项正在快速发展的技术,许多方法还在不断更新和研究中,加之作者水平有限,书中许多内容有待进一步研究和完善,恳请读者批评指正。
编者
2023年3月30日
|
|