谱减法实验原理
谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源,但它假设噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与无语音间隙噪声的幅度谱的期望值相等。用无语音的间隙测量计算得到的噪声频谱的估计值取代有语音的期间噪声的频谱,与含噪声语音频谱相减的估计值。当上述差值得到负的幅度值时,将其置零。由于人耳对语音的感知主要是通过语音信号中各频谱分量幅度获得的,对各分量的相位不敏感。因此,此类语音增强方法将估计的对象放在短时谱幅度上。
谱相减法的优点是:总体上运算量较小,容易实时实现,增强效果也较好,是目前最常用的 一种方法。
缺点是:谱相减法利用在无声期间统计得到的噪声方差代替当前帧的噪声频谱时,若该帧某频点上的噪声分量较大,则相减后有较大的噪声残留,频谱上有相应的而随机尖峰出现。增强后的语音会夹杂着有节奏的音乐残留噪声。
增强后的语音中含有明显的“音乐噪声”,这是由频谱相减而产生的一种残留噪声,具有一定的节奏起伏感,故而得名“音乐噪声”。“音乐噪声”产生的原因是因为在谱相减法过程中,是以无声期间统计平均的噪声方差代替当前分析帧的噪声频谱分量。而噪声频谱具有高斯分布,即其幅度随变化范围很宽,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留,在频谱上呈现随机出现的尖峰,在听觉上形成有节奏性起伏的类似音乐的残留噪声。
一、课题提出的背景与研究现状
语音是人类相互间交流时使用最多、最基本的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输介质中引入的噪声、通信设备内部电噪声甚至其他人说话人的干扰等等。这些干扰会使接受端的语音成为受噪声污染的语音,当噪声干扰过于严重时,语音将会完全淹没于噪声之中,使其不能被分辨出来。语音质量的下降会使许多语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取得模型参数将很不准确,重建的语音质量急剧恶化。此时采用语音增强技术进行预处理,将有效地改善系统性能。
随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题。语音增强是其中的关键技术之一。从20世纪60年代开始,语音增强的研究就一直没有停止。20世纪70年代由于数字信号处理理论的成熟,语音增强曾经形成里一个研究热潮,取得了一些基础性成果。20世纪80年代以后,VLSL(超大规模集成电路Very Large Scale Integration)技术的发展为语音增强的实时实现提供了可能。目前,处理基于信号处理理论的研究外,针对人的听觉感知系统的生理特性研究、语言学中上下文联想智能的研究等,都在进一步推动着语音增强的研究。
语音增强的目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪音信号都是随机产生的,完全消噪几乎不可能。因此实际语音增强的目标有:改进语音质量,消除背景噪声,使听者乐于接受,不感到疲倦;提高语音可懂度,方便听者理解。到目前为止,还没有哪种语音增强系统可以同时很好地改善语音质量和可懂度这两个指标。衡量语音增强效果分别涉及语音的主观度量两个不同方面,有主观测试和客观测试两种方法可用。主观测试方法包括平均意见得分、判断韵字测试和判断满意度测量等。客观测试方法主要根据增强语音的时域波形和频域语谱,给出客观的数值度量。例如一种常用的方法是采用信噪比来度量,此时信噪比的定义是原始语音信号功率与归一化后的增强语音和原始语音之差的功率比。对于语音识别系统而言,识别率的改善是更为直接的度量指标。
二、语音和噪声的特性
语音增强不仅涉及信号检测、波形估计等传统信号处理理论,而且与语音特性、人耳感知特性密切相关,同时由于实际应用中噪声的来源及种类各不相同,从而造成处理方法的多样性。因此要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。 2.1语音特性
语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内(10~30ms)其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。语音信号分为清音和浊音两大类,两者在语音产生机理上和特征上有明显的差异。比如浊音在时域上有明显的周期性和较强的振幅,其能量大部分集中在低频域内,在频谱上表现出共振峰结构;而清音没有明显的时域和频域特征,波形类似于白噪声并有较弱的振幅。在语音增强中,可以利用浊音的准周期性特征,采用梳状滤波器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。 2.2耳感知特性
语音增强效果的最终效果度量是人耳的主观感受,所以在语音增强中可以利用人耳感知特性来减少运算代价。目前已有一些有用的结论可应用于语音增强:人耳对语音的感知主要是通过语音信号频谱分量幅度获取的,对各分量相位则不敏感;人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数成正比;人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用,掩蔽的程度是声音强度与频率的二元函数,对频率的临近分量的掩蔽要比频差大的分量有效得多;人耳还可以在两个人以上的讲话环境中分辨出所需要的声音等等。 2.3噪声特性
噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变为加性噪声。例如,乘性噪声可以通过同态变换转换为加性噪声。加性噪声通常分为周期性噪声、脉冲噪声、宽带噪声和同声道语音干扰等。周期性噪声主要来源于发动机等周期性运转的机械,电气干扰也会引起周期性噪声。其特点是频谱上有许多离散的、时变的、与语音信号重叠的窄谱峰,必须采用自适应滤波的方法才有可能自动识别和区分噪声分量。脉冲噪声来源于爆炸、撞击、放电及突发性干扰等,其特点是时域波形是类似于冲击函数的窄脉冲,消除这种噪声可以在时域内进行。宽带噪声的来源很多,包括风、呼吸噪声和一般的随机噪声源。
量化噪声通常也作为白噪声来处理,也可以视为宽带噪声。由于宽带噪声的语音信号在时域和频域上完全重叠,因而消除它最为困难,至今所研究的最成功的方法是利用了某种形式的非线性处理。同声道语音干扰是多个语音同时在单信道中传输时叠合在一起导致的语音干扰。其特点是不同语音有基音差别, 可以考虑采用语音分离的方法。 2.4音乐噪声的抑制方法
实验表明,谱减法会不可避免的引入少量“音乐噪声”,产生音乐噪声的主要原因是在噪声谱的估计过程中信息估计不准确导致的,在谱相减后增强的语音信号中残留了没有完全被滤除的背景噪声,这些背景噪声在频谱上呈现随机的尖锋,听觉上形成有节奏的起伏状噪声,俗称“音乐噪声”。虽然新引入的噪声幅度不大,但是相对原来的噪声较刺耳,通过实验发现对含有少量“音乐噪声”的语音进行低通滤波可以较为有效的抑制“音乐噪音”。 采用以下几个方法来减小音乐噪声:
(1) 在对语音信号分帧时,帧长与帧间的重叠程度不同,产生的去噪效果也不同。如果帧长取得较短时,信号的频域分量变化较快。加大帧间的重叠,减小相邻两帧的差别,可以抑制部分音乐噪声。因此取256点作为一帧的长度,帧间重叠128点。
(2) 在谱减去噪声过程中,如果遇到负值,通常是取零代替。但如果使用一个较小的数值,可以使语音频谱的变化缓和一些,减弱音乐噪声。
(3) 谱减后的频谱值用相邻帧的最小值代替,这对消除频谱上的突变点有较好的效果,可以去掉大部分的音乐噪声。
(4) 对于某些频谱上剩余的音乐噪声形成的尖锋,可以用FIR 滤波来抑制。 采用以上措施后,音乐噪声可以得到有效的抑制。
三、语音增强方法
由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法、子空间的方法等;第二类是频域方法,例如减谱法、自适应滤波法,以及基于马尔可夫模型滤波方法等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。
3.2 时域方法
1. 基于参数和模型的方法。
基于参数和模型的方法通常有两大类:分析合成法和利用滤波器进行滤波处理的方法。前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数) 。后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。在实际应用中有时也会把两者合并在一起相互补充。具体来说主要有以下几种方法。 (1)最大后验概率估计法。
最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的
维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。
(2)卡尔曼滤波法。
卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。卡尔曼滤波的优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。
(3)梳状滤波器法
语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,方法的应用受到限制。这种方法一般也只适用于平稳的非白噪声。
2. 子空间的方法。
在子空间法中,大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,只保留信号子空间中的信号,来预测干净的语音以达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是计算量较大,因此在快速计算中该方法需要进一步研究。 3.2 频域方法
语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同时人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法、维纳滤波法、短时谱幅度的MMSE估计、自适应滤波法等。 1. 谱减法。
谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,而语音频谱分量的幅度对
人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。谱减法通常包括有线性谱减法、非线性谱减法和概率谱减法。 2. 维纳滤波法。
维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。
3. 短时谱幅度的最小均方误差(MMSE)估计法。
针对特定的失真准则和后验概率不敏感的特性,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出“纯净”语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决:一是假设一个合理的概率分布模型;另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE估计公式,然后讨论实际分布情况。另外,可以利用相邻帧间频率点信息的相关性,对当前帧频率点的频谱幅度值进行估计,这就是基于帧间频谱分布约束的MMSE估计方法。又因为人耳对声音强度的感受是与谱幅度的对数成正比的,因此在处理语音谱幅度时,采用对数失真准则更为适合一些,将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计。短时谱幅度的MMSE估计在降噪和提高语音可懂度方面进行了折衷,适用信噪比的范围较广,但是计算量较大,而且语音频谱的先验分布获得在很大程度上要取决于统计结果的代表性、重现性等。
4. 自适应滤波法。
以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。
5. 隐马尔可夫模型法。
可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。但是这种方法,在只有带噪信号的情况下要正确分类,准确估计噪声会有一定的误差。
3.3 其它方法
随着信号处理的理论和技术不断发展完善,涌现出许多的新方法,如小波变换、神经网络、听觉掩蔽、分形理论等。 1. 小波变换。
利用具体问题的先验知识,根据信号和噪声的小波系数在不同尺度上具有不同性质的机理,构造相应规则,在小波域采用其他数学方法对带噪信号的小波系数进行处理。处理的实质在于减小甚至完全剔除由噪声产生的系数,同时最大限度地保留真实信号的系数,最后由经过处理的小波系数重构原信号,得到真实信号的最优估计。“最优”的精确定义依赖于应用要求。小波变换进行信号去噪时,能够在去除噪声的同时,很好地保留信号的突变部分。但是在使用这种方法时,还应考虑抑制噪声与保留信号细节之间的折衷问题,以及分解尺度的选取、阈值的选取。
2. 神经网络。
语音增强在一定意义上也是一种说话人区分问题,只不过所区分的是在背景中的噪声,因此可以利用人工神经网络来实现语音的增强。假设测试语音和噪声环境的分布保持不变且与训练时相同,利用带噪语音和干净的目标语音分别进行训练,得到合适的预测神经元模型,构造可以对语音和噪声进行分类的分类器,对当前语音信号进行最佳匹配,来实现语音增强。
3. 听觉掩蔽。
听觉掩蔽法是利用人耳听觉特性的一种增强算法。人耳能够掩蔽语音信号中能量较小的噪声信号,使得这部分噪声不为人所感知。听觉掩蔽模型常与语音增强算法结合实现去噪,其实现过程为:首先基于一种语音增强方法对语音信号进行粗估计,再由语音信号粗估计计算出听觉的掩蔽阈值,根据听觉掩蔽阈值和噪声参数的估值,结合相应的增强算法计算出增益,并依此估计出纯净语音。这种方法在消噪的同时可以减少不必要的语音失真。但由于噪声掩蔽阈值是在纯净语音基础上得到的,在实际应用中常只能用带噪语音来估计掩蔽阈值,这样估计的结果误差较大。
4. 分形理论。
语音与噪声具有不同的混沌和分形特性,因此可将分形维数用于语音增强。根据分形结构的语音信号在一定的尺度范围内具有等价标度不变性,导出带噪语音信号的真实分形维数的计算方法,利用分形维数内插方法计算出信号的维数。根据它们之间的差值进行对重构的阈值和位置自适应控制,实现语音信号与噪声的分离。既抑制了噪声,又减少了语音段的信息的损失,提高了信噪比。
因篇幅问题不能全部显示,请点此查看更多更全内容