摘 要 本文提出了一种基于MFCC(Mel Frequency Cepstral Coefficients)和LSP(Line Spectrum Pair)的混合语音特征参数,有效地弥补了单纯使用MFCC的不足,实验中利用加权的欧几里德距离计算特征矢量的失真距离,结果表明新的特征矢量能够很好的表征语音信号的特征信息,能有效降低系统的误识率
关键字 特征提取; MFCC; LSP; 欧几里德距离 1 引言 随着教学制度的深入改革,在英语教学中,人们越来越注重“听”“说”这一类的实际交流能力,口语测试环节已经得到越来越多教育专家的关注,我们清醒地认识到,说的能力实际上也包括了对于听和读的能力训练
在现代计算机多媒体技术与网络技术飞速发展的前提下,很多英语教学系统的设置已经越来越科学化人性化,利用计算机辅助设计,评估英语发音者口语发声质量已经成为教学中的重要一环
由此可见,口语测评已成为实用外语中一项不可缺少的工作
口语测试的评分一般分为两种:一种是自动评分,一种为专家评分
目前我们进行的大量研究工作都是针对前一种的,希望尽可能脱离人的主观因素对口语测试者的发音客观评分,评分的客观性表现在给出的分数只由被测者个人的表现决定,不会受到评分专家对于测试者的个人印象,特定环境下单个被测群体的平均水平限制,以及发音的个体性差异等因素影响
这就对我们的计算机辅助设计提出了很高的要求
我们主要用到的技术是语音识别和统计模型的相关理论,通过提取被测者语音信号的特征参数,计算机对其经过一系列数字信号处理,从而在统计模型中对它进行分析测评
因此,提取特征参数的类型就显得尤为重要了,目前应用最为广泛的特征系数是Mel频率倒谱参数(MFCC)
已经有大量实验表明,较之其它类型参数,它能够更好的反映人耳听觉肌理的特征 [1]
本文中以非线性的特征参数MFCC为主,结合了语音信号的另一个重要参数——线谱对参数LSP,提出了一种语音特征参数的混合使用方法(M/L),使发音质量判决系统的正确率有所改进
2 特征提取 特征参量的选择和提取对于实现语音识别系统有关键的意义,理想的特征参数必须用较少的特征维数包含尽可能多的语音特征信息
2.1 MFCC特征参数 MFCC系数是基于人耳的听觉特性,所谓Mel 频率尺度,它的值大体上对应于实际频率的对数关系
其与实际频率的具体关系如下: (2-1) 其中实际频率 f 的单位为Hz
根据Zwicker 的工作,临界频带宽随着频率的变换而变化,并与Mel 频率的增长一致
在1000 Hz 以下,大致呈线性分步,带宽为100 Hz 左右;在1000 Hz 以上呈对数增长
类似于临界带的划分,可以将语音频率划分为一系列三角形的滤波器序列,即美尔滤波器组
在Mel 滤波器的选择中,滤波器组的选择一般都选择三角形滤波器,可以根据不同的应用选择其他的形状如矩形、正弦形的滤波器组
滤波器的个数一般取24
当信号通过滤波器组时,取每个三角形滤波器频率带宽内所有信号幅度加权和作为每个带通滤波器的输出,然后对所有滤波器输出做对数运算,最后进一步通过离散余弦变换降低特征矢量的维数,得到的参数就是美尔频率倒谱参数(MFCC) [2]
(2-2) 由于MFCC 更好的反映了人耳的听觉系统的非线性特性,在参数的抗噪声性能和提高系统的识别率方面具有优势,在实际应用中还可以将MFCC 和其差分参数结合起来作为一组特征矢量进行训练,进一步提高系统的抗噪声性能
2.2 线谱对参数LSP 语音信号的谱特性,除了音调周期外,全部包含在线性预测系数LPC(Linear Predictor Analysis)里面了 [3]
LSP即是线性预测系数的一种推演参数,定义为如下多项式的根: (2-3) (2-4) 各个根的频率在单位圆上相互交错排列,分布为:0<ω 1 <θ 1 <…<ω p/z <θ p/z <π, ω i 和θ i 分别为P(z)和Q(z)的第i个零点,它们总是成对的出现,且反映信号的频谱特性,因此称为线谱对
总之,线谱对分析是用p个离散频率ω i 和θ i 的分布密度来表示语音信号频谱特性的一种方法
LSP参数能够反映声道幅度谱的特点,在幅度大的地方分布较密,反之较疏,这样就相当于反映出了幅度谱中的共振峰特征,在一定程度上可以起到特征补偿作用
近年来声码器研究实践表明,LSP是一种具有良好的量化特性和插值特性的参数,因此,在中低速语音编码和语音识别等领域中已经得到广泛的应用
2.3 M/L特征参数 前面已经有学者为了进一步提高识别率,提出过MFCC/FORMANTS(共振峰)参数也有很好的识别性能 [5] ,但是求解共振峰的算法相对复杂
而且在求解共振峰的过程中,我们经常会采用的一种方法,就是利用LPC模型分析,提取LPC谱包络线的重要信息来获得
所以,我们很容易就想到用一种同样能够表征共振峰特性,而计算相对简单的LPC推演参数——LSP来取代共振峰参数
并且,也有文献指出,LSP参数已经可以辅助MFCC参数,应用于对说话认识别的判决性条件 [1]
基于以上的理论,在提取了MFCC一阶差分系数和线谱对系数的基础上,用MFCC来表征语音信号的非线性特征,而用线谱对系数来辅助表征语音的线性特征,计算二者归一化后的数值,并将它作为最终衡量语音信号失真的标准,是本文的重要思想
3 实验分析及其结果 3.1 检验方法 在本文中,我们主要采取了加权的欧几里德距离来度量两组特征矢量间的距离 [5]
X=(x 1 ,x 2 ,…,x k )为参考模型的特征矢量,K代表参数的维数,Y=(y 1 ,y 2 ,…,y k )表示维数为K的被测模型特征矢量
标准的加权欧几里德距离可用下式表示: (3-1) W k 为加权系数,