语音和说话人识别密码验证系统

Kirti A. Yadav¹米纳克希·帕蒂尔²

印度浦那康德瓦辛赫盖德工程学院欧洲经委会专业研究生
印度浦那康德瓦辛赫加德工程院欧洲经委会系助理教授

摘要

语音信号包含很多信息。直接分析和合成这种语音信号变得很复杂。因此语音和语音处理方法一般都有特征提取和特征匹配的概念。在计算机科学中，语音识别(SR)是将口语单词翻译成文本的过程。语音识别一词指的是找出“谁”在说话，而不是他们在说什么。对于密码验证系统，我们既需要语音识别，也需要说话人识别。本文实现了这种方法。这里mel频率倒谱系数(MFCC)存储录音语音，然后进行相应的训练，以获得语音以及口令验证系统的说话人验证。在欧几里得距离的帮助下，我们测量了训练数据和测试数据两点之间的距离，以验证特定说话者拼写的密码

关键字

欧几里得距离(ED)，梅尔频率倒谱系数(MFCC)，质心，均值和标准差

介绍

“生物计量学”一词来源于希腊语bio(生命)和metric(测量)。生物特征识别是指根据一个人的生理或行为特征自动识别他/她的身份。这种识别方法因其准确性和区分大小写而优于涉及密码和PIN号码的传统方法。生物识别系统本质上是一种模式识别系统，它通过确定用户所拥有的特定生理或行为特征的真实性来进行个人识别。在设计一个实用的系统时，一个重要的问题是确定个体是如何被识别的。根据上下文，生物识别系统可以是验证(身份验证)系统或识别系统。核实包括确认或否认一个人声称的身份，而在识别时，一个人必须确定一个人的身份。生物识别系统根据所使用的认证介质进行划分。它们大致分为手几何识别，静脉模式，语音模式，DNA，签名动力学，指纹，虹膜模式和人脸检测。在计算机科学中，语音识别(SR)是将口语单词翻译成文本的过程。 It is also known as automatic speech recognition, computer speech recognition, speech to text, or just STT. Some SR systems use "training" where an individual speaker reads sections of text into the SR system. These systems analyse the person's specific voice and use it to fine tune the recognition of that person's speech, resulting in more accurate transcription. Systems that do not use training are called "Speaker Independent" systems. Systems that use training are called "Speaker Dependent" systems. Speech recognition applications include voice user interfaces such as voice dialling (e.g. "Call home"), domestic appliance control, search (e.g. find a podcast where particular words were spoken), simple data entry (e.g., entering a credit card number), preparation of structured documents (e.g. a radiology report), speech-to-text processing (e.g., word processors or emails), and aircraft (usually termed Direct Voice Input).The term voice recognition refers to finding the identity of "who" is speaking, rather than what they are saying. Recognizing the speaker can simplify the task of translating speech in systems that have been trained on specific person's voices or it can be used to authenticate or verify the identity of a speaker as part of a security process. Speech recognition is also one of the important factors which can be considered during behavioural characteristic possessed by the user to recognize a voice. This approach can be used for password verification system we have to verify both speech as well as speaker. Section II will give brief introduction to block diagram of the system. Section III will give the results obtain for password verification using two speakers. Section IV will include the conclusion and section V will include references used for this implementation.

系统框图

图1为系统的总体框图。框图分为两个阶段。一个是培训，第二个是测试。为了训练不同的语音信号，我们存储了梅尔频率倒谱系数(MFCC)。在声音处理中，梅尔频率倒谱(MFC)是声音的短期功率谱的表示，它基于非线性梅尔频率尺度上对数功率谱的线性余弦变换。mel频率倒谱系数(MFCCs)是共同组成MFC的系数。它们来源于音频剪辑的倒谱表现形式。倒频谱和melfrequency倒频谱的区别在于，在MFC中，频带在mel尺度上是等距的，这比在正常倒频谱中使用的线性间隔频带更接近人类听觉系统的反应。这种频率扭曲可以更好地表现声音。

A. MFCC特征提取:

MFCC特征提取的一般框图如图2所示。对语音信号进行基本的五种运算，得到倒谱系数。这五个操作的执行如下所述。

框架

将从模数转换(ADC)获得的语音样本分割成长度在20到40毫秒范围内的小帧的过程。将语音信号分成N个采样帧。第一帧由前N个样本组成。第二帧在第一帧之后开始M个样本，并与之重叠N - M个样本。同样，第三帧在第一帧之后开始2M个样本(或在第二帧之后开始M个样本)，并与之重叠N - 2M个样本。这个过程一直持续到所有的语音都被包含在一个或多个帧[1]中。N的值如果取N = 256(相当于~ 30 msec)[1]。在我们的实现中，我们选择N=200，这是~ 25毫秒的帧。

窗口

处理的下一步是对每个单独的帧进行窗口处理，以最小化每帧开始和结束时的信号不连续。这里的概念是通过使用窗口将信号在每帧的开始和结束处锥度为零来最小化频谱失真。如果我们将窗口定义为w(n)， 0≤n≤n−1，其中n是每帧的样本数，那么加窗的结果就是信号，

通常使用汉明窗，可以从下面的方程[6]得到。

其中α=0.54， β=0.46

汉明窗通常用于窄带应用，如电话信道的频谱。综上所述，频谱分析涉及到求解频率相似的强度分量和求解频率不同的强度分量之间的权衡。现在加窗之后，我们在时域中得到了N个样本。对数据进行窗口处理可以确保数据的末端匹配，同时保持所有内容的合理平滑，这大大减少了前一段中描述的“光谱泄漏”。

快速傅里叶变换

下一个处理步骤是快速傅里叶变换，它将N个样本的每一帧从时域转换到频域。它是关于频率而不是时间的数学函数或信号分析的领域。给定的函数或信号可以用一对称为变换的数学运算符在时域和频域之间转换。傅里叶变换就是一个例子，它把一个函数分解成一个(可能是无限的)正弦波频率分量的和。频率成分的“频谱”是信号的频域表示。傅里叶变换可以被认为是一组带通滤波器，接收一个信号，每个滤波器的输出大小与该滤波器的总输入能量成正比。这些滤波器中的每一个都是用一组本质上是正弦的滤波器系数对输入进行卷积，振荡频率等于滤波器的中心频率。在对所有银行进行卷积时，许多数据和系数值的乘法是重复的，因此是冗余的[2]。这里我们使用的是512点FFT

这里用j表示虚数单位，即j =−1。一般来说Xn是复数。结果序列{Xn}解释如下，零频率对应n = 0，正频率0

Mel-frequency包装

然后将功率信号应用于称为梅尔滤波器组的滤波器组，以确定每个滤波器的频率含量。Mel频率滤波器组是一系列三角形带通滤波器，它模仿人类的听觉系统。滤波器组是基于一个非线性频率尺度，称为梅尔尺度。滤波器以这样一种方式重叠，即一个滤波器的下界位于前一个滤波器的中心频率，而上界位于下一个滤波器的中心频率。滤波器的最大响应，即三角形滤波器的顶顶点，位于滤波器的中心频率，归一化为单位。我们可以使用下面的近似公式来计算给定频率f (Hz)下的mels:

因此，当S(ω)为输入[7]时，S(ω)的修正频谱由这些滤波器的输出功率组成。

倒频谱

倒谱是对信号的估计频谱的对数进行傅里叶反变换(IFT)的结果。有复倒频谱、实倒频谱、幂倒频谱和相位倒频谱。功率倒谱尤其适用于人类语音分析。这样，每一个输入话语都被转换成一个声向量序列。

B.欧几里得距离测量

MFCC提取的特征被存储起来用于训练信号和测试信号。训练集由四个不同的单词组成，由两个说话者S1_train和S2_train拼写。测试阶段由S1_test或S2_test拼写的语音组成。

S1_train和S2_train的特征向量x与S1_test或S2_test之间的欧氏距离由[5]给出

其中x对应于S1_train或S2_train的特征向量，y对应于S1_test或S2_test的特征向量。

结果

为了测试系统，我们录制了两个说话者S1和S2的语音样本。使用MFCC和欧几里得距离方法，语音和说话人验证可以在表1中看到。MFCC特征的均值和标准差与质心法得到的结果大致相同。质心法将质心分配给每个说话者拼写的单词，然后在测试期间将存储的质心与测试信号质心进行比较。

结论

从结果可以看出，语音和说话人识别可以使用MFCC和欧几里得距离来完成。对MFCC值进行均值和标准差计算可以得到几乎相同的结果。这种方法可以进一步修改，以使用矢量量化[4]获得最佳结果。

参考文献

阿伦Rajsekhar。“基于MFCC和VQ的实时说话人识别”，2008年
英国约翰·爱德华兹:《频域理论与应用》
Lindasalwa Muda, Mumtaj Begam和I. Elamvazuthi，“基于Mel频率反转系数(MFCC)和动态时间扭曲(DTW)技术的语音识别算法”，计算学报，ISSN 2151-9617，第2卷，第3期，2010年3月
Balwant A. Sonkamble1* D. D. Doye，“基于向量量化的改进k - meanlbg算法的语音识别”，ISSN 2222-1719(论文)，第3卷，第7期，2012
Akanksha Singh Thakur1, Namrata Sahayam，“使用欧氏距离的语音识别”，ISSN 2250-2459, ISO 9001:2008认证期刊，第3卷，第3期，2013年3月
http://en.wikipedia.org/wiki/Window_function
http://en.wikipedia.org/wiki/Mel-frequency_cepstrum