在线刊号(2320-9801)印刷刊号(2320-9798)
萨提亚·兰詹·达什1和萨奇丹南达·德胡里2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
手术后患者数据集是从UCI KDD档案中获得的一个真实世界的问题,它用于我们的分类问题。本文采用不同的分类技术,如贝叶斯分类、数据挖掘的决策树归纳分类以及与软计算的模糊概念相关的分类技术来实现我们的数据集。用于比较不同算法的参数有RMSE、ROC Area、MAE、Kappa Statistics、建立模型所需的时间、相对绝对误差、根相对平方误差和分类实例的百分比值。
关键字 |
||||||||
特征提取,LPC, MFCC, VQ, Gujarati数据库 | ||||||||
我的介绍。 |
||||||||
语音识别是机器语音处理的分析课题。人类语音识别已有数千年的历史,被称为自动语音识别(ASR)。印度已经为印地语[1][2]、马拉雅拉姆语[3][4]、泰米尔语[5]、马拉地语[6]、泰卢固语[7]、旁遮普语[8]、乌尔都语[9]等语言开发了语音识别系统。孤立语音识别用MATLAB®古吉拉特语就是这样。相对工作[10]博士c . k . Kumbharana完成古吉拉特语单词检测”一个ª,ª,一个ª°,一个ª¤和ª®”,使用MFCC函数。 | ||||||||
执行这项研究有两个不同的特征提取算法和使用培训和测试数据从不同的单词一个一个ªª(8),一个一个ª¤«一个一个ª°ª£(三)和一个一个ª«一个一个ªª°一个一个ª¤«(Gujaraati),等等。每个人都说了10个单词,每个单词有0到10个数字,每个单词有5个单词。因此,对四个说话者,总共记录了200个单词的发音。使用笔记本电脑内置麦克风,使用RecordPad软件[11]录制古吉拉特语孤立单词,并以。wav格式存储。这些数据是在有背景噪音的封闭房间里记录的。这种噪声环境下语音数据的记录方法对鲁棒自动语音识别系统具有重要意义。 | ||||||||
全文共分为五个部分。第一节绪论。使用MFCC和LPC的特征提取分别在第二节和第三节中描述。第四节对结果进行了分析,第五节给出了结论和未来的工作。 | ||||||||
2使用MFCC进行特征提取 |
||||||||
梅尔频率倒谱系数(MFCC)是Davis和Mermelstein在公元1980年提出的。它是一种常用的特征提取方法,特别是在自动语音和说话人识别系统中是最好的方法之一。将MFCC作为手势识别的一种应用,利用支持向量机分类器[12]将输入图像转换为一维信号,进行特征提取。将MFCC系数作为音频分类特征来提高分类精度,将其用于音乐特征,然后BPNN算法识别出音乐类[13]。 | ||||||||
在引入mfcc之前,线性预测系数(LPCs)和线性预测倒谱系数(lpcc)是ASR[14]的主要特征类型。MFCC用于扬声器信息验证,如内容和频道[15]。mfc是一种广泛应用于自动语音和说话人识别的功能。给出了从Mel标度频域提取倒谱特征参数的计算方法。MFCC的步骤给出了波纹管, | ||||||||
如图1所示,信号经过第一阶段的强调,这将增加信号在更高频率的能量,以补偿在人类发声机制中被抑制的高频部分。现在,将增强后的信号分割成帧大小为20~30 ms的帧,重叠为1/3~1/2。这里采样率为8 kHz,帧大小为256个采样点,则帧持续时间为256/8000 = 0.032秒= 32ms。每一帧将与汉明窗口相乘,以保持帧中第一个点和最后一个点的连续性。MATLAB®还提供了生成汉明窗曲线的命令。通过FFT得到每一帧的幅频响应,假定在帧内是周期性的。三角形带通滤波器用于提取包络状特征。将一组三角带通滤波器的幅值乘以频率响应,得到每个三角带通滤波器的对数能量,从而对不同音调或音高的语音信号进行非线性感知。与公共线性频率F相关的Mel频率M(F)由下式[16]表示: | ||||||||
M(F) = 1125 * ln (1 + F / 700) ... ... ... (1) | ||||||||
然后对对数能量进行离散余弦变换(DCT),使其具有不同的梅尔尺度倒谱系数。DCT将信号从频域转换为时域。由于其特征与倒谱相似,因此被称为梅尔尺度倒谱系数。MFCC可以作为语音识别的特征。为了获得更好的性能,可以通过添加日志能量来生成并执行delta运算。MFCC的新特点是可以产生δ倒谱,它在信号能量的时间导数方面具有优势。它可用于MFCC计算能量的速度和加速度。基于MFCC的说话人识别系统的MATLAB实现®可以显著提高训练和识别的准确率,并在较高识别率[17]下减少计算所需的数据。 | ||||||||
3使用LPC进行特征提取 |
||||||||
线性预测编码(Linear predictive coding, LPC)方法是[18]在20世纪60年代提出的一种用于语音跟踪的方法,因为它所代表的声道参数和数据量非常适合语音压缩。[19]。本文将一种改进的LPC系数方法用于语音处理,以压缩形式表示语音的谱包络。该方法可以在低比特率下编码出高质量的语音,并通过描述语音信号的强度、残差信号来准确估计语音参数。信息可以存储或传输到其他地方。提出了一种基于方言无关小波变换(WT)的阿拉伯数字分类器,该分类器用LPC进行小波变换,用概率神经网络(PNN)[20]进行分类。用最近邻法对男女演讲者进行分类,从生成的平均值中计算男女的均值的欧氏距离。音频部分从印度视频歌曲[21]中提取,共计算了13个mfc和13个lpc系数。 | ||||||||
LPC处理器有四个基本步骤,预强调,即将数字化语音信号压平,使信号处理不容易受到有限精度的影响。在帧阻塞的第二步,输出信号被阻塞成N个样本的帧,相邻帧之间用no分隔。M个样本。在窗口,有窗口每个单独的帧,以尽量减少信号不连续在每个帧的开始和结束,在MFCC相同。自相关分析将自动关联加窗信号的每一帧,以获得最高的自相关值。在LPC分析的最后一步,利用Durbin方法将p + 1帧自相关转换为LPC参数集。方程中,信号x(n)的每个样本都表示为前一个样本x(n−i)的线性组合,称为线性预测编码[22]。这里ai是预测系数。 | ||||||||
结合LPC和MFCCs系数可用于动态或运行时特征提取。这两者结合起来可以作为说话者情绪的特征向量,如愤怒,无聊,中性,快乐和悲伤[23]。印地语字母表是使用以辅音元音辅音(CO3VCO3)[24]模式出现的音节来进行情感识别的。 | ||||||||
四、结果分析 |
||||||||
矢量量化(VQ)用于将训练数据与新输入数据进行比较。它是一种经典的量化技术,允许通过向量的分布来建模概率密度函数。它将一组称为向量的点划分为几组,这些组之间最接近的点的数量大致相同。VQ的密度匹配特性对于识别大数据和高维数据[25]的密度是非常强大的。所有数据点都用它们最接近质心的指数来表示,这可以用于有损数据校正和密度估计。矢量量化是自组织映射模型。 | ||||||||
利用MFCC和LPC对古吉拉特语词进行特征提取。通过记录古吉拉特语单词的发音来获得矢量量化的训练数据集。将输入的数据与已经存储的数据集进行比较。两种算法对三个词的比较如下图所示。 | ||||||||
LPC的识别准确率达到85%以上,如图1所示。MFCC的识别准确率达到95%以上,如图2所示。 | ||||||||
因此,MFCC可以为古吉拉特语在语音识别中的应用带来更好的特性。将匹配训练数据库的输入语音转换为相关文本,结果如下图2所示(a)描述数字8,(b)描述数字3,(c)描述单词“Gujarati”,(d)描述单词“attack”,(e)描述单词“Gujarati”和“Ahmadabad”,(f)描述单词“attack”和“Hiral”(一个名字)。 | ||||||||
五、结论与未来工作 |
||||||||
该方法用于古吉拉特语孤立语音识别系统的实现。采用MFCC和LPC作为语音特征提取器。最后用VQ法对算法进行了测试,结果表明MFCC是一种更准确的语音信号特征提取方法。目前的工作仅限于古吉拉特语的音素。进一步研究利用MFCC特征提取算法和隐马尔可夫模型(HMM)对连续语音识别进行测试和建模。超大词汇量语音识别(VLSR)采用MFCC和PLP特征提取算法,HMM结合人工神经网络(ANN)进行更好的分类。 | ||||||||
鸣谢 |
||||||||
特别感谢BVM工程学院的Mayur m.v agad教授,他坚持不懈地追求真诚和卓越的工作。 | ||||||||
数字一览 |
||||||||
|
||||||||
参考文献 |
||||||||
|