ISSN在线(2320 - 9801)打印(2320 - 9798)
Ekta”Garg1,Madhu巴尔2
|
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际期刊的创新在计算机和通信工程的研究
语音情感识别是一个过程,一个语音文件被公认对存储语音数据集。分析了数据集根据分类器和相应的预测结果。在这种情况下,预测的输出是一个最匹配的数据基础。几种分类器已经使用在这个场景中。本文代表语音识别过程的不同部分和分类方法进行了讨论。
关键字 |
语音识别,分类,识别过程 |
介绍 |
自动化系统的动态需求使得识别系统考虑的程度的精确方式命令,而只有在运行命令模板。关联的想法与演讲者同时识别说话者的情感。声学处理领域不仅可以识别„哇¢演讲者还告诉„howA¢它是口语达到最大的自然交互。[1] |
这也可以用于口语对话系统如在呼叫中心的应用程序支持人员可以处理谈话更多调整的方式如果调用者标识的情感。人类本能认识到情感通过观察psycho-visual外表和声音。机器可能不是模仿这种自然倾向,但仍不复制这个人的能力如果语音处理的背后是就业。早些时候的调查对言论打开门利用声学属性处理情绪。另一方面的信号处理工具MATLAB和模式识别研究的社区开发了各种各样的算法(如:嗯,支持向量机),完成所需资源实现的目标识别与语音情感。[2] |
)数据库:数据库是数据的集合在我们提出的工作我们使用数据库的语音样本。在数据库中我们发现语音信号的属性,然后将它们存储到数据库中。问题是,我们要如何在数据库中存储成百上千的文件。过程如下。首先我们将获取声音样本的属性。所有这些属性是必需的计算,然后将被存储到一个数组中。数组将作为文件将。我们将获取特性和年底将平均,然后将它们存储到数据库中每个类别的声音,我们即。快乐、悲伤、愤怒和恐惧。 |
b)声音文件:声音文件的文件将被处理的特征提取。 |
c)属性:当我们将处理声音文件的属性提取的特征提取有几个可以使用算法。在我们的方法,我们有嗯算法用于训练目的。 |
1.1部分的研究工作: |
在我们的研究工作有两个部分。部分解释如下。 |
一)培训:培训部分确保数据库能适当地训练,以便在测试的时候它产生广泛的结果。培训的特点如下。 |
一)最大频率:文件的最大频率是我们得到的值的峰值频率映射。当我们曾经把一个声音样本时间和频率模式,最大峰值称为最大频率的声音样本。 |
b)最低频率:最低频率的一个文件是我们得到的值在峰值频率的地图。当我们曾经把一个声音样本时间和频率模式,最低峰值被称为声音样本的最小频率。[3] |
c)平均频率:平均频率可以用两种方法计算。第一种技术是将所有样品,然后把整个频率和频率的总数。第二种方法是一个道德的方法我们可以添加最低频率和最高频率,然后我们可以把他们两个。 |
Avg。频率=(最低频率+最大频率)/ 2 |
d)光谱卷:光谱辗轧的发展可以说是最大频率之间的差异与相邻频率的差异。频率的位置(max)可以存储在一个数组和类似的相邻节点,然后可以计算的差别。 |
e)噪声:伦理上的噪音水平是额外的比特数,已添加到声音样本。如果噪音是统一的噪声可以通过计算每个频率的不同样本的阈值语音样本。 |
有两个类别的噪音水平。 |
1)统一的噪声 |
2)非均匀噪声 |
统一的噪声:均匀噪声的噪声同时相同的语音样本。 |
非均匀噪声:非均匀噪声样本不保持不变。 |
f)情节:它是整个声音样本的平均值。 |
g)光谱频率:光谱频率的频率最高旁边的音高的声音样本。 |
1.2特征提取算法有帮助: |
1)嗯:嗯代表HARCOV的元模型。这是一个全球已知算法的训练数据集,提取语音的特征样本并保存数据库为将来使用。文件的最大频率是我们得到的值的峰值频率映射。当我们曾经把一个声音样本时间和频率模式,最大峰值称为最大频率的声音样本。它被视为对抗训练的一部分,它用于样本容量的数据进一步处理。在这种方法中,我们把每个样本数据集作为一个独特的项目处理。特征的提取并保存到数据库可分为以下流程图。[4] |
2。声学建模:声学模型是开发环节的观察特性的语音信号预期假说的语音学单词/句子。生成之间的映射等基本语言单位电话,tri-phones &音节进行严格的训练。在培训期间,一个模式代表一个类使用一个或多个模式的功能对应语音相同的类。 |
3所示。造型语言与词汇:词汇歧义是一个方面,必须谨慎处理,声学模型单独应付不来。对于连续语音,单词边界是主要问题。语言模型是用来解决这两个问题。一般ASR系统使用随机语言模型。这些概率要训练语料库。语言接受单词从声学模型的各种竞争的假设,从而生成一个概率为每个单词序列。词法模型提供了指定的语言中的词的发音,包含单词和手机之间的映射。一般可用规范的发音在普通使用字典。处理变化的问题,多个发音变异为每一个词都包含在词典,但小心。G2P系统——字母音位系统应用于更好的ASR系统b的性能预测单词的发音并不在训练数据中找到。 [5] |
4所示。模型适应:执行适应的目的是最小化系统的性能依赖扬声器的声音,麦克风,传输通道和声学环境,这样可以提高系统的泛化能力。语言模型适应集中在如何选择特定的域模型。适应过程标识域的性质,因此,选择指定的模型。 |
5。识别:识别是一个过程,一个未知的测试模式相比,每个声音类参考模式,因此,衡量相似度计算。两种方法被用于匹配模式:第一个是动态时间扭曲基于声学单元之间的距离和认可。第二个是嗯最大化的基础上训练和识别单元之间的发生概率。训练HMM,从而实现良好的性能,一个大型的、语音学上丰富和平衡数据库是必需的。 |
c .性能参数 |
精度和速度是衡量的标准自动语音识别系统的性能如下所述: |
1。准确的参数 |
词错误率(回答):回答通过对比计算测试集生成的文档,然后计算替换的数量(S)、删除(D),插入(I)和除以总数量的单词测试集[5] |
2。速度参数 |
实时Factoris参数评估自动语音识别的速度。公式:P RTF = - - - - - - - - - - - - - - - - - -我P:时间过程中输入输入时间我e . g . RTF = 3当需要6小时计算时间过程的记录持续时间2小时。RTF≤1意味着实时处理。 |
二世。测试方法 |
语音处理的测试模块包括演讲的测试文件的基础上,训练数据集。在语音文件执行测试操作不同类型的分类器是用来分析服务的语音样本。分类器的一些解释如下。 |
一)支持向量机:支持向量机代表支持向量机。这需要整个数据集的二进制输入和分类器相同。SVM分类器生成,FRR成功比率来确定匹配的百分比。svm是线性分类器(即类分离超平面)但他们所谓的内核可以用于非线性分类的技巧。而不是直接应用支持向量机输入空间运行它们应用到一个高维特征空间,即对输入空间非线性相关:_:跑!f .内核技巧可以使用自训练SVM使用向量的算法只在欧几里得点积的形式(x _ y)。然后只需要计算特征空间的内积(_ (x) __ (y)),也就是所谓的核函数k (x;y)如果k (x;y)满足Mercer的条件。重要的内核函数实现这些条件多项式内核 |
B) GNB分类器:GNB代表基于高斯天真的分类器。是有用的预测必须在嘈杂的演讲。 |
C)神经网络分类器:神经网络分类器是最进步的分类器有两个输入。第一个输入是训练集和第二个输入目标集。的目标是吸引的基础上训练集已更新。[6] |
神经网络是高度互联网络相对简单的处理元素,或节点,并行操作。他们被设计用来模拟神经网络的功能。最近的研究对神经网络提出了一种可能性的语音识别问题的新方法。神经网络提供比现有方法两个潜在的优势。 |
首先,使用多处理器并行操作可以提供continuousspeechrecognition所需的计算能力。其次,新的神经网络算法,可以自组织和建立一个内部的演讲模式,最大化性能,将执行甚至比现有算法。这些新算法可以模仿学习的类型使用的孩子掌握新单词和短语。 |
三世。结论 |
以上文字,可以得出的结论是,语音识别系统是一个过程,需要两个阶段的数据。第一阶段是训练阶段,第二个阶段是测试阶段。不能最优测试阶段如果没有提供有效的培训。测试可以通过使用不同的分类器作为上下文中已经提到上面写的。培训可以通过使用特征提取方法。 |
引用 |
|