在线刊号(2320-9801)印刷刊号(2320-9798)
Khurrath-ul-aien M.R1安妮塔·G2 |
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
本文概述了说话人自动识别技术,重点介绍了与文本无关的识别技术。说话人识别的研究已经活跃了几十年。我们将对经典方法和最先进的方法进行概述。我们从自动说话人识别的基本原理开始,涉及特征提取和说话人建模。这里,描述一个高斯混合模型普遍的背景模型(GMM-UBM)扬声器识别系统。在这个GMM-UBM系统中,我们通过使用演讲者的训练演讲和一种形式的贝叶斯适应来适应UBM的参数,从而推导出假设的演讲者模型。将UBM技术集成到GMM说话人识别系统中,可显著降低识别时间要求。我们阐述了先进的计算技术来解决健壮性和会话可变性。在文本依赖系统中,用于验证的单词或短语是预先已知的,并且是固定的。在与文本无关的系统中,在验证系统中使用的单词或短语没有限制。最近从向量到超向量的进展开辟了一个新的探索领域,代表了一种技术趋势。
关键字 |
判别模型;特征提取;文本独立性;说话人识别;统计模型;Supervectors |
介绍 |
说话人识别指的是通过声音来识别人。没有两个人的声音是完全相同的,因为他们的声道形状、喉头大小和发声器官的其他部分是不同的。除了这些身体上的差异,每个说话者都有他或她特有的说话方式,包括使用特定的口音、节奏、语调风格、发音模式、词汇的选择等等。最先进的扬声器识别系统同时使用了许多这些功能,试图涵盖这些不同的方面,并以互补的方式使用它们,以实现更准确的识别。除了电话语音数据外,其他语音文件的供应也在不断增加,如电视广播、电话会议和度假视频剪辑。从这些文档中提取元数据,如讨论主题或参与者姓名和性别,将实现自动化的信息搜索和索引。说话人diarization也被称为“谁在什么时候说话”,试图从语音文档中提取不同参与者的说话次数,是“经典”说话人识别技术的延伸,适用于多说话人的录音。在取证和说话人的离散化中,说话人可以被认为是不合作的,因为他们不特别希望被识别。另一方面,在基于电话的服务和访问控制中,用户被认为是合作的 |
另一方面,说话人识别系统又可以分为文本依赖系统和文本独立系统。适用于合作用户的文本依赖系统,识别短语是固定的或事先已知的。例如,可以提示用户读取中所述的随机选择的数字序列。在不依赖文本的系统中,说话者可以使用的词语没有限制。因此,参考话语(在训练中说的话)和测试话语(在实际使用中说的话)可能具有完全不同的内容,识别系统必须考虑到这种语音不匹配。 |
•与文本无关的识别是两项任务中更具挑战性的。一般来说,语音变异性是影响非文本说话人识别准确性的一个不利因素。声学环境和技术因素(换能器、通道)的变化,以及说话人自身的“扬声器内”变化(健康状况、情绪、年龄)都是其他不良因素。一般来说,同一发言者的两次录音之间的任何变化都被称为会话变化。 |
我们项目的基本目标是识别和分类不同的人的讲话。该分类主要是利用MATLAB进行特征提取的过程,从这些人的语音信号中提取出梅尔频率倒谱系数(MFCC)等几个关键特征。上述特征可能包括音高、振幅、频率等。这可以通过使用MATLAB等工具来实现。使用高斯混合模型(GMM)等统计模型和从这些语音信号中提取的特征,我们为每个参加说话人识别的人建立了一个唯一的身份 |
高斯混合模型(GMM)用于说话人光谱特征的建模已成为使用未转录训练数据的说话人识别系统的主要方法。将基于高斯混合模型-通用背景模型(GMMUBM)的说话人模型引入文本无关说话人识别中。我们的工作重点是需要高识别率的应用程序,这些应用程序使用从无约束(文本无关)对话语音的短话语,以及对通过电话信道传输产生的退化的鲁棒性。 |
高斯混合模型通用背景模型(GMM-UBM)说话人识别系统。在这个GMM-UBM系统中,我们通过使用演讲者的训练演讲和一种形式的贝叶斯适应来适应UBM的参数,从而推导出假设的演讲者模型。将UBM技术集成到GMM说话人识别系统中,可显著降低识别时间要求。 |
2文献调查 |
•亚历山大,A.,波蒂,F.,德西莫兹,D.,德瑞加洛文本无关说话人识别综述:从特征到超向量。在此,我们分析了说话人识别训练和测试阶段的不匹配技术条件及其对法医人体和自动说话人识别的影响。我们使用由非专家进行的感知测试,并将他们的表现与基线自动说话人识别系统进行比较。对比了在不匹配的记录条件下人类识别精度的下降与自动系统在类似记录条件下的下降。考虑的条件是公共交换电话网(PSTN)和全球移动通信系统(GSM)传输和背景噪声。研究了人类受试者用来感知声音差异的感知线索,以及它们在不同条件下的重要性。我们讨论了使用对不匹配条件保持稳健的感知线索来提高自动系统准确性的可能性。我们估计了人类和自动系统的证据强度,使用人类的感知分数和自动系统的对数似然分数计算似然比 |
优点:在不匹配的记录条件下,与自动系统在类似记录条件下的识别精度进行了对比 |
缺点:这个系统效率不高,适应性不强。 |
•贝塞耶,L,博纳斯特,提出了说话人自动识别信号处理的子带结构。在这里,提出了一种新颖的自动扬声器识别方法,特别适用于造成信号频谱部分损坏的环境。该方法的基本原理是将整个频域分割为若干个子频带,在这些子频带上分别应用统计识别器,然后重新组合得到全局分数和全局识别决策。重点讨论了子带结构的选择和重组策略。该技术已被证明是鲁棒的语音识别时,窄带噪声退化发生。我们首先客观地验证了说话人识别任务的鲁棒性。我们还研究了哪些信息是真正用于识别说话人的。为此,在TIMIT和NTIMIT数据库上对630个扬声器进行了独立子波段的扬声器识别实验。结果表明,说话人特定信息在子频带间分布不均匀。特别是低频子带(600Hz以下)和高频子带(3000Hz以上)比中频子带更适合扬声器。 In addition, experiments on different sub band system architectures show that the correlations between frequency channels are of prime importance for speaker recognition. Some of these correlations are lost when the frequency domain is divided into sub bands. Consequently we propose a particularly redundant parallel architecture for which most of the correlations are kept. The performances obtained with this new system, using linear recombination strategies, are equivalent to those of a conventional full band recognizer on clean and telephone speech. Experiments on speech corrupted by unpredictable noise show a better adaptability of this approach in noisy environments, compared to a conventional device, especially when pruning of some recognizers is performed. |
优点:通过对不可预测噪声污染语音的实验,表明该方法在噪声环境下具有较好的适应性。 |
缺点:效率低,不灵活。 |
ï  Besacier, L., Bonastre, J., Fredouille,提出了使用统计建模对特定说话者信息进行本地化和选择。语音信号的统计建模已广泛应用于说话人识别。使用这种类型的建模获得的性能在实验室中是优秀的,但在电话或有噪声的语音中急剧下降。此外,很难知道系统考虑了哪些信息。为了解决这一问题并改进目前的系统,需要更好地理解统计方法所使用的信息的性质。这种知识应该允许只选择相关信息或添加新的信息来源。本文的第一部分介绍了旨在定位最有用的声音事件以用于说话人识别的实验。研究了分辨能力与言语事件性质的关系。重点对语音内容、信号稳定性和频域进行了研究。最后,研究了框架与其p个邻域之间的关系所包含的动态信息的可能性。 In the second part, the authors suggest a new selection procedure designed to select the pertinent features. Conventional feature selection techniques (ascendant selection, knock-out) allow only global and a posteriori knowledge about the relevance of an information source. However, some speech clusters may be very efficient to recognize a particular speaker, whereas they can be non-informative for another one. Moreover, some information classes may be corrupted or even missing for particular recording conditions. This necessity for speaker-specific processing and for adaptability to the environment (with no a priori knowledge of the degradation affecting the signal) leads the authors to propose a system that automatically selects the most discriminant parts of a speech utterance. The proposed architecture divides the signal into different time–frequency blocks. The likelihood is calculated after dynamically selecting the most useful blocks. This information selection leads to a significative error rate reduction (up to 41% of relative error rate decrease on TIMIT) for short training and test durations. Finally, experiments in the case of simulated noise degradation show that this approach is a very efficient way to deal with partially corrupted speech. |
优点:这是一种非常有效的方法来处理部分损坏的语音。对于较短的训练和测试持续时间,这种信息选择可显著降低错误率(在TIMIT上可降低41%的相对错误率)。 |
缺点:有一定的噪声退化和较大的误差。 |
ï  ' Bimbot, Ivan Magrin-Chagnolleau和Luc Mathan提出了基于二阶统计度量的非文本说话人识别方法。本文概述了说话人识别的几种方法。这些措施涉及二阶统计检验,并可以表示在一个共同的形式。给出了这些测度的替代公式,并研究了它们的数学性质。在它们的基本形式中,这些度量是不对称的,但它们可以以各种方式对称。所有测试都在文本无关的闭集说话人识别框架下进行,在TIMIT数据库的3个变种(630个说话人)上进行测试:TIMIT(高质量语音),FTIMIT(限制带宽的TIMIT版本)和NTIMIT(电话质量)。TIMIT获得了显著的性能,但FTIMIT和NTIMIT的结果自然会恶化。对称似乎是改进的一个因素,特别是在可用的语音材料很少的情况下。最后建议使用一些建议的度量方法作为参考基准来评估给定协议下给定数据库的内在复杂性,作为这项工作的结论。 |
优点:这是一个高质量和结果自然恶化与FTIMIT和NTIMIT。 |
缺点:这很难实现。 |
3研究范围 |
在公共数据集上评估新算法的性能对于进行有意义的性能比较至关重要。在早期的研究中,语料库由几个或最多几十个说话者组成,数据通常是自己收集的。最近,已经有了重大的努力,旨在标准化说话人验证的评价方法。NIST评估包括匹配条件下的测试试验,如仅使用电话,以及不匹配条件下的测试试验,如语言效果(匹配语言vs不匹配语言),跨通道和双说话人检测。在评估过程中,NIST将一组演讲文件作为开发数据发布给参与者。在这个初始阶段,参与者无法接触到“基本真相”,也就是演讲者的标签。然后,每个参与小组在给定的数据上“盲目”地运行他们的算法,并提交识别分数和验证决策。然后NIST评估提交的性能,并在后续研讨会上讨论结果。“盲”评估数据的使用使得对各种算法进行无偏的比较成为可能。 |
如果没有一个共同的评估数据集或标准的评估协议,这些活动将是困难的。视觉检查检测误差权衡(DET)曲线和等错误率(EER)是说话人验证文献中常用的评估工具。EER的问题在于它对应于一个任意的检测阈值,这在实际应用程序中是不可能的选择,因为在实际应用程序中,维护用户便利性和安全性之间的平衡是至关重要的。NIST使用检测成本函数(DCF)作为主要评估指标来评估说话人验证性能。 |
最小DCF (MinDCF)定义为DCF值在阈值处最小,是最优成本。当在开发集上优化决策阈值并应用于评估语料库时,将产生实际的DCF。因此,最小DCF和实际DCF之间的差异表明了系统对于某个应用的校准效果如何,以及阈值设置方法的鲁棒性如何。为深入和彻底的理论讨论,以及替代公式的应用独立评估指标。虽然NIST说话人识别基准测试主要考虑英语对话文本无关的说话人验证,但也有一些替代评估,例如NFI-TNO评估考虑了真实的法医样本(主要是荷兰语),包括窃听录音 |
该评估除了文本无关的验证外,还包括开集说话人识别和文本相关的验证任务。NIST中影响说话人识别精度的一些因素。众所周知,跨信道训练和测试的准确率与同一信道相比要低得多。在培训材料中加入不同的手机也能提高识别精度。另一个影响表现的重要因素是训练和测试话语的持续时间。用于训练和/或测试的语音数据量越大,准确性就越高。训练话语持续时间似乎比测试段持续时间更显著。 |
四、系统设计 |
自动说话人识别系统的组成部分。上图为注册流程,下图为识别流程。特征提取模块首先将原始信号转换为特征向量,强调说话人特定的属性并抑制统计冗余。在登记模式中,使用目标演讲者的特征向量来训练演讲者模型。在识别模式中,将从未知人的话语中提取的特征向量与系统数据库中的模型进行比较,给出相似度评分。决策模块使用这个相似度分数来做出最终决策。 |
图1。演讲者招生 |
图2。说话人验证/识别 |
几乎所有最先进的扬声器识别系统都以某种形式使用一组背景扬声器或队列扬声器来增强识别器的鲁棒性和计算效率。在招生阶段,背景说话人作为反面例子进行判别模型的训练。在识别阶段,使用背景扬声器对扬声器匹配分数进行归一化。 |
五、特征提取 |
由于发音运动,语音信号不断变化,因此,信号必须在持续时间约为20-30毫秒的短帧内分解。在此区间内,假设信号保持平稳,并从每帧提取光谱特征向量。通常情况下,框架是预先强调的,在进一步的步骤之前乘以一个平滑的窗口函数。预强调提高了较高的频率,否则由于声门声源导致频谱向下倾斜而强度很低。 |
另一方面,由于离散傅里叶变换的有限长度效应,需要窗函数(通常是Hamming)。在实践中,窗函数的选择并不重要。众所周知的快速傅里叶变换(FFT)是DFT的快速实现,它将信号分解为其频率分量。基于fft的信号分解的替代方案,如非谐波基,非周期函数。然而,由于DFT的简单和高效,它在实践中仍然被使用。通常只保留幅度谱,基于相位在感知上的重要性很小的信念。然而,在描述一种利用相位信息的技术时,提供了相反的证据。被称为谱包络的DFT幅度频谱的整体形状包含有关声道共振特性的信息,并且已被发现是说话人识别频谱中最具信息量的部分。 |
一个简单的谱包络模型使用一组带通滤波器在邻近频段上进行能量积分。受心理声学研究的驱动,通过分配更多窄带宽的滤波器,较低的频率范围通常具有更高的分辨率 |
分数归一化: |
在分数归一化中,“原始”比赛分数相对于一组其他被称为队列的演讲者模型进行归一化。分数归一化的主要目的是将来自不同说话者的分数转换为一个相似的范围,以便使用一个通用的(与说话者无关的)验证阈值。分数归一化可以纠正一些没有被特征域和模型域方法补偿的依赖于说话人的分数偏移。 |
模式匹配和决策: |
模式匹配模块处理估计特征与说话人模型之间的比较。在说话人识别中使用的模式匹配方法包括隐马尔可夫模型(HMM)、动态时间扭曲(DTW)、神经网络和矢量量化(VQ)。在进行验证时,此模块为专家提供测试样本与声称的身份之间的相似度评分 |
而在识别的情况下,模块给出测试样本与数据库中所有可用样本的相似度评分。利用决策模块对这些分数进行了评价,并给出了相应的结果。对于不同的任务,说话人识别系统的效果是不同的。由于识别系统的输出是一组已知扬声器中的一个扬声器身份,因此使用识别精度来衡量性能。对于验证系统,可以观察到两种类型的错误:错误地接受冒名顶替者和错误地拒绝目标说话者 |
六、VQ和GMM的工作流程 |
A.矢量量化: |
矢量量化(VQ)模型又称质心模型,是最简单的文本无关扬声器模型之一。尽管VQ经常用于计算加速技术和轻量级的实际实现,但当与后台模型适应结合时,它也提供了具有竞争力的准确性。然而,由于计算的原因,向量的数量通常通过聚类方法(如K-means)来减少。这给出了一个被称为码本的向量的减少集。聚类方法的选择并不像优化码本大小那么重要。 |
图3。使用K-means算法构建矢量量化的码本。由原始训练集组成 |
B.高斯混合模型: |
高斯混合模型(GMM)是一种随机模型,已成为说话人识别中实际的参考方法。GMM可以被认为是VQ模型的扩展,其中集群是重叠的。也就是说,一个特征向量没有被分配到最近的聚类中,但它有一个非零的概率起源于每个聚类。 |
GMM由多元高斯分量的有限混合组成。 |
式中,K为高斯分量的个数,Pk为第K个高斯分量的先验概率(混合权值) |
该值越高,表示未知向量来自模型λ。流行的期望最大化(EM)算法可用于最大化给定数据的可能性。注意,K-means可以作为EM算法的初始化方法 |
7实验结果 |
视图。利用矢量q生成波形 |
微型计算机体积很小。使用GMM识别人员 |
参考文献 |
|