所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

对比增强音频分类方案

诉达博士* 1和G.Anuradha2
  1. 教授
  2. 研究学者计算机和应用Avinashilingam家科学研究所和高等教育对于女性来说,哥印拜陀- 43。
通讯作者:诉达博士电子邮件:radhaasrimail@gmail.com
相关文章Pubmed,谷歌学者

访问更多的相关文章全球研究计算机科学杂志》上

文摘

在现代的通信、音频中扮演一个重要的角色在理解数字媒体。由于经济的崛起音频捕捉设备,音频数据可用的在线和离线的数量是巨大的和技术,可以自动分类和检索这些音频数据立即需要的。一个自动的基于内容的音频分类和检索系统包括三个模块即特征提取、分类和检索。介绍了两种算法的比较研究,以不同的方式执行以下三个步骤。所选系统的性能进行了分析同时使用四种不同特性(声、知觉mel-frequency cepstral系数(MFCC)和感性的结合MFCC)和四个分类器,提高了支持向量机(SVM)和质心神经网络(CNN)连同其基础版本,支持向量机和CNN。实验结果表明,增强的支持向量机算法在使用联合特征向量产生改善精度和减少错误率。

关键字

音频分类、音频检索,支持向量机,重心神经网络音频功能,修改后的欧氏距离。

介绍

基于内容的音频分类和检索(CACR)系统自动组音频数据在大型数据库不同的音频类型(类),然后可以搜索一个特定的声音或电子类的声音基于内容分析的音频信号[15]。主要目标是组音频文件(根据他们的内容)的一系列预定义的类别。一个通用的框架如图1所示。音频数据收集包括音频或音频文件实例。CACR的第一步提取音频特性,代表这些音频实例特征信息。提取的特征作为特征向量或存储空间,用于训练分类器。当一个输入音乐,同样的特征提取。机器学习算法associates的功能模式实例的类和映射到类。在这个类的所有数据检索匹配的音频。因此,任何CACR系统,包括两个步骤,即根据提取的特征选择和分类功能。 The manner of handling these two steps is directly related to the efficiency of the audio classification and retrieval system.
可以分组的方法提出了CACR intofive类别,即实例查询,查询嗡嗡作响,音乐信息检索、相似匹配方法和机器学习方法。实例查询系统旨在自动检索媒体样本数据库,类似于一个用户提供的例子[25 10 11、3、28)。查询哼唱techniquesare实例查询相似,但这里的用户提供了样本哼唱这首歌[16]14、8、5、21日(iii)类似google搜索enginesmainly音乐信息检索系统是用于检索相似的音频(23日4,22岁,2)iv)基于相似性匹配方法使用距离等措施
图像
欧几里得距离比较输入音频数据与数据库文件和所有文件相互密切(类似的)检索(1、6、8,27岁)和机器学习(v) Methodsthatuse学习算法人工神经网络、k最近的邻居,演算法,建立模型过程中扮演着至关重要的角色分类和检索(13、20、24)。
可以看到,提出了几种算法在每一个类别,这提高现有算法来提高分类精度或提出一个新方法,比现有的算法。两个作品属于第二类的建议[17],[7]使用一个重心与散度衡量神经网络以执行高斯概率密度函数(GPDF)数据。与其他传统算法相比,概率数据的DCNN设计具有鲁棒性的优点利用音频数据表示方法中,每个音频数据由一个高斯分布的特征向量。作者使用共有42特性场音色、节奏和音高特征在分类。这个特性集被称为声学特性集。另一方面,[7]用二叉树支持向量机识别策略用于分类和检索音频数据。对音频检索,作者提出了一个新的衡量标准,称为距离——边界(足协)。给定查询音频时,系统首先发现边界内的查询模式。然后,所有数据库中的音频模式是按这个边界的距离。所有边界由svm学习和存储的音频数据库。 This system used two types of feature sets, namely, perceptual features and MFCC (mel-frequency cepstral coefficients) features during classification.
目前的研究工作的研究问题是比较这两个作品对音频数据进行分类的能力提高基于内容的音频检索过程。为了方便起见,[7]的模型被称为GL-AC和[17]模型被称为P-AC论文。剩下的纸是组织如下。第二节介绍了GL-AC系统和第三节介绍了P-AC系统。第四部分介绍了结果和比较两种算法的效率在音频数据进行分类。第五节总结了工作与未来的研究方向。

GL-AC系统

GL-AC方法主要包括三个模块,即特征提取模块,分类模块和检索模块。第一个模块提取两个音频特性即知觉特性和mel-cepstral特性,然后结合形成第三个特性集。知觉特性是指由人类声音的感觉。收集到的知觉特征是总光谱功率(方程1),subband-power(4次能带)方程(2),亮度方程(3),带宽方程(4)和沥青。音高是人类语言的基本周期波形和是一个重要的参数的分析和合成语音信号。在GL-AC算法,一个简单的基音检测算法基于检测使用归一化自相关函数的峰值。返回的音高频率如果峰值高于阈值(T = 0.65,选择经验)或贴上non-pitched框架。除此之外,两个特性,即沉默比的数量比沉默帧的帧总数和比例的数量的比例把帧的帧总数也计算。
图像
图像
代表的连接操作。第二个模块使用支持向量机(SVM)分类。在视频检索,一个新的边界距离(DFM)距离测量是用来代替传统的欧氏距离度量。给定一组的训练向量属于两类,支持向量机试图独立的数据分成两hyperlanes。几个可能的超平面可以形成,但该算法应该选择一个最大化利润率(超平面之间的距离和最近的数据点的每个类)。
为此,使用内核函数。音频分类是一个多层次的问题,问题是解决了SVM结合二元分类器的结果。问题是现在使用的决策过程结合二进制分类结果获得最后的决定。一个常见的方法经常是投票策略,计算昂贵,因为它需要c(颈- 1)/ 2的比较。这个问题是解决GA-AC使用自底向上的二叉树。二叉树的形成始于最低水平,每一对之间进行了比较和选择一个赢家。在下一阶段,获胜者将搬到一个级别和重复的过程。迭代的末尾,一个独特的类标签将会在顶层。二叉树的使用减少了所需的比较从c(颈- 1)/ 2 *(颈- 1)倍。
在检索阶段,传统的方法使用欧氏距离来度量数据库的音频模式之间的相似性和查询。传统方法对样本分布有缺点像敏感,同一个类的不同的查询模式产生不同的检索结果最后,平均检索精度很低。这些问题得到解决,通过使用一个名为距离边界的新度量指标和工作原理上存在边界和分离样品剩下的属于一个类。内部非线性边界包含了类似的模式无论如何分布。这些界限可以很容易地结合SVM训练过程,只需要简单的操作,因此,计算便宜的。

P-AC系统

P-AC方法由两个模块组成,即特征提取和分类。特征提取模块,三种类型的特性,即场音色纹理特性,有节奏的内容特点和音高特征提取音频数据。场音色纹理特性应该表现出属性相关的一般声音的音色。他们是基于短时傅里叶变换(STFT)和他们在计算短时帧的声音(MFCC)。纹理特征向量来描述场音色包含以下特性:频谱质心的均值和方差,滚边,通量,在纹理窗口零交叉,低能量和前五MFCC系数的均值和方差纹理窗口。有节奏的内容代表音乐节奏结构的特性。选中的特性是相对的第一和第二高峰,幅度比第二和第一个高峰,第一个和第二个高峰时期,整体打直方图之和。这些特性都是基于检测的最突出的周期性信号通过使用离散小波变换技术。场上内容特征音频信号在不同频带的能量和基于多种基音检测技术[26]。
分类模块使用一个基于散度CNN分类器[9]26日,19日,它使用Bhattacharyya距离方程(7),而不是传统的欧氏距离图像表示均值向量和协方差矩阵的高斯分布Gj,和T分别表示的转置矩阵。赢家和输家在CNN的概念可以采用D-CNN没有任何改变,除了距离计算的散度测量中的应用。在这种情况下,然而GPDFs需要考虑两个参数:意思是,μ,对角协方差,Σ。重量更新的意思是一样的CNN重量更新。利用散度距离作为距离测量,D-CNN有能力在集群的概率数据,同时它还是CNN的优越特性。因为CNN已经证明比其他传统的如k - means聚类算法和CNN, D-CNN应该显示改进的k - means和CNN算法概率数据。给出D-CNN算法的伪代码如图2所示。
图像

实验结果

在实验中,两个数据集。首先下载一个音频数据集[12]。这个数据集有409个声音在16类。音频类的名称altotrombone,动物,铃铛,cellobowed,人群,女性,笑声,机器,男,双簧管,打击乐,电话,tubularbells, violinbowed violinpizz、水。这个数据集被称为MuscleFish数据集。第二个数据集创建2663音频信号有摇滚,流行,爵士,嘻哈,民族,国家,言论自由和自然的声音。这个数据集被称为Web数据集。这两个数据集,70% -30%持债法单独训练和测试数据集。所有的实验方法和平均结果预计使用10倍。
评估的分类性能,两个指标,即出错率和平均检索精度。错误率之间的比率被定义为例子分类错误的数量和总数量的测试例子。平均检索精度定义为平均百分比数字的模式属于同一个类的查询匹配。进一步,分析效率获得了D-CNN SVM-BTS,结果与传统的同行相比,分别CNN和支持向量机。
获得的平均精度在使用四个不同的数据集,声学,Perc, CepsL和PercCepsL四个分类器,CNN, SVM, D-CNN SVM-BTS如图3所示。的结果,很明显,连接PERC和CEPSL特性而使用SVM-BTS算法产生更好的准确性相比与其他分类器和特性集。SVM-BTS分类器显示2.33%、1.37%和0.56%的准确率效率增益与CNN相比,分别D-CNN和支持向量机。这表明连接功能的使用与SVM-BTS非常适合自动音频分类和检索。
四个分类器的平均错误率而使用不同的特征集如图4所示。而获得的趋势考虑错误率是类似的准确性。SVM-BTS分类器组合的特性集生产数据出错率最低。
图像

结论

本文提出了一个比较研究两个音频分类和检索系统,即GP-AC P-AC,增强传统的分类算法。虽然算法遵循samesteps,他们不同的特性集的数量和分类器使用。GP-AC使用三个特性集(感知、MFCC和一套组合),而P-AC使用声学特性由场音色纹理,有节奏的内容特点和音高特征。GP-AC使用一个增强使用自底向上的二叉树支持向量机分类器来减少计算而P-AC增强质心神经网络(CNN)雇佣Bhattacharyya距离代替欧氏距离。实验结果表明,支持向量机结合足协距离测量利用特征向量相结合更准确和产生误差最小,因此是最好的候选人音频检索系统。

引用

  1. Aronovich, l . Spiegler, i (2007) CM-tree:动态集群指数在度量相似性搜索数据库,数据和知识工程,63卷,第919 - 946页。
  2. Aucouturier, J.J.,Pachet, F. and Sandler, M. (2005) the way it sounds: Timbre models for analysis and retrieval of music signals, IEEE Transactions onMultimedia, Vol. 7, No. 6, Pp. 1028–1035.
  3. 巴林顿,L。陈,。,Turnbull, D. and Lanckriet1, G. (2007) Audio information retrieval using semantic similarity, IEEE International Conference on Acoustics, Speech and Signal Processing, Pp. 725–728.
  4. 凯西,硕士,Veltkamp, R., Goto, M., Leman, M., Rhodes, C. and Slaney, M. (2008) Content-based music information retrieval: Current directions and future challenges, Proceedings of IEEE, Pp. 668–696.
  5. 陈,l .和胡人(2007)的一个实现基于web的查询系统,嗡嗡作响,ICME,页1467 - 1470。
  6. Gartner D。,Kraft, F. and Schaaf, T. (2007) An adaptive distance measure for similarity based playlist generation, IEEE International Conference on Acoustics, Speech and Signal Processing, Pp. 229–232.
  7. 李郭,g和S.Z.(2003)基于内容的音频分类和检索到支持向量机,IEEE神经网络,14卷,1号,第209 - 215页。
  8. 郭,L。,He, X., Zhang, Y., Lu, Y. and Peng, K. (2007) A noise robust content-based music retrieval for mobile devices, IEEE International Conference on Multimedia and Expo, Pp. 2222–2225.
  9. 哈,j .(1975)聚类算法,纽约,威利。
  10. 贺兰山、m和维尔塔宁,t (2007 A)相似度度量基于感知的音频实例查询编码和压缩,学报》10日国际会议上数字音频效果,法国波尔多。
  11. 海伦,m·维尔塔宁,t (2007 b)音频信号的实例查询使用高斯混合模型之间的欧氏距离,IEEE国际会议音响、语音信号处理,225 - 228页。
  12. http://www.musclefish.com/cbrdemo.html,最后访问日期:20-07-2012。
  13. Koh, L.H.,Ranganath, S. and Venkatesh, Y.V. (2002) An integrated automatic face detection and recognition system, Pattern Recognition, Vol. 35, Pp. 1259-1273.
  14. Kohonen, t(1990)自组织映射。Proc, IEEE 78卷,1464 - 1480页
  15. 马利克,h(2012)基于内容的音频索引和检索:概述,页1 - 10,www-personal.engin.umd.umich.edu/ ~哈菲兹/ CBAIR_survey.pdf,最后访问日期:01-07-2012。
  16. 穆德,杰,Martens, J., Pauws, S., Vignoli, F., Lesaffre, M., Leman, M., Baets, B. and Meyer, H. (2006) Factors affecting music retrieval in query-by-melody, IEEE Transactions on Multimedia, Vol. 8, No. 4, Pp. 728–739.
  17. 公园,华盛顿特区(2010)基于内容检索音频数据使用重心神经网络,IEEE信号处理和信息技术国际研讨会(ISSPIT),韩国,页394 - 398。
  18. 公园,华盛顿特区,Kwon平炉(2008)质心与散度测量GPDF数据聚类神经网络,IEEE神经网络,卷。19日,问题6,页。948 - 957。
  19. 公园,华盛顿特区和吸引,y(2001)加权质心神经网络边缘保留图像压缩,IEEE神经网络,12卷,第1134 - 1146页
  20. 文德兰花,S。,Schlemmer, K. and Anderson, D.V. (2001) A physiologically inspired method for audio classification, Journal on Applied Signal Processing, Vol. 9, Pp. 1374-1381.
  21. ρ,s和黄,大肠(2006)FMF查询自适应旋律检索系统,系统和软件学报,79卷,43-56页。
  22. ρ,S。,Han, B., Hwang, E. and Kim, M. (2007) Musemble: A music retrieval system based on learning environment, ICME, Pp. 1463 1466.
  23. Ruxanda M.M.蔡,B.E.,Nanopoulos, A, and Jensen, C.S. (2009) Emotion-based music retrieval on a well-reduced audio feature space, IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, Pp. 181–184.
  24. 歌,y和张,c(2008)基于内容的信息融合semi-supervised音乐流派分类,IEEE事务onMultimedia, 10卷,1号,pp.145 - 152。
  25. 《轮和时称,美国由潜在的知觉(2008)音频检索索引、IEEE国际会议音响、语音信号处理,拉斯维加斯,内华达州,49-52页。
  26. Tolonen, T。Karjalainen, m . (2000) multipitch分析模型计算有效,IEEE反式。演讲音频处理,8卷,第708 - 716页
  27. 维尔塔宁,t和海伦,m(2007)基于概率模型的相似性措施音频示例查询,学报IEEE音频和声学信号处理的应用,新帕,纽约。
  28. 广域网、c和刘,和m .(2006)基于内容的音频检索相关性反馈,模式识别字母,27卷,2号,第85 - 92页。
全球技术峰会