嘴唇轮廓检测技术基于视图的面前

萨米尔·k·Bandyopadhyay教授
老成员IEEE,教授,计算机科学与工程部门,加尔各答大学A.P.C.路92号,印度加尔各答- 700009

通讯作者:萨米尔·k . Bandyopadhyay教授电子邮件:skb1@vsnl.com

文摘

嘴唇轮廓检测和跟踪是计算机语音阅读的最重要的先决条件。提出了几种方法对唇唇轮廓后跟踪准确地在第一帧初始化。嘴唇轮廓的检测和跟踪是在语音阅读的问题。相对较大的唇读算法可基于唇轮廓分析。在这些情况下,嘴唇轮廓提取是必要的第一步。嘴唇轮廓提取,我们通常指唇轮廓检测的过程在第一帧的视听图像序列。获得嘴唇轮廓在后续帧通常称为唇跟踪。而对于嘴唇轮廓跟踪有发达的技术和算法来自动执行此任务,嘴唇的轮廓提取在第一帧的东西是不同的。这是一个更艰巨的任务跟踪,由于缺少良好的先验信息对图像中口的位置,口大小,近似形状的嘴巴,嘴巴打开等。在本文中,我们提出一个解决方案自动唇轮廓检测是否可用的面前。该方法已经测试一个数据库,其中包含脸上的图片不同的人,发现最大的成功率为85%。

关键字

嘴唇轮廓,水平集演化,嘴唇分割,和语言阅读

介绍

唇边提取是一个重要的问题,研究了在某种程度上在文献(1、2、3、4)。唇分割可以视听语音识别的一个重要组成部分,假唱、造型的化身和面部特征跟踪系统。在视听语音识别,它已被证明,使用唇纹理信息更有价值比使用唇边界信息(5、6)。然而,这个结果可能是部分原因是不准确的边界提取,因为嘴唇分割性能不是早独立评估的研究。此外,可以使用唇分割信息互补的纹理信息。唇边界特性可以利用除了嘴唇质地特性进行多流隐马尔可夫模型框架”在一个适当的加权方案。因此,我们推测它有利于使用唇改善AVSR精度的边界信息。一旦发现嘴唇的边界,可以提取几何或代数特性。这些特性可以用于视听语音识别系统音频和其他视觉功能的补充功能。

人类口中的视觉外观拥有很多关于它属于个人的信息。不仅是一个独特的部分,每个人的嘴唇形状也是意味着表达我们的情绪。此外,嘴唇的运动表明如果一个人说话,甚至允许结论正在说什么。本地化的唇边界图像或视频要求。有价值的信息为各种应用程序与人机交互和自动监测在许多商业应用是必需的。

近年来,自动语音识别问题(ASR)涌现,引起研究者的关注[1]- [3]。与噪声的存在在现实世界的情况下,ASR率可能会大幅减少。ASR系统能够提供一个明显的性能只有在一定的环境控制。的灵感lips-reading能力受损的社会和限制的噪音健壮的技术,视听语音识别(AVSR)已成为研究趋势和快速增长[4]。

ASM部分前,需要一系列的步骤,以获得更多的信息在图像。有三个步骤:

a。在人脸检测步骤中,面对地区检测到图像坐标系和本地化。

b。在每一帧,一只眼睛探测器执行发现眼睛的位置。

c。一个小的一部分脸框架只包含的嘴,用眼睛位置作为指标口的位置。这个mouth-frame的(ROI)。

在本文中,我们提出一个有效的方法提取嘴唇轮廓。嘴唇形状表示为一组具有里程碑意义的点和唇形变建模统计变形模型ASM。在传统的ASM,每个里程碑点独立转移到最佳匹配点本地剖面模型,因此难以置信的嘴唇形状变形,可能导致许多错误定位正确的嘴唇轮廓。

言语知觉在本质上是多模式的,也就是说,它包含来自多个感觉形态的信息。随着人机交互技术的发展,唇读技术在多模技术领域已成为一个焦点话题。然而,检测和定位的唇准确是非常困难的,因为嘴唇轮廓不同的人,不同的亮度条件下,头部动作和其他因素。基于检测和定位的方法唇我们提出的方法是基于嘴唇颜色提取嘴唇轮廓使用面部图像的自适应彩色滤光片。

对光照不敏感,但适当的彩色唇过滤器是通过分析整个面部的颜色和聚类统计的嘴唇的颜色。提出可以化合的方法预处理的脸图像包括旋转的角度和提高图像对比本文和嘴唇区域分析为肤色和嘴唇的颜色聚类特征,得到自适应彩色滤光片可突出嘴唇的面部图像。该方法克服了各种各样的照射,倾斜的脸。实验表明,它增强了检测和位置准确地通过粗略的检测嘴唇区域。它提取嘴唇特性奠定了良好的基础和跟踪嘴唇随后。嘴唇轮廓检测然后进行孤立的嘴唇区域使用水平集演化图像分割技术。该方法被应用于一个数据库有180前视图面临来自不同地区的男性和女性的形象。实验结果表明,该方法可以检测嘴唇轮廓面对现实世界图像的最大的成功率为85%。

审查工作

最近,越来越要求有一个系统来跟踪和定位人类唇[1,2]。人类唇更多的信息比其他特性,所以嘴唇信息可用于图像编码[2]。提高语音识别的性能,使用唇信息一起声信号(3、4)。也适用于图形动画的信息系统,它需要生成的嘴唇形状扬声器(2、4)。基于梯度的边缘检测技术(5、6)嘴唇经常失败由于穷人对比嘴唇和周围皮肤区域。方法使用颜色信息来建立一个嘴唇轮廓参数变形模型,这些需要优化技术改进的估计人类唇轮廓模型[7,8]。许多论文所描述的活动轮廓模型的应用(蛇)唇边界检测(9、10)。蛇方法能够解决好轮廓细节,但形状约束很难整合。

各种唇定位方法在文献中被描述在过去的15年。流行的方法基于颜色和强度的阈值分割的嘴唇从脸部其他部位(11、12、13、14)。通常的嘴唇然后找到合适的形状模型分段嘴部周围,许多技术研究。另一个流行的方法是使用蛇结合嘴角落特征检测[6、7]。同时,形状模板已经使用以本地化唇轮廓[8]。另一种方法是分类的区域在一个图像水平和垂直强度资料,有特殊考虑不同铸件的口腔阴影区域[9]。

有几个出版物,特别关注实时唇跟踪。正如上面提到的,他们经常使用相同的方法也许简化和加速变异。例如(10、11、12)使用相同的颜色分割方法如上所述。基于颜色分割方法往往缺乏鲁棒性变化的照明和扬声器,但特别是面部毛发。提出一个有趣的解决方案,这是Petajan et al。[13],在鼻孔的开口被用来确定估计的近似口位置和面部毛发。杨等人提出的一个更简单的方法是,只寻找六个特征点特征的唇角特性[14]。在最近的一篇论文张成泽等人提出的使用高斯混合模型(GMM)作为替代GLDM [12]。虽然整体检测质量仅略有提高,内唇轮廓的位置被这意味着显著提高。

嘴唇特征提取或唇跟踪、复杂化与人脸检测遇到的同样的问题,如变异人,灯光变化,等。然而,嘴唇特征提取往往是更敏感的不利条件。一个小胡子,例如,可以很容易地困惑的上唇。牙齿、舌头和嘴唇之间缺乏形成了鲜明对比,脸可以进一步复杂化的嘴唇特征提取。

最近的技术使用知识的嘴唇的颜色或形状识别和跟踪的嘴唇。事实上,颜色分化是一种有效的嘴唇定位技术。[5]的一项研究表明,在色相饱和度值的颜色空间中,色相组件提供了高度的歧视。因此,可以发现嘴唇孤立嘴唇颜色相同的连接区域。显然,颜色识别技术将不适合灰度图像。技术,用嘴唇的形状信息包括活动轮廓模型[13],形状模型[14],[8]和主动外观模型。不幸的是,这些技术还需要大量的存储空间,从硬件的角度没有吸引力。在第四节中,我们提出一个嘴唇特征提取技术,这使得使用对比的嘴唇的轮廓。这种技术适用于灰度图像,可以很容易地在硬件上实现。

拟议的嘴唇特征提取技术使用的嘴唇和面部之间的对比来定位四个嘴角。四个角的位置依次给出了一个估计嘴的高度和宽度。注意,左和右嘴角的对比是最高的。左边的角落口位于通过搜索从搜索区域的最左边的列向中间。在每一列中,我们把最高的像素的对比,比较其与一个阈值。

如果大于阈值的对比,像素被认为是左边的角落,我们停止搜索。如果没有,我们继续下一个列。阈值可以站得住脚的参数来弥补不同的照明条件。右边角落位于以类似的方式,导致了两个点。定位的嘴唇,该技术的边缘痕迹的嘴,嘴的左侧角落开始,遵循最高的邻近点的对比。搜索终止之间的中途左和右嘴角。

底部的嘴唇中可以找到类似的方式。的一个例子显示了搜索路径追踪algorithm1后,产生的点表示的宽度和高度的嘴唇如图1所示。它显示感兴趣的地区。注意,嘴唇的顶部显示落在外面的上唇和底部的嘴唇落在下唇的内部表示。这也不影响其他系统的能力利用嘴唇运动提供的信息只是嘴唇的运动是重要的,没有嘴唇的绝对位置。

我们发现这种技术更有效的脸比20×20像素。我们发现,面对必须至少80×80像素的技术工作。因此,硬件实现检测面临使用20×20搜索窗口,但上执行嘴唇运动提取面临至少80×80像素。

该方法

相对较大的唇读算法是基于唇轮廓分析。不同作者不同的程序试图解决一个好的嘴唇轮廓的提取在最初的框架。当然,我们的目标是解决这个任务自动;方法提出图像分割和边缘检测等。这些方法概要文件图片和工作很好也在演讲者的额照片穿口红或反光标记。然而,在额图片没有任何标记的嘴唇,不幸的是上述技术失败;和这些图片是最用于语音阅读。自动提取嘴唇轮廓的问题变得更加困难的在灰度图像、彩色信息区分嘴唇和皮肤不再存在。通常这些图像对比度很低,所以提出分割和边缘检测算法无法提供良好的结果。

第一个任务就是定位感兴趣的区域(ROI)。这将通过手动标记可能最近的点在左,右,上下嘴唇的地区以这样一种方式,以便组成提到的点作为边缘点的矩形的面积包含脸唇所在。图2显示嘴唇形状模型和强度。

正确的外唇轮廓提取,下列条件必须假定:

手动选择点应该躺在但非常接近唇的边界地区。

b . .两个相邻的点之间的距离应该保持几乎相同。

c . .选择手动点的总数应该几乎相同的上部和下部以及左和右唇的一部分。

d。应该明显的脊线轮廓。

算法1

步骤1。水平扫描的图像数组从最左边的像素像素从第一行到最后一行。

步骤2。把第一个像素强度值作为参考价值。

步骤3。比较后来的像素强度与参考价值。如果该值是一样的继续下一个像素。

步骤4。如果该值不同,变化的价值的参考价值和马克像素黑像素强度值。

第5步。如果最后一行和列的像素没有达到,那么转到步骤3

算法2

步骤1。扫描图像右侧的图像定位最右边的像素的唇。

步骤2。画一条垂直线沿着这像素从上到下。

步骤3。画一条水平线平行于顶边穿过右边的右边的像素垂直线左侧底线。

步骤4。扫描图从右到左边缘,得到矩形,从第一行。

第5步。获得一个黑色像素显示优势路径,路径通过考虑所有遍历像素周围的像素在顺时针方向优先考虑像素最高的优先级。

步骤6。包围了边缘像素的像素,但较低的优先级存储在一个回溯堆栈使用只有在遍历过程达到一个死胡同。

步骤7。如果一个死胡同,流行从堆栈回溯一个较小的优先级的像素并继续遍历过程。

步骤8。将像素遍历存储在绘制列表后用于绘图的边界。

第9步。遍历继续下一个像素,直到它到达左基线或底部的矩形。

第10步。如果到达底部的矩形路径被丢弃,情节列表删除并继续从第五。

其他的路径绘制列表所示绘制另一个图像显示优势

结论

用于测试的性能提出了嘴唇轮廓提取算法,我们用嘴图像从语音阅读的两个最常用的数据库实验:Tulips1[11]和M2VTS [12]。评价结果的质量是视觉上完成的。在本文中,我们提出一个方法提取嘴唇轮廓。该方法测试许多形状各异的样品,结果表明,提取正确的嘴唇形状没有提取传统的ASM。可以获得更好的性能,定义了更多全球嘴唇形状的信息。

引用

彼得·希尔曼和约翰•保罗•郭汉娜,“基于模型的改进的嘴唇和跟踪多媒体和编码”,国际会议上视觉信息工程会议,格拉斯哥,英国251 - 258年,2005页。
穆罕默德·Sadeghi约瑟夫难应付的Kieron梅塞尔集团,“分割的唇唇像素跟踪初始化”,图像处理国际会议上,ICIP, IEEE,希腊,2001。
Alex Waibel Rainer Stiefelhagen杰,“基于模型的视线跟踪系统”,Proc. IEEE国际情报和系统联合座谈会,页304 - 310,马里兰州罗克维尔市,1996年。
pierre - yves Coulon爱丽丝Caplier尼古拉•Eveno“准确和这种半自动化唇跟踪”,IEEE反式。电路系统。视频技术,14卷,不。5,706 - 715年,2004页。
洗鼻,g . Potamianos j . Luettin h . Glotin。马修斯和d . Vergyri词汇量视听语音识别:约翰霍普金斯大学2000年夏季研讨会的总结,Proc。作品。多媒体信号处理。(MMSP),页619 - 624,法国,2001年戛纳。
g . Potamianos洗鼻,肉汁,a Garg和托高级,最新进展在视听语言的自动识别,邀请,IEEE学报》,91卷,没有。9日,第1326 - 1306页,2003年。
Ara V。Nefian梁断面,刘晓波π,Xiaoxing Liu和凯文·墨菲,动态贝叶斯网络视听语音识别,Eurasip杂志在2002年应用信号处理,2002卷,问题1,pp1274 - 1288
特伦特W。刘易斯和大卫分子量权力,视听语音识别使用红色的排斥和神经网络,杂志》上的研究,进行。在信息。科技,Vol.35第一,2003年,pp41 - 63。
j . r . Movellan。“视觉语音识别与随机网络,”神经信息处理系统的进步,(g . Tesauro d . Toruetzky, t·利恩,Eds),第七卷,麻省理工学院体育及运动科学系,剑桥,马,1995年
鸽子和l . Vandendorpe。“M2VTS multimodal面对数据库”,在计算机科学的课堂讲稿:音频,视频——基于生物识别人的身份验证(j . Bigun c . Chollet和g . Borgefors Eds),卷。1206年,第409 - 403页,1997年
罗伯特•Kaucic巴尼道尔顿,安德鲁·布莱克视听语音识别应用程序实时唇跟踪,Proc, 4欧元。Conf. Comp。粘度,卷2,pp376 - 387,斯普林格出版社,1996年版。
XiaoZheng,查尔斯·c·博朗拉塞尔·m·Mersereau和马克·a·克莱门茨,自动视话法应用程序人机接口,Eurasip应用信号处理杂志,2002卷,问题11,页1228 - 1247。