基于框架组的图像检索和视频注释

诉达博士^{* 1}和K。泰米尔Selvi²

教授,计算机科学系Avinashilingam家科学研究所和高等教育。印度哥印拜陀。
研究学者,计算机科学系Avinashilingam家科学研究所和高等教育的女性。印度哥印拜陀。

通讯作者:诉达博士电子邮件:radhasrimail@gmail.com

文摘

在本研究两个自动视频标注技术被认为是。第一个技术使用本体来减少语义鸿沟在视频检索和其他执行一组基于图像检索使用视频文件。该算法使用GIR算法创建类似的图像组。从这个精致的图片,筛选特征提取和使用的步骤ASVA算法执行注释视频语义的方式。基于语义的自动视频注释算法执行注释三个步骤。第一步计算视频相似使用筛选功能,句子和同义词分析执行注释在第二找到类似的含义,最后分析了句子的结合增加每个注释使用概念的确定性。

关键字

本体、视频注释组图像检索的基础上,小波的特性,挖土机的距离。

介绍

由于技术进步在硬件和软件,图像和视频内容的用量以惊人的方式越来越多。不同的应用程序(如视频点播,计算机辅助教育光盘除了电影,广告大量使用视频。在当今的数字环境中,使用视频在许多应用程序中,从简单的演示文稿到复杂的视频点播,娱乐为计算机辅助教程教学援助。目前,万维网(WWW)富含巨大的视频数据库。例如,截至2008年8月,YouTube已经超过1.44亿个视频[12]今天在多倍的增长。虽然视频数据库在WWW的数量增加,有效地利用这些视频文件的能力是有限的,因为存在的语义gapwhich低级视觉特征之间的差异和人类的知觉。有效地处理语义鸿沟的问题之一是使用标签的数字数据。这些标签被称为注释的,用来表示对象相关的视频文件,被称为视频注释。

视频注释被认为是一个至关重要的任务来提高搜索流程和提供快速访问视频文件在巨大的数据库中。目前,搜索引擎像谷歌,雅虎和MSN使用基于文本的搜索与视频文件不是很有效。关键词需要语义知识检索视频的视频。自动化这个过程的主要动机是由于手工标记的视频数据不仅消耗大量的劳动和时间,也受到人类的错误。与日益增长的使用视频,视频注释的重要性,一些研究人员导致的问题自动视频注释(μ,2010)在各方面。现有提出的解决方案可分为两类,即基于图像特征或本体(语义)算法。尽管各种方案,缺乏令人满意的从原始视频中提取信息的技术和研究人员寻求替代方案实现同样的目标支持索引和查询的内容。本文提出了一种增强方法,结合基于图像特征和语义算法对视频进行注释。

[2]提出了一种基于语义的方法对视频注释,目的是弥补语义鸿沟。收到一个新的视频输入注释,这个框架使用一个pre-annotated视频数据集识别类似的视频。匹配的注释是那么这个新的视频语义分析和最好的描述了使用常识知识库。常识这个词被称为识别信息和事实将被普通人。利用这些结果,新的视频注释。这个系统,称为ASVA(自动语义视频注释)。

ASVA算法比较所有的占主导地位的移动对象在所有对象的输入视频帧与帧中每个视频的pre-annotated数据集使用低水平特性称为筛选(尺度不变特征变换)。在拟议的方法中,基于一组图像检索方法[21]使用后的第一个具有类似移动物体识别视频语义和概念基础步骤可以用于注释的视频。提出的技术Murabayashi et al .(2008)摘要称为GIR系统是用于此目的。提出的模型称为GIRVA。为此,小波的特性和使用k - means聚类。这种变化在ASVA可以提高精度和召回,同时减少产生的大量特征空间在使用筛选功能。减少特征空间导致更少的计算,从而提高了算法的速度。

剩下的纸是组织如下。简短的文学研究提供了在第二节和第三节中描述一般视频注释系统,后跟一个步骤的详细说明该注释算法在第四节。实验结果在测试TRECVID 2005年BBC冲数据集提出和第五节中讨论。工作在第六节得出结论与未来研究方向。

文学研究

视频注释已经广泛使用在许多领域包括教育和媒体研究。一些实时视频注释工具。例子包括字幕、音频笔记本[27],僵局[6],[3]R帧,MSR视频挡热[17],分层视频放大镜[20],Jabber [16], VoiceGraph(23、26)媒体流[7]和女主角[19]。所有这些工具都需要的帮助用户注释和已被证明是有效地工作。然而,正如之前表示,人工注释有严重缺点像劳动密集型,耗费时间和高人为错误。建议执行自动注释也被探索。奥维德(面向对象的视频信息数据库[24]自动识别有意义的场景在视频基于区间包含使用继承关系和广义层次模型以及特定的查询叫做VideoSQL标注和检索视频的设备。同样,[30]提出了一种视频概念模型,旨在满足数字视频管理的所有方面。VideoSTAR(视频存储和检索,[11]是一个数据库系统发达的挪威理工学院。它提出了一个全面的概念模型设计来处理媒体文件,虚拟视频文件,视频结构和contentbased注释; and parts of it have been implemented.

AVIS(先进的视频信息系统)是一个视频数据库方法关注[1]提出的查询处理。这是一个正式的视频数据库的模型,以及索引结构和算法的查询和更新。蔬菜[11]是一个应用程序与都柏林核心元数据来描述视频,发达国家图书馆和昆士兰大学,澳大利亚。其目的主要是使快速、简单,具有成本效益的一代的标准元数据,可以用来创建在线详细的视觉的视频摘要。1997年,另一个视频注释引擎叶片[4]提出的是波士顿大学开发的。半自动生产的元数据,这是一个工具被设计成尽可能开放多个领域特定应用程序。在2003年晚些时候,一个商业产品称为定性媒体分析仪(QMA)开发注释的视频访谈和媒体文件通过创建分数和独立变量。观察者[22]QMA的竞争对手,是另一种商业产品由Noldus信息技术。基本脉冲电平视频[8]是一个视频数据库系统开发的肯特大学在安卡拉,土耳其。其主要贡献是先进的、基于规则的时空造型和查询功能和更传统的时态语义标注。视讯本文模型[15]视频数据模型是基于逻辑的概念与任意视频片段和自由文本视频注释之间的映射。

所有上述模型,语义expressivescale,最终在弱侧的结构化数据值。近期解决方案专注于提出解决方案来加强这个弱点,包括本体、机器学习和遗传算法。例子包括[14],[31]和[5]的延续与这些研究,本文利用语义和图像特征对视频文件进行注释。

基于视频注释

提出了一种通用视频注释系统如图1所示,由三个主要步骤,即分割、语义注释器和描述符。第一步,视频分割,减少视频序列分解成更小的单位。这些较小的视频语义分析来调节分配相关的视频内容描述和分数反映了部分对这些描述的重要性。最后,结合这些描述输入视频输出结果带注释的视频。因此,任何视频注释算法的主要目的是对每个视频的语义内容进行分类单位,分配相应的相关性分数和输出描述文件。

方法

本文提出的视频注释方法是通过一系列步骤执行,即视频分割、相似度计算、分析和注释。不同的算法存在的这些步骤。这些算法在这一节中解释,如图2所示。GIRVA(组织图像检索和视频注释)系统解决两个主要问题。首先是选择的视觉特性,可以有效地让知识视频内容,二是技术,可以用来表示这些功能注释格式。这两个细节处理在三个步骤。

视频相似性的计算:

视频内容之间的相似性是在四个步骤执行。第一步执行运动分割使用Daubechies 4 (D4)小波变换[29]作为他们更健壮的退化比筛选视频。视频帧最初分为4 x 4块。然后D4转换应用导致四次能带,噢,HL、LH和HH。使用空间频率分辨率的大小,使用系数的绝对值和特征向量作为创建下面。

在下一步中,功能空间之间的距离计算使用EMD方法[25]之间相同的块。运用EMD后输出加权陪同到顶部的文本条目列表相似匹配的视频。

句子分析:

这一步的目的是找到类似的注释不考虑不同的名字意义相同或相似的对象,用于描述一个事件或操作方法,不同的拼写版本。一步一个句子分为对象、事件和位置三联体使用斯坦福NLP对数线性词性薄铁片(POS尾随者)。POS尾随者是一种软件工具,读取文本和分配每个单词词性,如名词、动词和形容词。这些标签指示哪些部分是对象,它的主题是语言术语和事件,也就是说,动词及其相关介词和位置,如果存在。从这个分析生成三个分开列出。对象和地点列表视为WordNet[9]的名词,当进入列表和事件列表被认为是一个动词列表。A¢AisAA¢WordNet关系,选择使同义词,因为它给了平等和少量的抽象意义。每个列表,另外,这种关系扩展然后交叉使用。过程是由获得的同义词,每一项匹配它的词性(即名词在名词和位置的物品列表,和动词事件的列表)。这个分配一个合适的重量Swfor每个同义词,计算基于最初的词体重Wwand untrust减少常数Cd,可以制定使用方程(5)。

Sw = Wwx Cd (5)

减少常数Cdholds值在0和1之间,给更少的重量比原来的同义词词。高价值的Cd(超过0.8),表明相似强度的同义词和原词。这将导致增加了假警报,因此,平均0.5选择的价值。匹配单词分组增加信任和结果列表是标准化的。这一步的输出是三个排序的列表,其中包含加权每个条目的一部分场景元素(对象、事件和位置)。

语义注释:

ASVA算法的最后一步检查可能的连接词的句子的部分在现实约束下,分配更多的确定性更高的潜在行为在日常生活中。这一步,ConceptNet[18]一些适应后使用。ConceptNet由大量的概念节点;每一个概念都是semi-sentence或一个短语。WordNet又一个¢isAA¢关系利用和一个完整的对象之间的交叉操作应用的列表和事件列表使用这种关系。交叉使用方程6重量计算。然后对象之间相同的操作列表和地点的列表是重复使用一个¢locationAtA¢关系。

Tw = Nwx Vwx Rs (6)

双胞胎的句子重量,Nwand Vware名词和动词短语权重分别和Ris分数的关系。每个ConceptNet节点分析获取核心短语匹配它的类型。最后,剩下的节点被删除,如果它不保存一个完整的意义或另一个节点创建适合这个意思。这个任务执行使用下面的步骤:

。每个节点的话语标记使用斯坦福前面提到的薄铁片[10]然后删除无用的部分句子在视觉领域。这些部件从一些介词和停止词常用的形容词和副词,都包含在一个手动写表。例如,一个¢fastA¢是视觉上有用的形容词,因为它拥有意义与运动有关,但一个¢betterA¢不是。b。分裂操作应用于一些复杂的节点划分为零件导致新关系的建立

分析节点之间实现更有效的比较和导致候选人注释部分,这对阻止执行比较操作水平。这是通过阻止所有的每个条目的话说,即获得这个词的根源,那么结果是单词按字母顺序进行排序。这将导致节点包含相同的单词,但在不同的格式类似。

实验结果

评估从2005年TRECVID systemsvideos BBC冲[28]。TRECVID 2005是一组标准的数据库信息检索。这个数据集包含335单发包含各种类型的视频剪辑移动车辆像汽车、坦克、飞机和船只。这些具有挑战性的不受控制的视频包含相当大范围的变化大小,外观和形状、角度和运动的对象。也都未知的可能性相机质量和运动,像移动和缩放,存在。框架目前个人视频镜头,但它可以很容易地延长插入镜头边界检测层。一些示例数据集的框架如图3所示。

确定的性能模型,进行了几个实验。所有的实验使用奔腾IV机和4 gb RAM。绩效评估是积极为现有和拟议的系统。四个性能指标,即,平均精度,平均召回,平均Fmeasure和速度选择在评估。计算精度,召回和F测量使用方程7,8和9。

图4显示了中华民国图使用的平均召回和精度在使用ASVA并提出GIRVA注释所有数据库的视频。每一次,一个视频作为一个测试和数据库中的所有其他文件视为pre-annotated数据库。相似性评估了比较正确的相似检索文件对所有类似的文件和增强评估通过比较正确检索注释所有可能正确的注释输入视频。的结果,很明显,该方法增强了注释过程的精度和召回。

分析pre-annotated数据集的有效性,Fmeasure使用参数和结果F-measure当使用不同数量的最高排名文件呈现在图5的结果可以看出,该GIRVA算法执行比ASVA算法。相似度结果表明,性能降低,当文件数量超过20。这提高了30为GIRVA ASVA 33。这个数字之后的所有三个算法执行以类似的方式。作为框架的目的并不是获取整个更正注释列表,但找到几个代表注释输入视频中,该算法实现改进。

同时考虑三种算法的速度。当面对一个视频文件平均GIR算法用了不到5.91秒,ASVA算法用了不到6.75秒,GIRVA算法带注释的视频文件在8.21秒。额外的时间由该算法由于计算结合GIR和ASVA需要执行一些步骤。但相比是非常小的差异与吉尔和ASVA算法(少于分别为2.3秒和1.4秒),GIRVA算法可以被看作是一个增强版。

从结果可以看到,无论文件数量GIRVA算法的性能优于现有的注释模型即GIR和ASVA精度,召回和速度。实验进一步证明该注释框架可以产生一个小的候选列表注释相比,现有的框架。

结论

摘要提出了一种小波视频语义系统注释。使用小波减少照明提出的假警报。实验结果证明,注释是有效的。结果进一步表明,该算法的性能提高了注释过程的所有参数除了速度。该算法的速度平均提高了1.8秒,由于提取计算所需,同时结合算法。然而,高精度,低错误率表明,该算法是有效的,可以用来注释大型视频数据库。在未来,计划与筛选combinewavelets设想。

引用

Adali, S。,Candan, K.S. , Chen, S.S., Erol, K. and Subrahmanian, V.S. (1996) The Advanced VideoInformation System: Data Structures and Query Processing, Multimedia Systems, Vol.4, No.4, Pp.172–186.
Altadmri a·艾哈迈德,a(2009)自动语义视频注释宽域视频基于相似性和常识知识库,IEEE国际会议在信号和图像处理应用程序中,英国,74 - 79页。
Arman F。,Depommier, R., Hsu, A. and Chiu, M. (1994) Content-Based Browsing of Video Sequences, ACM Multimedia, Pp.97-103
事业,M。,Ligresti, L., Ahanger, G. and Little, T.D.C. (1997) An Annotation Engine for Supporting Video Database Population, Journal of Multimedia Tools and Applications, ACM Digital Library, Vol. 5, No. 3, pp. 233-258.
赵,C.Y.,Lin, P.C. Li, S.Y., Tsai, T.H. Tsai, Y.L. (2012) Tagging Webcast Text in Baseball Videos by Video Segmentation and Text Alignment, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 22 , Issue: 7, Pp. 999 – 1013.
科恩,J。,Withgott, M. and Piernot, P. (1999) Logjam: a tangible multi-person interface for video logging, CHI 99 conference on human factors in computing systems, ACM Press, Pittsburgh, Pennsylvania.
戴维斯m(2003)媒体流:视频注释的标志性的视觉语言,“学报1993年IEEE研讨会的视觉语言,卑尔根,挪威,pp.196 - 202。
Donderler、Saykol E。,Ulusoy, Ö. And Güdükbay, U. (2003) BilVideo: A Video Database Management System, IEEE MultiMedia, Vol. 10, No.1, Pp.66-70.
编辑,c (1998) WordNet:电子词汇数据库。剑桥:麻省理工学院出版社。
集团S.N. (2009) Thestanfordnlp对数线性词性薄铁片,http://nlp.stanford.edu/software/tagger.shtml,访问日期21-07-2012。
Hjelsvold, R。,Langørgen, S., Midtstraum, R. and Sandstå, O. (1995) Integrated Video Archive Tools, ACM Multimedia, Pp.283-293.
http://www.youtube.com
猎人,j .和Newmarch j .(1999)索引浏览、搜索和检索系统为视听图书馆,Abiteboul和a . Vercoustre(主编),数字图书馆研究和先进技术(ECDL) pp.76 - 91。
宋,J.W.,Hong, H.K. and Lee, D.H. (2011) Ontology-based automatic video annotation technique in smart TV environment, IEEE Transactions on Consumer Electronics, Vol. 57 , Issue: 4, Pp. 1830 – 1836
江,H。,Montesi, D. and Elmagarmid, A.K. (1997) VideoText database systems, Proceedings of the 4th IEEE International Conference on Multimedia Computing and Systems, Pp. 334—351.
Kominek j .和Kazman r(2007)通过概念访问多媒体集群、气,Pp.19-26。
李,f . C。,Gupta, A., Sanocki, E., He, L. and Rui, Y. (2000) Browsing digital video, CHI, Pp.169-176.
刘,h·辛格,p (2004) Conceptnet实用常识推理工具,BT技术杂志,22卷,第4期,页211 - 226。
麦凯,w·e·Beaudouin-Lafon, m(2008)天后:探索性数据分析与多媒体流,CHI, pp.416 - 423。
米尔斯,M。,科恩,J。and Wong, Y. Y. (2002) A Magnifier Tool for Video Data, CHI, Pp.93-98.
Murabayashi, N。,Kurahashi, S. and Yoshida, K. (2008) Group-based Image Retrieval Method for Video Annotation, International Symposium on Applications and the Internet, Tokyo, Pp. 126 – 132.
Noldus信息技术(2003)《观察家报》5.0,www.noldus.com/产品/观察者/索引。html,最后访问日期:22-07-2012。
飞船上,d . w .(2007)基于语音的数字图书馆信息检索,从AAAI春季研讨会上指出跨语言文本和语音检索,加利福尼亚的斯坦福大学。
Oomoto,大肠和田中,k(1993)奥维德:视频对象数据库系统的设计和实现,TKDE,第5卷,第四,pp.629 - 643。
Rubner Y。,Tomasi, C. and Guibas, L.J. (2000) The earth mover’s distance as a metric for image retrieval, International Journal of Computer Vision, Vol. 40, No. 2, Pp. 99–121.Saleh, A., Rahman, M., Cha, J. and Saddik, A.E. (2009) Authoring Edutainment Content through Video Annotations and 3D Model Augmentation, International Conference on Virtual Environments, Human-Computer Interfaces and Measurements Systems, China, IEEE Explore, Pp. 1-5.
屠杀,l。飞船上,d . W。,Warnick, V. L., Harding, J. L. and Wilkerson, G. J. (2008) A Graphical Interface for Speech-Based Retrieval, Proceedings of the 3rd ACM International Conferenceon Digital Libraries, Pp.305-306.
Stifelman, L。,Arons, B. and Schmandt, C., (2011) The audio notebook: paper and pen interaction with structured speech, CHI, 2011, Pp.182-189.
Trecvideo检索跟踪http://wwwnlpir.nist.gov/projects/trecvid(2005),最后访问日期21-07-2012。
Wang J.Z.,Wiederhold, G., Firschein, O. and Wei, S.X. (1997) Content-based image indexing and searching using daubechies wavelet, International Journal on Digital Libraries, Vol. 1, No. 4, Pp. 311-328.
维斯,R。,Duda, A. and Gifford, D.K. (1995) Composition and Search with a Video Algebra. IEEE MultiMedia, Vol. 2, No.1, Pp.12–25.
张,t(2012)一个通用框架,通过Semi-Supervised学习视频注释,IEEE多媒体,卷,14日问题:4,1206 - 1219页。