关键字 |
自动图像标注,特征向量,特征矩阵,COREL 5K,精度和召回率。 |
介绍 |
图像自动标注是图像检索领域的一个具有挑战性的问题。它可以用于促进大型图像数据库中的语义搜索。然而,现有标注方案的检索性能与用户相差甚远。期望。多年来,自动图像注释一直是计算机视觉和模式识别领域一个活跃且具有挑战性的研究课题,已经提出了几种技术[10,11,12,13,14,15,16,17,18,19]。自动图像注释对于使现有的基于文本的索引和搜索解决方案能够索引大量未标记的数字照片至关重要。通常,图像标注任务包括基于从特定训练数据中学习到的一些模型,为新图像分配一组或多个语义标签。 |
大量的图片搜索引擎主要利用图片周围的文字和图片名称对图片进行索引。但是,这限制了搜索引擎使用给定查询检索语义相关图像的能力。另一方面,尽管目前基于内容的图像检索技术正在取得进展,但它还没有成功地弥合人类概念之间的语义差距,例如,基于关键字的查询,以及从图像中提取的低级视觉特征。因此,迫切需要开发超越这些传统方法或检索模型的新颖有效的范式。 |
在图像检索问题中,给定一个输入图像,算法需要发现相似和相关的图像。对图像进行了注释,以便通过使用添加到图像中的元数据简单地访问它们,以便进行更有效的搜索。如果图像是由文本信息描述的,那么可以使用文本搜索技术来执行图像搜索[20]。许多研究人员提出了各种各样的技术来试图弥合众所周知的语义鸿沟。在[7,21]分割方法中,将图像分割成区域,并找出图像区域与单词之间的关系。分割过程是脆弱和错误的,这使得标注过程不可靠。整体方法[27]是估计图像查询的概率,然后根据它们的概率进行排名。整体方法中不进行分割可以快速提取特征,但图像区域与词之间没有直接对应关系。他们中的许多人意识到另一个问题,即依赖于训练数据集来学习模型b[21]。根据对图像标注的需求,许多研究者对图像标注研究进行了综述。 The graph model based image annotation methods? time complexity and space complexity are always high, and it is difficult to apply it directly in real world image annotation Jiayu [22] has classified image annotation approaches into statistical approaches, vector-space related approaches and classification approaches. Probabilistitic approaches have computational overhead. Classification model performance is superior to probabilistic. However classification approach cannot be extended to unsupervised learning which is inherently supervised. Each model has its own advantages and disadvantages. |
我们的方法包括训练和测试过程,训练部分使用显著性检测技术选择低级特征(例如,特征直方图中的bin)。这些先验改进了模型?S对噪声的鲁棒性。测试部件时,通过从相似图像中转移关键字来自动标注输入图像。 |
相关工作 |
目前基于AIA的图像检索技术主要分为两类:概率建模方法和分类方法。概率建模方法和分类方法。概率建模方法旨在建立关联模型来表示图像与关键词[2]之间的关联或联合概率分布。[1]提出将图像标注作为一个机器翻译的过程。他们提出了一种基于统计学的翻译模型(TM)。他们用这种方法将视觉词汇翻译成关键词。另一种典型的方法是潜狄利克雷分配模型[3]。然而,在上述两个模型中,概率分布可能不能反映实际分布。参数估计的过程也是复杂和昂贵的。[4]提出了跨媒体关联模型(Cross Media Relevance Model, CMRM),将每幅图像的视觉信息表示为blob集合,以体现图像的语义信息。 However, blob set in CMRM was erected based on discrete region clustering which produced a loss of vision features so that the annotation results were too perfect. In order to compensate for this problem, a Continuous-space Relevance Model (CRM) was proposed in [5]. Furthermore, in [6]Multiple-Bernoulli Relevance Model was proposed to improve CMRM and CRM. These methods employ a nonparametric method to estimate a Gaussian distribution. Compared with other discrete models, these methods can evidently improve annotation accuracy. Tianxia Gong, Shimiao Li, Chew Lim Tan[7]roposed a framework of using language models to represent the word-to-word relation utilizing probabilistic models. |
另一方面,判别模型根据每个标签的视觉特征训练一个单独的分类器。这些分类器用于预测测试图像样本[8],[9]的特定标签。类似地,我们也可以训练一个回归模型(回归系数)来预测测试图像的标签,将特征作为预测因子(输入变量),将标签作为响应(输出标签)。在图像标注和检索中,支持向量机是一种应用广泛的机器学习方法。支持向量机可以生成一个超平面来分离两个数据集的特征,具有很好的泛化性 |
全局特征提取 |
全局特征表示技术在图像处理和基于内容的图像检索中得到了广泛的研究。与基于局部特征的方法相比,全局特征由于其紧凑的表示形式,在计算和存储方面具有很高的效率。在过去的十年里,人们提出了各种各样的全局特征提取技术。本文采用残差谱法提取特征。 |
人眼在感知上对某些颜色和强度更敏感,具有这些特征的物体被认为更突出。显著区域是图像中最重要的点,它比图像的其他部分更能引起视觉系统的注意。这些区域在图像上与其他区域相比具有明显的特征。如。北极熊在黑色的岩石上很显眼,但在雪地里几乎看不见。 |
最近,出现了几种基于计算和数学思想的显著性方法,通常不太具有生物动机。这些方法包括计算熵[23],以确定区分目标和零假设的最佳特征,以及使用机器学习技术学习最佳特征组合。 |
在[24]中提出了显著性检测光谱残差的方法。谱残差是原始对数谱与其均值滤波后的谱差。通过对谱残差进行傅里叶反变换得到显著性映射。我们计算了色彩空间RGB的显著性区域的颜色直方图。 |
提出了框架 |
一个训练集S由N个图像和N个特征向量组成。n个特征向量组成一个特征矩阵和一对相似和不相似的图像(L)。本文的主要目的是研究图像标注任务中的特征选择属性。这种图像对设置帮助我们创建一个包含相同特征组的特征矩阵。因此,我们可以直接在同一框架内对该矩阵进行特征分析。 |
利用特征矩阵和L计算每个特征向量的权值,这是训练阶段的最后一步。权重向量用于寻找关键字与图像的相关性。为了在测试阶段对图像进行正确的标注,需要进行充分的训练。 |
将输入图像的特征向量与训练图像的特征矩阵进行比较。根据所计算的权重,从L中找出最相似的图像。将L中的关键字分配给作为注释的测试图像。 |
A.权向量计算 |
其中,利用SR法得到的特征矩阵和相似和不相似图像对集合计算每个特征向量的权值。在这种情况下,我们认为任何一对具有足够关键字的图像都是正训练样本,任何一对没有共同关键字的图像都是负训练样本。在这项工作中,我们从Corel5K数据集的指定训练集中获得训练样本。至少有四个共同关键词的图像对作为正样本进行训练,没有共同关键词的图像对作为负样本[25]进行训练。 |
加权最小二乘是一种有效的方法,可以很好地利用小数据集。在这个回归问题中,最常用的用于计算w的损失函数是最小二乘估计,它也被称为残差平方和的最小化器,给出为 |
|
该权重用于图像标注任务的测试阶段。 |
实验结果 |
A. corel绘制数据集 |
图片集包含5000张图片,每张图片都标注了3到4个关键字。数据集中有374个不同的单词。取整个数据集进行训练。对测试图像首先计算测试图像的特征向量。然后与特征矩阵进行比较,得到相似度向量。然后应用权重向量找出5个最相似的图像对,将这些图像对的关键词通过排序转移到测试图像中。 |
B绩效评估 |
在大多数文献中,标注系统的性能是通过精确率和召回率来计算的。对标注系统中每个单词的准确率和召回率进行评估,并将所有单词的平均值视为系统的性能。因此, |
|
对于只使用单一值的系统进行比较,F-score是一个不错的选择。 |
|
拍摄了10张图片用于测试。其F分的平均值由上述公式计算。 |
结论及未来工作 |
本文提出了一种图像自动标注的框架和算法。我们采用整体方法和显著性检测技术,并将所得结果与文献中其他研究结果进行比较。 |
与现有的方法相比,该方法在图像标注任务中表现出更高的性能。在未来,我们将添加纹理特征和颜色特征,以获得更好的结果,并与仅使用颜色特征进行比较。 |
数字一览 |
|
参考文献
- Duygulu, P., Barnard, K., Freitas, J., Forsyth, D.A.,对象识别作为机器翻译:学习固定图像词汇的词汇。参见:第七届欧洲计算机视觉会议论文集(ECCV?02),哥本哈根,丹麦,第97-112页。
- 朱,S.,刘,Y..”基于半监督学习模型的高效图像标注。2009,IEEE信号处理。快报16(11),989-992。
- Blei, d.m., Jordan, m.i.《建模注释数据》。见:第26届国际ACM信息检索研究与发展会议论文集(SIGIR?03),加拿大多伦多,第127-134页
- 李建军,张建军,张建军,“基于多媒介关联模型的图像自动标注与检索”。In:法官。信息检索的研究与发展(ACM SIGIR?03),北京,2003:119-126。
- 张建军,张建军,张建军。一种图像语义学习模型[j]。见:《神经信息处理系统进展》,2003。
- 冯s, ManmathaR,Lavrenko V.,“图像和视频标注的多重伯努利相关模型”。In: Proc. of IEEE Int。计算机视觉与模式识别(CVPR?04),美国,2004年6月:1002-1009。
- 龚天霞,李世淼,陈周林,“基于语义相似度的图像自动标注”,第22届国际人工智能工具学术会议,2010
- D. Grangier和S. Bengio,“基于判别核的文本查询图像排序方法”,IEEE反式。模式肛门。马赫。智能。,第30卷,第3期。8,第1371-1384页,2008年8月。
- Y. Chen, J. Wang和D. german,“基于区域学习和推理的图像分类”,j·马赫。学习。Res。,第五卷,第913-939页,2004年12月。
- 龚天霞,李世淼,陈周林,“基于语义相似度的图像自动标注”,第22届国际人工智能工具学术会议,2010
- Rami albatal, Philippe mulhem, Yueschiaramella,“一种用于自动图像标注的ROI分组模式”
- [J]刘静,李明静,刘清山,马松德,“基于图学习的图像标注”,模式识别,42 (2009):218 - 228
- Yunhee Shin, young grae Kim, Eun Yi Kim,“通过视觉特征预测情感概念的自动纺织品图像注释”。图像与图像计算28 (2010)
- Y. Alp Aslandogan和Clement T. Yu,高级会员,IEEE,图像和视频检索技术与系统VOL. 11, NO. 1。1999年1月/ 2月
- 叶磊,王建强,Philip Ogunbona,“基于视觉特征的图像内容标注”,第八届IEEE多媒体国际研讨会论文集(ISM' 2006)。
- 何东健,郑宇,潘世瑞,唐静蕾,“基于多描述符的图像自动标注”,2010年第3届图像与信号处理国际学术会议
- Y Hamid ansari, Mansour Jamzad,“基于原型模型的大规模图像注释”,第七届图像和信号处理与分析国际研讨会(ISPA 2011), 2011年9月4-6日,克罗地亚杜布罗夫尼克。
- GolnazAbdollahian, Murat Birinci†,Fernando Diaz-de-Maria‡,MoncefGabbouj†,Edward J. Delp,“一种基于区域的图像匹配方法用于图像和视频标注”,2011 IEEE
- 雷银杰王威尔逊刘伟“基于视觉分类器集成和术语提取的图像自动标注”,2011
- [王华,黄恒,丁克里斯,“基于双关系图和语义标签的图像标注”,第126-139页,2011。
- 李然,张亚飞,陆子宁,陆建江,田玉龙,“基于多标签图像标注的图像检索技术”,2010第二届多媒体与信息技术国际学术会议
- 贾宇,“自动图像标注和目标检测”,博士论文,英国南安普顿大学,2008年5月。
- T. Kadir, A. Zisserman和M. Brady。一个仿射不变显著区域检测器。《中华医学会学报》,2004
- 侯小弟,张丽清,“显著性检测:一种光谱残差方法”
- Ameesh Makadia1, Vladimir Pavlovic2和Sanjiv Kumar《图像标注的新基线》
- 蔡峰、洪春春,“基于关键词的图像自动标注系统综述”,《计算机科学》vol . 1,pp55-68, 2008年1月
|