所有提交的电子邮件系统将被重定向到在线稿件提交系统.请作者将文章直接提交给在线稿件提交系统各自期刊的。

“一种基于颜色显著性的自动图像标注方法”

莎莉尼·K.Kharkate1nitin j.j janwe教授2
  1. 钱德拉普尔拉吉夫甘地工程研究与技术学院计算机技术系、印度
  2. 印度钱德拉普尔拉吉夫甘地工程研究与技术学院计算机技术系教授
相关文章Pubmed谷歌学者

浏览更多相关文章国际计算机与通信工程创新研究杂志

摘要

图像标注任务是基于从特定训练数据中学习到的一些模型,为新图像分配一组或多个语义标签。自动为图像分配关键字是非常有趣的,因为它允许索引、检索和理解大量图像数据集合。在过去的十年中,已经提出了许多用于图像标注的技术,这些技术在标准数据集上提供了合理的性能。本文提出了一种通过对比测试图像特征向量与训练数据集特征矩阵以及相似和不相似图像对进行图像标注的算法。采用排序技术,通过计算关键词的局部频率,将相似图像对中的关键词转移到测试图像中。使用精确度和召回率方法对性能进行评估。

关键字

自动图像标注,特征向量,特征矩阵,COREL 5K,精度和召回率。

介绍

图像自动标注是图像检索领域的一个具有挑战性的问题。它可以用于促进大型图像数据库中的语义搜索。然而,现有标注方案的检索性能与用户相差甚远。期望。多年来,自动图像注释一直是计算机视觉和模式识别领域一个活跃且具有挑战性的研究课题,已经提出了几种技术[10,11,12,13,14,15,16,17,18,19]。自动图像注释对于使现有的基于文本的索引和搜索解决方案能够索引大量未标记的数字照片至关重要。通常,图像标注任务包括基于从特定训练数据中学习到的一些模型,为新图像分配一组或多个语义标签。
大量的图片搜索引擎主要利用图片周围的文字和图片名称对图片进行索引。但是,这限制了搜索引擎使用给定查询检索语义相关图像的能力。另一方面,尽管目前基于内容的图像检索技术正在取得进展,但它还没有成功地弥合人类概念之间的语义差距,例如,基于关键字的查询,以及从图像中提取的低级视觉特征。因此,迫切需要开发超越这些传统方法或检索模型的新颖有效的范式。
在图像检索问题中,给定一个输入图像,算法需要发现相似和相关的图像。对图像进行了注释,以便通过使用添加到图像中的元数据简单地访问它们,以便进行更有效的搜索。如果图像是由文本信息描述的,那么可以使用文本搜索技术来执行图像搜索[20]。许多研究人员提出了各种各样的技术来试图弥合众所周知的语义鸿沟。在[7,21]分割方法中,将图像分割成区域,并找出图像区域与单词之间的关系。分割过程是脆弱和错误的,这使得标注过程不可靠。整体方法[27]是估计图像查询的概率,然后根据它们的概率进行排名。整体方法中不进行分割可以快速提取特征,但图像区域与词之间没有直接对应关系。他们中的许多人意识到另一个问题,即依赖于训练数据集来学习模型b[21]。根据对图像标注的需求,许多研究者对图像标注研究进行了综述。 The graph model based image annotation methods? time complexity and space complexity are always high, and it is difficult to apply it directly in real world image annotation Jiayu [22] has classified image annotation approaches into statistical approaches, vector-space related approaches and classification approaches. Probabilistitic approaches have computational overhead. Classification model performance is superior to probabilistic. However classification approach cannot be extended to unsupervised learning which is inherently supervised. Each model has its own advantages and disadvantages.
我们的方法包括训练和测试过程,训练部分使用显著性检测技术选择低级特征(例如,特征直方图中的bin)。这些先验改进了模型?S对噪声的鲁棒性。测试部件时,通过从相似图像中转移关键字来自动标注输入图像。

相关工作

目前基于AIA的图像检索技术主要分为两类:概率建模方法和分类方法。概率建模方法和分类方法。概率建模方法旨在建立关联模型来表示图像与关键词[2]之间的关联或联合概率分布。[1]提出将图像标注作为一个机器翻译的过程。他们提出了一种基于统计学的翻译模型(TM)。他们用这种方法将视觉词汇翻译成关键词。另一种典型的方法是潜狄利克雷分配模型[3]。然而,在上述两个模型中,概率分布可能不能反映实际分布。参数估计的过程也是复杂和昂贵的。[4]提出了跨媒体关联模型(Cross Media Relevance Model, CMRM),将每幅图像的视觉信息表示为blob集合,以体现图像的语义信息。 However, blob set in CMRM was erected based on discrete region clustering which produced a loss of vision features so that the annotation results were too perfect. In order to compensate for this problem, a Continuous-space Relevance Model (CRM) was proposed in [5]. Furthermore, in [6]Multiple-Bernoulli Relevance Model was proposed to improve CMRM and CRM. These methods employ a nonparametric method to estimate a Gaussian distribution. Compared with other discrete models, these methods can evidently improve annotation accuracy. Tianxia Gong, Shimiao Li, Chew Lim Tan[7]roposed a framework of using language models to represent the word-to-word relation utilizing probabilistic models.
另一方面,判别模型根据每个标签的视觉特征训练一个单独的分类器。这些分类器用于预测测试图像样本[8],[9]的特定标签。类似地,我们也可以训练一个回归模型(回归系数)来预测测试图像的标签,将特征作为预测因子(输入变量),将标签作为响应(输出标签)。在图像标注和检索中,支持向量机是一种应用广泛的机器学习方法。支持向量机可以生成一个超平面来分离两个数据集的特征,具有很好的泛化性
全局特征提取
全局特征表示技术在图像处理和基于内容的图像检索中得到了广泛的研究。与基于局部特征的方法相比,全局特征由于其紧凑的表示形式,在计算和存储方面具有很高的效率。在过去的十年里,人们提出了各种各样的全局特征提取技术。本文采用残差谱法提取特征。
人眼在感知上对某些颜色和强度更敏感,具有这些特征的物体被认为更突出。显著区域是图像中最重要的点,它比图像的其他部分更能引起视觉系统的注意。这些区域在图像上与其他区域相比具有明显的特征。如。北极熊在黑色的岩石上很显眼,但在雪地里几乎看不见。
最近,出现了几种基于计算和数学思想的显著性方法,通常不太具有生物动机。这些方法包括计算熵[23],以确定区分目标和零假设的最佳特征,以及使用机器学习技术学习最佳特征组合。
在[24]中提出了显著性检测光谱残差的方法。谱残差是原始对数谱与其均值滤波后的谱差。通过对谱残差进行傅里叶反变换得到显著性映射。我们计算了色彩空间RGB的显著性区域的颜色直方图。

提出了框架

一个训练集S由N个图像和N个特征向量组成。n个特征向量组成一个特征矩阵和一对相似和不相似的图像(L)。本文的主要目的是研究图像标注任务中的特征选择属性。这种图像对设置帮助我们创建一个包含相同特征组的特征矩阵。因此,我们可以直接在同一框架内对该矩阵进行特征分析。
利用特征矩阵和L计算每个特征向量的权值,这是训练阶段的最后一步。权重向量用于寻找关键字与图像的相关性。为了在测试阶段对图像进行正确的标注,需要进行充分的训练。
将输入图像的特征向量与训练图像的特征矩阵进行比较。根据所计算的权重,从L中找出最相似的图像。将L中的关键字分配给作为注释的测试图像。
A.权向量计算
其中,利用SR法得到的特征矩阵和相似和不相似图像对集合计算每个特征向量的权值。在这种情况下,我们认为任何一对具有足够关键字的图像都是正训练样本,任何一对没有共同关键字的图像都是负训练样本。在这项工作中,我们从Corel5K数据集的指定训练集中获得训练样本。至少有四个共同关键词的图像对作为正样本进行训练,没有共同关键词的图像对作为负样本[25]进行训练。
加权最小二乘是一种有效的方法,可以很好地利用小数据集。在这个回归问题中,最常用的用于计算w的损失函数是最小二乘估计,它也被称为残差平方和的最小化器,给出为
图像
该权重用于图像标注任务的测试阶段。

实验结果

A. corel绘制数据集
图片集包含5000张图片,每张图片都标注了3到4个关键字。数据集中有374个不同的单词。取整个数据集进行训练。对测试图像首先计算测试图像的特征向量。然后与特征矩阵进行比较,得到相似度向量。然后应用权重向量找出5个最相似的图像对,将这些图像对的关键词通过排序转移到测试图像中。

B绩效评估

在大多数文献中,标注系统的性能是通过精确率和召回率来计算的。对标注系统中每个单词的准确率和召回率进行评估,并将所有单词的平均值视为系统的性能。因此,
图像
对于只使用单一值的系统进行比较,F-score是一个不错的选择。
图像
拍摄了10张图片用于测试。其F分的平均值由上述公式计算。

结论及未来工作

本文提出了一种图像自动标注的框架和算法。我们采用整体方法和显著性检测技术,并将所得结果与文献中其他研究结果进行比较。
与现有的方法相比,该方法在图像标注任务中表现出更高的性能。在未来,我们将添加纹理特征和颜色特征,以获得更好的结果,并与仅使用颜色特征进行比较。

数字一览

图1 图2 图3 图4 图5
图1 图2 图3 图4 图5

参考文献

全球科技峰会