从空间数据使用RULEBASED方法挖掘协同定位模式

G.Priya^*,N。Jaisankar和M.Venkatesan
学院的计算科学和工程,维特大学,Vellore-14 Tamilnadu、印度

通讯作者:G.Priya,电子邮件:gpriya@vit.ac.in

文摘

主机代管模式是一群经常共存的空间特性/事件在同一地区。主机代管模式发现过程发现特性的子集经常聚在一起。协同定位规则是被空间统计或数据挖掘技术。协同定位算法被用来发现主机代管模式拥有一只蚂蚁单调性质。该算法包括修剪技术,使项目集只有最有趣的模式

关键字

协同定位模式,参与指数、修剪。

介绍

空间数据挖掘是指空间关系的提取和其他有趣的模式没有明确存储在空间数据集。它有一个广泛的应用在各个领域如地理信息系统、geo-marketing,数据库勘探、医学成像、图像处理、交通管制、环境研究。空间数据挖掘是一个挑战的探索高效的空间数据挖掘技术由于大量的空间数据,和空间访问方法。

空间数据,比如地理(地图)数据,非常大规模集成(VLSI)或计算机辅助设计数据、和医疗或卫星图像数据包含spatial-related信息。空间数据可能代表了在光栅格式或矢量格式的光栅格式是由n维地图或像素地图和道路,桥梁,建筑,和湖泊被表示为或覆盖基本的几何结构,如点、线、多边形和网络由这些组件。有两个主要部件在空间数据挖掘过程中协同定位模式和规则。空间主机代管模式代表布尔空间特性的子集的实例位于地理相近。这个过程经常发现功能的子集坐落在一起。例如,生态数据集的分析可以揭示物种共生。空间数据挖掘之间的差异和经典数据挖掘主要相关数据输入、统计基础上,输出模式和计算过程。通常空间关联规则可用于矿山空间数据的模式。空间关联规则需要特别参考空间特性。这是基于事务,事务是在实例定义特殊的空间特性。它使用空间谓词项类型。 But decomposing spatial data into transactions may alter patterns. So usage of co-location mining increases the efficiency of finding the interesting patterns. In this spatial data is continuous. Rules are generated for point data in space. This uses neighborhood definition and spatial joins.

文献综述

主机代管模式代表布尔空间特性的子集的实例通常位于地理相近。使用先天的关联规则推导算法。

提出了一种基于距离的方法称为k-neighbouring类集。在这个实例的数量对于每个模式作为流行指标,天生不具备一个anti-monotone属性。然而重叠实例约束可以用来获取anti-monotone房地产测量。相比之下以事件为中心的模型开发了重叠实例约束。它还定义了一个流行测量称为参与指数。这种方法具有理想的anti-monotone财产[1]。

空间数据库中知识发现(SKDD)是一个过程,确定有效的,新颖的,有用的,和可以理解的模式从大型空间数据集。空间数据挖掘(SDM)是SKDD的核心过程,涉及的推断算法,探索地理信息发展模式和发现重要的模式。[2][3]的2项集3个集分析协同定位算法比先天更高效的算法。关联规则的方法可以分为基于事务的方法和基于距离的方法。基于事务的方法集中在定义交易空间。Apriori-like算法可用于该类型。它可以被定义为一个参考要素为中心的模型。在这个模型中,事务在实例创建一个用户指定的空间特性。[4]

涉及罕见的空间特性常常有强烈的交互作用在以前的方法,因为他们的所有功能需要经常共生协同定位模式。许多措施是基于频率的措施或最低参与比率,罕见的事件是不利的。即使我们有一个很好的测量主机代管模式的罕见的空间特性,它仍然是具有挑战性的找到所有的有效模式。[5]。

空间关联规则是一个规则,描述了一个或一组特性的影响通过另一组特性在空间数据库中。例如一个规则喜欢“多数大型酒店在钦奈附近滨海滩”是一个空间关联规则。[6]关联规则是有趣的,如果他们满足最小支持度阈值和阈值的信心。[7]。关联规则挖掘发现了有趣的关联或相关大量的数据项之间的关系。[8]

可以分类基于空间数据挖掘的规则被发现在空间数据库中。空间特征规则是通用的描述一组空间相关数据。空间区分规则的一般描述类的对比或歧视特性相关的空间数据从其他类[9][10]。现有的算法用于挖掘空间数据都是基于关联规则。所有基于空间关联规则的算法需要一个特殊的参考空间特性。这是基于事务的事务是在实例定义的特殊空间特性。在这种算法空间谓词作为项类型。但将空间数据分解为交易有很大的概率改变模式。

该工作的概述

挖掘空间主机代管模式是一个重要的空间数据挖掘的任务。空间主机代管模式是一组空间特性,往往坐落在空间距离。先前的研究在协同定位的频繁模式挖掘强调共生的所有特性。这是一些有价值的模式涉及罕见的空间特性。主要障碍之一是最大的参与比例不是单调对主机代管模式控制关系。因此,传统Apriori-like修剪技术不能应用。没有适当的修剪,可能有很多可能的组合。

防止损失的罕见的模式的一个方法是使用基于距离的算法挖掘空间数据。这些方法增加找到有趣的模式的效率。这些方法在空间数据是连续的。为点数据生成规则。主机代管采矿是一个基于距离的挖掘算法。主机代管模式代表布尔空间特性的子集的实例通常位于地理相近。

有一个重要的观察主机代管模式与罕见的空间特性,“即使参与指数整体模式可以低肯定有空间特性与高参与比率。“所以这些基于距离的算法效率高找到稀有的和有趣的模式。基于事务的算法使用有趣的模式对修剪的支持和信心。该系统使用一个测量称为参与指数。这种方法具有理想的anti-monotone属性。本文基于距离的方法是用来发现空间数据的协同定位模式。参与指数用于删除数据只接受一个有趣的模式。

该系统由卫星图像。在MATLAB图像处理实例通过色彩识别,识别和坐标的实例检索存储在一个文本文件。协同定位算法用于生成项集的坐标。当一个算法应用在网格地图坐标映射。之间的距离计算实例。2-item集计算通过比较相邻网格空间和它们修剪如果模式没有最低参与指数。3个集计算通过使用非修剪项。根据参与指数修剪后发现一个有趣的模式。体系结构提出可行性的协同定位空间数据挖掘。

数据预处理:数据收集表单使用MATLAB图像。处理这些原始数据使用图像处理每一项/对象是有区别的颜色或形状的实例给出每一项独特的实例数量. .数据从图像处理在粗糙的格式。所以它应该使用一个文本解析器解析,将原始数据转换成指定格式的数据表格下面的列。

网格转换:如果读取数据预处理的坐标转换为网格坐标就会容易找到搭配模式。特定网格值是根据图像大小和坐标的值存储在向量转化为网格坐标并存储在另一个向量既存储网格值X Y坐标。

应用协同定位算法:在网格中的数据转化为价值,整个数据存储在数组的两倍。搭配模式识别使用参与指数和修剪索引值。下面给出的步骤协同定位算法步骤1:第一行中的每一个元素的数组。

步骤2:比较下一行中每一个元素。

步骤3:在网格坐标找到的区别。

步骤4:检查是否大于邻居的区别。

步骤5:马克真如果他们是并列的。

第六步:结束循环。

第七步:计算参与指数跳水真正的年代的实例数量和总数量修剪指数进行初始化。

第八步:比较参与指数价值和修剪指数和只考虑以上的项集修剪指数。

步骤9:修剪的物品在n-item集计算排除在n + 1 -项目集的计算。

第十步:n + 1项集进行计算n一样n-item组与一个比n-item设置循环计算。

结果与讨论

图2显示了结果显示不同的图像显示检测到不同的对象在实际的道路在MATLAB图像处理。

图2显示了对象的x和y坐标用于一个图像。

图形用户界面(标题2)

图5表明,MATLAB是浏览的输出和下面的屏幕的坐标进行处理。

图5显示了网格的值不同对象的不同实例。

图6显示了最终的预测算法的代表的各种实体并置在一起。本文中出现的各种对象的坐标空间读取图像。然后坐标值转换成可读的格式。一旦转化为网格值我们建议的系统会发现使用搭配搭配模式算法。

图6主机代管模式检测

结论

本文提出系统形式化的协同定位问题和显示之间的相似点和不同点搭配规则问题,经典的关联规则。该系统发现项集是并列的。我们建议的系统计划检查统计方法、空间数据类型,如线段和多边形,扩展主机代管挖掘框架来处理连续特性。如果位置随时间变化的特性,有可能我们确定一些时空关联模式。

引用

黄,Y。,Shekhar, S. and Xiong, H, “Discovering Colocation Patterns from Spatial Data Sets: A General Approach” IEEE Transactions on Knowledge and Data Engineering, 16, (12) pp. 1472-1485, 2004.
他YueShun;李翔:“空间数据挖掘技术的研究基于Web管理和服务科学”,。09年。国际会议,1 - 4,2009
铁力杨;Ping-Bai;宥晟锣;“通用数据挖掘之间的空间数据挖掘的功能”。教育技术培训,2008年。和2008年国际地球科学研讨会和遥感。摘要和grs541 - 544, 2008:
M.H.Margahny和嗜Shakour“可扩展的”算法挖掘关联规则挖掘算法AIML日报》卷(6),(3),2006年9月
黄,Y。,Pei, J. and Xiong, H. “Mining Co-location Patterns with Rare Events from Spatial Data Sets”, Geoinformatica 10:239-260.2006
K。Koperski和J。汉”,发现了空间关联规则在地理信息数据库中,“Proc.FourthInt协会。空间数据库,1995。
c . Gyorodi r . Gyorodi。“在大型数据库中挖掘关联规则”。11卷人士新兴市场经济体的02:45 - 50,人士,2002年罗马尼亚。
j .汉m . Kamber“数据挖掘概念与技术”,MorganKaufmann出版商,旧金山,美国,2001年,ISBN 1558604898。
w . Lu.J。汉和公元前Ooi认为。“发现大型空间数据库的一般知识”。Proc远东地区地理信息系统研讨会pp.275 - 279新加坡。1993年6月
r·Ng和j·汉”高效的空间数据挖掘和有效的聚类方法。“在Proc相依VLDB Int。pp - 144 - 155,圣地亚哥。智利,1994年9月。