一个有效的使用范围查询空间数据挖掘方法的分析

Gangireddy Ravikumar^{* 1}和Mallireddy Sivareddy²

学生,M。科技(CSE),绿色的田野,K.L.大学,印度安得拉邦。
学生,M。科技(CSE),绿色的田野,K.L.大学,印度安得拉邦。

通讯作者:Gangireddy Ravikumar,电子邮件:(电子邮件保护)

文摘

综述了数据挖掘方法,结雷竞技苹果下载合地理信息系统(GIS)的地理数据进行空间分析。我们会先看一下数据挖掘功能应用到这些数据,然后突出他们的特异性与应用经典数据。我们将继续描述目前在这一领域的研究,他指出,有两种方法:第一个来自学习空间数据库,而第二个是基于空间数据。最后,我们将讨论这两种方法之间的主要差异和他们所共有的元素。

索引词

空间数据挖掘、空间数据库、规则归纳、空间数据、空间社区。

介绍

地图是日益增长的生产产生了大量的数据,超过人们分析它们的能力。因此似乎是适当的应用如数据挖掘空间数据的知识发现方法。最近的技术是数据挖掘应用于字母数字混合的扩展空间数据的数据。主要的区别在于,空间分析必须考虑空间对象之间的关系。应用程序由空间数据挖掘的决策,如geomarketing、环境研究、风险分析,等等。例如,在geomarketing,商店可以建立贸易区域,即客户的空间范围,然后分析这些客户的资料的基础上,它们的属性和属性有关他们生活的地方。

在我们的分析、空间数据挖掘应用于交通风险分析[2]。风险评估是基于先前的信息伤害事故,结合有关道路网络专题数据,人口,建筑等等。项目旨在识别地区高水平的风险,分析和解释这些风险对地理小区。空间数据挖掘技术专门允许那些邻里关系。如今,在地理数据分析本质上是基于传统统计和多维数据分析,不考虑空间数据[3]。然而地理数据的主要特征是,彼此观察附近的空间往往相似(或相关)属性值。这就构成了不同的基本科学区域叫做“空间统计”,与传统的统计数据,假设依存度附近的观测。这个地区存在丰富的参考书目,包括著名的地质统计学,最近的事态发展在探索性空间数据分析(ESDA) Anselin和地理分析机(GAM)奥彭肖。总结,请参阅第1部分。c [4]。多维分析方法已经扩展为支持接触(5、6)。 We maintain that spatial statistics is a part of spatial data mining, since it provides data-driven analyses. Some of those methods are now implemented in operational GIS or analysis tools.

数据库领域的两个主要团队造成了开发数据挖掘空间数据分析。第一个,DB研究实验室(西蒙弗雷泽大学、温哥华),开发GeoMiner[7],这是DBMiner的延伸。第二个(慕尼黑大学)设计了一个structure-of-neighborhood图[8],一些算法是基于。他们也致力于基于层次的聚类方法划分(扩展的DBSCAN R *树)、分类(ID3的延伸和DBLearn),关联规则(基于一个有效的空间加入),特征和空间的趋势。刺(加州大学)使用分层的网格进行优化的聚类算法[9]。我们也会提及工作于空间数据的数据仓库(拉瓦尔大学)[10]

本文将描述地理信息系统的数据挖掘方法,并强调他们的执行空间数据分析的价值。它将调查统计方法,涉及从数据库推理。这是结构化如下。在第二节我们定义空间数据挖掘,细分成通用的任务。然后在第三节我们将空间数据挖掘方法,是否来自的领域数据库、统计或人工智能,这些不同的任务。我们继续比较统计分析方法与空间数据库的方法,目的是强调他们的相似性和互补性。最后,我们的结论和讨论研究的问题。

空间数据挖掘的定义

空间数据挖掘(SDM)由提取知识、空间关系和任何其他属性不显式地存储在数据库中。长效磺胺是用来发现隐含的规律,空间数据和非空间数据之间的关系。SDM在于它的特异性相互作用的空间。实际上,地理数据库构成时空连续体中属性有关一个特定的地方通常是联系并解释了邻居的属性。我们可以看到重视空间关系的分析过程。时间方面对空间数据也是一个焦点,但很少考虑。数据挖掘方法[11]并不适合空间数据,因为他们不支持位置数据和隐式对象之间的关系。因此,有必要开发新方法包括空间关系和空间数据处理。这些空间关系计算耗时,大量的数据是由编码几何位置。全球表演将遭受这种复杂性。

利用GIS技术,用户可以查询空间数据和使用程序或查询执行简单的分析任务。然而,GIS并不是设计来执行复杂的数据分析和知识发现。他们不提供通用的方法进行分析和推断规则。不过,似乎有必要将这些现有方法和扩展他们的结合空间数据挖掘方法。GIS数据访问方法是至关重要的,空间加入地图和图形显示。传统数据挖掘只能生成知识字母数字混合属性。

空间数据挖掘:

空间数据挖掘是数据挖掘技术的应用空间数据。数据挖掘通常是寻找隐藏在大型数据库中可能存在的模式。空间数据挖掘是有趣的发现可能存在的关系和特征隐式地在空间数据库中。因为大量的(通常,tb)的空间数据可能从卫星图片上获得的医疗设备,摄像机等。它是昂贵的和经常不切实际的用户详细检查空间数据。空间数据挖掘的目的是自动化知识发现过程。因此,发挥重要的作用

提取有趣的空间模式和特点。

b。捕捉内在空间和非空间数据之间的关系。

c。展示数据规律性简洁和概念层次、更高

d。帮助重组空间数据库,以适应数据语义,以及为了实现更好的性能。

空间数据库存储大量的空间相关数据,如地图、遥感或医学影像数据预处理和VLSI芯片布局数据。空间数据库与关系数据库有许多特性区分它们。携带拓扑信息和/或距离,通常由复杂的多维空间索引结构访问空间数据访问方法,通常需要空间推理,几何计算和空间知识表示技术。

空间数据挖掘结构:

空间数据挖掘可以用来理解空间数据,发现空间和非空间数据之间的关系,建立了空间知识库,excel查询,重组空间数据库并获得简洁的总特点等。空间数据挖掘的体系结构主要可以分为三层结构,如图1显示[1]。用户接口层主要用于输入和输出,矿工层主要用于管理数据,选择算法和存储知识挖掘,数据源层,主要包括空间数据库(仓库)和其他相关数据和知识库,是空间数据挖掘的原始数据。

空间数据挖掘原语:

规则:有几种规则可以从数据库中发现。例如特征规则、歧视规则、关联规则、偏差和评估规则可以开采[1]。空间特征规则的一般描述空间数据。例如,一个规则描述房屋的一般价格区间在不同地理区域的城市空间特征规则。歧视规则是通用的描述空间数据的特性差别或对比类与其他类(es)的比较价格范围的房屋在不同的地理区域。空间关联规则是一个描述的规则的含义由另一组一组特性的特性在空间数据库中。例如,一个规则将房屋的价格区间与附近的空间特性,像海滩,是一个空间关联规则。

专题地图:专题地图是地图主要是设计给一个主题,一个空间分布或模式,使用特定的映射类型。这些地图显示功能的分布在有限的地理区域[1]。每个映射定义了一个分区的区域为一组封闭和不相交的区域;每个包含所有的点具有相同的特性值。专题地图的一个或几个属性的空间分布。这不同于一般的或参考地图的主要目标是展示对象的位置相对于其他空间对象。专题地图可以用于发现不同的规则。例如,我们可能想看看温度专题地图在分析一般天气模式的一个地理区域。有两种方法可以代表专题地图:光栅和矢量。

光栅图像形式专题地图的像素与属性值相关联。例如,地图可能高度空间对象的编码为像素的强度(或颜色)。空间对象的向量表示,由其几何表示,最常见的是边界表示和专题属性。例如,公园可能由边界点和相应的高程值。

空间数据挖掘任务

如下表所示,空间数据挖掘任务通常是一个扩展空间数据的数据挖掘任务和条件的总和。这些任务的目标是:(1)总结数据,(2)发现分类规则,(3)使集群相似的对象,(iv)找到描述数据关联和依赖,和(v)检测偏差后寻找趋势。他们使用不同的方法,其中一些来自统计数据和其他机器学习领域。

本节的其余部分是用于描述用于GIS数据挖掘任务。

空间数据汇总:

主要的目标是在全球的方式来描述数据,这可以通过几种方式。一个涉及扩展方差或因子分析等统计方法的空间结构。另一个需要泛化方法应用到空间数据。

统计分析的连续对象:

全球相关:总结数据集的最常见的方法是使用基本统计数据,如计算平均值,方差,等等,如直方图和饼图和图形工具。测量新方法已经开发社区依赖在全球层面,如当地方差和协方差,Geary空间自相关,莫兰指数(12、13)。这些方法都是基于邻接矩阵的概念,表示对象之间的空间关系。应该注意的是,这种接触可以对应于不同的空间关系,如邻接,距离差距,等等。

密度分析:这种方法的一部分,探索性空间数据分析(ESDA),与自相关测量,不需要任何关于数据的知识。这个想法是为了估计密度通过计算每个小圆窗口的强度在空间,然后想象点模式。它可以被描述为一个图形的方法。

光滑、对比和因子分析:在密度分析,非空间属性将被忽略。地理数据分析通常涉及两个字母数字混合属性(称为属性)和空间数据。这需要两件事:在分析过程中,将空间数据与属性,利用多维数据分析多个属性。将空间邻域集成到属性,修改属性值的两种技术存在使用邻接矩阵。第一种方法执行一个平滑通过替换每个属性值的平均值的邻居。这突显出数据的一般特征。其他对比数据通过减去平均每个值。每个属性(变量)的统计数据可以用常规方法进行分析。然而,当多个属性树(上图)一起进行分析,多维数据分析方法(即因子分析)成为必要的[6]。他们的原则是减少变量通过寻找阶乘轴最大传播的数据值。 By projecting and visualizing the initial dataset on those axes, the correlation or dependencies between properties can be deduced. In statistics and especially in the above methods, the analyzed objects were originally considered to be independent. The need to look at spatial organization spawned several research studies [6, 14]. The extension of factorial analysis methods to contiguous objects entails applying common Principal Component Analysis or Correspondence Analysis methods once the original table is transformed using smoothing or contrasting techniques.

概括:

该方法包括提高抽象层次的非空间属性和减少几何描述的细节通过合并相邻对象。这是来自面向属性归纳的概念如[7]所述。在这里,可以空间概念层次结构(如行政边界)的层次结构或非空间(专题)[15]。农业主题层次结构的一个例子可以表示如下:“培养类型(食物(谷物(玉米、小麦、大米)、蔬菜、水果、其他)”。这种层次结构可以直接引入的一个领域的专家或由一个推理过程相关的属性。可能先前存在一个空间层次,像行政边界,或者它可能是基于一个人造几何分裂像利用[16],或者它可能源于一个空间聚类(见下文)。有两种类型的泛化:非空间主导的概括,我们首先使用主题层次结构,然后合并相邻对象;和空间占主导地位的泛化,是基于一个空间层次开始,紧随其后的是每个广义非空间的聚合或泛化值空间的价值。相应的算法的复杂性是O (NlogN),其中N是实际对象的数量。这种方法可以被视为第一步的方法推断规则,如关联规则或比较规则。

特征规则:

选定的特征数据库的一部分被定义在[17]的描述属性的典型问题的一部分但不是整个数据库。在空间数据库的情况下,它不仅考虑属性的对象,也是他们的邻居的属性到一个给定的水平。

考虑一个子集的分析对象。这种方法使用以下参数:1)意义(S)数据库的相对频率;2)信心(对象的年代比满足意义阈值附近);和3)的最大扩展max-neighbors邻居。这种方法把属性π=(属性,值),相对频率因素freq-fac我(高于意义参数)和镍的邻居数量属性的频率扩展。表达的特征可以由以下规则:

类标识:

这个任务,也叫做监督分类,提供了一个逻辑描述,收益率的最佳分区数据库。分类规则构成一个决策树,每个节点包含一个属性的标准。在空间数据库的不同之处在于,这一标准将是一个空间谓词,因为空间对象依赖于社区,一个规则涉及对象的非空间属性应该扩展到社区属性。在空间统计、分类本质上是用来分析遥感数据,旨在确定每个像素与一个特定的类别。齐次像素然后聚合,以形成一个地理实体[4]。在空间数据库方法[18]、分类被视为一个对象安排使用它们的属性(非空间值)和他们的邻居的属性,不仅直接邻居还为邻居的邻居等等,到学位n .让我们以作为一个例子的分类区域的经济实力。分类规则描述如下:

高人口Λ邻居机场=道路Λ邻居的邻居= = >高经济实力(95%)。

GeoMiner,分类标准也可以与一个空间属性,在这种情况下,它反映了其纳入更广泛的区域。这些区域可以确定算法,无论是集群或通过合并相邻的对象,也可能来自一个预定义的空间层次。一种新的算法[19]扩展了此分类方法在GeoMiner空间谓词。批发利润,例如,确定高水平的决定因素可以靠近人口密集的地区。

集群:

这个任务是一个自动或非监督分类,产生一个分区一个给定的数据集根据相似性函数。

数据库的方法:

矛盾的是,空间数据库的聚类方法似乎没有非常革命与应用关系数据库(自动分类)。集群使用相似性函数执行已经归入语义距离。因此,在空间数据库中自然使用欧氏距离似乎为了组相邻对象。研究集中在优化算法。几何聚类生成新类,如房屋的居民区的位置。这一阶段通常是之前执行其他数据挖掘任务,如协会检测组织或其他地理实体之间,或一组的特征。

GeoMiner结合了几何聚类应用于一个点集分布和基于非空间属性的泛化。例如,我们可能想要描述组在美国主要城市,看看他们是如何分组。集群结果将由新领域,对应的凸包的城镇。几点可以保持集群和代表外噪音。每组的描述可能生成的每个属性指定。

提出了许多算法进行聚类,如CLARANS [20], DBSCAN[8]或[9]。他们通常注重成本优化。最近,这种方法特别适用于空间数据,GDBSCAN[21]中概述。它不仅适用于任何空间形状,点数据,和包含属性数据。

统计方法:

集群源自点模式分析(22、23),主要是应用于流行病学研究。这是打开山楂中实现的著名的地理分析机(GAM),可以被测试通过使用K-function [24]。集群的比例也可以检测到两个密度估计:研究的一个子集,另一整个数据集的引用。

趋势和偏差分析:

在关系数据库中,这种分析是应用于时间序列。在空间数据库中,我们想要发现和描述空间的趋势。

数据库的方法:

使用[18]中描述的过程,基于中央地方理论,分析执行四个阶段。第一个涉及到发现中心通过计算局部极大值的特定属性;第二,这些属性的理论趋势是由远离中心;第三阶段决定了偏差与这些趋势;最后,我们解释这些趋势通过分析这些区域的属性。一个例子是失业率的趋势分析相比,距离慕尼黑这样的大都市。另一个例子是住宅建设的发展趋势分析。

地质统计学方法:

地质统计学是一种工具用于空间分析和预测的时空现象。它第一次被用于地质应用程序(来自地质地理前缀)。如今,地质统计学包含一类技术用于分析和预测变量的未知值分布在空间和/或时间。这些值应该是连接到环境。这种相关性的研究被称为结构分析。样本外预测位置的值然后执行的“克里格”技术[25]。重要的是要记住,geostastics有限点集分析或多边形细分和处理一个独特的变量或属性。在这些条件下,它构成了空间和时空趋势分析的良好工具。

结论

不同的数据挖掘方法在空间数据库中本文中概述,这表明这些方法已经由两个独立的研究社区:统计社区和社区的数据库。我们总结和分类研究和比较了两种方法,强调每个方法的特殊效用和可能的优势相结合。这项工作是第一步的方法将空间数据库中知识发现的整个过程,让上面的数据挖掘技术的结合。

其他问题在该地区的空间数据挖掘的一种方法是考虑了空间数据的暂时性,而另一个是看看线性或网络形状(如道路)可以产生特定的影响图形的方法。在任何情况下,它仍然是继续提高这些技术的性能至关重要。其中一个原因是大量的数据,另一个是集约利用空间距离的关系。这些关系的图形化方法,可以优化使用空间索引。至于使用邻域结构的其他方法,实例化的结构是昂贵的,应该尽可能的预先计算。

确认

我们非常高兴的地方我最深刻的感谢k博士Satyanarayana K.L.的总理大学博士k . Raja Sekhara Rao主要M和k博士Subramanyam协调员。科技在他们的指导和鼓励和善良给我们进行论文的机会。他们快乐自然,方向,向我们的担忧和他们愿意分享想法热情我们恢复活力,朝着我们的目标努力。我们也感谢本文的匿名引用他们的宝贵意见。

引用

M.Hemalatha.M;娜迦族Saranya.N。最近的一项调查在空间数据挖掘,知识发现IJCI国际计算机科学杂志》8卷,问题3,第二,2011年5月。
Zeitouni, K。杜:练习曲de l 'application数据挖掘一个l 'analysespatiale du有伤'accidentsroutiersparl 'exploration des基地de唐娜©es accidentologie,棱镜-INRETS合同的最终报告,1998年12月,33 p。
龙利p。,Goodchild M. F., Maguire D. J., Rhind D. W., Geographical Information Systems - Principles and Technical Issues, John Wiley & Sons, Inc., Second Edition, 1999.
Lebart l . et al .,“Statistiqueexploratoiremultidimensionnelle”版本Dunod,巴黎,439 p。,1997年。
Lebart, l(1984)图结构的对应分析。通讯技术du CESIA,巴黎:2、1 - 2、pp 5-19。
Lu, W。,汉族,J。and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993, pp. 275-289
酯,M。,Kriegel ,H.-P., Sander, J., Xu, X.: Density-Connected Sets and their Application for Trend Detection in Spatial Databases, Proc. 3rd Int. Conf. on Knowledge Discovery and Data Mining, Newport Beach, CA, 1997, pp.10-15
王,W。,Yang, J., and Muntz, R.: STING : A Statistical Information Grid Approach to Spatial Data Mining, Technical Report CSD-97006, Computer Science Department, University of California, Los Angeles, February 1997
英航©达尔德人,Y。Lam S。,Proulx, M.J., Caron, P.Y., LÃÂ©tourneau, F.: Data Warehousing for Spatial Data: Research Issues, Proceedings of the International Symposium Geomatics in the Era of Radarsat (GER'97), Ottawa, May 1997, pp. 25-30
法耶兹et al .,“知识发现和数据挖掘的进步”,AAAI出版社/麻省理工学院出版社,1996年
Geary司令部:接触率和统计映射,结合统计学家,5(3),115 - 145页。
莫兰P.A.P.,The interpretation of statistical maps, Journal of the Royal Statistical Society, B: 10, pp 234-251. 1948.
贝纳里,H。,Escofier, B.: Analyse factoriellelissÃÂ©e et analyse factorielle des diffÃÂ©rences locales, Revue StatistiqueAppliquÃÂ©e, 1990, XXXVIII (2), pp 55-76
汉J。,Cai Y. &Cerone N., "Knowledge Discovery in Databases; An Attribute-Oriented Approach." Proceedings of the 18th VLDB Conference. Vancouver, B.C., August 1992. pp. 547-559
萨梅特H。,"Design and Analysis of Spatial Data Structures: Hierarchical (quadtree and octree) data structures ", Addison-Wesley Edition, 1990
酯,M。,Frommelt, A., Kriegel, H.-P., Sander J.: Algorithms for Characterization and Trend Detection in Spatial Databases, Proc. 4th Int. Conf. on Knowledge Discovery and Data Mining, New York, NY, 1998
酯,M。,Kriegel, H.-P., Sander, J.: Spatial Data Mining: A Database Approach, Proc. 5th Symp. on Spatial Databases, Berlin, Germany, 1997
Koperski, K。,汉族,J。,and Stefanovi,c N.: An Efficient Two-Step Method for Classification of Spatial Data, In Proc. International Symposium on Spatial Data Handling (SDH'98) , pp. 45-54, Vancouver, Canada, July 1998
Ng, r和汉族,J。:高效和有效的聚类空间数据挖掘的方法,1994年Proc.如Conf.超大型数据基地(VLDB ' 94),智利的圣地亚哥,1994年9月,第144 - 155页
克诺尔·e·M。,and Ng R. T.: Finding Aggregate Proximity Relationships and Commonalities in Spatial Data Mining, IEEE Transactions in Knowledge and Data Engineering, Vol 8(6), December 1996.
奥彭肖。,Charlton M., Wymer C., Craft A., 1987 : "A mark 1 geographical analysis machine for the automated analysis of point data sets", International Journal of Geographical Information Systems, Vol. 1, n° 4, pp. 335-358
Fotheringham年代。,詹B。,1996 : "A comparison of three exploratory methods for cluster detection in spatial point patterns", Geographical Analysis, Vol. 28, n° 3, pp. 200-218
Diggle P.J.,1993, Point process modeling in environmental epidemiology. In Barnett V., Turkman K. (eds) Statistics for the environment, Chichester, John Wiley & Sons, pp 89-110.
伊泽贝尔C。,"Practical geostatistics", Applied Science Publisher, Reprinted 1987. Also at URL: http://curie.ej.jrc.it/faq/introduction.html