一个有效的方法来探测森林火灾使用K-MEDIODS算法

一个Gnana Baskaran^{* 1}和Dr.K.Duraiswamy²

计算机科学与工程系,计算机科学与工程学院,KSRangasamy技术学院,Tiruchengode Namakkal经销,印度泰米尔纳德邦-637215。
计算机科学与工程系,KSRangasamy技术学院,Tiruchengode Namakkal经销,印度泰米尔纳德邦-637215。

通讯作者:一个Gnana Baskaran,电子邮件:gnanabas_2000@yahoo.com

文摘

问题陈述:集群高维空间数据对森林火灾风险分析主要问题由于稀疏的数据点. .大多数的聚类算法变得效率低下,如果所需的距离计算相似度测量低维空间空间的高维数据稀疏的数据点也在不同的维度和考虑的障碍. .本研究的目的是为突出集群交通风险分析的复杂性,(i)缺乏支持减少维度空间空间的数量减少搜索时间(2)缺乏支持空间数据的空间障碍。(3)比较计算时间的竖琴,玛,医生,FastDoc,协会的算法。方法:在第一阶段卫星拍摄静态图像等不同维度的时间和地点的森林火灾网络增强和这个图片作为输入红色图像分离,在这个阶段的输入图像摸索使用k - means算法和基于红色在第二阶段红色的彩色图像转换为灰度图像。第三阶段主要集中在空间属性相关性分析检测密集和稀疏的森林火灾区域检测密集和稀疏失火后区域算法员工修剪技术,以减少搜索空间的密度只有火区域和消除稀疏的地区和第四阶段K-mediods算法采用项目集群不同的空间维度,也解决问题的障碍的结果:首先,我们表明,各种投影聚类算法对空间空间变得效率低下,如果尺寸数量的增加,新方案提出减少了空间维度空间,减少了计算时间和也解决问题的障碍使用K-mediods算法,最后结果是与竖琴相比,玛,医生,FastDoc,协会的算法产生可接受的结果,当平均集群维数大于10%。结论:因此,结果表明合理的开销最小化和使用模拟,我们调查的效率方案支持森林火灾风险的高维空间聚类分析。

关键字

数据挖掘、聚类、高维度预测集群、修剪

介绍

数据挖掘是一个过程,从数据库中提取知识和有用的信息[1]。集群是熟悉的数据挖掘技术组相关数据基于相似性距离度量[2]。集群通常雇距离测量,比如欧几里得,曼哈顿或闵可夫斯基等。然而欧几里得度量的常用的方法是将相关的数据分成不同的组在不同的维度或分区。然而这种相似性度量高维数据是至关重要的因素。最近的投影聚类算法不能解决这个问题,当维数增加。降维的预处理可以提高聚类效率但未能防止数据丢失。这激励我们效应提出一种新的聚类算法称为一个有效的方法来探测森林火灾使用K-Mediods算法。该算法包含四个阶段。在第一阶段,它使用k - means算法组红色森林火灾图像。在第二阶段,将红色的彩色图像转换为灰度图像。 The third phase uses the attribute relevance analysis to project dense and sparse forest fire images. The fourth phase uses K-medoids algorithm to project the clusters where the forest fire images belonging to dense fire regions. The algorithm capable of detecting the clusters automatically and the clustering process is restricted to the subset dimension that is the dense fire region, which avoids computation on full dimensional space. The numbers of projected clustering algorithms have been proposed in recent years but they fail to address to address the low dimensional clusters on high dimensional space. Feature selection technique can speed up the clustering [4] process but however there is substantial information loss [5].YIP et al [7] observed that current projected clustering algorithm results only when the dimensionality of the clusters are not much lower than that of dataset. However some partitional projected clustering algorithms such as PROCLUS [5] and ORCLUS [8] make use of similarity function that involves all dimensions to find initial approximation of the clusters. The partitional algorithm PROCLUS, which is a variant of the K-medoid method, iteratively computes a good medoid for each cluster. With the set of medoids, PROCLUS finds the subspace dimensions for each cluster by examining the neighboring locality of the space near it. After the subspace has been determined, each data point is assigned to the cluster of the nearest medoid.The algorithm is run until the sum of intracluster distances ceases to change. These algorithms are failing because of irrelevant dimension detection, and also the algorithm requires the user to provide average dimensionality of the subspace, which is not suitable for real life time. ORCLUS is an extended version of PROCLUS that looks for non-axis-parallel clusters, by using Singular Value Decomposition (SVD) to transform the data to a new coordinate system and select principal components. PROCLUS and ORCLUS were the first to successfully introduce a methodology for discovering projected clusters in high-dimensional spaces, and they continue to inspire novel approaches. Another algorithm HARP [9] hierarchical projected clustering also based on the fact that two data points are likely to be in the same cluster if they are very similar to each other along many dimensions. However, when the number of relevant dimension per cluster is much lower than the data set dimension, such an assumption is invalid. The observation motivates our effort to propose a new algorithm called An Efficient approach to Detect Forest Fire using KMediods algorithm

材料和方法

一个新的强大的聚类算法称为“一个有效的方法来探测森林火灾使用K-Mediods算法”。该算法包含四个阶段。该算法是有效的,因为它减少了子空间和执行计算,它避免了计算全维空间。

分色

给出输入森林火灾图像作为输入分色系统的分组是这些系统的输出图像使用基于红色的k - means算法。

Figure.2是第一阶段的输出包含集群红色的彩色图像,并使用k - means算法在聚类过程完成。

灰度转换

在这第二阶段的红色分组如图2所示图像转换为灰度图像,如下所示。

属性相关性分析

属性相关性分析的帮助下,稀疏度yij计算不同的森林大火基于灰度图像阈值与火灾区域。稀疏度yij给出的公式。

yij代表密集区域的最小值和最大值表示稀疏的地区。同样不同的yij值计算对不同森林火灾图像在不同的维度和仿真结果列表,生成的直方图也如下所示

上面的帮助下每个图像的yij值我们可以很容易地检测到密集的地区。yij表示的值较大的图像稀疏的区域,例如在图3的表值(b)和图3 (c)较高,代表了稀疏的地区。小值的图像yij表示密集的地区,例如表中的图片图3的值(d)和图3 (a)代表密集的地区。上述稀疏值直方图生成识别稀疏和茂密的森林火灾区域如下所示。

高峰对应的直方图稀疏火灾区域(图4 (b)和视图(c))和低密度峰值对应于火灾区域(图4 (d)和图4 (a))。上面的密集和稀疏程度可以用二进制表示形式使用二进制矩阵如下所示。

在上面的二进制矩阵数据点落在密集的火区域表示为1否则表示为0。

异常值检测

离群值是嘈杂的,变化无常的,不同的数据,这些数据都会被考虑和类似的数据。算法使用二进制矩阵作为输入,并检查是否两个二进制值Z1并使用Jacord Z2相似系数,给出Jacord系数的公式。

Jacord系数的值介于0(比两z1和z2是不同的)和1(类似)。Jacord系数不应小于。在我们的示例中是设置为= 0.70,通常Jacord系数搜索匹配的1的二进制矩阵。

发现集群

一旦确定了密集的火地区使用jacord系数。然后下一步是用于项目集群密度火灾区域的帮助下二进制矩阵。计算最小距离使用欧式距离度量,没有1的二进制矩阵,代表了密集的地区和距离计算仅为密集的地区,它是由公式。

tij代表第i个行和j列在二进制矩阵并计算入口的距离只有一个tij = 1。

实证评估

在本节中,我们比较算法的性能与协会[7],竖琴[0],玛[5]和FASTDOC[10]评价的执行顺序数据集具有不同特点。聚类错误(CE)是一个熟悉的技术来测量投影聚类的准确性,如图5所示。算法的第一步是分析集群的影响维度对聚类质量的为了这个目的,我们选择了20个不同数据集与数据点N = 4000,维数d = 100。平均集群维度从2%变化到70%的数据维数d。我们的目标是,不产生异常值。CE的跳跃距离的算法使用K - Mediods投影聚类,或协会,玛和FASTDOC。

CPU时间度量的性能对数量的图像和维数增加,如下所示

在上面的图7和表2中,CPU时间线性增加的数量的图像在一个集群中。

从上面的Fig.8和表3时间线性增加随尺寸增加。在上面的图图5,平均集群维数的2%。该算法显示了验收结果。通过它表现良好,例如在上面的图使用K-medoids投影聚类的算法。如果集群维数大于10,那么它显示了可接受的结果删除维度相比与其他投影聚类算法。在上面的图中,当平均集群维数小于2%或协会产生可接受的结果类似于我们的投影聚类算法和更高的平均维度SPPC工作正常。当平均集群维数大于30没说完找到工作,发现集群维度没有离群值。当维数小于20 - 2%尺寸检测生产验收的结果。玛不太准确的预测相比,聚类时使用k-medoids算法和协会的平均尺寸小于10% Fastdoc没问题当集群平均尺寸大于70。然而异常值检测删除。使用K-medoids投影聚类算法执行与协会相比,竖琴,玛,FASTDOC。 Similarly the algorithm out forms SSPC, HARP and Proclus when the dimensions and size of data set increases.

结论

我们已经提出了一个强大的基于距离投影聚类算法对高维聚类的具有挑战性的问题,和说明我们的算法的适用性测试和比较与先前的工作。实验表明,在K-medoids投影聚类算法提供了有意义的结果,极大地提高了聚类的质量维度的集群要低得多的数据集。此外,我们的算法处理数据时产生精确的结果离群值。在K-medoids投影聚类算法的性能在实际数据表明,我们的方法在实践中可能是一个有趣的工具。K-medoids的准确性通过投影聚类算法的结果限制距离的计算属性的子集,及其程序的初始选择这些子集。使用这种方法,我们相信,许多基于距离的聚类算法可以适应集群高维数据集。

引用

R。Agrawal, J。耶尔克,D。Gunopulos和P。Raghavan,“自动高维数据子空间聚类、数据挖掘和知识发现、vol.11,不。1、pp.5-33 2005。doi: 10.1109 / TKDE.2008.224。
k . Jain m . n . Mutry P.J.弗林,“数据聚类:审查,”ACM计算调查,没有卷31日。3、264 - 323年,1999页。doi: 10.1186 / 1471 - 2105 - 7 - s4 - s10 3。
k·拜尔,j·戈尔茨坦,R。Ramakrishan,轴,“最近邻有意义是什么时候?,” Proc. of the 7th International Conference on Database Theory, pp.217–235, 1999. doi:10.1145/1835449.1835482.
h·刘和l . Yu”向集成分类和聚类的特征选择算法,“IEEE反式。Eng知识和数据。,17卷,不。3页。2005年1 - 12。doi: 10.1109 / TKDE.2005.66。
林祖嘉Aggarwal, c . Procopiuc j·l·沃尔夫,另外,和J.S.二公园,“快速投影聚类算法,”Proc。ACM SIGMOD相依,会议- 72,1999。doi: 10.1109 / ICDE。2009 .188。1152年。
d . w .张K.Y.L. Yip m K。Ng和k .张”,从基因表达谱识别预测集群,”生物医学信息学杂志,37卷,没有。5,345 - 357年,2004页。doi: 10.1109 / TKDE。2008.162。
程D.W. K.Y.L. Yip表示抗议Ng”发现极低维集群使用Semi-SupervisedProjected集群、“Proc。ICDE,页329 - 340,2005. doi.ieeecomputersociety.org 10.1109 / ICDE.2005.96。
林祖嘉Aggarwal和另外Yu”重新定义为高维聚类应用,“IEEE反式。Eng知识和数据。,14卷,不。2、210 - 225年,2002页。doi: 10.1023 /: 1009769707641。
K.Y.L. Yip D.W. Cheng和同意。Ng,“琴:实际投影聚类算法,“IEEE反式。Eng知识和数据。,vol. 16, No. 11, pp. 1387–1397, 2004. doi: 10.1186/1471-2148- 8-116.
Procopiuc, m·琼斯P.K. Agarwal, T.M. Murali,“蒙特卡罗算法快速投影聚类,”Proc.ACM SIGMOD, 418 - 427年,2002页。doi: 10.1109 / TKDE.2008.224。
m .肺癌和n . Mamoulis”由子空间迭代投影聚类挖掘,IEEE反式。Eng知识和数据。,vol. 17,no.2,pp.176-189,Feb.2005.doi:10.1109/ TKDE.2005.29.
直Wong E.K.K. Ng, A.W.傅和投影直方图聚类,IEEE反式。Eng知识和数据。,vol. 17,no.3,pp.369-383,Mar.2005.doi:10.1109/ TKDE . 2005.47.
m . Bouguessa s . Wang,江问:“K-Means-Based投影聚类的算法,”Proc。18 IEEE国际会议。模式识别(ICPR ' 06),第891 - 888页,2006年。doi: 10.1109 / TKDE。2008.162。
h Cheng A.W.傅,y,“Entropy-Based子空间聚类挖掘数值数据,”Proc。ACM SIGMOD 99, pp.84 - 93、1999. doi: 10.1109 / TKDE.2008.224……
s . Goil h .乐,a超,“黑手党:高效、可扩展的子空间聚类对于非常大的数据集,”技术报告cpdc - tr - 9906 - 010,西北大学,1999。doi: 10.1234 / 12345678。
H.-P k甘蓝类蔬菜。Kriegel, p .克罗格,“Density-Connected高维数据子空间聚类,“Proc。第四暹罗如相依数据挖掘(长效磺胺04),第257 - 246页,2004年。doi: 10.1109 / TKDE.2008.224。
l·帕森斯、大肠Haque和h . Liu”为高维数据子空间聚类:审查,“ACM SIGKDD探索通讯,6卷,没有。1,第105 - 90页。,2004.doi.ieeecomputersociety.org/ 10.1109 / TKDE.2006.106。
K.Y.L. Yip,“琴:一个实际投影为挖掘基因表达数据聚类算法,“硕士论文,Univ.ofHongKong, 2004. doi: 10.1109 / TKDE.2004.74。
k .埋在工程统计分布。剑桥大学出版社,1998年。doi: 10.1002 / (SICI) 1521。
n Balakrishnan和V.B. Nevzorov,底漆统计分布。约翰威利& Sons, 2003。
随机变数豪格,J.W. McKean A.T.克雷格,介绍数理统计,第六版,普伦蒂斯霍尔出版社,2005年。
参考书籍无法无天,寿命数据的统计模型和方法。约翰威利& Sons, 1982。
和h . m . Bouguessa s . Wang太阳,“客观集群方法验证,”模式识别字母,27卷,没有。13日,1419 - 1430年,2006页。
J.J. Oliver R.A.巴克斯特,C.S.华莱士,“使用MML无监督学习,”Proc。13日如相依机器学习(ICML ' 96), pp.364 10 - 3721996. doi.ieeecomputersociety.org。1109 / 3。