所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

改进聚类公式以减少数据挖掘中的异常值

南希Lekhi1曼尼什·马哈詹2
  1. 印度旁遮普省CEC兰兰理工硕士
  2. 印度旁遮普省CEC Landran副教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

现有的数据挖掘研究大多集中在单聚类算法对数据的离群点检测上。在数据挖掘中,有很多方法可以通过将数据聚类来检测离群值,然后从中检测离群值。其中离群值是数据项的值超出样本数据的范围,这可能是异常数据。本文提出了一种既适用于数值数据又适用于文本数据的混合算法。我们的重点是改进聚类的生成,以减少异常值的数量,因为我们可以结合数据挖掘的聚类和分类技术,即加权k均值和神经网络。

关键字

能源数据挖掘;离群值;聚类;k - means;加权k-mean;神经网络

介绍

数据挖掘是指从大量数据中提取或“挖掘”知识。数据挖掘是指从数据中获取隐藏的和必要的信息,数据挖掘发现的知识是以前未知的、潜在有用的、有效的、高质量的[6]。数据挖掘包括许多技术,如聚类检测,决策树,基于记忆的推理,链接分析,神经网络,遗传算法等等。
数据项的值与其他数据不同,或者值落在描述范围之外的数据项称为离群值。或者可以说,数据库可能包含不符合其余数据的一般行为或模型的数据。一个异常值是一个观测值,偏离其他观测值,引起怀疑,它是由不同的机制产生[1]。
聚类是最早的数据挖掘技术。这种技术被设计为无定向知识发现或无监督学习。有很多聚类技术用于从数据中生成聚类。

相关工作

在[2]中作者提出了一种简单高效的k-means聚类算法的实现。该算法易于实现,只需要kd树作为唯一的主要数据结构。一种流行的k-means算法首先将所有数据点分配到最近的聚类,然后确定聚类中心,从而对数据进行组织或分组。算法重复这两个步骤,直到将数据分成组,这就是为什么k-means算法在生成聚类时速度非常慢。在这篇[3]中,作者展示了k均值的速度和准确性的提高,通过在k均值中添加一个变量来更好地处理称为加权k均值的大型数据集,并在聚类密度上有很大的差异来增强聚类的可伸缩性。为了加快聚类过程,作者提出了一种有效的储层偏向抽样方法。但这种方法不适用于真正的大型数据库,也没有任何方法可以处理异常值。本文讨论了k-均值算法在数据挖掘中的主要问题是变量(属性)的选择。K-mean算法不能自动选择变量,因为在聚类过程中对所有变量一视同仁,导致聚类效果不佳。新的k-mean类型聚类算法称为加权k-mean,可以自动计算变量权重。 But this algorithm’s are week or poor to find the outlier. In [5] author has developed an new algorithm for outlier detection using genetic algorithm.Genetic algorithm is better in computing the number of outliers in a particular time period. But this method does not work on dataset of various types and required to improve the processing speed and performance of the algorithm. The author in [6] enhanced the work done by uses hybrid approach for outlier detection the principle of outliers finding depend on the threshold. Threshold is set by user. But This approach is only deals with numerical data not with text data or on mixture data and also performance of this approach is low. In this paper [7] author presented an algorithm that provides outlier detection and data clustering simultaneously. In this the author used two technique one is for clustering i.e. genetic k means and other for outlier detection i.e. outlier removal clustering. But this can work for large scale data of same type not for mixed type.

集群技术

聚类算法搜索彼此相似的数据元素的组或簇,聚类的原则是最大化类内相似度和最小化类间相似度,如图1所示。
有很多聚类技术用于从数据中生成聚类。让我们来讨论其中的一些:-
K-mean: -最简单、最常用的聚类算法是k均值算法。该算法将数据划分为K个簇,即C1到CK,以中心[2]表示。集群的中心是根据属于该集群的所有实例的平均值来计算的。K-mean算法将做三个步骤:-
输入:n个数据点和簇数(K)
输出:K集群
i.初始化K个聚类中心
2当终止条件不满足时确定每个物体到质心的距离根据最小距离对物体进行分组(找到最近的质心)
3结束时
劣势:k-mean算法的主要缺点是它只适用于数值数据,而不适用于文本或任何混合类型的数据。
加权k-mean: -对k-means算法提出的扩展称为加权k-means[3]。该算法是一种非常有用的方法,它克服了k-mean算法的缺点,即它既适用于数值数据,也适用于文本数据和混合类型的数据(日期和时间)。
输入:n个数据,簇数(K)
输出:K集群
i.初始化k个簇中心
2For循环,直到处理完所有数据
a.随机生成n个数据的权重
b.计算到随机生成的中心的距离
c.结束
3现在把有权重的数据分成k个簇。

分类技术

分类的目的是分析输入数据,并利用数据中存在的特征为每个类开发一个准确的描述或模型。有一些分类技术用于数据挖掘:-
遗传算法(GA):-遗传算法用于为优化和搜索问题生成有用的解决方案。遗传算法是一种容易在大搜索空间中进行搜索的算法。但是遗传算法有很多缺点,比如遗传算法需要很多时间,他们不能总是找到准确的解决方案,但他们总是能找到最佳解决方案。而且它在数值数据方面工作得很好。遗传算法可以有效地处理大量数据,但不能处理少量数据。
神经网络(NN):-神经网络根据您提供的训练对现有模式进行分类/识别。, NN是一种基于生物神经网络[8]的数学模型或计算模型。神经网络是由大量简单处理单元共同组成的智能模型,能够执行非常复杂的模式匹配任务。与遗传算法相比,神经网络是一种快速的技术,其结果总是更好,而且具有较高的精度。即使它可以有效地处理少量数据和大量数据。

算法

正如我们前面讨论的,我们可以通过执行更好的聚类来减少异常值。这种聚类方法可以通过将两种技术结合在一起来形成,因此我们能够创建一个系统,使一种技术的输出可以引入另一种技术的输入。这样系统就能更好地运行,并独家提高性能
A.系统架构
?输入数据集:收集用于输入的数据集。
?加权k-mean:加权k均值是一种聚类方法。它提供每个数据元素的权重,然后将它们划分为k个簇。加权k均值的结果将由用户保存。
?神经网络:神经网络包含大量处理数据并产生更好结果的神经元。由用户存储的加权k-均值输出在神经生成输出数据集后作为输入给神经。
?输出数据集:包含输入数据集的准确聚类。
B.提出加权k均值和神经网络算法
该算法的目的是通过将两种技术结合起来改进数据聚类,从而减少异常点的数量。该算法由两个主要步骤组成。
步骤1:元素距离计算:
每个元素的位置由eq.(1)随机计算,即舍入和随机函数。
图像
每次生成一个随机数然后乘以n n可以是任何数。由式(2)计算总元素中心位置
图像
其中x和y是位置的总数,现在计算每个x和y的中心。之后使用eq计算每个元素的距离。(3)
图像
步骤2:为每个元素分配权重,并计算权重的平均值
将距离分配为每个元素的权重,然后使用eq.(4)计算这些权重的平均值
图像
d是我们之前计算的距离。

伪代码

步骤1:浏览包含文本、数字和日期/时间的数据文件。
步骤2:用eq.(1)计算x2,用eq.(2)计算y2。
步骤3:将由eq.(1)和eq.(2)得到的值代入eq.(3)中计算距离。
步骤4:将距离作为每个元素的权重。
步骤5:利用式(4)计算权重的平均值。
步骤6:重复以下步骤,直到所有元素处理完毕
检查下面的条件,使集群
图像
第七步:保存第六步的输出,可以作为神经网络技术的输入。
步骤8:结束。

仿真结果

用MATLAB实现了该算法。在图3中。文本数据以红色点表示,采用加权k均值聚类技术将文本数据分为两个聚类。在对神经网络进行训练后,将聚类结果作为输入传递给神经网络进行分类,测试结果如图4所示为近邻权距,图5所示为近邻权距。显示来自两个输入的权重,其中深色区域表示高权重,低区域表示低权重。图6显示了与每个神经元相关的数据点的数量,其中数据均匀地分布在神经元上。图7所示。显示数据点和权向量的位置。

结论及未来工作

仿真结果表明,该算法优于遗传k均值算法。采用加权k均值聚类算法提高了分类精度。本文提出的方法处理文本数据集,之前没有在文本数据集上使用遗传k-mean,而是在数值数据集上执行。我们只使用了文本和数字数据。这项研究工作的未来方面可能涉及在复合数据集上执行聚类过程以分析性能。

数字一览

图1 图2 图3 图4
图1 图2 图3 图4
图1 图2 图3
图5 图6 图7

参考文献









全球科技峰会