所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

回顾关联规则挖掘算法

Jyoti Arora1,尼迪巴拉2,(Sanjeev饶3
  1. 追求M。科技部门。CSE,哲人Vivekanand工程与技术研究所Banur,印度
  2. CSE学系副教授哲人Vivekanand工程与技术研究所Banur,印度
  3. CSE学系助理教授,RIMT工程与技术学院,曼迪Gobindgarh,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

本文回顾四个不同的关联规则挖掘algorithmsApriori, AprioriTid,先验的混合动力和第三的算法和他们的缺点,将有助于找到新的解决方案这些算法中发现的问题,并提出了一个比较不同的关联挖掘算法。关联规则挖掘是数据挖掘中最重要的技术之一。其目的是提取有趣的相关性,频繁模式和协会之间的事务数据库中项集。

关键字

数据挖掘、关联规则算法,推测的,AprioriTid,先验的混合和第三的算法

介绍

的科学从大型数据集或数据库中提取有用的信息被命名为数据挖掘[4]。虽然有一个广泛的历史数据挖掘概念,术语“数据挖掘”,介绍了比较新,在90年代中期。数据挖掘涉及领域的统计、机器学习、数据管理和数据库、模式识别、人工智能等领域。

关联规则挖掘

在数据挖掘、关联规则学好是一个受欢迎的和发现有趣的研究方法在大型数据库中变量之间的关系。它的目的是识别强规则中发现数据库使用不同措施的有趣的[2]。基于强大的规则的概念,RakeshAgrawal等[3]。关联规则挖掘的一个典型的和广泛使用的例子是市场购物篮分析。问题是生成所有关联规则的支持和信心大于用户指定的最小支持度和最小的信心。
图像

支持(年代)

支持(S)的关联规则的定义是百分比/分数的记录包含X∪人数据库中记录的总数。假设一个项目的支持是0.1%,这意味着只有0.1%的事务包含这个项目的采购。

支持(XY) =支持计数(XY) / D的事务总数

信心(C)

信心(C)的关联规则的定义是交易数量的百分比/分数包含X∪Y记录的总数,包含X信心是衡量关联规则的力量,假设关联规则的信心X⇒Y是80%,这意味着80%的交易包含X也包含在一起。

信心(X | Y) = (XY) /支持(X)

答:关联规则的目标

•找到所有的项目集(集),支持(事务)数量大于最小支持(大型集)。
•使用大型集生成所需的规则,有信心超过最低的信心。

b .一般基于“增大化现实”技术的算法

•第一个通过计算每个项目的支持,大的决心
•在每个后续通过,大型集确定在前面通过用于生成新的集称为候选集。
•每个候选人的支持item-setis数,大的决心
•这一过程持续进行直到没有发现新的大型集。

先验的算法

先天是Agrawal和Srikant提出的在1994年[1]。该算法发现数据库中的频繁集L d,它利用下行关闭属性。算法是一个底部搜索,上行level-wise晶格。然而,在阅读各级数据库,它砍掉许多的设置不太可能频繁集,从而节约任何额外的努力。
候选人的一代:考虑到所有频繁集(k - 1)。我们想生成所有频繁k-item-sets的超集。aprioricandidates生成过程背后的直觉是,如果一个项目集X最低的支持,所有的子集X毕竟(l + 1) -候选序列生成,开始一个新的扫描的事务(他们读一个接一个)和确定这些新候选人的支持。
修剪:修剪步骤消除了(k - 1)的扩展集不发现频繁,从考虑计算的支持。对于每个事务t,该算法检查后,候选人都包含在t和最后的事务处理;那些支持小于最小支持被丢弃。
发现大型集
•多经过数据
•第一遍——数个别项目的支持。
•随后通过
——使用先前通过的大项目集生成候选人。
——过去的数据和检查的实际支持的候选人。
•没有发现新的大型集时停止。
任何大型项目集的子集很大,因此
找到大k-item-set
——创建候选人通过结合大k - 1集。
——删除那些不包含任何子集大[1]。
基于“增大化现实”技术的声明的问题
•我= {i1、i2…, im}是一组项目。
T•D是一组事务。
•每个事务T是一组项目。
•TID是一个独特的标识符与每个事务相关联。
缺点
先验的算法的主要缺点
)需要更多的时间,空间和内存的候选生成过程。
b)生成候选集需要多次扫描数据库。

APRIORITID算法

•数据库不是所有用于计算候选集的支持在第一次通过。
•生成候选集一样在先验的算法。
•另一组C”生成的每个成员的TID每个事务和大型集出现在该事务。这组是用来计算每个候选集的支持[1]。
缺点
小问题),AprioriTid以及推测的,但性能退化慢两倍大的问题。
b)在最初通过生成候选项集非常大相当于数据库的大小。因此,时间就等于先验的。也可能招致额外费用如果不能完全适应内存。

先验的混合算法

先验的执行比AprioriTid在最初经过但后来经过AprioriTid比先天有更好的性能。由于这个原因我们可以使用另一个算法称为先验的混合算法[1]。
先天是用于初始传递但我们切换到AprioriTid后通过。开关需要时间,但它仍然是更好的在大多数情况下。
估计C的大小
图像
缺点
)额外的成本从先验的转向AprioriTid时发生。
b)假设的K th AprioriTid通过我们决定从先验的。然后在(k + 1),生成候选集后我们还必须添加tid C 'k + 1。

第三的算法

该算法发现规则根据确认措施(p . a . Flach n . Lachiche 2001)。它使用一阶逻辑表示。它包括各种选项如类指数、分类、确认阈值,确认值,频率阈值,角条款,缺失值,否定,噪声阈值,数字字面值,重复文字,roc分析,输出值等[6]。
缺点
第三的是其运行时相对较长,这在很大程度上是依赖于文字数量的规则。增加文字的数量允许运行时成倍增加,所以我们要保持最大的三个。即使允许最多三个文字,运行时仍然很长——运行第三的需要为我们的一些大的测试几个小时。

先天的比较、AprioriTid AprioriHybrid和第三的。

图像

结论

在本文中概述了在四个不同的关联规则挖掘算法先天,AprioriTid,先验的混合动力和第三的算法和他们的缺点,将有助于找到新的解决方案这些算法中发现的问题,并提出了一个比较不同的关联挖掘算法。

数据乍一看

图1 图2
图1 图2

引用