在微阵列数据库相关模式挖掘的框架

Nilamadhab Mishra
计算机科学系应用Krupajal组机构,印度奥里萨邦。

通讯作者:Nilamadhab Mishra,电子邮件:nilamadhab.mishra@rediffmail.com

文摘

微阵列数据库是一个典型的关系型数据库,其中包含大量的列和一个小的行数,它带来了一个巨大的挑战对现有相关模式挖掘算法发现模式枚举项空间。这里我想回顾一些枚举算法有助于探讨行我空间关联模式。行枚举算法用于避免搜索大量的列/物品枚举空间,但是这些算法可以搜索相关的模式行枚举空间。列枚举算法不能扩展芯片数据库,而有可能规模行枚举算法芯片数据库。所以我能说的正确,相关的模式/规则可以更好的搜索替代品,从而减少搜索时间和complexcity。所以搜索大量的微阵列数据库中的列(生物信息学数据库),应该搜索相关的框架模式。

关键字

相关模式,魅力,RERII,壁橱,木匠,壁橱+,报告。

介绍

微阵列数据库可能包含数千或数万列(基因),但只有几十或几百个行。发现频繁模式从微阵列数据库是非常重要和有用的,特别是在以下几点:1)发现关联规则,这不仅可以揭示生物相关基因和环境之间的相互关系/类别识别基因调控通路,也有助于揭示基因网络[1]。2)发现bi-clustering基因表达所示[8]。然而,这些highdimensional微阵列数据库构成巨大的挑战现有的频繁模式发现算法。虽然有大量的频繁模式发现算法开发和相关模式挖掘(3、4、7),其基本方法是基于项的枚举项的组合测试系统搜索频繁模式有关。因此,他们的运行时间与平均长度的增加呈指数增长记录。高维基因芯片数据库呈现这些算法不切实际。首次[2]所示,完整的频繁模式也可以通过搜索获得相关行枚举空间,也观察到在[5]。此外,[9]提出了一个算法,木匠,探索行枚举搜索空间通过构造投影转置数据库递归。考虑到许多相关的算法提出了矿井频繁模式枚举项,这将是有趣的调查一些想法是否可以借用这些算法更有效地搜索行枚举空间。 In this paper, two new efficient algorithms, RERII and REPT are reviewed to explore the row enumeration space to discover frequent associated patterns. Algorithm RERII is inspired by algorithms that mine patterns from vertical layout data [7], while algorithm REPT is inspired by algorithms that are based on FP-tree [4]. But RERII and REPT are very different from them in that both of them adopt row enumeration. Compared with CARPENTER, RERII and REPT use different implementation methods and employ more powerful pruning methods. Several experiments are performed on real-life microarray database to show that the new algorithms are much faster than the existing algorithms, including CLOSET [4], CHARM [7], CLOSET+[6]andCARPENTER[2]. CARPENTER [3] is developed to perform row enumeration on bioinformatics database.

行枚举树

1。Start()作为根节点。

2。把我作为子节点值1 2 3 4 5下根。

3所示。下的子节点扩展每个我值。i = 1,(1, 2)(1、3)(4)(1、5)作为一个孩子节点和常见的国际扶轮

4所示。进一步创建子节点,结合三个我值(123124125等),采取共同的国际扶轮。

5。最后创建的叶节点组合4我的价值观和共同的国际扶轮。行枚举算法使用行枚举树找出最接近的相关模式。

木匠是一行枚举算法,寻找相关的频繁模式通过测试不同的行组合。由于生物信息学数据库有小的行数和大量的功能,行组合的数量将远远小于的数量特征的组合。这样,行枚举算法像木匠将比功能更有效率的枚举算法在这些类型的数据库。从上面的,是很自然的让两个观察。首先,我们可以得出结论,不同的数据库会有不同的特征,因此需要不同的枚举方法为了使相关模式挖掘的效率。此外,由于这些算法通常专注于处理不同的数据子集在开采期间,被处理的数据子集的特征将会改变到另一个从一个子集。例如,一个数据集,比功能更行可以划分为sub-database比行更多的功能。因此单一功能枚举方法或单行枚举方法可能成为枚举的低效在某些阶段,即使他们是更好的选择的算法。因此,它是有意义的尝试切换动态枚举方法不同子集的数据被处理。第二,这两类算法将问题处理数据库大量的特性和大的行数。 This can be seen if we understand the basic philosophy of these algorithms. In both classes of algorithms, the aim is to reduce the amount of data being considered by searching in the smaller enumeration space. For Example, when performing feature enumeration, the number of rows being considered will decrease as the number of features in a feature set grows. It is thus possible to partition the large number of rows into smaller subset for efficient mining. However, for database with large number of rows and large number of features, adopting only one single enumeration method will make it difficult to reduce the data being considered in another dimension. Motivated by these observations, we derived a new algorithm called COBBLER.

鞋匠是用来自动切换功能枚举和行枚举在采矿过程中根据数据子集的特征。这种方法将产生好结果在处理不同类型的数据库。

初步

让我= {i1、i2……im}是一组项目。让维数据集(或表),由一组行R = {r1……rn}与国际扶轮每一行组成的一组项目,即国际扶轮。

在这里,我想介绍两个概念叫做特性集和行支持设置。

定义1

功能支持,R (F)。给定一组特性的子集或等于F,我们使用R (F)的子集等于R来表示最大的一组行包含F '。

定义2

行支持,F (R)。给定一组行R的子集或等于R。我们使用F (R)的子集等于F表示大的特性,是常见的行R的数量。

问题定义

给定一个数据集D包含记录的子集的一组物品我,问题是发现所有相关的频繁模式对用户给定的阈值-的支持。此外,我们假设数据库满足条件R | < < | | |。为了解决这个问题,木匠设计基于两个基本概念。一个预计转置表,另一个是行枚举。在微阵列数据库所需的行必须枚举但列不需要任何进一步的枚举。皮匠:结合列和行枚举。它是木匠的扩展来处理数据库大量的列和行和列和行之间也开关动态枚举估计成本的基础上处理。切换条件(1)天真的想法基于行数量和特性的开关数量不会工作得很好。(2)枚举子树估计所需的计算,即、行枚举子树或特性枚举子树。估计每个孩子的最大程度的枚举子树。 As we can see, the basic characteristic of a row enumeration tree or a feature enumeration tree is that the tree is static. The current solution is to make a selection between these approaches based on the characteristic of the enumeration algorithm. For database with many rows and few features, algorithms like CHARM [11] and CLOSET+ [10] that search in the feature enumeration tree will be more efficient since the number of possible feature combinations will be small. However, when the number of features is much larger than the number of rows, a row enumeration algorithm like CARPENTER [9] was shown to be much more efficient. There are two motivations for adopting a more dynamic approach. First, the characteristics of the conditional tables could be different from the original table. Since the number of rows (or tuples) can be reduced as we move down the enumeration tree, it is possible that a table which has more rows than features initially, could have the characteristic reversed for it’s conditional tables (i.e. more features than rows). As such, it makes sense to adopt a different enumeration approach as the data characteristic changes. Second, for database with large number of rows and also large number of features, a combination of row and feature enumeration could help to reduce both the number of rows and features being considered in the conditional tables thus enhancing the efficiency of mining.

一些有效的算法

算法报告

像木匠,算法报告的帮助下遍历行枚举树投影转置表。首次从木匠主要区别是,报告代表(预计)转置表前缀树,它可以帮助节省内存和节约计算在计算频率。从木匠报告的第二个主要区别在于修剪方法。前缀树用于表示转置表类似于FP-tree[4]来表示原始表中使用。在FP-tree中,每个节点代表一个项目在报告中使用的前缀树的节点代表一行。

4.2算法RERII (D,度)

1。扫描数据库D发现频繁项集F

2。删除每一行国际扶轮的罕见物品D

3所示。每个国际扶轮形式第一层次的行枚举树中的一个节点,让N组节点

4所示。RERIIdepthfirst (N、F CP)

5。让CF关闭项目集F, F CP = F F CP CP和CF返回

RERII已经发现的频繁集单项通过扫描数据库一次,我们需要发现这些频繁闭合模式有关。因此各种算法有魅力,RERII,壁橱,木匠,衣柜+,报告我已经提出相关的模式。如果我们分析各种算法的内存使用我们观察到报告消耗最少的内存空间而魅力最消耗的内存空间。如果我们进一步分析基于观察那棵树的计划(例如,壁橱,报告使用FP-tree)一般消耗更少的内存,而非树木——基于算法(如。、魅力、RERII)通常我们使用更有效的数据。

结论

相关模式挖掘是一个至关重要的话题在过去十年中已备受关注。相关模式的数量在一个大型数据集可以非常大,很多相关的模式可能是多余的。减少相关的频繁模式一个紧凑的尺寸,挖掘频繁闭合模式已经提出了有关。另一个相关的算法挖掘频繁闭合模式是木匠。木匠是一个纯行枚举算法。木匠发现频繁的关闭相关模式进行深度优先,行枚举结合高效的搜索修剪技术。木匠是特别设计的相关挖掘频繁闭模式数据库包含大量的列和小的行数。因此该算法可以有效地用于帧相关的封闭模式在微阵列数据库。

未来的工作

在我未来的工作,我想通过遗传算法实现相关模式挖掘。找出相关的模式之前,大型数据集是规范化,减少枚举空间,遗传算法可以成功地实现。这里我可以使用遗传算法作为枚举空间优化器,它将帮助我找到最优的解决方案。我也兴趣实现联想记忆的特点(软计算)在微阵列对数据库中提取相关的模式。

引用

c·克莱顿和美国Hanash。对关联规则挖掘基因表达数据集。生物信息学,19日,2003。
f, g, a . k . h .东杨和m . j .海岬。汽车-郁积的:发现封闭的模式在漫长的生物数据集。Proc。ACM SIGKDD如Conf.知识发现和数据挖掘(KDD), 2003年。
n . Pasquier y巴斯蒂德、r . Taouil和l . Lakhal。发现关联规则的频繁闭项集。Proc。7日如相依数据库理论(ICDT), 1999年。
j .贝聿铭j·汉,r .毛。衣橱:挖掘频繁闭项集的高效算法。InProc。ACM - SIGMOD国际研讨会上的数据挖掘和知识发现(DMKD), 2000年。
f . Rioult肯尼迪。b . Cremileux Boulicaut, j·贝松。从微阵列数据使用换位的模式探索。Proc。ACM-SIGMOD国际研讨会上的数据挖掘和知识发现(DMKD), 2003年。
j . j . Wang汉,j .贝聿铭。衣柜+:寻找挖掘频繁闭项集的最佳策略。Proc。ACM SIGKDD如Conf.知识发现和数据挖掘(KDD), 2003年。
m·j·海岬和萧。魅力:一个有效的封闭的关联规则挖掘算法。Proc。暹罗如Conf.在数据挖掘(SDM), 2002年。
z, a . Teo b Ooi K.-L。棕褐色。矿业确定性biclusters基因表达数据。在生物信息学和生物工程4日研讨会,2004。
f, g, a和k·h·东。木匠:长生物数据库中找到关闭模式。在11 ACM-SIGKDD国际会议上知识发现和数据挖掘,2003。
j . j . Wang汉,j .贝聿铭。衣柜+:寻找挖掘频繁闭项集的最佳策略。2003年Proc。acm SIGKDD Int。Conf.知识发现和数据挖掘(KDD ' 03),华盛顿特区2003年8月。
m .海岬和萧。魅力:一个有效的封闭的关联规则挖掘算法。Proc.长效磺胺的2002,2002。