关键字 |
基因表达数据,局部敏感判别分析,人工蜂群,模糊均值 |
介绍 |
在过去的几年里,微阵列已经成为一种广泛使用的技术,用于监测各种生物过程和功能中数千种基因的表达水平。从如此庞大的基因表达数据中提取隐藏信息是非常具有挑战性的,因此需要计算效率高的方法来挖掘基因表达数据是研究社区[1]的一个重点领域。 |
此外,事实是,由于潜在生物过程的复杂性,从DNA微阵列技术获得的基因表达数据大多是嘈杂的,并且具有非常高的维度。这种情况使得对此类数据的挖掘非常困难,并且对预测非常具有挑战性。已经使用了几种数据挖掘技术来解决上述挑战,聚类是能够以更高的准确性分析基因表达数据的最流行的工具之一。聚类技术识别数据集[2]中固有的自然结构和有趣的模式。 |
聚类基因表达数据的目的是揭示数据固有的自然结构。一个好的聚类算法应该尽可能少地依赖于先验知识,例如需要预先确定的聚类数量作为输入参数。基因表达数据的聚类算法应该能够从噪声数据中提取有用的信息。基因表达数据通常是高度关联的,可能具有交叉和嵌入的模式[4,5]。因此,基于基因的聚类算法应该能够有效地处理这种情况。最后,生物学家不仅对基因簇感兴趣,而且对簇之间及其子簇之间的关系(即亲密度)以及簇内基因之间的关系(例如,哪些基因可以被认为是簇的代表,哪些基因位于簇的边界区域)[6]感兴趣。一个聚类算法,也提供一些图形表示的簇结构,是非常受生物学家的青睐。 |
相关的工作 |
K-means是一种典型的基于分区的聚类算法,用于聚类基因表达数据。它将数据划分为预定义数量的簇,以优化预定义的标准。它的主要优点是它的简单性和速度,这使得它可以在大型数据集[8]上运行。但是,每次运行该算法可能不会产生相同的结果。通常,它不能处理异常值,也不适合检测任意形状的簇。对于噪声数据的聚类,自组织映射(SOM)比K-means具有更强的鲁棒性。它需要集群的数量和神经元的网格布局作为用户输入。在基因表达数据[9]的情况下,很难预先确定簇的数量。此外,划分方法仅限于低维数据,这些数据具有固有的高密度分离良好的簇。但是,基因表达数据集可能是高维的,并且经常包含交叉和嵌入的簇。 |
基因表达数据的聚类方法应该能够揭示数据的内在结构,从甚至有噪声的数据中提取有用的特征,识别数据中高度连接和嵌入的模式,并找到聚类及其子聚类[7]之间的关系。 |
基于自组织树算法(SOTA)[10]等SOM也可以构建层次结构。SOM扩展的另一个例子是模糊自适应共振理论(Fuzzy ART)[11],它提供了一些测量神经元一致性的方法(例如,警惕性标准)。通过拆分现有神经元或向映射中添加新神经元来调整输出映射,直到映射中每个神经元的一致性满足用户指定的阈值。 |
提出了基于k近邻的密度估计技术。另外一种基于密度的聚类算法分为三个阶段:每个基因的密度估计、使用核心基因的粗聚类和使用边界基因的聚类精化。提出了一种基于密度和共享近邻的聚类方法。使用的相似性度量是皮尔逊?S相关性和一个基因的密度是由它与邻近基因的相似性之和给出的。共享近邻的使用是合理的,因为两个密集基因之间存在共享邻居意味着密集基因周围的密度是相似的,因此应该与其邻居一起被包括在同一个聚类中。 |
模糊聚类方法最近受到了相当大的关注,因为它们能够将一个基因分配到多个聚类(模糊分配),这可能允许捕获涉及多个转录程序和生物过程的基因。模糊c均值(FCM)是k均值聚类的扩展,基于对象与所有聚类质心之间的相对距离将对象模糊分配到聚类。在过去的几年里,FCM的许多变体已经被提出,包括模糊聚类方法FLAME[15],它通过定义邻域关系来检测数据集特定的结构,然后使用模糊隶属度的邻域逼近,从而捕获非球状和非线性聚类。 |
方法 |
该方法包括两个阶段,即使用局部敏感判别分析(LSDA)进行降维和使用MoABC进行聚类。 |
A.局部敏感判别分析 |
一种新的线性降维算法——局部敏感判别分析(LSDA)。对于一类基于频谱的降维技术,它优化了一个与基于Fisher的经典降维方法根本不同的标准。s准则(LDA)或主成分分析。 |
局部敏感判别目标降维函数 |
可以观察到,自然发生的数据可能是由结构化系统生成的,其自由度可能比环境维度所暗示的要小得多,已经开展了许多研究工作,考虑到数据在环境空间[15]的子流形上或附近的情况。然后,估计未知子流形上随机点的子流形的几何性质和判别性质。本文考虑了不同类间局部边界最大化的特殊问题。 |
具有权矩阵W的最近邻图G表示数据流形的局部几何形状。它经常用于基于流形的学习技术,如[16,17,18]。然而,这个图无法发现数据中的判别结构。 |
现在考虑将类内图和类间图映射到一条直线上的问题,以便连接????的点当连接????点时,尽可能靠近.尽可能保持距离。让? ?= (? ?1, ? ?2,· · · , ???? )T be such a map. A reasonable criterion for choosing a “good” map is to optimize the following two objective functions: |
|
在适当的约束下。类内图上方程(1)上的目标函数如果相邻点????,则会产生严重的惩罚和? ?被映射得相距甚远,而它们实际上在同一个类中。同样,类间图(2)式中的目标函数,如果相邻点????,则会受到严重的惩罚和? ?映射在一起,而实际上它们属于不同的类。因此,最小化方程(1)是为了确保????和? ?接近并共享相同的标签,然后????和? ? are close as well. Also, maximizing (9) is an attempt to ensure that if ???? and ???? are close but have different labels then ????and ???? are far apart. Hence the high dimensional data obtained above is reduced to gene expression data size. Hence it is utilized to cluster the input microarray gene data using MoABC. |
C.基于模糊聚类的人工蜂群算法 |
本节给出了对基本ABC算法的改进及其在实现模糊聚类中的应用。 |
C.模糊c均值聚类(FCM) |
FCM是一种聚类算法,它允许一个数据属于两个或多个聚类。它通常用于模式识别[19]。它基于以下目标函数(3)的最小化: |
|
在那里, |
??=是任何大于1的实数 |
? ?=簇中xi的隶属度?? ? |
? ?第i个是d维数据吗 |
? ?是d维数据的聚类中心吗 |
? ?−? ?2是测量数据与聚类数据之间相似度的测量距离 |
通过更新隶属度??????对目标函数进行迭代优化,实现模糊划分集群中心????由: |
|
ε表示0 ~ 1之间的终止准则,k表示迭代步长。这个过程收敛到Jm的一个局部极小值或鞍点。 |
E.人工蜂群算法 |
这是一种受蜜蜂群体智能觅食行为启发的群体智能方法。它的优势在于它的健壮性和简单性。它是通过调查蜜蜂的行为发展起来的,包括寻找食物来源,也就是花蜜,以及分享蜂巢中蜜蜂的食物来源信息。在ABC中,人工智能主体分为三种类型;如雇佣蜂、围观蜂和侦察兵,每只蜜蜂在这一过程中都扮演着不同的角色。被雇佣的蜜蜂停留在一个食物来源上,并在它的记忆中提供食物来源的邻居。每只被雇佣的蜜蜂都携带着关于食物来源的信息,并将这些信息分享给围观的蜜蜂。旁观的蜜蜂在蜂巢中等待,从受雇的蜜蜂那里得到可能的食物来源信息后,决定选择一个食物来源来使用它。围观的蜜蜂根据食物来源的概率选择食物来源。与花蜜含量较高的食物来源相比,花蜜含量较低的食物来源吸引的围观蜜蜂较少。 Scout bees are searching randomly for a new solution.The employed bee whose food source has been abandoned it becomes a scout bee. The goal of the bees in the ABC model is to find the best solution. In the ABC algorithm the number of employed bees is equal to the number of onlooker bees which is also equal to the number of solutions. The ABC algorithm consist of a Maximum Cycle Number (MCN) during each cycle, there are three main parts: |
?将被雇佣的蜜蜂送到食物来源并计算它们的花蜜数量 |
?围观的蜜蜂选择食物来源 |
?决定侦查蜜蜂和发现一个新的可能的食物来源 |
1.受雇蜜蜂:在受雇蜜蜂阶段,每只受雇蜜蜂从当前食物来源附近确定一个新的解决方案(解决方案)。新食物源(新溶液)由式(7)计算。 |
|
? ?表示??????????的位置围观的蜜蜂,??T为迭代次数,????表示第i只蜜蜂的位置。? ?表示随机选择的受雇蜜蜂,??表示解决方案的维度和????(。)生成一系列范围为[-1,1]的随机变量。被雇佣的蜜蜂将当前解与新解进行比较,并通过贪婪选择过程记忆最佳解。 When all employed bees have finished this search process, then they share the fitness value (nectar information) and the position of the food source (solution) to the onlooker bees. |
2.围观蜜蜂:在围观蜜蜂阶段,在获得花蜜信息和食物来源的位置后,每只围观蜜蜂都会选择一个花蜜信息概率更高的食物来源。围观者的运动用式(8)计算。 |
|
? ?表示??????????的位置雇佣蜜蜂??表示受雇蜜蜂的数量,以及????选择??????????的概率是多少蜜蜂。如果选择的食物来源比旧的解决方案好,那么它就会更新,否则它就会保留旧的解决方案。 |
3.侦察兵蜂:如果一个食物来源的位置不能通过固定的循环得到改善,这被称为“极限”,这意味着这个解决方案已经被充分利用了,它可能会从种群中被移除。在这种情况下,被雇佣的蜜蜂成为侦察兵,使用公式(9)确定一个新的随机食物来源(解)位置。 |
|
R为随机数,??∈[0,1]。如果新的食物来源比被抛弃的食物来源更好,那么侦察兵蜜蜂就会成为雇员蜜蜂。重复这个过程,直到达到最大循环数(MNC)。蜜蜂根据较好的适应度值确定最优解。 |
4.基于MoABC的FCM:为了使用提出的MoABC-FCM算法进行图像分割的模糊聚类,SN (??1, ? ?2, ? ?3.… . ?????? ) solutions is created, where SN is the number of employed bees or onlooker bees. Each bee represents a potential solution of the fuzzy clustering problem. Each individual bee ???? in generation G is formulated using equation (10): |
|
??是集群的数量和,????,??代表??群集中心为??蜜蜂。 |
每只蜜蜂的位置????在[????????]范围内随机选择聚类中心初始化总体, ????????],其中gmin和gmax分别为图像的最小和最大灰度级。 |
|
蜜蜂的适合度表明它所代表的溶液的良好程度。在这项工作中,蜜蜂?S质量用目标函数测量,如式(12)所示: |
|
较小的是????,个体适合度越高????? ?聚类结果越好。MoABC-FCM算法的目标是确定满足式(13)的搜索空间中的最优位置。当算法收敛时,将最优模糊划分矩阵转化为清晰划分矩阵。通过将每个像素分配给具有最高隶属度的聚类来进行去模糊化。 |
结果与讨论 |
提出了一种评估人类急性白血病和结肠癌数据的微阵列基因样本的技术。将高维基因表达数据进行降维处理,从而得到带有维数的降维基因数据。因此,利用LSDA识别信息基因,降低聚类样本的基因维数,检测其表型。 |
已用于测试的三个类别的微阵列基因数据集的样本在表二中给出。对数量较大的微阵列基因表达数据进行聚类,可以通过确定聚类的边界来充分计算。 |
已用于测试的三个类别的微阵列基因数据集的样本在表二中给出。对数量较大的微阵列基因表达数据进行聚类,可以通过确定聚类的边界来充分计算。 |
从表三可以看出,与FCM、FPCM等其他基因聚类技术相比,本文提出的MoABC技术具有更高的准确性、相关性和更小的距离和错误率。更高的准确性和更低的错误率导致给定的微阵列基因数据有效地聚类到基因的实际类别。 |
结论 |
参与多个生物过程的基因(同时)可能在一个过程中起主要作用而在另一个过程中起次要作用。一个基因在多个过程中的重要性对进一步研究具有潜在的重要意义。本文提出了一种有效的具有LSDA和MoABC特征的微阵列基因数据聚类技术。首先,利用LSDA机制降低了微阵列数据的维数。并对人类急性白血病和结肠癌基因表达数据进行了聚类分析。从比较中可以看出,该方法对整个功能类别产生同样好的结果。结果表明,与FCM、FPCM基因聚类技术相比,该技术具有更高的准确率、相关性和更小的距离和错误率。因此,提出的MoABC基因聚类方法为有效检索微阵列基因表达数据铺平了道路。 |
表格一览 |
|
参考文献 |
- 蒋丹,唐春春,张安,“基因表达数据的聚类分析:综述”,可获得:
- www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/survey.pdf, 2003。rifa, Nandi,龚丽云,“基因表达数据的聚类分析:方法综述”,第5届通信控制与信号处理国际学术研讨会,2012。
- 马,P.C.H.;陈坤春,“基于基因功能预测的基因表达数据增量模糊挖掘”,中国生物医学工程学报,vol . 58, no . 5, Page(s): 1246- 1252, 2011。
- 贝尔卡斯特罗,V.;格雷戈蒂,F.;西西里亚诺,v;桑托罗,M.;D’angelo, G.;奥利瓦,G.;di Bernardo, D.,“基于基因表达谱的全基因组基因调控网络的逆向工程分析”,计算生物学与生物信息学学报,vol . 9, Issue . 3, Page(s): 668- 678, 2012。
- 袁银银,李昌俊,“基因表达分析中紧密聚类的部分混合模型”,第七届IEEE生物信息学与生物工程国际会议论文集,2007。BIBE 2007。
- 黄春熙,尹亮,“基因表达数据的聚类:性能和相似性分析”,2006年第一次国际计算机与计算科学研讨会。IMSCCS 06年。
- 蒋丹,裴杰,张安。“基于密度的DHC -基于层次聚类的时间序列基因表达数据方法[j]。《第三届IEEE生物信息学与生物工程国际研讨会论文集》,第393页,美国马里兰州,2003。
- Dhiraj k;早期,”栏目;潘迪,A.,“基于聚类的基因表达分析”,第3届生物信息学与生物医学工程国际会议,2009。ICBBE 2009。
- Kotani, M.,“使用自组织图谱和k-means聚类的聚类基因表达数据”,SICE 2003年年会,卷:3,页(s): 3211- 3215卷,2003。
- 阴,l;黄春熙,“基因表达数据的聚类:性能和相似性分析”,2006年第一次国际计算机与计算科学学术研讨会。IMSCCS 06年。
- 陈晓明,“基于模糊自适应共振理论的基因表达谱分析”,《生物信息学》vol. 18(8), pp. 1073 - 83,2002。
- Chung, S, Jun, J.和mcleod, D.“使用基于密度的聚类挖掘基因表达数据集”,技术报告,南加州大学/IMSC,南加州大学,第2期。imsc - 04 - 002, 2004。
- Syamala, R., Abidin, T.和Perrizo, W.,《基于密度和共享最近邻测量的聚类微阵列数据》。第21届ISCA计算机及其应用国际会议论文集(CATA-2006), pp. 23-25, 2006。
- 傅,李,梅迪科,E.“火焰:一种新的模糊聚类方法用于DNA微阵列数据分析”,生物信息学报,8(3),2007。
- 蔡登,何晓飞,周坤,韩佳伟,鲍虎军,“局部敏感判别分析”,2007。
- M. Belkin和P. Niyogi。嵌入和聚类的拉普拉斯特征映射和光谱技术。《神经信息处理系统进展》14,第585-591页。麻省理工学院出版社,剑桥,马萨诸塞州,2001。
- J. Tenenbaum, V. de Silva和J. Langford。非线性降维的全局几何框架。科学通报,29(5500):2319 - 2323,2000。
- S.罗维斯和L.索尔。“局部线性嵌入的非线性降维”。科学通报,29(5):2323-2326,2000。
- 耿新庆,陶凤梅,“一种新的模糊聚类算法及其应用”,信息管理、创新管理与工业工程国际学术会议,2012。
- 简文,“基于本体的聚类改进基因组信息识别”,第20届IEEE国际学术研讨会。第3期,第229-259页,2009。
|