使用关联规则预测糖尿病的风险相对EMR总结技术

K.Thulasi¹,S.Sowmiyaa²,P.Prema³

U。G学生,计算机科学与工程系,Dhanalakshmi工程学院,钦奈,印度泰米尔纳德邦,
计算机科学与工程系助理教授,Dhanalakshmi工程学院,钦奈,印度泰米尔纳德邦,

文摘

早期发现患者升高患糖尿病的风险是至关重要的预防和改善这些患者的整体临床管理。我们的目标是将关联规则挖掘应用于电子病历(EMR)发现的风险因素集及其对应的亚种群代表病人患糖尿病的风险特别高。考虑到高维度的电子病历,关联规则挖掘生成一个非常大的规则集,我们需要总结,便于临床应用。我们回顾了四个协会规则集总结技术进行了比较评价,对于他们的适用性提供指导,优点和缺点。我们提出了扩展合并糖尿病的风险的过程中找到一个最佳的总结。我们评估这些改性技术在一个真实的前驱糖尿病的病人队列。我们发现所有的四个方法生产总结描述糖尿病高危亚种群每个方法都有其明确的力量。对于我们的目的,我们扩展Buttom-Up总结(总线)算法产生最合适的总结。这个发现的亚种群总结覆盖大多数高危患者,有低重叠和糖尿病的风险非常高。

关键字

这,关联规则,关联规则总结

介绍

糖尿病可能在美国越来越流行,影响2580万人(占总人口的8%),和七百万个不理解他们有疾病多基因疾病结果至关重要的并发症以及贫血{心脏病|心脏病|心脏病心血管病|},中风、肾脏疾病、视网膜病变,病理和周围性血管疾病。发展多基因疾病的早期识别风险的患者可能是一个主要的医疗保健需要。适当的管理病人的危险与方式的变化和药物会降低患糖尿病的机率,半小时小时。多个风险因素已经知道触摸一个巨大的人口比例。作为一个例子,前糖尿病(血糖水平高于传统有所不同但是低于标准的程度糖尿病)礼物只是五分之三十的成年人,将绝对多基因疾病的风险增加3到10倍指望的存在进一步相关的风险因素,如肥胖,特发性高血压等。关联规则区域单元的影响,把一群潜在交互条件(如高BMI因此心血管疾病诊断的存在)的风险升高。使用关联规则主要是值得的,因为除了量化多基因疾病风险,他们结合地及时为医学提供了一个基本原理,即相关的一组条件。这组条件是用于指导治疗对额外的定制和有针对性的预防保健或多基因疾病管理。获胜的数量关联规则集报告技术计划但没有明确的指导存在的重要性,这些技术的优点和缺点。这个重写本的主要目标是回顾和描述四个现有的关联规则技术报告和提供指导从业人员在选择最合适的一个。 A common defect of those techniques is their inability to take polygenic disorder risk–a continuous outcome–into account. In order to form these techniques a lot of applicable, we had to minimally modify them: we tend to extend them to include information regarding continuous outcome variables. Specifically , our key contributions area unit as follows. 1. we tend to gift a clinical application of association rule mining to spot sets of co-morbid conditions (and the patient subpopulations who are suffering from these conditions) that imply considerably inflated risk of diabetes. 2. Association rule mining on this in depth set of variables resulted in AN exponentially massive set of association rules. we tend to extended four standard association rule set report techniques (mainly from the review ) by incorporating the chance of polygenic disorder into the method of finding AN best outline. 3. Our main contribution could be a comparative analysis of these extended report techniques that provides steering to practitioners in choosing an appropriate rule for an analogous downside.

二世。相关工作

一种多基因疾病指数实质上是一个预言模型,将分数赋值给一个病人支持他的计算多基因疾病的风险。柯林斯进行了密集多基因疾病的调查指标描述的危险因素和建模技术,这些证据使用。他们发现大多数指数调查的性质和没有添加剂指标已经危险因素考虑之间的交互。当我们有一种倾向,似乎并没有意识到任何新的多基因疾病指数调查后发现,最近的一项研究专业代谢综合征(多基因疾病可能是一个组件)代表一个大的发展。金等。使用关联规则挖掘不断探索公司喘振的识别代码。随后的关联规则不\ ' t构成多基因疾病指数的结果感兴趣的研究并没有指定一个特定的结果,他们不评估或预测的危险多基因疾病的病人,但他们发现一些重要的识别代码之间的关联。我们最近进行的一种多基因疾病研究无论我们旨在得到代谢综合症的疾病之间的关系。我们倾向于使用相同的队列当前的研究中,然而,我们倾向于封闭的专八识别代码和年龄作为预测因子。我们发现关联规则涉及很多这八识别代码,多基因疾病的风险评估,这些规则授给病人和原则作为一个进程图描绘但是病人进展从健康状态对多基因疾病。我们无可争辩的测量方法在临床上有意义的关联规则发现广场与我们的医疗的期望。 With solely eight predictor variables, the dimensions of the discovered rule set was modest–13 vital rules– and consequently, interpretation was simple. Naturally, no rule-set account was necessary.

三世。关联规则挖掘

让副学位项目是一个二进制指标标志着一个病人是否具有相应的风险问题。如项目htn表明是否病人被诊断患有高血压。让X表示工件矩阵,它是一个二进制协变量矩阵的行代表病人和列代表的东西。副学位项目集可能是一组项目:它表明是否相应的风险因素都呈现在病人。如果他们,病人声称由项目集(或项目集适用于病人)。一种关联规则是我→J,无论我和J都是项集。规则代表副学位暗示J可能只用于病人如果适用。项目集我是前期和J,生成的规则的。协会的力量和“意义”是传统量化,通过支持和信心的措施。副学位项目集的支持,各种各样的病人排的itemset的信心,因此规则R:我→J,是病人的分数排列由J那些排在关联规则挖掘,东西不要扮演特定的角色:没有任何选择的预测变量或结果变量。 In alternative words, any item will seem within the antecedent of 1 rule and within the resulting of another. Predictive association rule mining , diagrammatical the first departure from this paradigm by designating a specific item as AN outcome. the ensuing of the prophetical association rules is often the selected outcome item. Regressive association rules and quantitative association rules more swollen this paradigm permitting a continuous outcome variable y to function the “consequent” of a rule. Let y(I) denote the end result within the subpopulation of patients that's lined by I; there's one y(I) worth for each patient. Further, let ÃÂy(I) denote the subpopulation mean outcome, the mean of y(I) values across patients to whom I applies. Analogously to the first association rule formulation, regressive association rules also are implications: they state that patients World Health Organization gift condition(s) I (antecedent) have outcome ¯y(I) on the average.

假设y表示的变量量化多基因疾病的机会。通过考试总体均值结果¯y (I)为受影响的人口(前期我病人的礼物)结局的¯y (¬I)不受影响人口的(病人失踪至少从我一个条件),我们将评估的重要性我作为一个风险问题。作为一个例子,如果y表示糖尿病事件的数量指标RR =¯y (I) /¯y (¬I)命名的相对风险,这表明患者条件(s)我可能RR倍额外的多基因疾病的患者比丢失最少的一个条件。不幸的是,在某些情况下,在结果的区别这两个亚种群之间不能充分捕捉受害的平均结果,有时结果的空间排列形式相连地扮演了一个任务。分配关联规则将捕捉这种变化。

四、方法

应用我们的混合与生存空间关联规则挖掘分析方法做了一个组合相当大数量的(显著)规则。许多这些规则广场测量每一个替代的轻微的变异导致混淆的临床模式潜在的规则集。一个补救当前下行,构成了这项工作的重点,总结规则集集合到一个更小更容易总结。

我们首先回顾目前的规则集和信息总结的方法,然后提出一个通用的框架,这些方法适合最后,我们倾向于扩展这些方法,以便他们将无尽的结果变量(鞅残留在我们的例子中)正在考虑。

摘要基于贪婪设置覆盖

总结方法支持贪婪的设置覆盖共享一个典型的缺点制定如下:给定一个损失准则,构造一组组成的k项集所有来自我或我的超集指定一个最小化L .问题是np难副Nursingd一个近似的答案是取得受害连续报道的一些变种。

算法1连续报道

输入:设置我的项集,总结规则数k输出:设置一个项集,酸处理最小化准则L生成一组扩展项集基于我的E = _, | | < k做=参数最小E∈E L (E)添加一个删除的效果而结束

序列覆盖算法的算法描述了定义规则。1项集的E组,形成项目集的收集,大纲规定一个正方形测量精心挑选。我通常E是相似,但是一些算法添加进一步的项集,创建它的超集。从头开始是空的,它是由迭代。在每个迭代中,最小化的统治E E L选择和额外的a .避免选择重复不变的规则,其影响是删除:从E规则本身是丢弃或病人规则方形测量涂层的远离数据集(这样的标准不是评估这些患者)。

有人在算法的关键是,损失的定义标准。损失标准开发,使其包含信息的表达规则的规则进一步因为病人报道。TopK的可行的例外,不幸的是,没有一个战略合并副结果活得象多基因疾病的风险。

诉技术

近似集合。在我仅仅基于该算法总结了项集itemset的表达式(物品)[1]。为了说明APRX-COLLECTION背后的关键思想,考虑一组我的项集,I = {abc, abd, bcd、ab、ac,广告,公元前,cd, a, b, c, d}。这组项集可以覆盖一个itemsetabcd,只介绍了一组子itemset没有出现在(假阳性):澳洲牧牛犬。注意,abcd。因此,首先,APRX-COLLECTION创建一个扩展集E项集的扩展项集在我由一个或两个项目。然后,它从E选择规则E最规则覆盖我提供E假阳性的速度小于α,这是一个用户定义的参数。形式上,假阳性发生在一个子集的E E不存在在我假阳性率是假阳性的数量超过总数的规则。失去统治E E标准被定义为Laprxc (E) = {−| E |,如果假阳性率<α0,否则,SE表示组规则在我一次(!)由大肠规则E被选中时,它被添加到a E和所有规则由E在E。

RPGlobal。RPGlobal构造一组从我没有扩展的规则:E =我。它仍然主要作用于规则的表达,但它考虑了病人报道通过RPC。选择标准是每个项目集E覆盖最大的项集数量我和这些项集不同于E在病人报道不超过1−δ,δ是一个用户定义的参数。然后损失则可以制定Lrpglobal (E) = {−| E |,如果∀我∈S E, RPC (E, I) > 1−δ0,否则。一旦选择规则E, E和E(年代)所涵盖的所有规则从E。

TopK。与前面的算法不同,TopK主要作用于病人而不是规则。此外,介绍了概念意义和冗余。在我们的语境意义对应于y,患糖尿病的风险。当多个规则覆盖相同的病人,出现冗余。让我们假设规则已经被选中,我们正在考虑规则E包含到A进一步假设存在一个病人谁是由A和E。在这种情况下,一些病人暴露在风险已经占了通过这种精神,A算法的目标是构建一个从我(没有扩展;E =我),这样的意义的最大化而冗余最小化。形式上,itemset的冗余对另一个项集我是冗余(我)= RPC(我)分钟(y (A), y(我))。

RPC(我)是相似的病人报道,部分病人双覆盖,和最小(y y (A),(我)可以被认为是风险的一部分已经占的规则已经选中。当没有病人以覆盖着我,冗余是0;当一个和我是相同的,冗余是y (A) (y (A) = y (I))。itemset的冗余我对一组一个项集的冗余(我)= max冗余(我)

∈= max RPC(我)分钟(y (A), y(我))。∈算法的选择标准是Ltopk (E) =冗余(A, E)。由于冗余(A, E)是最大的E已经在,不需要删除E或病人由E。

公共汽车。汽车代表的远端频谱分配的重要规则的表达与病人覆盖率信息[6]。公共汽车的目标是构建一个好的总结的数据集(而不是构建一个好的总结的规则集)。为此,公共汽车利用一组扩展E,这是工会的项集我和个人事务本身d这样的扩展将是有益的,例如当存在异常值:如果没有itemset我充分描述了一个事务,事务本身可以被添加到总结。公共汽车逐步从E, E选择项集E最大化的支持和数据覆盖。在形式上,选择标准是Lbus (E) =−DE | |−直流(E)。一旦选择并添加到规则E,清除了所有的病人由E数据集。

六。结论

生成的电子信息利用电子病历在常规临床遵循有可能促进新信息的发明。关联规则挖掘与总结技术提供了一个重要的工具进行临床分析。它将揭示隐藏的临床关系并能提出新模式的条件发送制止,管理和治疗方法。

在所有四个战略创造了廉价的总结,每个方法都有其明确的精髓。然而,并不是所有的这些优势基于“增大化现实”技术的本质上有利于我们的应用程序。我们发现之间的最重要的必要的算法是否使用一系列标准包括排除轮廓支持规则的表达式或者支持规则覆盖的患者人群。

APRX-COLLECTION和RPGlobal整个操作原则的表达的主要目标最大化压缩。他们使用规则的象征,每个代表各种各样的原始规则。这样的代表规则获得非常高的压缩,但稀释多基因疾病的风险在他们报道的一般人口众多。

TopK和公交运营完全的病人和他们的objective-especially以防TopK-can被认为是减少冗余。他们创造了智能总结有益的结果方面减少冗余的结果是实现智能压缩。反过来是不正确的:高压缩率不会导致低冗余。

TopK和总线之间,我们往往会发现,汽车维护比TopK略额外的冗余,使它拥有更高的病人重建初始信息覆盖率和更高的能力基础。这种优势创建总线最适合规则为我们的目的。

引用

f . Afrati a Gionis, h . Mannila近似collectionof频繁集,“在Proc。ACM Int。相依知识发现(KDD),华盛顿特区,美国,2004年。
r . Agrawal和r . Srikant miningassociationrules快速算法,”在Proc。20日,圣地亚哥,智利,1994。
y Aumann和y Lindell量化关联规则的统计理论,“知识发现(KDD)在Proc。5日,纽约,纽约,美国,1999年。
p . j . Caraballo m·r·卡斯特罗s . s . Cha p·w·李·g·j·西蒙,”使用关联规则挖掘withimpared空腹血糖的患者中糖尿病风险评估,”在Proc。AMIA物质。计算机协会。,2011.
疾病控制和预防中心。“Nationaldiabetes简报:国家估计和通用和糖尿病和前驱糖尿病在美国,”美国卫生和人类服务部,CentersforDisease控制和预防2011(在线)。可用:http://www.cdc.gov/diabetes/pubs/factsheet11.htm
诉Chandola诉Kumar,“总结——压缩datainto信息表示,“知识。通知。系统。,vol. 12, no. 3, pp. 355–378, 2006.
o·奥马尔·g·柯林斯,美国最高级别,和L.-M。Yu”发展riskprediction为2型糖尿病模型:系统回顾的方法和报告,“BMC地中海,9:103,2011年9月。
糖尿病预防项目研究小组”,减少2型糖尿病的发病率与生活方式干预或二甲双胍,”拉米夫。346卷,j .地中海。6日,第403 - 393页,2002年2月。
方g . et al .,“高阶SNP组合与复杂疾病相关:高效的发现、统计能力和功能的相互作用,“PLoS ONE, 7卷,没有。4篇文章e33531 2012。
m·a·哈桑模式挖掘中总结,“Encyclopediaof数据仓库和采矿,第二版,好时,PA,美国:信息科学参考,2008。
r·金·m·Abu-Ata y香,n .阮”有效和高效的项目集模式摘要:回归方法,“在Proc。ACM Int。相依知识发现(KDD),拉斯维加斯,NV,美国,2008年。
a . m . h . s . Kim Shin m·k·金和金、“2型糖尿病发病率研究使用数据挖掘,“KoreanJ。Intern.Med。,vol. 27, no. 2, pp. 197–202, Jun. 2012.
w . b . Liu许,马y“集成分类和关联规则挖掘,”在Proc。ACM Int。相依知识发现(KDD),纽约,纽约,美国,1998年。
w . b . Liu许,马y“修剪和总结发现关联,”在Proc。ACM Int。相依知识发现(KDD),纽约,纽约,美国,1999年。