医疗保健系统的数据挖掘和机器学习方法的分类

N.Satyanandam¹, Dr.Ch.Satyanarayana²

印度海得拉巴Bhoj Reddy女子工程学院CSE系副教授
印度卡基纳达JNTUK CSE系副教授

摘要

本文介绍了用于医疗保健系统的数据挖掘和机器学习方法的分类。机器学习(ML)领域在任何研究领域都获得了推力，现在已经成为医疗领域的可靠工具。自动学习的实用领域应用于各个层面，如医疗决策支持、医学成像、医学知识提取和整体患者管理护理。ML被设想为一种工具，通过它，基于计算机的系统可以集成到医疗保健领域，以获得更好的、组织良好的治疗思维。本文描述了一种基于ML的方法，用于构建能够识别和传播医疗保健信息的应用程序。此外，我们的方法将从已发表的医学论文中提取提到疾病和治疗的句子，并确定疾病和治疗之间存在的语义关系。在本文中，我们还讨论了医疗保健系统的数据挖掘和机器学习方法的全面概述。

关键字

数据挖掘，机器学习，知识管理，医疗保健系统。

介绍

人们非常关心自己的身体状况。生活比以往任何时候都更加忙碌，今天的医学是循证医学，医学专业知识不仅基于多年的实践，而且还基于最新的发现。当涉及到保健知识和管理时，器具可以帮助我们监督和更好地跟踪我们的健康状况。传统的医疗保健系统也正在成为一个拥抱互联网和电子世界的系统。电子健康记录(EHR)正在成为医疗保健领域的标准。健康信息记录和临床数据存储库可以即时访问患者诊断、过敏和实验室检测结果，从而做出更健康、更省时的医疗决策。药物管理快速获取药物反应、免疫、供应等。决策支持能够捕获和使用卓越的医疗数据，以便在医疗保健工作流程中进行决策。为了拥抱视图，EHR系统在性能方面有更好、更快、更可靠的数据访问。主要调查表明，建立识别和传播一致信息的过程是一项复杂的任务。

本文的其余部分组织如下:在第2节中，介绍了数据挖掘和机器学习的分类。第3节给出了目前的技术现状，第4节总结了结论。本文档为模板。电子版可以从会议网站上下载。关于论文指南的问题，请联系会议出版委员会，详见会议网站。雷竞技网页版有关最终论文提交的信息可从会议网站上获得。

分类数据挖掘和机器学习

数据挖掘是一种还不算成熟的新技术。尽管如此，仍有许多行业在定期使用它。许多组织正在将数据挖掘与统计学、模式识别和其他重要工具结合起来。这项技术受到许多企业的欢迎，因为它可以让他们更多地了解他们的客户，并做出明智的营销决策。

机器学习算法可以分为监督学习和无监督学习。在监督学习中，训练示例由输入/输出对模式组成。在无监督学习中，训练示例只包含输入模式，每个输入都没有明确的目标输出。无监督学习算法需要使用输入值来发现有意义的关联或模式。在过去的三十年里，计算机科学和统计领域已经开发了许多成功的机器学习系统。

Chen和Chau在2004年将机器学习研究分为五大范式，即概率和统计模型、符号学习和规则归纳、神经网络、基于进化的模型、分析学习和模糊逻辑。由于其预测能力，数据挖掘技术已广泛应用于诊断和医疗保健应用。数据挖掘算法可以从过去的临床数据中学习，并对自变量和因变量之间的非线性关系进行建模。结果模型表示形式化的知识，通常可以提供很好的诊断意见。我们将简要回顾这些领域的研究，并讨论它们在生物医学中的适用性[13,15,16,20]。

分类技术是医学数据挖掘中应用最广泛的技术。Dreiseitl等人在2001年比较了五种诊断色素性皮肤病变的分类算法。他们的研究结果表明，逻辑回归、人工神经网络和支持向量机表现相当，而k近邻和决策树表现较差[6,8,10]。这与这些分类算法在其他应用中的表现或多或少是一致的(Yang and Liu 1999)。

分类技术也应用于分析各种信号及其与特定疾病或症状的关系。例如，Acir和Guzelis(2004)将支持向量机应用于脑电图(electroencephalo Grams, EEG)中的自动峰值信号检测，可用于诊断与癫痫相关的神经障碍。Kandaswamy et al.(2004)使用人工神经网络将肺声信号分为六种不同的类别(正常、喘息和rhonchus)，以辅助诊断。数据挖掘还用于从医疗保健数据中提取规则。例如，它已被用于从乳腺癌数据中提取诊断规则(Kovalerchuk et al.， 2001)。生成的规则类似于在专家系统中手动创建的规则，因此可以很容易地由领域专家验证。数据挖掘也被应用于临床数据库，以识别新的医学知识(Prather et al.， 1997和Hripcsak et al.， 2002)[20]。

目前的技术水平

自然语言处理(NLP)和机器学习(ML)实践表明，哪些信息演示和哪些分类算法适合用于识别和分类短文本中的相关医疗信息。我们区分了这样一个事实，即工具能够识别医疗领域的可靠信息，用最新的发现构建医疗保健系统。在这次检查中，我们重点关注疾病和治疗信息以及这两个实体之间存在的关系。用于解决这两项任务的方法是基于NLP和ML技术。在标准的监督ML设置中，需要一个训练集和一个测试集。训练集用于训练ML算法，测试集用于测试ML算法的性能。

医疗保健信息系统收集了大量关于患者、就诊、处方、医生记录等的文本和数字信息。封装在电子临床记录中的信息可以提高医疗保健质量，促进临床和研究活动，减少医疗差错和降低成本。然而，构成健康记录的文件在复杂性、长度和技术词汇的使用方面各不相同。这使得知识发现变得复杂。商业文本挖掘工具为从文本数据存档中提取关键信息提供了独特的机会。在这里，他们分享了通过文本挖掘电子临床记录开发预测模型的合作研究项目的经验。

来自Eberhard-Karls-University of Tuebingen微创外科的M. Schurr应邀就内窥镜技术和ML方法在此背景下的作用进行了演讲。他提到了目前内窥镜技术的局限性，这与内窥镜进入人体的限制有关。

观察:技术限制包括，通过小通道手动操作人体器官的限制，组织可视化的限制和获得组织诊断信息的限制。为了缓解这些问题，国际技术发展的重点是创造新的操作技术，包括机器人和智能传感器设备，以实现更精确的内镜干预。人们也承认，这种新一代传感器设备通过为ML方法提供用于进一步处理的数据，有助于医学智能系统的发展和传播。

观察:荧光成像或激光扫描显微镜和机器学习方法等新的成像思想的潜力非常大。这些发展背后的临床理念是早期发现恶性病变，局部内镜治疗是可能的。这一领域的技术发展非常有希望，但临床结果仍在等待，正在进行的研究将澄清这些专家的临床应用的真正潜力。

Moustakis and Charissis的工作(Moustakis and Charissis 1999)调查了机器学习在医疗决策中的作用，并提供了关于各种机器学习在医学中的应用的广泛文献综述，这可能对有兴趣应用机器学习方法来提高医疗决策系统的效率和质量的从业者有用。

观察:在上述工作中，重点是摆脱精度测量作为学习算法的唯一评价标准。可理解性问题，即医学专家如何理解并使用应用ML方法的系统的结果是非常重要的，应该在评估时仔细考虑。

Alexopoulos, Dounias和Vemmos (Alexopoulos et al.， 1999)专注于归纳ML方法在中风医学诊断中的应用。他们的方法是基于See5算法，这是C4.5算法的更新版本。

观察:该方法报告的实验表明，通过构建决策树，可以从示例中学习和处理缺失信息的能力，并可以将其转换为if/then规则。与医学专家合作，特别注意确定所获得决策规则的复杂性和可理解性。

HOLþ et al.， 1999, ML方法如Magnus辅助决策树学习器和贝叶斯分类器被用于首次脑卒中的诊断和预后。尽管使用naïve贝叶斯分类器获得了最佳预测，但从医学角度来看，使用Magnus辅助决策树学习器获得了最有趣的结果。神经学专家认为明显而无意义的数据和属性对自动诊断和预后非常重要。

观察:在这种情况下，ML方法提供了对某些临床属性的不同估计，并激励临床医生提出新的假设，并最终改善他们的标准诊断和预后过程。

文章(Ruseckaite et.al, 1999)提出了一个确定视知觉障碍的交互式系统。该系统通过应用改进版的ML算法Charade进行数据分析，并提取出视觉知觉障碍与大脑损伤之间有趣的依赖关系。

观察:在他们的方法中，初步结果表明了恢复某些大脑异常的人的有效性。

Bourlas, Giakoumakis和Papakonstantinou (Bourlas et al.， 1999)通过结合ML方法扩展了之前关于ECG诊断医学专家系统的工作，以不断改进医学专家系统的知识库。他们的新系统展示了持续学习的能力，使用ID3算法的扩展版本，不时地根据ecg训练集提取一组诊断规则。

观察:将提取的规则合并到旧的规则中，并删除副本。为了优化系统的性能，提供了一个知识管理子系统，用于监控最终规则的诵读，以保证其诊断准确性，并对知识库进行了修改。

Neves, Alves, Nelas, Romeu和Basto (Neves et al.， 1999)的工作证明了Health Care UnitÃ¢Â ' Â ' s医学成像模型的必要性，并引入了支持调度、预测和会计的通用演绎/归纳操作模型的概念。

观察:遵循这种方法，几个代理在生成假设时达成一致，每个代理在评估部分数据时具有不同的作用，并且使用神经网络来发现数据集中的关联。

Asteroth和Möller (Asteroth等人，1999)研究了使用基于神经网络的结构信息近似来识别人类心血管系统的个性化模型。这种方法使他们能够实现可靠的实时识别。

文章(Pranckeviciene, 1999)研究了识别大脑疾病患者群体结构的问题。采用单层神经网络对患者脑电图的相似性进行评价。实验表明，这种方法成功地揭示了不同患者大脑电活动的相似性。

在文章(Jankowski et.al, 1999)中，建议使用增量神经网络进行近似和分类任务。他们的模型基于具有新形式的旋转双径向传递函数的神经元，并动态生成以匹配训练数据的复杂性。

观察结果:与模拟中其他流行的医学数据分类方法相比，该模型表现出优越的泛化性能。

在Karkanis, Magoulas, Grigoriadou和Schurr (Karkanis et al.， 1999)的文章中，应用了一个由特征提取阶段和分类阶段组成的简单方案。采用二阶灰度统计量进行纹理描述，采用多层前馈神经网络对结肠镜图像异常进行高精度检测。

在Karkanis、Galousi和Maroulis (Karkanis et al.， 1999a)的文章中，概述了一种应用于肺内窥镜图像的纹理分类新方法。基于图像的纹理谱进行特征选择，采用聚类方法区分识别能力最强的特征。

结论

本文从数据挖掘和机器学习的角度对当代艺术进行了评价。评估表明，医疗保健系统在使用DM和ML方面取得了巨大的进展。此外，我们还清楚地注意到，DM、ML使用的新维度以及新方法和策略的发明为医疗保健系统的研究提供了更大的范围。通过看到越来越多的名声，它从发表的医学论文中提取提到疾病和治疗的句子，识别疾病和治疗之间存在的语义关系，从而有效地预测可用性和维护性。因此，我们对这一特定方向的未来工作持乐观态度。

参考文献

陈志伟，属性选择归纳学习系统的一种方法，电子工程学报。《中国农业科学》，1988年第6期，第888-896页。
Bevk M.， Kononenko I.， Zrimec T.，能量诊断与GDV图像的关系，《意识新科学:第三届认知科学会议》，卢布尔雅那，2000年10月，第54-57页。
Bratko I.， MozetiÃÂ c I.， LavraÃÂ c N.，专家系统的深度与定性知识研究，剑桥:麻省理工学院出版社，1989。
Bratko I.， Mulec P.，诊断规则自动学习的实验，信息学，卢布尔雅那，第4卷，第4期，1980年，第18-25页。
(2004)分类与回归树，中国科学技术研究院。
《关于将连续属性转换为有序离散属性的研究》，《欧洲学习工作会议》，1991年3月4-6日，第164-178页。
Cestnik B.，估计概率:机器学习中的一个关键任务，欧洲人工智能会议，斯德哥尔摩，1990年8月，147-149页。
Cestnik B.， Kononenko I.& bratko I.， ASSISTANT 86:面向复杂用户的知识获取工具，见:i.b atko, N.Lavrac(编):机器学习的进展，Wilmslow: Sigma出版社，1987。
陈启忠、黄亚强，基于数据的专家系统自动构建方法，计算机科学与技术研讨会，台北，1989，第4期。
《规则归纳与CN2:一些最新进展》，《欧洲学习工作会议》，葡萄牙波尔图，1991年3月，第151-163页。
柯文M.W.和Shavlik j.w.，使用人工神经网络学习符号规则，第10期实习生。机器学习会议，Amherst, MA, Morgan Kaufmann, 1993，第73-80页。
戴蒙德G.A.和福里斯特j.s.，概率分析在冠状动脉疾病临床诊断中的辅助作用，新英格兰医学杂志，300:1350,1979。
王晓明，陈晓明，基于神经网络的决策树与决策列表的实验比较，中国计算机科学，1999年12月4-6日，第59-69页。
很好的I.J，概率和证据。伦敦:查尔斯·格里芬，1950年。很好的I.J，概率估计。
Jiawei Han和MichelineKamber(2006)，数据挖掘概念和技术，由Morgan Kauffman出版，第2版。
加里·帕克博士，2004年第7卷，数据挖掘:新兴领域的模块，光盘。
Bharati M. Ramageri /印度计算机科学与工程杂志，卷。1 4号301-305。
医学信息学中的知识管理、数据挖掘和文本挖掘”陈新春，Sherrilynne S. Fuller, Carol Friedman，和William Hersh，医学信息学和临床流行病学，波特兰，俄勒冈97239-3098。
阿比迪，s.s.r.(2001)。“知识管理在医疗保健中的应用:面向“知识drivenÃ¢Â′Â′决策支持服务”，《国际医学信息学杂志》，63,5-18。
N.Satyanandam Dr.Ch.Satyanarayana博士。Reyazuddin和Amjan Shaik“数据挖掘，机器学习方法和医疗诊断系统:调查”《国际计算机和组织趋势杂志》第2卷，2012年第3期。