二项数据集上带有特征选择的数据挖掘分类器的分类与比较研究

Pushpalata Pujari¹
印度恰蒂斯加尔邦比拉斯普尔古鲁·加西·达斯中央大学计算机科学与信息技术系

通讯作者:Pushpalata Pujari电子邮件:(电子邮件保护)

摘要

本文描述了不同数据挖掘分类器在二项数据集上特征选择前后的性能分析。本文采用逻辑回归、支持向量机和神经网络三种数据挖掘分类器进行分类。国会投票记录数据集是本研究中调查的二项数据集，取自UCI机器学习存储库。所有分类器的分类性能都是通过使用准确性、特异性和敏感性等统计性能指标来表现的。增益图和接收机工作特性图也被用来衡量分类器的性能。对数据挖掘分类器进行了比较研究。实验结果表明，在不进行特征选择的情况下，Logistic回归和SVM分类器对测试数据集的准确率为100%，神经网络的准确率为98.13%。与特征选择支持向量机分类器提供100%的准确率。在减少特征数的分类器中，支持向量机分类器的性能是最好的。

关键字

数据挖掘，逻辑回归，支持向量机，神经网络，特征选择，增益图，R.O.C图

介绍

分类[1]分为两步。在第一步中，构建一个分类器，描述一组预定的数据类或概念。这是学习步骤或训练阶段，其中分类算法通过分析或“学习”由数据库元组及其相关类级别组成的训练集来构建分类器。元组X由一个n维属性向量X = (x1, x2…X n)表示，描述了n个数据库属性对元组的n次测量，分别为A1, A2…an。假设每个元组X属于一个预定义的类，由另一个称为class label属性的数据库属性决定。类级别属性是离散值且无序的。它是分类的，因为每个值都充当一个类别或类。组成训练集的各个元组被称为训练元组，它们是从被分析的数据库中选择的。由于提供了每个训练元组的类标签，这一步被称为监督学习。分类过程的第一步可以看作是学习一个映射或函数y= f(X)，它可以预测给定元组X的相关类级别y。这个映射以分类规则、决策树或数学公式的形式表示。 The rules can be used to categorize future data tuples. In the second step the model is used for classification. A test set is used to test tuples and their associated class labels. These tuples are randomly selected from the general data set. The accuracy of a classifier on a given test set is the percentage of test set tuples that are correctly classified by the classifier.

将每个测试元组的相关类级别与已学习到的classifierÃ¢Â′Â′s对该元组的类预测进行比较。如果分类器的准确性被认为是可以接受的，分类器可以用于分类类标签未知的未来数据元组。本文针对众议院投票数据集，分析了Logistic回归、神经网络和支持向量机等不同的数据挖掘分类技术。对美国众议院投票预测共和党或民主党的分类算法进行了比较研究。通过使用不同的统计指标，包括分类精度、特异性和敏感性，对各个模型的性能进行评估。数据集的每个样本都分为两类:共和党或民主党。

数据集描述

本研究中使用的国会投票记录数据集取自UCI机器学习数据集[7]。该数据集包括美国众议院议员在CQA确定的16个关键投票上的投票情况。CQA列出了九种不同类型的投票:投票赞成，配对赞成，宣布赞成，投票反对，配对反对，宣布反对，投票出席，投票出席以避免利益冲突，以及没有投票或以其他方式表明立场。数据集的每个样本都分为两类:民主党和共和党。数据集包含17个属性，其中第一个属性作为目标输出，其余属性作为输入属性。表一为众议院投票数据集的属性。

[2]模型的开发分为两个阶段:训练和测试训练是指通过使用历史数据建立一个新模型，测试是指在新的、以前未见过的数据上尝试模型，以确定其准确性和物理性能特征。训练通常是在可用总数据的很大比例上进行的，而测试则是在一小部分数据上进行的。训练数据集用于训练或构建模型。一旦在训练数据上建立模型，就可以发现模型在未见数据(测试)上的准确性。使用分区节点和平衡节点分配技术创建两个互斥的数据集，一个是占总皮肤病学数据集80%的训练数据集，另一个是占总皮肤病学数据集20%的测试数据集。在此数据上应用了分类技术。众议院投票数据集中共有435个实例数，利用Clementine数据挖掘工具的平衡节点概念，将其中335个实例作为训练集，100个实例作为测试集。在267个民主类中分别选取199个实例和68个实例进行训练和测试。在168个民主类中分别选取129个实例和39个实例进行训练和测试。表ii显示了用于训练和测试数据集的实例数。

方法

不同的数据挖掘分类器被用来满足这一研究工作的目标，在此进行探讨。主要考虑了基于逻辑回归、神经网络和支持向量机的分类算法对房屋投票数据进行分类。将众议院投票数据集划分为80%的训练数据集和20%的测试数据集。将数据集应用于三个分类器来构建模型。采用特征选择技术，从数据集中跳过不重要的属性。跳过不重要的属性后，数据集应用于三个分类器。对比分析了特征选择前后分类器的性能。本文模型框图如图1所示。图2显示了模型的阶段和活动。

神经网络:

神经网络[1][6]是神经系统运作方式的简单模型。基本单位是神经元，通常被组织成层。在神经网络中通常有三个部分:输入层，其单位表示输入字段;一个或多个隐藏层;输出层，带有一个或多个表示输出字段的单元。每一层都由单元组成。网络的输入对应于为每个训练元组测量的属性。输入同时馈送到组成输入层的单元。这些输入通过输入层，然后加权并同时馈送到第二层“类神经元”单元，称为隐藏层。这些单元用不同的连接强度(或重量)连接。 Input data are presented to the first layer, and values are propagated from each neuron to every neuron in the next layer. Eventually, a result is delivered from the output layer, which emits the networkÃ¢ÂÂs prediction for given tuples. The network learns by examining individual records, generating a prediction for each record, and making adjustments to the weights whenever it makes an incorrect prediction. This process is repeated many times, and the network continues to improve its predictions until one or more of the stopping criteria have been met. Initially, all weights are random, and the answers that come out of the net are probably nonsensical.

网络通过训练来学习。输出已知的例子被反复呈现给网络，它给出的答案与已知的结果进行比较。来自这种比较的信息通过网络传递回来，逐渐改变权重。随着训练的进行，网络在复制已知结果时变得越来越准确。一旦经过训练，该网络就可以应用于结果未知的未来案例。神经网络结构如图3所示。本文采用误差反向传播算法(EBPA)建立了34 × 34 × 2的神经网络结构，并对其进行了训练。

支持向量机:

支持向量机[3](SVM)是一种健壮的分类和回归技术，可以最大限度地提高模型的预测精度，而不会过度拟合训练数据。SVM特别适合分析具有非常大数量(例如，数千个)预测器字段的数据。SVM的工作原理是将数据映射到高维特征空间，以便对数据点进行分类，即使数据不是线性可分的。找到类别之间的分隔符，然后将数据转换为可以将分隔符绘制为超平面的方式。在此之后，可以使用新数据的特征来预测新记录应该属于哪个组。支持向量机(SVM)是一种通用的学习架构，受统计学习理论的启发，该理论在分离超平面的嵌套集结构上执行结构风险最小化。在给定训练数据的情况下，支持向量机学习技术根据泛化误差生成最优的分离超平面。

支持向量机作为一种高性能的分类器在分类领域中非常受欢迎。它得到一组支持向量来表征给定的分类任务。其基本思想是构造一个超平面作为决策曲面，使正示例和反示例之间的分离边界最大化。结构风险最小化原则用于此目的。在这里，学习机的错误率被认为是由训练错误率和依赖于Vapnik Chervonenkis (VC) 1维的项的和所限制。

其中K(.)为核函数，(Xq)的符号决定了查询样本Xq的隶属度。构造最优超平面相当于确定所有非零i，对应于支持向量和偏差b。决策的预期损失最小。

逻辑回归:

逻辑回归，[6]也称为名义回归，是一种基于输入字段值对记录进行分类的统计技术。它类似于线性回归，但采用的是分类目标场而不是数值目标场。支持二项模型(用于具有两个离散类别的目标)和多项模型(用于具有两个以上类别的目标)。逻辑回归的工作原理是建立一组方程，将输入字段值与每个输出字段类别相关的概率联系起来。一旦模型生成，就可以用来估计新数据的概率。对于每条记录，为每个可能的输出类别计算成员的概率。概率最高的目标类别被指定为该记录的预测输出值。逻辑回归模型通常相当准确。它们可以处理符号和数字输入字段。它们可以给出所有目标类别的预测概率。 Logistic models are most effective when group membership is a truly categorical field

功能选择:

特征选择[1][6]有助于识别在预测某个结果时最重要的字段。特征选择是一个可以用来删除训练文档中与类标签在统计上不相关的术语的过程。它减少了分类中使用的术语集，提高了效率和准确性。特征选择包括三个步骤。筛选:它删除了不重要的和有问题的预测器、记录或案例，例如有太多缺失值的预测器或有太多或太少变化的预测器而无用。排名:对剩余的预测因子进行排序，并根据重要性分配排名。选择:它通过只保留最重要的预测因子并过滤或排除所有其他预测因子来识别特征子集。从一组数百甚至数千个预测器中，“特征选择”会筛选、排序并选择最重要的预测器。

对预测贡献较小的预测因子可以从数据集中跳过。最终，它会得到一个更快、更有效的模型，使用更少的预测器，执行更快，而且可能更容易理解。本文采用皮尔逊卡方法对属性的重要性进行排序。跳过不重要的特征，并将其性能与特征选择之前的分类器的性能进行比较。表三为实施特征选择技术后的重要属性和不重要属性列表。不重要的属性将从数据集中跳过，因为它们对预测的贡献不大。国会投票记录数据集包含16个输入属性和一个目标属性。

在16个属性中，有14个属性为重要属性，值为1.0，而Export-act-south-africa和Water-project-cost-share两个属性为不重要属性，值分别为0.783和0.104，因此从数据集中跳过。

性能测量

每个分类器的性能可以通过使用一些非常著名的统计指标[4]分类精度，灵敏度和特异性来评估。这些指标被定义为真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。假设我们测试一些人是否患有某种疾病。其中一些人有这种病，我们的检测结果是阳性。它们被称为真正的积极因素。有些人患有这种疾病，但测试表明他们没有。它们被称为假阴性。有些人并没有患病，测试结果也表明他们没有患病——真正的阴性结果。最后，我们可能会有健康人的阳性测试结果是假阳性。表iv表示TP、TN、FP和FN情况的数量。

如果总案例数为N，则可以根据上表下面的统计性能度量进行评估。

分类精度:

它衡量考虑正面和负面输入的正确预测的比例。它高度依赖于数据集分布，这很容易导致对系统性能的错误结论。分类准确率=总命中数/集合中的条目数

= (tp + tn) / (p + n)…(1)

分类的敏感性:

它衡量的是真阳性的比例，也就是说，系统在所呈现的情况下预测正确值的能力。用下面的公式计算。敏感度=阳性命中/总阳性

= tp / (tp + fn)…

分类特征:

它衡量的是真负数的比例，也就是说，对于与期望相反的情况，系统预测正确值的能力。计算方法如下

特异性=负面点击率/总数

= tn / (tn + fp)…(3)

实验结果与讨论

首先，利用所有输入属性分析每个分类器的性能。然后对数据集进行特征选择，跳过不重要的属性。同样，在减少属性数量的情况下分析每个分类器的性能。实验研究采用Clementine软件进行。将训练数据和测试数据集应用于每个分类器后，得到一个混淆矩阵，以识别真阳性、真阴性、假阳性和假阴性值，如下所示。表V和VI显示了特征选择前后训练和测试数据集的混淆矩阵。表VII和表VIII显示了特征选择前后不同模型对训练和测试数据集的比较统计措施。

下面表V和VI的每个单元格都包含为期望和实际模型输出的相应组合分类的样本行数。将预测结果与原分类进行比较，识别真阳性、真阴性、假阳性和假阴性。表VII和表VIII表示了三种模型的分类精度、灵敏度和特异性三个统计指标的值。

另一种比较不同分类器性能的方法是增益图和ROC (Receiver Operating Characteristics)[14]。增益图[6]绘制了表中“增益%”列中的值。收益定义为每个增量中的命中数相对于树中总命中数的比例，使用公式:(增量中的命中数/总命中数)x 100%

累积收益图表总是从0%开始，从左到右以100%结束。对于一个好的模型，收益图将急剧上升到100%，然后趋于平稳。一个不提供任何信息的模型将沿着从左下到右上的对角线，曲线越陡，增益越高。图5为特征选择前训练数据集的三种模型的累积增益图。图6是对测试数据集进行特征选择后，三种模型的累积增益图。

R.O.C图[1][6]是比较分类方法的一个有用的可视化工具。它显示了一个给定模型的真阳性率和假阳性率之间的权衡。R.O.C图下的面积是模型精度的衡量标准。R.O.C图绘制表的Response(%)列中的值。响应是增量中命中记录的百分比，使用如下公式:

(增量响应/增量记录)x 100%

ROC图基于条件概率敏感性和特异性[11]。ROC曲线的纵轴为真阳性率，横轴为假阳性率。对于不同的阈值，纵轴为敏感性图，横轴为1减去特异性图。响应图表通常从接近100%开始，然后逐渐下降，直到达到图表右边缘的总体响应率(总命中/总记录)。对于一个好的模型，这条线将在左侧接近或处于100%的位置开始，当你向右移动时保持在一个较高的平台上，然后在图表的右侧急剧下降到整体响应率。对于一个不提供任何信息的模型，这条线将在整个图的总体响应率附近徘徊。图7和图8分别是训练数据集和测试数据集的三种模型在特征选择前和特征选择后的ROC图。

结论

本文在众议院投票数据集上分析了Logistic回归、支持向量机和神经网络三种分类器的性能。所有算法的分类性能是通过使用统计性能指标，如准确性，特异性和敏感性进行调查。并利用训练集和测试集的增益图和ROC图对各分类器的性能进行了研究。IX表。& X表示三种模型在特征选择前对训练和测试数据集的分类精度。表11。& XII为特征选择后三种模型对训练数据集和测试数据集的分类准确率。从实验结果来看，Logistic回归、支持向量机和神经网络模型对特征选择前训练数据集的分类准确率分别为100%、99.07%和98.78%。在特征选择前，测试数据集的准确率分别为100%、100%和98.13%。进行特征选择后，Logistic回归、支持向量机和神经网络模型对训练数据集的准确率分别为98.17%、99.7%、96.97%，对测试数据集的准确率分别为98.13%、100%、99.07%。基于特征选择的支持向量机模型在测试数据集上的准确率达到100.00%，是一种具有竞争力的从数据集预测共和党或民主党的技术。

参考文献

韩继伟，Kamber Micheline，裴健数据挖掘:概念和技术，摩根考夫曼出版社(2006年3月)。
Cabena, Hadjinian, Atadler, Verhees, Zansi《从概念到实现发现数据挖掘》国际技术支持组织，版权归IBM公司所有，1998年。
S.Mitra, T. Acharya，《数据挖掘多媒体，软计算和生物信息学》，john Willy & Sons, INC，出版，2004年。
“基于贝叶斯分类器的乳腺肿块预测方法研究”，中国医学工程学报，2010，(5):566 - 566
Alaa M. Elsayad“使用数据挖掘方法集成诊断红斑鳞状疾病”ICGST-BIME杂志第10卷，第1期，2010年12月
SPSS Clementine帮助文件。http://www.spss.com
UCI机器学习库的机器学习数据库。加州大学欧文分校信息与计算机科学学院。c.a http://www.ics.uci.edu/ ~ mlram ? ML.Repositary.html
Michael J. A. Berry Gordon Linoff，《数据挖掘技术》，John Wiley and Sons, Inc。
Gajendra Sharma“数据挖掘，数据仓库和OLAP”，S.K kataria和儿子新德里，2008-2009年第二版。
Harleen Kaur和Siri Krishan Wasan“数据挖掘技术在医疗保健应用的实证研究”。，计算机科学，2(2)，194-200,2006,ISSN 1549-3636。
Jozef Zurada和Subash Lonial“医疗保健行业床债回收的几种数据挖掘方法的性能比较”。
Matthew N Anyanwu & Sajjan G Shiva“序列决策树分类算法的比较分析”，(IJCSS)，卷(3):第(3)期
Mahesh Pal，“基于决策树的遥感分类集成学习”，世界科学、工程与技术学院，2007年36日。
邹慧敏博士;A. James OÃ¢Â ' Â Malley, PhD;Laura Mauri，医学博士，硕士，《评估诊断试验和预测模型的ROC分析》。