关键字 |
贝叶斯方法,分类技术,数据挖掘,研究生就业能力 |
介绍 |
根据这份报告,2012年经济危机对高等教育的影响表明,泰国高等教育体系正面临毕业失业危机的严重问题。有320815名毕业生学士学位在2006年以上。2007年,毕业生的数量增加到371982。大约75.02%的毕业生没有开放大学在2006年被雇佣和18%的毕业生失业。之后,雇佣毕业生的比例下降到2008年的68.65%,失业率上升到28.98%。影响毕业生就业,毕业生在找工作可能会有更多的困难。这场危机是明确影响社区、社会和国家。由于这些原因,有必要需要深入研究,能够准确地识别潜在的毕业生就业能力的因素确定,这样可以实现更有效的措施和标准[1]。 |
分类方法是最重要的一个数据挖掘特别是在预测的面积。分类方法的性能不仅与巨量数据处理,发现隐藏的模式和关系有助于决策,而且还降低灵活性数据生成结构,不考虑复杂性、伟大的预测,在某些情况下,解释的潜力。 |
因此,本研究的目的是比较分类模型的准确性在贝叶斯方法识别潜在的研究生就业能力的因素。这个有用的信息可能为教育部提供深入的数据价值的监控和改进行政系统的各个方面的高等教育机构。 |
相关工作 |
经济学人智库(2012)显示,泰国大学缺乏制造业的毕业生,具备良好的语言能力,技术和信息技术技能。此外,雇主和雇员都表明,缺口通用行为技能包括沟通、领导、社交技巧、时间管理、团队合作、适应能力[2]。 |
Yilmaz(2010)揭示了六个主要因素对招聘公司在泰国,这是人际技能、技术技能,教育水平,种族配额,忠诚,和经验,而超过五分之一的所有调查参与者泰国公司指出技术技能作为主要考虑在他们的雇佣决策[3]。Komintarachat(2012)揭示了四个标准的被关注被假设大学毕业生批38,研究生的用户在泰国毕业生就业市场,和高等教育委员会的五个领域的学习形成了泰国泰国高等教育资格框架,这些都是学习的程度,实用性的技能,分别延续和相关性[4]。 |
研究工业和高等教育委员会的英国显示,雇主观察六个能力的人可以改变组织和增加他们的职业生涯价值[5]。这六个能力的个人能力,认知能力或智力,个人能力,一般的能力,技术能力,企业或组织意识和实用的元素。这些能力涵盖一系列的成就,包括技能、理解、和个人属性,使毕业生更容易获得就业,成为成功的在他们的职业选择。这优势毕业生,社区,和经济。 |
此外,数据挖掘技术已经在教育领域用于预测和分类。Minaei-Bidgoli等分类学生的研究来预测自己的最终成绩使用六个常见的分类:1-nearest邻居(1-NN),二次贝叶斯分类器,二次贝叶斯分类器,再(事例),多层感知器,Parzen-window,决策树方法[6]。 |
Guruler等[7]发现,个别学生特点与他们的成功根据平均成绩(GPA)通过使用微软决策树分类技术[8]。这些研究揭示了一些应用在教育领域的数据挖掘技术的分类,从庞大的数据中提取有用的信息集。数据挖掘和分析工具可以帮助用户的访问当前信息的决策过程。 |
本研究我们因此分类技术应用于构建研究生就业能力识别潜在的研究生就业能力的因素从历史数据库和比较各模型下的贝叶斯方法的准确性,以搜索和关系是应计的真正因素。 |
方法 |
本研究开发了基于数据挖掘的三个阶段的研究方法技术包括数据预处理、分类的任务,解释和评价。 |
答:数据预处理 |
我们收集原始数据从数据库的历史在孔敬大学毕业,泰国2009年的学年。数据集由3090实例和属性。我们创建了对知识的分类器通过使用怀卡托环境分析(WEKA)计划。这个软件是怀卡托大学开发的,新西兰,它可以很容易地应用到数据集。数据分析的默认文件类型在WEKA Attribute-Relation文件格式文件类型,此外,导入的数据也可以以各种格式如CSV:逗号分隔值(文本文件),CSV文件,等等。 |
数据预处理阶段包括两个步骤准备的数据集分类的任务。第一步清理和消除数据缺失值显著属性,删除重复数据,识别异常值。然后,我们离散属性的值与分类间隔或名义属性准备的数据集分类的任务。这些离散值可以描述如下: |
GENDER 转化 为 一 个 名义 值 从 其 先前 的 值 作为 一 个 代码 (1 或 2 ). |
GPA 转化 为 一 个 年级 从 其 先前 的 值 作为 一 个 连续 的 号码 |
MATCH_EDU 转化 为 一 个 名义 值 从 先前 的 值 作为 一 个 代码 (1 或 2 ). |
ADDPROGRAM 1 、 2 、 3 、 4 和 5 的 值 转换 为 名义 值 从 其 先前 的 值 作为 一 个 代码 (1 或 2 ). |
WORK STATUS 名义 值 从 其 先前 的 值 转换 为 代码 (1, 2 , 和 3 ). |
b .分类任务 |
在这一部分中,我们使用分类技术,称为分类任务。本文分类任务是构建研究生就业能力模型和预测就业状况(工作,不工作,或其他)毕业生档案。分类任务中有两个阶段组成的训练和测试。测试数据集被用来估计预测精度。分类阶段在WEKA包括四个测试模式测试选项:训练集,提供测试集,交叉验证,比例分割[9]。 |
Training set: If 我们 使用 这个 选项 test, 测试 数据 将 来自 培训 data, therefore, 这个 选项 会 降低 可靠 测量 的 真实 错误 。 |
Supplied 测试 set: option, 我们 可以 使用 测试 数据 的 准备 与 培训 有悖于 分开 |
Cross-validation: 这个 选项 适合 有限 数据 集 、 褶皱 的 数量 可以 由 完成10倍类被广泛用于验证得到最好的测量误差。广泛分析大量数据集与不同的学习技巧。 |
Percentage split: 这个 选项 是 如何 评估 它 预测 一定 百分比 的 数据 是 testing. 举行举行的数据量取决于%中输入的字段值。 |
我们选择合作验证方法与70 - 30比例分割,以避免过拟合的数据,即70%的2327个实例是用于培训,其余实例准备测试。 |
1)贝叶斯方法 |
这些方法包括分类任务分类一个类变量基于一组属性变量。这是一个类型的先验分布估计的统计分析的数据在任何新的观测的数据;因此,每一个参数是指定一个先验概率分布[10]。朴素贝叶斯算法如下:让D元组的训练集和它们相关的类标签。像往常一样,每个元组是由一个n维属性向量,X = (x1, x2,…, xn),描述的元组从n n测量属性,分别A1, A2,…,。假设有m类,C1, C2,…,厘米。给定一个元组,X, X的分类器预测,属于类的后验概率最高的,在X条件;即朴素贝叶斯算法预测,元组X属于类词当且仅当P (Ci | X) > P (Cj | X) 1≤≤m;j≠我。因此,我们最大化P (Ci | X)。 The class Ci for which P(Ci|X) is maximized is called the maximum posteriori hypothesis. |
我们执行这个实验有六种算法下的贝叶斯方法在WEKA:平均一个——依赖评估人员(华南地区),平均One-Dependence估计与包容的决议(AODEsr),贝叶斯网络,朴素贝叶斯、朴素贝叶斯简单,朴素贝叶斯可更新算法。 |
奥德和朴素贝叶斯算法也被Affendey et al。[11],和其余算法选择比较贝叶斯算法实验结果使用相同的数据集。奥德算法实现最高精度在平均比例较小的搜索空间替代天真Bayes-like模型,较弱,因此,不如朴素贝叶斯算法损害独立性的假设。由此产生的算法计算效率和达到高度准确的分类在许多学习任务。AODEsr算法补充了华南地区与包容解析算法,它能够检测专门化两个属性值之间在分类时,和删除泛化属性值。贝叶斯网络学习使用各种搜索算法和质量的措施。在朴素贝叶斯算法,数值估计精度值选择基于训练数据的分析。朴素贝叶斯更新算法时使用默认数值型属性的精度0.10构建分类器被称为零训练实例。朴素贝叶斯简单建模数值属性的正态分布。 |
c .解释和评价 |
在本部分中,我们比较了性能下的贝叶斯方法。AODEsr算法实现最高精度的98.3%使用研究生数据集。第二个最高精度是通过使用奥德算法的准确性达96.1%。 |
结果 |
表1显示了各种算法在贝叶斯方法的分类精度。这个表提供了比较结果kappa统计平均绝对误差、根均方误差,相对的绝对误差,相对平方误差和根的699个测试实例。OADEer算法实现更高精度的比例比其他算法。 |
在图1中,它显示了一个比较每个算法的准确性和根相对平方误差下的贝叶斯方法。这些知识可以用来获得洞察的就业趋势从当地高等学校毕业生。图表显示的准确性和根相对平方误差下的所有算法贝叶斯方法揭示这些方法的准确性。最高的准确性意味着更好的预测结果。 |
结论 |
在这项研究中,我们比较六种算法在贝叶斯方法研究生数据集和一些参数。在研究生数据集有一个简单的类属性。结果表明,AODEsr算法,实现了98.3%的最高精度。第二个最高精度是通过使用奥德算法的准确性达96.1%。此外,实验表明,3因素直接影响就业的工作,职业类型和找到工作。 |
确认 |
b . Jantawan想表达感谢Cheng-Fa蔡博士,教授管理信息系统部门,国立屏东科技大学台湾支持优秀奖学金,并高度赞赏泰国孔敬大学给本研究的信息。 |
表乍一看 |
|
表1 |
|
数据乍一看 |
|
图1 |
|
- 联合国教育科学及文化组织,一个¢经济危机的影响在高EducationA¢,曼谷联合国教科文组织,亚洲和太平洋地区,曼谷:泰国,2012年。
- 经济学家情报单位,一个¢熟练工人短缺在印尼、菲律宾、泰国和越南:一个自定义的研究报告为英国采取¢。
- Yilmaz Y。,âÂÂHigher Education Institutions in Thailand and MalaysiaâÂÂcan they deliver?,
- Komintarachat, H。,âÂÂDevelopment of a model for effective business English curriculum in an international university in ThailandâÂÂ, Journalof Assumption University Thailand, Vol. 4, pp. 84-92, 2012.
- 里斯,C。,Forbes, P., and Kubler, B., âÂÂIntroduction. Student Employability Profiles: A Guide for Higher Education Practitionersâ (2nd ed.,pp. 3), United Kingdom: The Higher Education Academy, 2006.
- Minaei-Bidgoli B。Kashy, d。,Kortemeyer, G., and Punch, W. F., âÂÂPredicting student performance: An application of data mining methods with an educational Web-based systemâÂÂ, 33rd Frontiers in Education Conference, pp. 13-18, 2003.
- Guruler, H。,Istanbullu, A., and Karahasan, M., âÂÂA new student performance analysing system using knowledge discovery in higher educational databasesâÂÂ, Computers & Education, Vol. 55, pp. 247-254, 2010.
- Kumar诉,查达。,âÂÂAn Empirical Study of the Applications of Data Mining Techniques in Higher EducationâÂÂ, International Journal of Advanced Computer Science and Applications, Vol. 2, pp. 80-84, 2011.
- ——r·弗兰克和E。,âÂÂWEKA Explorer User Guide for Version 3-4-3âÂÂ, University of Waikato, 2004.
- 我们,e . T。,âÂÂProbability Theory: The Logic of ScienceâÂÂ, United Kingdom: Cambridge University Press, 2003.
- Affendey, l·S。,Paris, I. H. M., Mustapha, N., Sulaiman, M. N., and Muda, Z, âÂÂRanking of influencing factors in predicting student academic performanceâÂÂ, Information Technology Journal, Vol. 9, No. 4, pp. 832-837, 2010.
|