关键字 |
数据挖掘,粒子群智能,知识发现的数据库 |
介绍 |
一个。数据挖掘和时变数据库。 |
在不同种类的信息数据库,如科学数据、医疗数据,财务数据,和市场交易数据;分析和发现关键隐藏信息的集中区域人员数据挖掘[1][2][4]。如何有效地分析和应用这些数据,从这些数据库中找到关键的隐藏信息,数据挖掘技术一直是最广泛的讨论,经常从近几十年来应用工具。虽然成功地应用了数据挖掘领域的科学分析,业务应用程序,和医学研究和它的计算效率和精度也提高,仍然需要手工作品完成过程中提取。 |
数据挖掘是一个新兴的技术,使得革命改变世界的信息。“数据挖掘”这个词(通常称为知识发现)的过程是指从不同的角度分析数据,总结成有用的信息通过一些分析工具和技术,进而可能有助于提高系统的性能[3]。 |
从技术上讲,“数据挖掘就是发现相关性或模式的过程中许多领域在大型关系数据库”。因此,数据挖掘的主要功能元素转换数据到数据仓库,管理数据在多维数据库中,便于数据获取信息的专业人士或分析师,分析数据使用应用程序的工具和技术,并有意义地提出数据提供有用的信息。 |
B。数据挖掘过程 |
数据挖掘是一个迭代的过程包括以下阶段:列表 |
数据清理 |
数据集成 |
数据选择 |
数据转换 |
数据挖掘 |
模式评价 |
知识表示 |
数据清洗:这个任务处理失踪,冗余数据的源文件。现实世界数据不完整、不一致和损坏。在这个过程中,缺失值可以填充或删除,噪声值平滑,识别异常值和每一种缺陷是由不同的技术处理。 |
数据集成:数据集成过程结合了来自不同数据源的数据。源数据可以被多个不同的数据库有不同的数据定义。在这种情况下,数据集成过程将数据插入一个连贯的从这些多个数据源的数据存储。 |
数据选择过程中,相关数据从数据源检索数据挖掘的目的。 |
数据转换:这个过程将源数据转换为适当的格式,用于数据挖掘。数据转换包括基本数据管理任务,如平滑、聚合、泛化,规范化建设和属性。 |
数据挖掘:在数据挖掘过程中,智能方法应用,以提取数据模式。模式评价的任务是发现有趣的模式中提取模式集。知识表示包括可视化技术,用于向用户解释发现的知识。 |
模式的评估:在数据挖掘过程中,大量的模式可能被发现。然而,所有这些模式可能不会是有用的在一个特定的上下文。强烈要求评估有用的发现模式基于某些标准,以便真正有用和有趣的模式代表知识可以被识别。 |
知识表示:最后,挖掘知识必须使用合适的技术提供给决策者的知识表达和可视化。 |
进化的数据挖掘技术 |
遗传算法在数据挖掘: |
遗传算法基本上是用于搜索、优化和文档。进化计算(EC)是计算机科学的一个激动人心的发展。它相当于建设、应用和研究算法基于一个达尔文式的自然选择的原则。遗传算法是欧共体的组件之一。GA背后的常见的基本思想如下:给定一个个体组成的群体,环境压力导致自然选择(适者生存)和这里的健身人口正在增长。很容易理解等过程的优化。给定一个目标函数最大化我们可以随机创建一组候选解决方案和使用目标函数作为一个抽象的健身措施(越高越好)在此基础上健身的一些更好的候选人选择种子的下一代应用重组和突变。复合应用于两个选定的候选人,所谓的父母和结果在一个或两个新的候选人,孩子们。突变是应用于一个候选人,结果在一个新的候选人。应用重组和突变导致一系列新的候选人,后代。 Based on their fitness these offspring compete with the candidates for a place in the next generation. This process can be iterated until a solution is found or a previously set time limit is reached. The general scheme of a genetic algorithm can be given as below: |
初始化人口与随机的人; |
评估每个候选人; |
重复直到(终止条件满足) |
选择母亲或父亲; |
重组对母亲或父亲; |
变异产生的后代; |
评估新出生的候选人; |
选择个人为下一代; |
重复的结束。 |
搜索和检索:这种技术被用来与其他相关检索主页和相关文档。查询优化 |
2。对数据挖掘的算法 |
最初的PSO算法的设计作为一个全球版本[9],也就是说,在最初的PSO算法中,每个粒子在全球范围内比较适合整群人口和调整它的速度向群„年代全球最好的粒子。然而,最新版本的本地/拓扑PSO算法,比较的过程是在本地执行在一个预定的邻居拓扑[7][8][9]。与原始版本的原始算法设计优化实际价值连续问题,但PSO算法也被扩展到优化二进制或离散问题[10][11][12]。的原始版本PSO算法本质上是通过以下两个简单描述?速度?和位置?更新方程,分别为7和8所示。 |
视频(t + 1) = vid (t) + c1 R1 (pid (t) - xid (t)) + c2 R2 (pgd (t) - xid (t)) |
xid (t + 1) = xid (t) + vid (t + 1) |
地点: |
vid代表位置变化的速度(速度)潜第i个粒子的维度,和t表示迭代计数器。 |
xid代表第i个粒子在潜孔的位置尺寸。这里值得注意的是,习称为第i个粒子本身,或作为一个向量的位置在所有问题空间的维度。n维的问题空间有很多维度的数量等于变量所需的适应度函数的优化。 |
pid代表了历史上最佳位置的第i个粒子潜孔尺寸(或者位置给最好的健身价值达到通过xi)。 |
算法1:算法的基本流程 |
1)初始化每个粒子群通过随机分配到任意初始速度和位置在解决方案的每个维度空间。 |
2)评估所需的适应度函数为每个粒子„年代位置进行优化。 |
3)对每个粒子,更新其历史上最佳位置到目前为止,π,如果它的当前位置是比其历史上最好的一个。 |
4)识别/更新群„全球最好的粒子群„年代最好的健身价值,并设置/重置其索引Pg g和它的位置。 |
5)更新粒子的速度使用上面第一个方程。 |
6)每个粒子移动到新位置使用上面第二个等式。 |
7)重复步骤2 - 6,直到收敛或满足停止条件(例如,允许的最大数量达到迭代;一个足够好的健身价值实现;或算法并没有改善其性能的连续迭代)。 |
应用领域 |
有几个数据挖掘的应用。下面给出一些常用的数据挖掘的应用: |
a)欺诈或不服从异常检测方法:数据挖掘孤立的因素导致欺诈,浪费和滥用。合规监测的过程异常检测(CMAD)包括一个主监控系统比较接受的一些预定的条件与实际数据或事件。如果检测到任何方差(异常)的主要监控系统异常报告或产生警觉,识别特定的方差。例如信用卡欺诈检测监控、隐私合规监控和目标审计或调查工作可以更有效地完成[5]。 |
b)入侵检测:它是一个被动的方法,安全监控信息系统和安全违规检测时发出警告。这个过程监控和分析事件发生在一个计算机系统,以检测安全问题的迹象。入侵检测系统(ids)可以是基于主机或网络,根据输入的信息分析[6]。在过去的几年里,越来越多的研究项目(MADAMID、亚当、集群项目等)应用数据挖掘方法(基于主机或网络)的各种问题(建设运行ids,集群审计日志记录等)的入侵检测[13]。 |
c)测谎(SAS文本矿工):SAS研究所介绍liedetecting软件,叫做SAS文本矿工。使用情报的工具,管理人员可以能够检测时自动电子邮件或web信息包含谎言。这里可以应用数据挖掘成功识别交易的不确定性或愤怒的客户,也有很多其他潜在应用[14]。还可以使用许多其他市场挖掘工具在现实实践即。克莱门氏小柑橘,IBM的Intelligent Miner, SGI的MineSet SAS企业矿工,但几乎所有相同的工具。 |
d)市场购物篮分析(MBA):基本上它应用数据挖掘技术在理解项目很可能是一起购买根据关联规则,主要目的是识别crossselling机会。有时也称为产品关联分析。MBA提供线索客户买了什么如果有了个主意。它可以用于决定位置和促销的商品通过combo-package也可以应用到的领域分析电话呼叫模式,识别欺诈医疗保险索赔等[15]。 |
e)援助营销或零售:数据挖掘可以帮助直销商通过提供有用的和准确的趋势在消费者的购买行为,也帮助他们预测哪些产品顾客可能有兴趣购买。此外,趋势探索数据挖掘帮助retailstore经理安排货架,股票某些物品,或提供一定的折扣吸引顾客。事实上数据挖掘可以帮助公司确定他们最好的客户,吸引客户,了解客户通过邮件营销,最大化盈利能力通过识别有利可图的客户[16]。 |
f)客户细分和有针对性的营销:数据挖掘可用于分组或集群客户基于行为(如付款历史,等等),这反过来有助于客户关系管理(顿悟)和执行有针对性的营销。通常它变成有用的定义类似的客户在一个集群中,坚持良好的客户,淘汰不好的客户,识别可能的反应商业促销活动。 |
g)“啤酒和婴儿尿布”的现象:使用数据挖掘来发现这个故事告诉关系啤酒和尿布,讲述和添加到任何其他传奇。解释是这样的:当父亲发出一个差事买尿布,他们经常购买的普通老百姓最喜爱的啤酒作为奖励。伦敦在英国《金融时报》的一篇文章(1996年2月7日)表示,“oftquoted数据挖掘所能实现的例子是美国大型连锁超市的情况下,发现了一个强大的协会之间的许多客户品牌的婴儿尿布(尿布)和品牌啤酒[17]。 |
h)金融、银行和信用卡或风险评分:数据挖掘可以帮助金融机构以各种方式,如信用报告、信用评级、贷款或信用卡预测好客户的批准,批准贷款风险,服务交付和客户保留模式(即建立资料的客户可能会使用哪些服务),和许多其他人。信用卡公司可以利用其庞大的仓库的客户交易数据,以确定客户最有可能感兴趣的一个新的信贷产品。此外,数据挖掘可以帮助信用卡发卡机构检测潜在的欺诈性信用卡事务。一般来说,数据挖掘方法如神经网络和决策树可以是一个有用的补充技术可用于金融分析师[18]。 |
i)医疗保险和医疗保健:应用数据挖掘技术,可以发现疾病之间的关系,有效的治疗方法,确定新的药物,药物递送服务,市场活动等。然而,制药公司可以分析其最近销售改善highvalue医生的定位,并确定哪些营销活动将产生最大的影响在未来几个月。数据需要包含竞争对手市场活动信息以及当地的卫生保健系统。这样的动态分析的数据仓库允许从整个组织的最佳实践应用在特定的销售情况。 |
结论 |
概述、进化、参数和遗传算法的应用和算法提出了一种简单的方式。虽然算法主要是用来解决无约束,单目标优化问题,开发了PSO算法主要解决约束问题,多目标优化问题和问题与动态变化的景观和发现多个解决方案。 |
|
引用 |
- Klosgen W和Zytkow J M (eds),数据挖掘和知识发现的手册,牛津大学出版社,牛津,2002年。
- 教务长,F。,& Fawcett, T., Robust Classification for Imprecise Environments. Machine Learning, Vol. 42, No.3, pp.203-231, 2001.
- 女子D T,发现知识数据:介绍数据挖掘,约翰威利,纽约,2005年。
- Kantardzic M,数据挖掘:概念、模型、方法和算法,约翰威利,新泽西,2003。
- Goldschmidt P S,合规监测异常检测、专利号我们6983266 B1,发行日期2006年1月3日,在:www.freepatentsonline.com/6983266.html
- 确定新基点R,入侵检测,麦克米伦技术出版社,2000。
- j·肯尼迪、进行r·c·埃伯哈特和y Shi,群体智慧,摩根考夫曼,旧金山,CA, 2001年。
- j·肯尼迪,小世界和mega-minds:邻域拓扑结构对粒子群的影响性能,在进行1999年的会议上进化计算,1931 - 1938年,1999页。
- j·肯尼迪和r·门德斯,人口结构和粒子群的表现,2002年国会的进化计算,檀香山,夏威夷,2002年5月
- j·肯尼迪和进行r·c·埃伯哈特,一个离散的二进制版本的粒子群算法,在1997年进行的会议系统,人,和控制论,4104 - 4109年,1997页。
- c·k·莫汉和b . Al-kazemi离散粒子群优化,粒子群优化研讨会的诉讼,印第安纳波利斯,2001。
- d . k . Agrafiotis和w·Cedeno特征选择对于使用二进制粒子群的结构活性关系,药物化学杂志》上,45卷,第1107 - 1098页,2002年
- 史密斯P,黑箱的爆发:数据挖掘的研究挑战,论文发表于第六届研讨会在数据挖掘和知识发现研究问题(DMKD2001), 5月20日(2001年)举行,Santra芭芭拉,加州,美国。
- SAS研究所Inc .,测谎仪软件:SAS文本矿工(产品公告),信息时代杂志(英国伦敦),2月10日(2002年),可以在:http://www.sas.com/solutions/fraud/index.html。
- 贝瑞M J和Linoff G S,数据挖掘技术:市场营销,销售,和关系管理,2 ndedn(约翰·威利;纽约),2004年版。
- Delmater R和汉考克M,数据挖掘解释说:经理指南customercentricbusiness情报(数字媒体,波士顿),2002年。
- Fuchs G,数据挖掘:如果真的是啤酒和尿布,网上信息管理,7月1日(2004年),可以在http://www.informationmanagement.com/新闻/ 10061331。html。
- Langdell年代,使用数据挖掘在金融应用程序,唠叨(数据分析和可视化集团有限公司),可以在http://www.nag.co.uk/IndustryArticles/ DMinFinancialApps.pdf
|