关键字 |
数据挖掘,粒子群智能,知识发现数据库 |
介绍 |
a .数据挖掘和时变数据库。 |
在各类信息数据库中,如科学数据、医疗数据、金融数据、市场交易数据;分析和发现关键的隐藏信息一直是数据挖掘研究人员关注的领域。如何有效地分析和应用这些数据,并从这些数据库中发现关键的隐藏信息,数据挖掘技术是近几十年来讨论最广泛、应用最频繁的工具。虽然数据挖掘已经成功应用于科学分析、商业应用、医学研究等领域,其计算效率和准确性也在不断提高,但仍然需要人工来完成提取过程。 |
数据挖掘被认为是一项新兴技术,它给信息世界带来了革命性的变化。术语“数据挖掘”(通常称为知识发现)是指从不同角度分析数据并通过一些分析工具和技术将其总结为有用信息的过程,这反过来可能有助于提高系统的性能。 |
从技术上讲,“数据挖掘是在大型关系数据库中数十个字段之间寻找相关性或模式的过程”。因此,数据挖掘包括将数据转换为数据仓库、在多维数据库中管理数据、方便信息专业人员或分析人员访问数据、使用应用工具和技术分析数据以及有意义地呈现数据以提供有用信息的主要功能元素。 |
b .数据挖掘过程 |
数据挖掘是一个迭代过程,包括以下几个阶段: |
数据清理 |
数据集成 |
数据选择 |
数据转换 |
数据挖掘 |
模式评价 |
知识表示 |
数据清理:此任务处理源文件中缺失和冗余的数据。真实世界的数据可能是不完整的、不一致的和损坏的。在此过程中,可以填充或删除缺失值,平滑噪声值,识别异常值,并通过不同的技术处理这些缺陷。 |
数据集成:数据集成过程将来自不同来源的数据进行组合。源数据可以是多个具有不同数据定义的不同数据库。在这种情况下,数据集成过程将来自这些多个数据源的数据插入到单个一致的数据存储中。 |
在数据选择过程中,从数据源检索相关数据以进行数据挖掘。 |
数据转换:该过程将源数据转换为适合数据挖掘的格式。数据转换包括平滑、聚合、泛化、规范化和属性构建等基本数据管理任务。 |
数据挖掘:在数据挖掘过程中,应用智能方法来提取数据模式。模式评估是在提取的模式集中发现感兴趣的模式的任务。知识表示包括可视化技术,用于向用户解释发现的知识。 |
模式评估:在数据挖掘过程中,可能会发现大量的模式。但是,所有这些模式在特定的上下文中可能并不有用。基于某些标准来评估所发现的模式的有用性是非常必要的,这样才能识别出真正有用和有趣的表示知识的模式。 |
知识表示:最后,挖掘的知识必须使用合适的知识表示和可视化技术呈现给决策者。 |
数据挖掘的进化技术 |
数据挖掘的遗传算法: |
遗传算法主要用于搜索、优化和文档。进化计算(EC)是计算机科学中一个令人兴奋的发展。这相当于建立、应用和研究基于达尔文自然选择原理的算法。遗传算法是遗传算法的组成部分之一。遗传算法背后共同的基本思想如下:给定一个个体的种群,环境压力导致自然选择(适者生存),这里由种群的适应性增长。这样的过程很容易被看作是优化。给定一个要最大化的目标函数,我们可以随机创建一组候选解,并使用目标函数作为抽象适应度度量(越高越好),基于这个适应度,选择一些较好的候选解,通过应用重组和突变来播种下一代。重组应用于两个选定的候选人,即所谓的父母,并产生一个或两个新的候选人,即子女。突变应用于一个候选并产生一个新的候选。应用重组和突变产生一组新的候选者,即后代。 Based on their fitness these offspring compete with the candidates for a place in the next generation. This process can be iterated until a solution is found or a previously set time limit is reached. The general scheme of a genetic algorithm can be given as below: |
初始化随机个体的种群; |
评估每个候选人; |
重复直到(满足终止条件) |
选择母亲或父亲; |
重组原子对; |
使产生的后代变异; |
评估刚出生的候选人; |
为下一代选择个体; |
重复结束。 |
搜索和检索:此技术用于关联其他相关主页并检索相关文档。查询优化 |
2.Pso用于数据挖掘 |
原始粒子群算法设计为[9]算法的全局版本,即在原始粒子群算法中,每个粒子与整个群种群的适应度进行全局比较,并将其速度调整为群的全局最佳粒子。然而,有最近版本的局部/拓扑PSO算法,其中比较过程在预定的邻域拓扑[7][8][9]内局部执行。与原始版本的ACO不同,原始的PSO被设计用于优化实值连续问题,但PSO算法也被扩展到优化二进制或离散问题[10][11][12]。PSO算法的原始版本本质上是由以下两个简单的?速度?和位置?更新方程,分别如7和8所示。 |
视频(t + 1) = vid (t) + c1 R1 (pid (t) - xid (t)) + c2 R2 (pgd (t) - xid (t)) |
Xid (t+1) = Xid (t) + vid(t+1) |
地点: |
Vid表示第i个粒子在DTH维中的位置变化率(速度),t表示迭代计数器。 |
Xid表示第i个粒子在DTH维中的位置。这里值得注意的是,xi被称为第i个粒子本身,或者作为它在问题空间的所有维度中的位置的向量。n维问题空间的维数等于待优化适应度函数的变量数。 |
Pid表示第i个粒子在DTH维上的历史最佳位置(或者,给出xi获得的最佳适应度值的位置)。 |
算法1:粒子群算法的基本流程 |
1)通过将每个粒子随机分配到任意的初始速度和在解空间的每个维度中的位置来初始化群集。 |
2)评估所需的适应度函数,以优化每个粒子的位置。 |
3)对于每个单个粒子,如果其当前位置优于其历史最佳位置,则更新其迄今为止的历史最佳位置Pi。 |
4)识别/更新蜂群中具有蜂群最佳适应度值的全局最佳粒子,将其指数设为g,位置设为Pg。 |
5)使用上述第一个方程更新所有粒子的速度。 |
6)使用上述第二个方程将每个粒子移动到其新位置。 |
7)重复步骤2-6,直到收敛或满足停止条件(例如,达到允许的最大迭代次数;获得足够好的适应度值;或者该算法在连续多次迭代中都没有改善其性能)。 |
应用领域 |
数据挖掘有几种应用。以下是一些常用的数据挖掘应用: |
a)欺诈或不合规异常检测:数据挖掘隔离了导致欺诈、浪费和滥用的因素。用于异常检测的符合性监视过程包括主监视系统将一些预定的验收条件与实际数据或事件进行比较。如果主监控系统检测到任何差异(异常),则生成异常报告或警报,识别特定的差异。例如,可以更有效地进行信用卡欺诈检测监控、隐私遵从性监控以及目标审计或调查工作。 |
b)入侵检测:这是一种被动的安全方法,它监视信息系统,并在检测到违反安全规定时发出警报。这个过程监视和分析计算机系统中发生的事件,以检测安全问题的迹象。入侵检测系统(ids)可以是基于主机的,也可以是基于网络的,这取决于它们分析的输入信息的类型。在过去几年中,越来越多的研究项目(MADAMID, ADAM, Clustering project等)将数据挖掘方法(基于主机或基于网络)应用于入侵检测[13]的各种问题(操作ids的构建,集群审计日志记录等)。 |
c)测谎(SAS Text Miner): SAS研究所推出了测谎软件,称为SAS Text Miner。使用这一工具的智能,经理可以自动检测电子邮件或网络信息包含谎言。在这里,数据挖掘可以成功地应用于识别交易中的不确定性或愤怒的客户,也有许多其他潜在的应用。许多其他市场挖矿工具在实际应用中也可用,例如Clementine、IBM的Intelligent Miner、SGI的MineSet、SAS的Enterprise Miner,但几乎都是同一套工具。 |
d) Market basket analysis (MBA):主要应用数据挖掘技术,根据关联规则了解哪些商品可能被一起购买,主要目的是识别交叉销售机会。有时它也被称为产品亲和分析。MBA提供的线索是,如果客户有了一个想法,他们可能会购买什么。因此,它可以用于通过组合包装来确定商品的位置和促销,也可以应用于电话呼叫模式分析,欺诈医疗保险理赔识别等领域。[15]。 |
e)帮助营销或零售:数据挖掘可以通过提供客户购买行为的有用和准确的趋势来帮助直销人员,还可以帮助他们预测客户可能有兴趣购买哪些产品。此外,数据挖掘发现的趋势可以帮助零售经理安排货架、储存特定商品或提供特定折扣,以吸引顾客。事实上,数据挖掘允许公司通过邮件营销来识别他们最好的客户,吸引客户,意识到客户,并通过识别有利可图的客户来最大化利润[16]。 |
f)客户细分和针对性营销:数据挖掘可以根据客户行为(如支付历史等)对客户进行分组或聚类,从而帮助客户关系管理(顿悟),进行针对性营销。通常,在集群中定义类似的客户、保留好客户、清除坏客户、确定可能的响应者以进行业务推广是有用的。 |
g)“‘啤酒和婴儿纸尿裤’现象:这个使用数据挖掘来寻找啤酒和纸尿裤之间关系的故事,像任何其他传说一样被讲述、复述和添加。对此的解释是,当父亲们被派去买尿布时,他们通常会买六打他们最喜欢的啤酒作为奖励。伦敦《金融时报》(1996年2月7日)的一篇文章指出,“数据挖掘可以实现的一个经常被引用的例子是美国一家大型连锁超市的案例,该超市发现许多顾客在婴儿纸尿裤品牌和啤酒品牌[17]之间存在很强的关联。 |
h)金融、银行和信贷或风险评分:数据挖掘可以以各种方式帮助金融机构,如信用报告、信用评级、贷款或信用卡审批,通过预测好客户、批准贷款的风险、服务交付模式和客户保留(即建立可能使用哪种服务的客户档案),以及许多其他。信用卡公司可以利用其庞大的客户交易数据仓库来确定最有可能对新信贷产品感兴趣的客户。此外,数据挖掘还可以帮助发卡机构检测潜在的欺诈性信用卡交易。一般来说,神经网络和决策树等数据挖掘方法可以成为金融分析师可用技术的有用补充。 |
i)医疗保健和保健:应用数据挖掘技术,可以发现疾病之间的关系、治疗的有效性、识别新药、药物递送服务中的市场活动等。然而,制药公司可以分析其最近的销售,以提高高价值医生的目标,并确定哪些营销活动将在未来几个月产生最大的影响。这些数据需要包括竞争对手的市场活动以及有关当地医疗保健系统的信息。这种数据仓库的动态分析使得整个组织的最佳实践可以应用于特定的销售情况。 |
结论 |
简要介绍了遗传算法和粒子群算法的演化过程、参数及应用。虽然粒子群优化算法主要用于解决无约束的单目标优化问题,但粒子群优化算法主要用于解决有约束的问题、多目标优化问题和动态变化的景观问题,并找到多个解。 |
|
参考文献 |
- 刘志刚主编,《数据挖掘与知识发现手册》,清华大学学报(自然科学版),2002。
- Provost, F., & Fawcett, T.,不精确环境的稳健分类。机器学习,Vol. 42 No.3, pp.203-231, 2001。
- Larose D T,《在数据中发现知识:数据挖掘导论》,John Wiley,纽约,2005。
- Kantardzic M,《数据挖掘:概念、模型、方法和算法》,John Wiley,新泽西,2003。
- Goldschmidt P S,符合性监测异常检测,专利号;US 6983266 B1,发行日期2006年1月3日,可在www.freepatentsonline.com/6983266.html上购买
- Bace R,入侵检测,麦克米伦技术出版社,2000。
- J. Kennedy, R. C. Eberhart和Y. Shi,蜂群智能,Morgan Kaufmann,旧金山,CA, 2001。
- J. Kennedy,小世界和超级头脑:邻域拓扑对粒子群性能的影响,1999年进化计算会议进程,1931-1938页,1999。
- J. Kennedy和R. Mendes,种群结构和粒子群性能,2002年进化计算大会进程,夏威夷檀香山,2002年5月
- J. Kennedy和R. C. Eberhart,粒子群算法的离散二进制版本,1997年系统、人与控制论会议进程,4104-4109页,1997。
- C. K. Mohan和B. Al-kazemi,离散粒子群优化,粒子群优化研讨会论文集,印第安纳波利斯,IN 2001。
- D. K. Agrafiotis和W. Cedeño,利用二元粒子群进行结构-活性相关的特征选择,药物化学杂志,Vol. 45, pp. 1098-1107, 2002
- Smyth P,突破黑箱:数据挖掘中的研究挑战,在第六届数据挖掘和知识发现研究问题研讨会(DMKD2001)上发表的论文,2001年5月20日,美国加州圣特拉芭芭拉。
- SAS研究所公司,测谎软件:SAS文本挖掘器(产品公告),《信息时代杂志》,[英国伦敦],2002年2月10日,可在http://www.sas.com/solutions/fraud/index.html上获得。
- Berry M J A和Linoff G S,数据挖掘技术:用于营销,销售和关系管理,2 nden (John Wiley;纽约),2004年。
- Delmater R和Hancock M,《数据挖掘解释:以客户为中心的商业智能的管理者指南》(数字出版社,波士顿),2002年。
- Fuchs G,数据挖掘:如果它真的是关于啤酒和尿布,信息管理在线,7月1日,(2004年),可在:http://www.informationmanagement.com/ news/10061331。超文本标记语言
- Langdell S,数据挖掘在金融应用中的应用,(NAG有限公司数据分析和可视化组),可在:http://www.nag.co.uk/IndustryArticles/ DMinFinancialApps.pdf
|