所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

实证建议对算法和模式组合应用程序在Web挖掘

Harleen宫1,Arvind Selwal2,阿沙玛3
  1. m .科技学者,CSE称,安巴拉大学工程与应用研究,Devsthali,安巴拉、印度
  2. 副教授,部门。CSE,安巴拉大学工程与应用研究,Devsthali,安巴拉、印度
  3. 助理教授,CSE称,安巴拉大学工程与应用研究,Devsthali,安巴拉、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘和知识发现过程的分析阶段是发现模式在大型数据集的计算过程涉及的方法在人工智能的交集,机器学习、统计数据和数据库系统。经典的数据挖掘和机器学习过程的目标是获取从一个数据集和提取信息并将其转换成一个可以理解的结构进行进一步的使用。除了原始的分析步骤,它包括数据库和数据管理方面,数据预处理、模型和推理方面的考虑,兴趣度指标、复杂性考虑,发现结构的后期处理,可视化,和在线更新。Web使用挖掘是数据挖掘技术的类型从Web数据发现有趣的使用模式,为了发现有用的模式和更好地为基于Web的应用程序的需求。使用数据捕获网络用户的身份或起源及其网站浏览行为。Web使用挖掘本身可能进一步分类取决于使用数据的考虑。它们是web服务器数据,应用程序服务器的数据和应用程序级的数据。Web服务器数据对应于用户在Web服务器收集日志。一些典型的数据收集和保存在一个web服务器包括IP地址,页面引用,和用户的访问时间。本文提出了一种新的技术来发现网络使用模式的网站日志文件从服务器集群的基础和改进先验的算法。

关键字

先验的算法、关联规则挖掘、聚类规则学习,web服务器日志数据、web使用挖掘

介绍

Web挖掘是传统数据挖掘方法收集的信息的集成和技术与信息在万维网。它是用来理解顾客行为,评估一个特定网站的有效性,并帮助量化营销活动的成功。它还允许寻找通过内容挖掘数据中的模式,挖掘结构挖掘和使用。内容挖掘用于检查收集的数据搜索引擎和网络蜘蛛。结构挖掘用于检查相关数据结构的一个特定的Web站点和Web使用挖掘应用于许多实际的问题来发现有趣的用户导航模式提高网站设计通过额外的主题或建议观察用户或客户行为[7]。
Web使用挖掘是数据挖掘技术的应用从Web数据发现有趣的使用模式,以理解和更好地为基于Web的应用程序的需要。使用数据捕获网络用户的身份或起源及其网站浏览行为。Web使用挖掘本身可以进一步分类取决于类型的使用数据。它们是web服务器数据,应用程序服务器的数据和应用程序级的数据。Web服务器数据对应于用户在Web服务器收集日志。一些典型的Web服务器上收集的数据包括IP地址,页面引用,和用户的访问时间和当前研究的主要输入。这项工作集中于web使用挖掘,特别是集中在发现网络使用模式的网站服务器日志文件[6]。

二世。文献综述

B。Santhosh Kumar等Web使用挖掘的实现三个阶段即预处理、模式发现,和模式分析。先验的算法用于生成一个关联规则相关联客户的使用模式特定的网站。系统的输出的内存使用和速度产生关联规则。Pooja Sharma等提出了一种聚类算法来发现数据集群数值和名义上的数据通过计算的平均和日志值数据集。该算法提高了Web使用挖掘技术首先在一个地方发现个人用户的日志文件。Martinez-Romo等分析了不同的信息
检索方法,选择的术语用于构造查询提交给搜索引擎,和它所提供的候选页面的排名,以帮助用户找到最好的替代失效链接。测试资源,他们还定义了一个评价方法不需要用户判断,增加结果的客观性。辛格MahendraPratap Dohare等提出了一种新的无功会话重建方法。该算法比以前开发的时间和导航导向的启发式方法,因为它不允许页面序列与任何无关的连续请求相同的会话。他们还代理实现模拟器生成真正的用户会话。脸上Das等分析了web服务器用户访问日志Firat大学的帮助系统管理员,网页设计师来改善他们的系统通过确定发生系统错误,损坏和失效链接通过使用web使用挖掘。PriyankaPatil等都集中在web日志文件格式,它的类型和位置。日志文件通常包含噪声和模糊数据。预处理包括从日志文件中删除不必要的数据。数据预处理是一个重要的步骤来过滤和组织适当的信息在使用web挖掘算法。 They have also proposed two algorithms for field extraction and data cleaning. Preprocessing web log file is used in data mining techniques, also used in intrusion detection system as input to detect intrusion.
服务器日志由几种属性。属性如下:-
1。日期:日期从格林威治标准时间(GMT x 100)记录了每个打击。日期格式是YYYY-MMDD [1]。
2。时间:时间的事务。时间格式HH: MM: SS [1]。
3所示。客户端IP地址:客户端IP是计算机的数量或请求访问网站[1]。
4所示。用户认证:有些网站设置了一个安全功能,需要用户输入用户名和密码。一旦用户登录一个网站,用户的“用户名”是记录在日志文件中[1]。
5。服务器IP地址:服务器IP是互联网服务提供商提供的静态IP。这个IP将引用访问[1]从服务器的信息。
6。服务器端口:服务器端口是一个端口用于数据传输。通常,使用的端口是80端口[1]。
7所示。请求服务器(HTTP请求):方法一词指的是一个图像,电影,声音,pdf, . txt, HTML文件和更多的[1]。
8。URL: URL路径从主机。它代表了网站的结构。例子:/教师/图片/图标/褶皱。gif [1]。
9。代理日志:代理日志数据提供了一个用户的浏览器,浏览器版本,和操作系统。这是一个重要的信息,浏览器和操作系统的类型决定了网站上的用户能够访问[1]。
答:模式发现和模式分析
的三个主要阶段web使用挖掘是数据预处理、模式发现和模式分析。数据预处理包括去除不必要的数据。模式发现使用数据挖掘技术来从Web数据提取的使用模式。知识可以发现规则的形式表示,表、图表、图形、和其他可视化表示形式描述,比较,预测或分类数据从网络访问日志。模式分析是Web使用挖掘的最后阶段。这个过程的目的是提取有趣的规则或模式的输出模式发现过程通过消除无关系的规则或模式[1]。

四、问题陈述

经典的古典先天模式提取算法利用自底向上的方法和规则挖掘,频繁的子集被延长一项。这一步被称为候选人代最后一组候选人测试数据。这个算法终止就没有进一步提取成功扩展。该技术将克服相关问题和复杂性与先验的算法通过使用专门的搜索和导航基于自顶向下的方法。

诉提出技术和流

1。应当设计一个有效的web使用挖掘算法与聚类算法和改进的先天的基础。
2。算法的应用服务器上的日志文件进行分析和报告生成基于日志文件的使用模式。
3所示。日志文件和结果将被用作一个法医数据库以及关联规则挖掘。
信息和通信技术的进步,研究在数据挖掘和机器学习。因此,新颖和有效的方法是我所需要的知识从大型和巨大的数据库。数据挖掘是指提取数据库中知识发现的核心。这是过程寻找有用的和潜在的知识数据库。关联规则是与知名的数据挖掘知识和相关的结果可以被定义为数据项之间的关系和依赖性andconfidence使用的支持。在现有的关联规则挖掘算法和机器学习,先天的祖先提供,并于1993年发现的。先天的核心理念是多次扫描数据库。范式,频繁的数据项频繁模式的子集,可以获得与频繁的长度(k + 1)项集路+ 1的频繁k-itemsets路k次扫描数据库中生成的候选项Ck + 1路感到担忧。此外,Ck的出现时间+ 1可以被另一个扫描数据库验证。有很多改进算法等先天AprioriTID,先天Hybri,多个开源发明网络,重新排序、直接等。这些算法的主要思想是根据理论频繁项的子集是一个频繁集和一个罕见的集的超集是一个罕见的itemset。 These are used to scan the database repeatedly for mining the association rules.

第六,预期的技术实现方法

1。比例分析各种使用聚类和关联规则挖掘的应用程序在web日志文件
2。设计新的算法对先验的算法在日志文件分析和法医的信息
3所示。实现的改进和有效的算法对样本日志记录从现场获取服务器
4所示。相关的研究结果与现有的技术和一代的详细报告
5。接受和信任水平的假设和目标在研究计划中指定
6。框架的结论和未来的工作与实现和获取结果

七世。结论

Web使用挖掘是数据挖掘技术的应用从Web数据发现使用模式,为了理解和更好地为基于Web的应用程序的需要。Web使用挖掘由三个阶段组成,即预处理、模式发现,和模式分析。一种非常简单的算法使用先验的算法容易实现。本文提出了一种新的技术来发现网络使用模式的网站日志文件从服务器集群的基础和改进先验的算法。有效的算法将提出的改进以及先天的实现算法。即将到来的一步研究工作应当设计改进版本的先验的算法应当实现关联规则挖掘在服务器上的日志文件。

数据乍一看

图1 图2
图1 图2

引用

  1. Mishra拉胡尔,ChoubeyAbha发现频繁模式从Web日志数据通过使用FP-Growth Web使用挖掘算法”,国际先进研究期刊》的研究在计算机科学和软件工程,高雄,pp.311 - 318, 2012。
  2. PatilPriyanka, PatilUjwala预处理的Web服务器日志文件Web挖掘”,世界科技期刊,pp.14 - 18, 2012。
  3. DohareMahendraPratap辛格Premnarayan,亚太区一边抚摸,“小说”Web使用挖掘Web挖掘技术,国际期刊的新兴技术和先进的工程,二,问题1,pp.253 - 262, 2012。
  4. Sharma Pooja BhartiyaRupali”,一个高效的算法改进Web使用挖掘”,计算机技术和应用程序的国际期刊,3 (2),pp.766 - 769, 2011。
  5. Romo胡安·马丁内斯Araujo卢尔德,”分析信息检索方法恢复破碎的网页链接”,ECIR pp.26-37, 2010。
  6. Kumar b . Santhosh Rukmani k V。,“Implementation of Web Usage Mining Using APRIORI and FP Growth Algorithms”, International Journal of Advanced Networking and Applications, Vol.1, Issue 6, pp.400-404, 2010.
  7. 针对k·R。,Krishnamoorthi, R., “Identifying User Behavior by Analyzing Web Server Access Log File”, International Journal of Computer Science and Network Security, Vol.9 No. 4, pp.327-332, 2009.
  8. Das脸上,特工易卜拉欣,Poyraz穆斯塔法”,分析系统错误的增加一个Web服务器性能通过使用Web使用挖掘”,电气和电子工程学报,第七卷2号,pp.379 - 386, 2007。
  9. 萍乡Li Jiangping陈,FulingBian发达算法基于关联分析”的先天,地理空间信息科学(季度),第七卷,问题2,硕士论文,112年,2004年。
全球技术峰会