所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

语义Web和知识调查处理

M。维纳Gopalachari1p . Sammulal博士2
  1. CSE称,Chaitanya Bharathi理工学院,印度海德拉巴
  2. CSE称,JNTU工程学院,贾瓦哈拉尔·尼赫鲁科技大学、海得拉巴,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

在未来几年面临的最大挑战是如何有效、高效地找到所请求的。一个普通用户通常花时间找到确切的请求信息。语义Web挖掘反应有助于解决这个问题。它旨在集成领域的语义Web和Web挖掘利用语义来提高矿业和矿业生成语义。这两个地区的一体化会导致使网络更加“语义”。本文概述了艺术的状态对语义网的研究和知识处理和提出了一些最近的研究计划。

关键字

语义网络、人工智能、数据挖掘、信息超载、web挖掘。

介绍

过滤结果由各种像谷歌和雅虎这样的搜索引擎,提供个性化的访问网络上的信息是必需的(Svatopluk et al ., 2005)。在2008年,估计大小由搜索引擎访问网站的部分已经一万亿页[21]。个人用户能够几乎没有任何意义,甚至微小的分数可用的内容,被众多的相关资源,可能是也可能不是他们正在寻找什么。网络的规模,加上其分散,高度冗余,很大程度上不准确,使得内使用的知识非常麻烦。此外,相关知识可以分散在许多资源,使得试图利用所有可用的内容更加复杂。
这个问题通常被称为“信息过载”。在某种程度上,这个问题解决了基于信息检索领域的先进技术,这力量现在网络搜索引擎,使发现的资源相对容易。由此产生的信息过载[22]所面临的问题是很多最先进的技术绘图灵感来自计算机科学的各个分支。最具影响力的领域可能在这种情况下(至少对于并且引入应用程序)是信息检索[3],遇到的最明显的形式的web搜索引擎像谷歌,雅虎和必应(分别参见http://www.google.com, http://www.yahoo.com, http://www.bing.com)。信息检索方法覆盖web内容的主要构成部分,但他们仅仅是燕麦表面的数据指标的实际意义仅仅由于他们依赖string-base语义web试图补充,而肤浅的信息检索方法通过添加意义的字符串的web内容统计和启发式排名[4]。在下一节中,我们首先简要概述的领域语义Web和Web挖掘。后部分,概述的挑战和未来趋势的实现语义web。

语义网

语义Web项目最近提出了一个著名的方法试图为网络提供一个意义不仅仅是个人,而且机器可以处理。简而言之,意义的过程通常被理解为给语言的象征意义,或者,换句话说,将这些符号与现实世界的对象和想法他们应该参考[5]。之前可以继续提出知识表示与处理框架,计算的形式化,而抽象的概念的意义已被采纳。在一个非常广泛的意义上,语义Web项目是给机器可读的意义在万维网上的内容。实际意思表示,人工智能领域的主要研究方法(即在知识表示和推理)学科被采纳作为基本设计块即将到来的语义网。传统的知识表示方法并不适用于web数据以开箱即用的方式,。他们不得不适应这样他们可能面临巨大的挑战和混乱的世界。的例子最关键的挑战是分布式网络的性质和规模的知识。解决了基于分布式特性的核心语义Web标准(RDF) [6], model-theoretic语义混合网络的某些基本原则(主要由独特的资源标识符命名的实体,在分布式组织,但相互关联的名称空间)。网络的大规模被适应的解决(分布式)数据库技术来存储和查询RDF数据[7],并通过将复杂的优化和并行计算技术纳入推理算法。 Overviews of various emerging semantic web technologies are given in table1.
其他几个挑战功能语义Web应用程序必须解决为了成为真正适用的最近也被解决。这包括改变知识[8],[9]的不一致性和不确定性(解决模糊逻辑[10]或从概率[11]的角度来看)。
大多数的方法处理这些特性寻找一个兼容的解决方案或一个扩展的核心语义Web标准(主要是RDF和OWL)。这是一个合理的方法出于清楚标准的理论基础,以及务实的一个渐进发展的必要性。然而,好处可能轻易地抵消的问题并不完全不同的人工智能的知识获取的瓶颈。然而,当前的语义Web解决方案往往也深深扎根于人工智能的经典范例(例如,逻辑的知识表示)。不过,就连语义Web现在患有某些缺陷。流行的基于逻辑的概念表达知识表示的语义Web使手动获取这些知识昂贵和不切实际,而自动的结果和/或基于社区(因此廉价)知识获取方法往往过于嘈杂,稀疏有意义的处理。
标准复杂网络知识表示像猫头鹰[12]或OWL2[13]适用于小规模的资源已经被专家精心设计,但还远未充分面对松散结构知识的广阔和嘈杂的丛林。RDF[14]标准更加简单和普遍,这使得它适用于建模在广泛的实际场景。然而,它仍然缺乏正式支持网络知识的一些重要特性,如不确定性、否定或多方面的上下文。此外,RDF解释仍然是基于model-theoretical即。,logical semantics, which makes it as brittle and cumbersome as the more complex Semantic Web standards from the theoretical point of view.
最后但并非最不重要,所有当前的语义Web标准,而机器想到用户和开发人员,这使得它们,而无法由大量的人们日常接触网络。尽管语义Web的主要焦点的机器,低水平的标准的理解的人是一个问题,如果我们假设网络的人们提供了一些注释内容,在实践中,通常情况下。处理理论基础的两个主要学科是哲学和语言学的概念意义。

语言学

自然语言的意义()从语言学的角度研究了其特定的分支学科,语义。意义分析的单词,短语,句子和大单位的话语[15]。语义研究的基础学科是[16]迹象,这可能被理解为离散单元的意义(文字、图像、手势、气味、味道、纹理、声音、等等,基本上所有形式的信息,信息可以在通信过程中参与者的转移)。两个主要的不同概念提出的迹象已经两个关键人物参与现代语言学的诞生:
二元信号- - -根据索绪尔符号是由能指与所指的[16]。前者是被设想为一种语言表示的想象和/或现有的实体或想法,而后者是心理表征或一个概念的所指(即实体或想法。象征的意义)。能指和所指之间的绑定的一个迹象完全是任意的(不以任何方式任何依赖语言的实际意义或形式表示)。
三元关系——迹象皮尔斯拒绝的想法,一个稳定的能指和所指之间的关系。基于离开语言的动机,他引入了一个概念动机主要由哲学逻辑[17]。他的主要重点是提出一个理论生产的意义,而不是语言本身的理论。结果表明建立的概念意义,三组之间的递归关系,对应于三个基本符号元素:
•representamen——表示对象的符号表征或想法(实质上是索绪尔的能指);
•对象——的代表的标志;
•interpretant——符号的意义,代表了另一个信号由解释的过程。
符号元素的三组之间的关系呈现方式的意义标志与实际表示的语言,在世界上。使用的主要工具的调查,旨在对词汇语义,词汇关系同义、反义、上下位关系或hyperonymy(“千篇一律”、“差异”,“作为一个亚型”或“关系”是一个超类,分别)。词汇的意义单位通常是自上而下的方式取决于人类专家(词典编纂者)在研究有关语言资源(例如,全集)。的意义本身就是由实证分析各种通用模式出现单词之间的大规模数据集。统计的方法,或分布语义本质上是一种自底向上的,可以很大程度上的自动化。
分析单个词或短语的意义仅仅是第一步研究更复杂的自然语言的语义结构的句子。一个句子的意思是通过解析成它的句法分析树。解析树的组件被转换为一个逻辑形式,进而用于句子的逻辑分析(即真理通过相关条件。的解释,使句子的逻辑形式真实)。特定的形式应用于解析的分析自然语言句子通常要么源自一阶谓词逻辑(如[18]中所述),或者从输入演算(阐述了蒙塔古语法[19]或扩展,透明故意逻辑[20])。
在计算机科学中,语义研究的意义主要从两个不同的角度,首先对正式的编程语言和语义其次对计算知识表示的意义系统。前者允许为研究项目的意义或功能(执行的程序或计算结果)不管他们的语法表示。后者语义在计算机科学的分支,是直接关系到我们的论文的重点,关注了解一个真实的机器可读表示感兴趣的领域。这是相关的分配一个可行的(即。,comprehensible by computers) meaning to the representations. This can consequently be utilized to infer new implicit facts from the explicitly stored knowledge.

网络挖掘

Web挖掘是一个非常有趣的研究课题相结合的两个研究领域:激活数据挖掘和万维网。大量的信息在网上,万维网是一个肥沃的数据挖掘研究领域。Web挖掘研究涉及到几个社区,如数据库、信息检索、人工智能。万维网(网络)是一种流行的今天和交互式媒介传播信息。网络是巨大的、多样化和动态,从而提高了可伸缩性、多媒体数据,分别和时间问题。是Oren Etzioni首先创造了这个术语Web挖掘1996年在他的论文。Etzioni开始通过一个假设,网络上的信息是足够的结构化,并概述了网络挖掘的子任务[1]和描述了Web挖掘过程。Web数据挖掘可以被定义为从WWW的发现和分析有用的信息数据。
自那时起,已经有几个作品在网络上的调查数据挖掘。尽管Web挖掘放下根深在数据挖掘,这不是相当于数据挖掘。网络数据的非结构化特性引发了更多的复杂性在Web挖掘的过程。指数增长的在线信息结合几乎非结构化网络数据需要强大而计算的发展有效的web数据挖掘工具[2]。Web挖掘是数据挖掘技术的使用从Web文档自动发现和提取信息和服务[1]。今天的研究领域是如此巨大的部分原因是各种研究社区的利益,可用信息源的巨大的增长在最近的网络和电子商务的兴趣。

挑战和未来趋势

网络带来了新的挑战,传统的数据挖掘算法,工作平面数据。我们已经看到一些传统的数据挖掘算法已经扩展或新算法用于网络数据。爆炸性增长的信息来源可在万维网,它变得越来越必要用户利用自动化工具为了找到所需的信息资源,并跟踪和分析他们的使用模式。这些因素产生的必要性创建服务器端和客户端智能系统,可以有效地我的知识。大型web日志文件的分析是一项复杂的任务不能完全解决现有的web访问分析程序。然而,很难找到合适的工具来分析原始web日志数据检索重要的和有用的信息。有几种商用网络日志分析工具,但大多数人都不喜欢他们的用户认为太慢,呆板,昂贵,难以维持或他们可以提供非常有限的结果。
虽然一些工具使用数据挖掘技术帮助web日志分析正在开发,这项研究仍处于初级阶段。分析网络使用的现有技术有不同的缺点,即。,either huge storage requirements, excessive I/O cost, or scalability problems when additional information is introduced into the analysis.
现有的大多数Web服务器分析工具仅提供明确和统计信息Web经理没有真正有用的知识。挖掘有用的信息变得更具挑战性的任务时,网络流量体积是巨大的和不断增长。使用网站的潜力作为基于web的信息系统的数据收集工具是巨大的。这是因为它的互动自然、简单和unobtrusiveness。数据挖掘的结果将理想融入动态网站提供一个自动化、端到端功能目标营销和客户关系管理系统。大多数web挖掘工具发展和当前web挖掘技术仍有改进的房间让他们获胜的基于web的信息系统。一些问题需要更大的集成,可伸缩性问题,需要更好的挖掘工具经常提到的许多研究人员。
削尖的挖掘工具在许多不同的方面对这一领域的未来发展很重要:
•Web使用挖掘必须处理离线数据的集成与电子商务分析工具,RDBMS中,产品和服务的目录和其他应用程序。
•应该寻求一些新的变量或日志可用于寻找更自然,有意义和有用的模式。
•新工具将不需要消耗太多的资源或web挖掘过程中处理时间。
•总是会有一个需要提高挖掘算法的性能基准测试,作为挖掘算法的效率和有效性可以测量和更好的web数据挖掘可以派生的工具。
•改善可视化是很重要的,尽可能多的用户数据是无组织的,难以理解。

结论

设计和维护基于web的信息系统,如网站,是一个真正的挑战。在网络上,它更容易发现不一致的信息比结构良好的网站。有一种强烈的结构化文档之间的关系(如网站)和程序;网络是一个很好的候选人尝试的一些技术,在软件工程开发的。
Web挖掘是一个新的、快速发展的研究和应用领域。更多合作研究不同学科如数据库、人工智能、统计学和市场营销,我们将能够开发web挖掘应用程序非常有用的基于web的信息系统。Web挖掘是数据挖掘研究的一个重要话题近年来从支持以人为本的角度发现知识。现在web挖掘模型遭受正如前面列出的许多缺陷。作为服务在网络上继续增长,将会有一个持续的需要使他们健壮的、可伸缩的和有效的。

表乍一看

表的图标
表1

数据乍一看

图1
图1

引用























全球技术峰会