所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

Web挖掘应用在社交网络上的评价

Sreedhar Appalabatla Naveen Kumar博士,博士Mungamuru吧
  1. 研究学者、部门的计算机科学和工程、大学阿拉哈巴德,印度,
  2. 大学计算机科学与工程教授,部门的阿拉哈巴德,印度。
  3. 学系助理教授计算阿达玛科技大学,阿达玛,埃塞俄比亚
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

社交网络最近经历了迅速崛起。它们提供了许多功能如网络的朋友或业务联系人列表,内容分享,冲浪,讨论和通讯工具。雷竞技网页版社交网络之间的互操作性是一个关键的挑战,谷歌驱动的开放社交联盟部分解决它,并公布了新一代的策略从社交网络用户收集数据。在本文中,我们讨论开放社交功能和把它与过滤和排序算法来提高电子邮件管理。我们分析traffic-weighted Web主机图从大样本获得真正的网络用户。许多有趣的结构属性是揭示了这个复杂的动态网络,一些符合wellstudied布尔图连接主机和其他人指出重要的差异。





关键字

开放的社交网络数据集(OSND),潜在语义分析(LSA)、网络流量、网络主机图。

介绍

社交网络提供显式地创建和管理连接的方法基于信息收集和存储在用户配置文件。社交网络和社交网络语义[7]已成为第二代的邮件列表,Usenet,公告板在线社区,提供一系列的服务,如朋友或业务联系人列表,网络共享,冲浪,讨论和通讯工具。雷竞技网页版他们也是最近的一部分创建新的用户生成内容意识到技术包含了“Web 2.0”buzzword伞和提供了大量的元数据和信息用户作为一个特定的实体。
然而,这些应用程序并不是解决信息超载的基本问题,如电子邮件囤积或缺乏管理,但导致增加负担。另一方面,努力[5]、[6]等正在检查电子邮件过滤和排名基于社交网络。此外,语义技术是发展一个更成熟的状态本体[1],其骨干技术;提供一个正式的表示一个域。机器可以理解的本体论的转变通过使用可以超越当前的努力,需要找到数据分散在网络或动态绘图推论不断受到其依赖特定的数据框架。基于谷歌驱动的开放社交策略在社交网络中用户信息。
开放社会是一个跨Web应用程序编程接口来构建社会应用程序,换句话说,一组公共的api为社会应用程序跨多个网站。开放社会正在由谷歌开发与网络社区的成员。任何社交网站的最终目标是能够实现的api和主机第三方社交应用。有许多网站实现开放的社会,包括Engage.com, Friendster, hi5, Hyves, imeem, LinkedIn, MySpace, Bebo, Ning,甲骨文,orkut, Plaxo,
Salesforce.com,六,天际,Viadeo和邢[3]。开放社会本身并不是一个社交网络;相反,它是一组三个常见的api,允许开发人员访问以下核心功能和信息在社交网络上:
 People 和 Friends API 数据
 Activities 数据 API
 Persistence 数据 API
开放的社交网络数据集(OSND)是一种轻量级本体用于协作的数据过滤和评级,我们遵循一个集成的方法相结合的三种类型的技术改善其建设从上述标记集聚集Web 2.0社交网站比如Engage.com, Friendster, hi5等等,我们应用的三种技术如下:
 Applying 的 Vector Space Model:
 Using Latent Semantic Analysis (LSA)
 Validating 条款 有关 的 集合 与 在线 词汇 OSND resources, Wordnet1. 等

二世。相关工作

许多研究使用网络爬虫揭示重要见解的大规模结构网络图,如“蝴蝶结”模型、自相似结构的存在和无标度分布,及其smallworld拓扑(2、4、1、6、5]。虽然这些见解已经通知等多种应用的设计爬虫和缓存代理服务器,结构分析其最大的应用程序排名搜索引擎返回的页面。尤其是知名网页排名和点击算法能够利用的模式连接页面的链接排名他们无需过程内容;这些算法,激发了大量的排名算法研究基于链接结构(8、9)。
链接的结构属性图扩展主机图,认为整个Web服务器的连接,而不是单独的页[10]。最早的努力使用浏览器日志描述用户导航模式,时间页面,书签使用,页面访问频率,用户之间的重叠路径(11、12)。行为数据的最直接来源来自Web服务器的日志,已被用于应用程序如个性化和提高缓存行为[13]。因为搜索引擎为核心作用在用户的导航,他们的日志数据是特别有用的在改善结果基于用户行为(14、15)。
网页和网站排名最关键的任务之一的搜索引擎。过去的十年里带来了很棒的网络搜索技术的进步,很大程度上由于复杂的排名技术的发展。而现代搜索引擎可能精炼和改进网页排名,除了将它与许多其他标准,它仍然是一个参考工具,网络的研究作为一个复杂的动态网络,以及工程的改进的排序功能。

三世。评价

原则上可以捕捉整个url的引用和请求的页面与我们的实验装置,并建立一个加权和页面链接图节点。这确实是我们的目标。在这篇文章中,然而,我们报告一个初期阶段,我们专注于主机图。原因之一是,这是更可行的与我们当前的存储和计算资源,确实有必要优化我们的收集和分析算法;另一个原因是,主机对网络流量图已经揭示了一些有趣的见解。网络主机图形存储在Matlab矩阵稀疏连接进行分析。节点流量的大小正比于日志,每一个网站,和边缘厚度成正比的日志点击两个网站之间的链接的数量。

答:结构属性

点击数据收集在一段时间内。表1提供了一个视图的结果加权主图的一小部分,包括最受欢迎的目的地网站和他们之间最点击的链接。
我们第一次报告数据的一般性质和结构的加权图。每个人的页面点击需要平均14.2 HTTP请求嵌入式媒体文件,样式表,脚本文件,等等。一个明显的观察是,大多数人为的点击没有引用页面,这意味着用户直接输入URL,单击书签,或点击一个链接在电子邮件。
第一个问题对宿主图像重构样本的交通是否恢复链接的著名的拓扑特性图由大型爬行(2、4、6)。网络图的最稳定的特征是它的无标度入度分布,许多研究一直是安装了一个幂律指数。如图3所示的行为是恢复完整的主机图(= 2.2±0.1);尽管网络流量不可能跟随在每一个环节,它产生的网络拓扑一致这些获得大规模的爬行。幂律入度分布在人类宿主图像有一个略大的指数= 2.3±0.1。这暗示着一个重要的警告。虽然trafficinduced和crawler-induced网络的结构是相似的,它们都是基于不同的抽样程序,每个都有自己的偏见。
一个人不能直接比较两个网络构造的基础上。为了说明这一点,从人类图节点采样和比较他们的入度,由搜索引擎(通过雅虎API)。从散点图在图3中,明显的相关性很弱(皮尔森的日志值R = 0.26),,我们不能承担比例。如果一个猜想一个幂律伸缩图像在哪里图像是爬的入度获得的数据,我们看到子线性偏差< 1与数据的吻合程度优于比例1。虽然我们不能说这样的幂律关系的比例是最合适的模型,这也突出样本偏差,受欢迎的节点的入度被低估了的数量大于低度的节点。缺乏比例解释指数越高入度的幂律分布。再次假设,亲属和ˆ亲属确定性相关的权力上面公式推测,它紧跟着图像图像因此
图像
因此theKin指数变化
图像
网络主机的区别我们的网络表示图,从爬行,当然,是我们有加权边缘告诉主机之间的链接点击多少次。加权网络,度的概念是广义的力量,定义为权重的总和在传入或传出链接:
图像
维琪在哪边的重量(i, j),即点击链接的数量从主机我举办j。注意,因为罪(j)代表的总数乘以该网站j是参观,这是我们参考的交通不那么正式的术语。

四、结果和讨论

所有评论部分已经离开了它们是如何进入网络,大多数拼写错误。这将允许您查看收到的响应;只有少数几个不相关的结果已被移除。回应问卷总共232人,大多数是学生占总数的60%受访者。32%的受访者的工作人员和其他类别(8%),其余部分。另一类包含下列反应。政府代理,博士生研究学生,大学校友,网站访问者,大学毕业的申请者,毕业生,学生的父母,未来pg学生等
绝大多数的受访者(75%)19岁至35岁的第二大组35 - 50岁。
Internet Explorer是最受欢迎的浏览器软件用来浏览我们的网站。

e .搜索工具

搜索功能被22%的受访者不使用,43%使用它有时但只有14%的人经常使用或总是使用它。

结论和未来的工作

的努力已经取得了分析开放的社交网络。最初我的研究重点,提出了简短。研究人员很快就认识到,网络的结构分析可以结合行为时变得更加有用的数据。一些路径通过Web使用远比其他人更严重,和各种行为数据源存在可以让研究人员识别这些路径,提高相应的网络模型。最早的努力使用浏览器日志描述用户导航模式,时间页面,书签使用,页面访问频率和用户之间的重叠路径,因为搜索引擎起到核心作用在用户的导航,他们的日志数据是特别有用在改善基于用户行为的结果。然而,这些应用程序并没有解决信息超载的基本问题,如电子邮件囤积或缺乏管理,但导致增加负担。

表乍一看

表的图标
表1

数据乍一看

图1 图2 图3 图4 图5
图1 图2 图3 图4 图5
图1 图2 图3 图4
图6 图7 图8 图9

引用
















全球技术峰会