关键字 |
开放的社交网络数据集(OSND),潜在语义分析(LSA)、网络流量、网络主机图。 |
介绍 |
社交网络提供显式地创建和管理连接的方法基于信息收集和存储在用户配置文件。社交网络和社交网络语义[7]已成为第二代的邮件列表,Usenet,公告板在线社区,提供一系列的服务,如朋友或业务联系人列表,网络共享,冲浪,讨论和通讯工具。雷竞技网页版他们也是最近的一部分创建新的用户生成内容意识到技术包含了“Web 2.0”buzzword伞和提供了大量的元数据和信息用户作为一个特定的实体。 |
然而,这些应用程序并不是解决信息超载的基本问题,如电子邮件囤积或缺乏管理,但导致增加负担。另一方面,努力[5]、[6]等正在检查电子邮件过滤和排名基于社交网络。此外,语义技术是发展一个更成熟的状态本体[1],其骨干技术;提供一个正式的表示一个域。机器可以理解的本体论的转变通过使用可以超越当前的努力,需要找到数据分散在网络或动态绘图推论不断受到其依赖特定的数据框架。基于谷歌驱动的开放社交策略在社交网络中用户信息。 |
开放社会是一个跨Web应用程序编程接口来构建社会应用程序,换句话说,一组公共的api为社会应用程序跨多个网站。开放社会正在由谷歌开发与网络社区的成员。任何社交网站的最终目标是能够实现的api和主机第三方社交应用。有许多网站实现开放的社会,包括Engage.com, Friendster, hi5, Hyves, imeem, LinkedIn, MySpace, Bebo, Ning,甲骨文,orkut, Plaxo, |
Salesforce.com,六,天际,Viadeo和邢[3]。开放社会本身并不是一个社交网络;相反,它是一组三个常见的api,允许开发人员访问以下核心功能和信息在社交网络上: |
People 和 Friends API 数据 |
Activities 数据 API |
Persistence 数据 API |
开放的社交网络数据集(OSND)是一种轻量级本体用于协作的数据过滤和评级,我们遵循一个集成的方法相结合的三种类型的技术改善其建设从上述标记集聚集Web 2.0社交网站比如Engage.com, Friendster, hi5等等,我们应用的三种技术如下: |
Applying 的 Vector Space Model: |
Using Latent Semantic Analysis (LSA) |
Validating 条款 有关 的 集合 与 在线 词汇 OSND resources, Wordnet1. 等 |
二世。相关工作 |
许多研究使用网络爬虫揭示重要见解的大规模结构网络图,如“蝴蝶结”模型、自相似结构的存在和无标度分布,及其smallworld拓扑(2、4、1、6、5]。虽然这些见解已经通知等多种应用的设计爬虫和缓存代理服务器,结构分析其最大的应用程序排名搜索引擎返回的页面。尤其是知名网页排名和点击算法能够利用的模式连接页面的链接排名他们无需过程内容;这些算法,激发了大量的排名算法研究基于链接结构(8、9)。 |
链接的结构属性图扩展主机图,认为整个Web服务器的连接,而不是单独的页[10]。最早的努力使用浏览器日志描述用户导航模式,时间页面,书签使用,页面访问频率,用户之间的重叠路径(11、12)。行为数据的最直接来源来自Web服务器的日志,已被用于应用程序如个性化和提高缓存行为[13]。因为搜索引擎为核心作用在用户的导航,他们的日志数据是特别有用的在改善结果基于用户行为(14、15)。 |
网页和网站排名最关键的任务之一的搜索引擎。过去的十年里带来了很棒的网络搜索技术的进步,很大程度上由于复杂的排名技术的发展。而现代搜索引擎可能精炼和改进网页排名,除了将它与许多其他标准,它仍然是一个参考工具,网络的研究作为一个复杂的动态网络,以及工程的改进的排序功能。 |
三世。评价 |
原则上可以捕捉整个url的引用和请求的页面与我们的实验装置,并建立一个加权和页面链接图节点。这确实是我们的目标。在这篇文章中,然而,我们报告一个初期阶段,我们专注于主机图。原因之一是,这是更可行的与我们当前的存储和计算资源,确实有必要优化我们的收集和分析算法;另一个原因是,主机对网络流量图已经揭示了一些有趣的见解。网络主机图形存储在Matlab矩阵稀疏连接进行分析。节点流量的大小正比于日志,每一个网站,和边缘厚度成正比的日志点击两个网站之间的链接的数量。 |
答:结构属性 |
点击数据收集在一段时间内。表1提供了一个视图的结果加权主图的一小部分,包括最受欢迎的目的地网站和他们之间最点击的链接。 |
我们第一次报告数据的一般性质和结构的加权图。每个人的页面点击需要平均14.2 HTTP请求嵌入式媒体文件,样式表,脚本文件,等等。一个明显的观察是,大多数人为的点击没有引用页面,这意味着用户直接输入URL,单击书签,或点击一个链接在电子邮件。 |
第一个问题对宿主图像重构样本的交通是否恢复链接的著名的拓扑特性图由大型爬行(2、4、6)。网络图的最稳定的特征是它的无标度入度分布,许多研究一直是安装了一个幂律指数。如图3所示的行为是恢复完整的主机图(= 2.2±0.1);尽管网络流量不可能跟随在每一个环节,它产生的网络拓扑一致这些获得大规模的爬行。幂律入度分布在人类宿主图像有一个略大的指数= 2.3±0.1。这暗示着一个重要的警告。虽然trafficinduced和crawler-induced网络的结构是相似的,它们都是基于不同的抽样程序,每个都有自己的偏见。 |
一个人不能直接比较两个网络构造的基础上。为了说明这一点,从人类图节点采样和比较他们的入度,由搜索引擎(通过雅虎API)。从散点图在图3中,明显的相关性很弱(皮尔森的日志值R = 0.26),,我们不能承担比例。如果一个猜想一个幂律伸缩在哪里是爬的入度获得的数据,我们看到子线性偏差< 1与数据的吻合程度优于比例1。虽然我们不能说这样的幂律关系的比例是最合适的模型,这也突出样本偏差,受欢迎的节点的入度被低估了的数量大于低度的节点。缺乏比例解释指数越高入度的幂律分布。再次假设,亲属和ˆ亲属确定性相关的权力上面公式推测,它紧跟着。因此 |
|
因此theKin指数变化 |
|
网络主机的区别我们的网络表示图,从爬行,当然,是我们有加权边缘告诉主机之间的链接点击多少次。加权网络,度的概念是广义的力量,定义为权重的总和在传入或传出链接: |
|
维琪在哪边的重量(i, j),即点击链接的数量从主机我举办j。注意,因为罪(j)代表的总数乘以该网站j是参观,这是我们参考的交通不那么正式的术语。 |
四、结果和讨论 |
所有评论部分已经离开了它们是如何进入网络,大多数拼写错误。这将允许您查看收到的响应;只有少数几个不相关的结果已被移除。回应问卷总共232人,大多数是学生占总数的60%受访者。32%的受访者的工作人员和其他类别(8%),其余部分。另一类包含下列反应。政府代理,博士生研究学生,大学校友,网站访问者,大学毕业的申请者,毕业生,学生的父母,未来pg学生等 |
绝大多数的受访者(75%)19岁至35岁的第二大组35 - 50岁。 |
Internet Explorer是最受欢迎的浏览器软件用来浏览我们的网站。 |
e .搜索工具 |
搜索功能被22%的受访者不使用,43%使用它有时但只有14%的人经常使用或总是使用它。 |
结论和未来的工作 |
的努力已经取得了分析开放的社交网络。最初我的研究重点,提出了简短。研究人员很快就认识到,网络的结构分析可以结合行为时变得更加有用的数据。一些路径通过Web使用远比其他人更严重,和各种行为数据源存在可以让研究人员识别这些路径,提高相应的网络模型。最早的努力使用浏览器日志描述用户导航模式,时间页面,书签使用,页面访问频率和用户之间的重叠路径,因为搜索引擎起到核心作用在用户的导航,他们的日志数据是特别有用在改善基于用户行为的结果。然而,这些应用程序并没有解决信息超载的基本问题,如电子邮件囤积或缺乏管理,但导致增加负担。 |
表乍一看 |
|
表1 |
|
|
数据乍一看 |
|
|
|
引用 |
- Fensel D本体:知识管理和电子商务的银弹,气象出版社。2002年。
- 加州大学警察局,百度¢有垃圾邮件:如何避免不必要的邮件。
- OpenSocial一个¢谷歌官方网站代码。http://code.google.com/apis/opensocial/
- 约瑟夫·s .香港Behnam答:雷、NimaSarshar chowdhury Vwani p·罗伊,让你的网络密友分享信息andManage垃圾邮件,2005。
- Golbeck, j·亨德,j .声誉网络分析邮件过滤、邮件学术会议和反垃圾邮件。2004年美国加州山景城。
- Ankolekar A,热泪盈眶¶tzsch M, Vrandecic, D, 2007年,两种文化:混搭web 2.0和语义web,诉讼的16 thinternational万维网会议(加拿大亚伯达省的班夫,,可能08 - 12,2007)。WWW 07年,ACM出版社,纽约,纽约,825 - 834。
- 戈麦斯,J.M. Colomo r·鲁伊兹B加西亚:一个基于语义的社交网络对于软件项目,国际期刊的信息技术和管理,特别的问题:工作信息通信技术的时代变化。2007年。
- Deerwester, s .杜Furnas, g . w .蓝t . k . Harshman表示R,由潜在语义索引分析,《社会科学forInformation 41,问题6。页391 - 407。1990年。
- 沼泽,美国(1994年),形式化信任计算概念,博士论文,斯特林大学数学系和计算机科学。
- 海曼,p . Garcia-Molina H,协作创建公共社会标签系统分层分类法,TechnicalReport斯坦福大学,2006年。
- 戈麦斯,J.M. Colomo r . Alor-Hernandez g .小波-戈麦斯,r·加西亚在旁观者的眼睛搜索:使用个人SocialDataset和Ontology-guided输入来提高搜索效率,学报第五届IEEE拉丁美洲的Web会议(LA-WEB07) Santiagode智利、智利。2007年10月31日- 11月2日。
- 基督教的鸟,亚历克斯·古尔力烫发Devanbu AnandSwaminathan迈克尔·格茨。挖掘社交网络邮件。同行¢06,5月22日¢23日,2006年,上海,中国。
- 齐格勒,Cai-Nicolas, Georg Lausen(2004),为信任传播,扩散激活模型E-Technology IEEE InternationalConference学报》上。
- www.microsoft.com/mscorp/safety/technologies/senderid/default.mspx
- 理查森马修Rakesh Agrawal,佩德罗·多明戈。(2003)一个¢信任管理语义Web,一个¢学报SecondInternational语义Web会议。森尼贝尔岛,佛罗里达州。
|