关键字 |
数据挖掘、云计算、数据仓库、集群 |
介绍 |
交通安全的概述 |
据世界卫生组织(世卫组织)发布的统计数据,全球每年道路交通死亡和伤害已分别达到120万和5000万年,这经常导致永久的损害。永远与现代信息技术的发展和日益增长的威胁生命的道路交通碰撞,它已成为最重要的问题之一当地交通部门更好地收集、分析和处理有用的信息与视觉的交通安全,确保良好的交通管理和对城市旅客快速访问更新的道路交通信息指导他们旅行的预期行为[2]。因此,努力设计一个交通安全信息管理平台基于云计算,数据仓库和数据挖掘,是一位杰出的渠道之间的通信流量权威,员工和公众。它旨在获得完整的好处在努力简化道路安全信息数据库,判断和预测不同的安全信息,如交通事故黑点,车辆类型法律责任根据已经发生严重事故和天气事故一方面和分享详细的交通状况没有障碍,如道路状况、潜在风险,灾害和天气[21]。 |
数据仓库 |
数据仓库是一个数据库用于报告和数据分析。将数据从一个或多个对比创建一个中间仓库的数据来源。现有的和历史数据存储,用于创建、趋势等高级管理层报告年度和季度报告的比较。存储在仓库中的数据上传的操作系统。典型的提取转换加载(ETL)基于数据仓库使用阶段,数据集成和访问层房子其关键功能。分段层或临时数据库存储原始数据提取的每个不同的源数据系统。集成层集成不同的数据集通过将数据分段层通常将该转换后的数据存储在一个操作数据存储(ODS)数据库。集成的数据然后搬到另一个数据库中,通常被称为数据仓库数据库,数据排列成分层组织通常被称为维度和事实和骨料的事实。帮助用户检索数据访问层。数据仓库由一个集成的数据源系统不需要ETL、暂存数据库,或操作数据存储数据库。 This integrated data warehouse architecture supports the drill down from the aggregate data of the data warehouse to the transactional data of the integrated source data systems. The data warehouse focuses on data storage. The main source of the data is cleaned, transformed, catalogued and made available for use by managers and other business professionals for data mining, online analytical processing, market research and decision support. However, the means to retrieve and analyze data, to extract, transform and load data, and to manage the data dictionary, business intelligence tools, tools to extract data into the repository, and tools to manage and retrieve metadata are also considered important components of a data warehousing system. |
数据挖掘 |
数据挖掘是海量数据中发现模式的计算过程涉及到人工的方法在十字路口,机器学习、统计数据和数据库系统。一般的数据挖掘过程的目的是为了从一个数据集提取信息并将其转换成一个可以理解的结构进行进一步的使用。除了原始的分析阶段,它涉及数据库和数据管理方面,数据预处理、模型和推理方面的考虑,兴趣度指标、复杂性考虑,发现结构的后期处理,可视化,和在线更新。真正的数据挖掘任务的自动或半自动分析大量数据提取以前不熟悉的模式,如组织数据记录(聚类分析),不同寻常的记录(异常检测)和依赖关系(关联规则挖掘)。这些模式可以被视为一种总结的输入数据,可以用于进一步分析。 |
数据挖掘涉及六个常见类型的任务 |
•异常检测(离群值/改变/偏差检测)检测不寻常的数据记录,这可能是有趣的或数据错误,需要额外的调查。 |
•关联规则学习(依赖关系建模)——寻找变量之间的关系。 |
•聚类,发现的工作组织和结构的数据以某种方式或另一个“类似”,不使用公认的结构数据。 |
•分类——是泛化的任务结构适用于新数据。 |
•回归——试图找到一个函数模型的数据最少的错误。 |
•总结——提供一个更多的密度表示的数据集,包括可视化和报告生成。 |
文献调查 |
Hadoop[22]是由Doug切割、Apache Lucene的创造者,广泛使用的文本搜索库。Apache Hadoop起源于Nutch,一个开源的web搜索引擎,Lucene项目的一部分。迈克Cafarella和Doug Cutting估计系统支持十亿页的索引将花费大约一百万美元的硬件,与每月的经营成本为30000美元。 |
Jana partners和Bandyopadhyay[3]分析了几个安全威胁及其措施,并建议额外建议的最佳实践采用身份和访问管理(IAM)移动云用户。Pirker等[4]提出了隐私保护云资源支付启用匿名移动客户消耗资源的云服务提供商的提供者无法跟踪用户的活动模式。 |
Satyanarayanan[5]讨论了广泛的问题等领域的隐私,软件许可,和商业模式的出现基于薄云的硬件/软件生态系统支持例如,认知帮助挑战移动用户的关注,可伸缩的人群采购的第一个视频,和无处不在的移动进入一个人的世界遗产。 |
Abuelela和Olariu[6]设想VANETs随着云计算网络。车辆将分享计算能力的能力,互联网接入和存储,形成传统的云。 |
桑托斯等。[7]提出了一种新的平台,实现信任传统云。Krautheim[8]提出第三方分享的责任安全云计算服务提供商和客户之间,减少双方的风险敞口。双线性聚合签名已经扩展到多个用户同时审计。 |
观察很多设备(计算机、传感和存储设备)在车辆闲置很长一段时间,Olariu和他的同事们[9],[10],[11]提出共享这些设备作为云的计算引擎。Ristenpart等。[12]提出实验定位同居的其他用户在云虚拟机。 |
移动云计算的应用程序模型是基于标准的云服务模型,其中包括基础设施即服务(IaaS)[14],平台即服务(PaaS)[15],和软件即服务(SaaS) [16], [17]。因此,基于应用程序的工作模型,可以利用这些服务层。移动云计算的一些众所周知的服务包括Amazon Elastic Compute cloud (EC2) [18], GoogleApp引擎[15],和微软Azure [19]。 |
的技术和概念 |
云计算 |
云计算可以作为一个平台和一种类型的应用程序计算的前沿发展,比如分布式计算、并行计算和网格计算。它使用一个计算机网络提供计算资源,如数据或软件即服务的用户支付需求。因此,它打破了自由的计算能力和存储空间利润率当地传统的计算模型。用户的电脑、手机和其他私人设备可能只包含一个操作系统和一个Internet explorer,他们不需要确定数据存储或提供软件。用户现在他们不能熟练的计算任务的本地设备的云。提供云计算服务和返回计算结果。 |
云计算的好处从几个关键特征 |
•可靠性数据存储和应用程序运行在云中的服务器。用户不需要担心丢失或破坏数据。 |
•敏捷云计算资源可以分配根据用户的需求或偏好提供灵活的管理。 |
•实用程序。用户不必购买昂贵的计算设备。他们只需要支付提供的云计算服务。 |
•应用程序编程接口(API)的可访问性软件,使机器与云交互软件以同样的方式,传统的用户界面促进人类和计算机之间的相互作用。云计算系统通常使用基于Representational State Transfer (REST)的api。 |
•设备和位置独立性方便用户使用web浏览器来访问系统,尽管他们的位置或设备使用。基础设施是通过互联网网站和访问,用户可以从任何地方连接。 |
•多租户支持共享的资源和成本在一个庞大的用户使基础设施的集中位置较低的成本,更高负荷能力提高和利用率和效率改进系统,通常只有10 - 20%利用。 |
•性能监控和一致的构造和松散耦合的体系结构使用web服务的系统接口。 |
•安全可以得到更好的数据,由于集中集中资源,改进的安全性等,但可以坚持担心失去控制的感知数据,以及缺乏安全存储内核。 |
使用Hadoop分析数据 |
Hadoop |
作为分布式系统的基础设施,用户可以探索的分布式集群项目,充分利用高速没有精明的细节处理和存储的分布式体系结构基质[22]。Hadoop是一组相关子项目下降伞下的分布式计算基础设施。这些项目是由Apache软件基金会主办,提供支持的开源软件社区的项目。利用Hadoop提供的并行处理,有必要表达查询地图减少工作。一些地方后,小规模的测试将能够运行在集群的机器。 |
Map和Reduce |
地图减少数据处理的编程模型。模型很简单,但不要太简单表达有用的项目。地图作品减少破坏的处理分为两个阶段:Map阶段和减少阶段。每个阶段都有键值对输入和输出,可选择的类型的程序员。程序员还指定了两个函数:map函数和reduce函数。地图的输入阶段的原始数据,而选择一个文本输入格式,给每一行的数据集作为一个文本值。关键是抵消的线从一开始的文件。map函数只是一个数据准备阶段,设置数据在这种模式下,减速器函数可以做它的工作。map函数下降也是一个不错的不良记录。从图1可以看到。, it contains a lot of components. |
Avro |
数据序列化系统高效、跨语言RPC,无情的数据存储。(在撰写本文时,Avro已经创建仅作为一种新的子项目,和没有其他Hadoop子项目使用它。) |
HDFS |
Hadoop分布式文件系统的由叫做HDFS,它代表Hadoop分布式文件系统。一个分布式文件系统,运行在巨大的集群产品的机器。HDFS文件系统用于存储大量文件和流媒体数据访问模式,在商品硬件集群上运行。 |
猪 |
数据流语言和探索非常大的数据集的执行环境。猪HDFS和Map / Reduce集群上运行。 |
HBase |
HBase是一个开源的、非关系、分布式数据库建模后Google的BigTable和是用Java编写的。HBase使用HDFS的基本存储,同时支持批处理方式计算使用Map / Reduce和点查询(随机读取)。它是Apache软件基金会的发展作为Apache Hadoop项目和HDFS运行在先端,为Hadoop提供BigTable像功能。 |
动物园管理员 |
一个分布式、高度可用的协调服务。动物园管理员提供原始比如分布式锁,可用于构建分布式应用程序。 |
蜂巢和Mahout |
蜂巢是数据仓库平台基于Hadoop。利用蜂巢、数据提取、转换和加载可以很容易地实现。此外,它的潜力将程序从QL转换为相应的Hadoop Map / reduce,基地在HQL(蜂巢查询语言)。Mahout是机器学习和数据挖掘的分布式框架提供一些传统的可扩展的机器学习算法。 |
问题和建设模式 |
问题 |
公共交通信息服务已经在全世界的兴趣。但仍有一批弱点在这个面积: |
•有限的信息服务能力。 |
目前绝大多数依靠政府信息服务和信息收集、处理和发布一些程度上是自治的。添加什么信息内容似乎是不成熟的,无法使用。 |
•缺点的服务内容,方法,隆起和范围。 |
目前主要触及旅游信息服务内容和服务方式被认为是过时的,因此放下很多发展的空间。 |
•缺乏交通安全频繁更新信息。 |
目前,重大交通安全信息部分的信息服务提供者&很坚固的会众,存储和处理组信息。 |
对于给定的问题上面,为了生成一个交通安全信息平台基于云计算的地方交通部门和公众通过建立交通安全信息系统。与平台任何用户可以连接云服务平台的终端设备和让他们受过良好教育的他们担心交通安全信息。 |
主要研究内容 |
为了设计一个交通安全信息管理平台基于云计算,数据仓库和数据挖掘,是一位杰出的饲料之间的通信流量权威,工人和公众[23]。它旨在完成道路安全信息数据库的好处在努力简化,评论家和想象不同的安全信息,如交通事故黑点,车辆容易严重的事故类型和气候基于之前发生事故一方面和收集,处理和分裂完成交通情况等及时道路条件、潜在风险、事故、灾害和天气另一方面。请求解决的关键问题。 |
有三个关键技术: |
•云存储的巨大的流量数据 |
•大规模交通信息的精确分析和建议 |
•云终端技术 |
支持不同的移动终端包括手机、ipad和个性化的云终端在不同的互动形式,这样用户可以随时随地使用云服务和分配交通安全信息。 |
建筑设计的基于云计算的智能交通安全信息平台 |
基于以上的响应能力和理解问题,尝试设计下面的系统结构。图2。简要解释如下。收集一些数据的每个分支系统拨款支持孤立用户领域的交通安全。在大多数情况下,驱动程序的随意行为常常导致不平衡模式,这是进一步适合聚类分析。 |
由于大规模的用户数据,我们选择了Hadoop并行计算和分布式存储。此外,推进资源的消耗速度,我们已经意识到服务器的虚拟化层,建立交通信息安全意识基于各种数据挖掘算法与Mahout蓝图移动终端接入解决各种各样的云终端访问在应用程序层。 |
算法使用情况 |
没有广泛接受的有效算法报告不完整的统计数据。这是一个试图限制的道路安全影响因素的灰色领域采用聚类算法[24],估计道路交通安全的整体水平基于信息筛选、加工、附件和扩展。 |
程序如下: |
•格式转换:数据格式需要转换成输入格式,可以由聚类算法处理。聚类算法可以直接处理在Mahout顺序文件的格式。所以我们应该写一个类用于格式转换成序列文件文件: |
实现InputMapper InputMapper和地图功能。 |
Map函数定义如下: |
“公共空间映射(LongWritable键, |
文本值, |
OutputCollector <文本,VectorWritable >输出, |
记者记者)” |
•调用Apache管 |
Mahout•调用并行聚类算法,它包含几个聚类算法。K -意味着聚类算法就是一个例子。 |
•获得HDFS的聚类结果 |
•分析聚类的结果,即获得结果直接在HDFS的蜂巢和提取到本地客户端进行分析。 |
结论 |
它并非如此简单,开始吃草,因此要求额外的分析和探索。其目的在交通领域也取决于它和物流等相关领域的扩张。由于其潜在的理论和实践价值在交通管理领域,云计算已经引起研究人员的广泛关注。云计算的扩展和应用在不同的重要行业也可能使其在交通领域的进展。 |
|
表乍一看 |
|
表1 |
|
|
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- “J。,Li, X. (2011). Research on Traffic Information Cloud Computing and Its Application. Journal of Transportation Systems Engineering and Information Technology,(01):179-184.
- 曾,K。,Yan, J. (2011). Cloud Computing and Its Application in Intelligent Transportation. Modern Science &Technology of Telecommunication,(05):45-51.
- Debasish Jana partners和Debasis Bandyopadhyay”身份和凭证管理移动云计算环境”,《2013年国际会议上先进的计算机科学和信息系统(ICACSIS 2013), 9月28 - 29日,2013年,印尼巴厘岛
- 丹尼尔·马丁Pirker Slamanig,约翰内斯2012年冬天。。实际为限制客户隐私保护云resource-payment。第12届国际研讨会论文集隐私增强技术(宠物' 12),西蒙Fischer-Hubner和马修•赖特(Eds)。斯普林格出版社,柏林,海德堡,201 - 220。
- 从Satyanarayanan》2013。朵云:cloudmobile前缘的收敛。第九届国际ACM Sigsoft研讨会论文集质量的软件架构(QoSA 13)。ACM,纽约,纽约,美国1 - 2。
- m . Abuelela和s . Olariu采取vanet云,“学报》第八届国际会议上移动计算的发展和多媒体MoMM 2010年8 - 10,2010页。
- 桑托斯n、k . p . Gummadi和r·罗德里格斯对可信云计算,“在HotCloud学报》,2009年6月。
- f . j . Krautheim“私有云计算虚拟基础设施,”2009年云计算大会热点话题,1 - 5,2009页。
- m . Abuelela和s . Olariu采取vanet云,“学报》第八届国际会议上移动计算的发展和多媒体MoMM 2010年8 - 10,2010页。
- m . Eltoweissy s Olariu m·尤尼斯,“自主车辆的云,”AdHocNets院刊的公元前2010年,维多利亚,加拿大,2010年8月。
- s Olariu。哈利勒,m . Abuelela采取vanet云,“国际期刊的普适计算和通信,7卷,没有。1,7-21,2011页。
- t . Ristenpart大肠敌人,h . Shacham和野蛮,“嘿,你,我的云:探索在第三方信息泄漏计算云,“第16届ACM研讨会论文集在计算机和通信安全,爵士。CCS的09年,2009年,页。199 - 212。
- 托马斯•Ristenpart伊兰敌人,Hovav Shacham, Stefan Savage》2009。嘿,你,我的云:探索信息泄露第三方云计算。第16届ACM研讨会论文集在09年计算机和通信安全(CCS)。ACM,纽约,纽约,美国,199 - 212。
- Rackspacecloud。访问http://www.rackspace.com/cloud, 2012年4月10日。
- Google app engine。2011年11月15日,访问https://cloud.google.com/products/app-engineappengine-search。
- 谷歌应用业务。2012年4月10日,访问https://www.google.com/enterprise/apps/business/products.html。
- Salesforce。2012年4月10日,访问http://www.zdnet.com/why-salesforce-integrator-rework-is-recasting-itself-as-a-cloud-broker-7000027448/。
- Amazon elastic compute cloud (ec2), https://www.google.co.in/url。2011年12月10日通过。
- 微软azure。2012年4月10日,访问http://www.localmoxie.com/web.php。(在线)。
- 对云计算基础,优雅刘易斯,2010年9月。
- 郑,x (2012)。应用程序的云计算在未来智能交通系统。广西轻工、杂志(03):88 - 89。
- 白色,t (2011)。Hadoop:明确的指南。:30 - Mahout https://cwiki.apache.org/MAHOUT/quickstart.html
- 灰色评价方法优缺点的基础上,道路交通安全的集群。道路交通与安全。2006 (11)
- Jaworski律师事务所,P。,Edwards, T., Moore, J., Burnham, K. (2011). Cloud Computing Concept for Intelligent Transportation Systems. 2011 14th International IEEE Conference on Intelligent Transportation Systems. 2011: 931-936
|