Apache Hadoop:足智多谋的大数据管理

Mr.NileshVishwasrao帕蒂尔¹,Mr.Tanvir帕特尔²

我电脑(我)的学生,Vishwbharti学院工程学院,Ahmednagar /普纳大学Ahmednagar,印度马哈拉施特拉邦
我电脑(我)的学生,Vishwbharti学院工程学院,Ahmednagar /普纳大学Ahmednagar,印度马哈拉施特拉邦

文摘

如今一年增加的增长数据大约是对现有数据到前一年的两倍。当今世界是现代计算机的世界,每一个公共和私营部门向现代的电子世界,还小的数据正朝着大数据。因此有需要分发大数据有效地在分布式框架与复制它的重要性。大数据是可用的结构化、非结构化和半结构化数据格式。关系数据库已经无法存储这multi-structured数据。Apache Hadoop是高效、稳定、可靠和可伸缩的框架来存储,过程,转换和提取大数据。Hadoop框架是开源和收费软件可用ApacheSoftware基金会。HDFS,在本文中,我们将Hadoop MapReduce和应用项目来减少开发人员编写的MapReduce代码。

关键字

HDFS: Hadoop分布式文件系统,地图减少,蜂巢,名字节点,数据节点,任务追踪,追踪工作,结核病:TB。蜂巢,猪,HBase

介绍

今天计算机科学企业enduringmomentous变化由于新技术的发展,每一个公共和私营部门成为计算机化,增加大量电子数据称为:大数据等。

大数据是数据是1 TBor超过1 TB。我们也可以定义大数据是由单一数据不能处理计算机系统。还有一个技术定义,数据大量的卷,来自各种来源以极大的速度称为大数据。等体积大数据有三个特点,所以有时被称为3 V的多样性和速度。大数据的特点,如图1所示

大数据从各种来源如web日志生成,交通信号数据,选举数据、调查数据,股票交易所数据,飞行数据,用户事务历史,用户交互日志,RFID系统生成的文件,twitter, Facebook等社交网络数据与视频和图片等。我们必须有过程,因此analyzethis大数据分析大数据我们将需要分布式的框架大数据以来,单一的系统无法处理超过1 tb的数据。从近几十年我们一直在使用消息传递接口(MPI)作为一个分布式系统,可以用于处理这些大量的数据。

通常分布式系统需要应用程序服务器和存储区域网络(SAN)。所有数据可以在圣和所有程序将在应用程序服务器上运行。之前启动的执行程序数据走向应用服务器执行后的存储区域网络和数据应用服务器写数据存储区域网络。这种分布式系统面临问题storehuge强劲的数据量。每当一个程序执行数据开始扩大然后当执行程序完成数据按比例缩减,这将影响巨大的依赖网络,旅行成本增加和大量数据的扩展和收缩过程并不顺利,也很多大数据的处理能力已经消耗在运输。在典型的分布式系统局部故障难以处理,影响我们的日常商业。一个问题是数据同步期间需要交换的数据。这些都是典型的分布式系统来处理大数据的问题。因此,我们需要新的分布式框架,将消除上述问题。新的分布式系统将有效地存储和处理数据的可靠性。Apache Hadoop是分布式框架将会删除所有典型的分布式系统所面临的问题,通过提供高效、可靠的海量数据存储和处理。

HADOOP框架

今天,我们只有电子数据包围。我们上面讨论大数据从各种来源生成RFID系统生成的文件、web日志,人机交互文本,证券交易所数据,社交网站人机交互数据,人民上传视频、图像等。Apache Hadoop是开源分布式框架来处理,提取、加载,分析和处理大数据。它促进了跨集群处理大型数据集的电脑使用简单的编程模型。进一步我们将看到之前Apache Hadoop背后的历史。谷歌发表白皮书在Google文件系统(GIS)和使用映射-规约模式在2004年。Daug减少读取这些文件,并扩展了Apache Nutch项目在谷歌的帮助下,论文和Hadoop框架开发。他于2006年加入雅虎,Hadoop的旅程开始在雅虎。现在Hadoopframework Apache的开源项目。

Hadoop是开源的框架编写和运行分布式处理大量数据的应用程序。Hadoop可以访问的关键区别,健壮的、可伸缩的和简单的。访问:Apache Hadoop是运行在大型集群的硬件,也不需要购买昂贵的硬件和它运行在云计算。健壮的:看Hadoopcluster由硬件的可能性发生失败但每当发生故障时我们可以很容易地解决恢复它。

线性扩展来处理大数据的可伸缩:框架添加额外的商品节点集群。简单:它允许用户轻松地处理框架通过使用简单的编程模型[1]。大数据是如何存储和处理集群上面图2所示

现在,我们要掌握如何最小化运输成本通过Hadoop框架的例子。假设我们有商店100 TB数据和处理这些数据需要写程序使用简单的编程模型,但程序不超过10 mb的大小。在典型的分布式系统数据是前往词程序对数据和Apache Hadoop框架程序。自项目的规模非常小,比较大小的数据。因此典型的分布式框架运输100 tb数据虽然Hadoop框架是运输之前10 mb数据处理程序的执行。上面的例子展示如何最小化运输成本Hadoop分布式框架。Apache Hadoop集群如下面图3所示。多个客户端可以同时存储和处理数据集群。

Apache Hadoop是consistingof两个主要组件:HDFS和MapReduce。Hadoop集群包含多个机器HDFS运行和MapReduce。每台机器在集群称为节点。

Hadoop集群有两种类型的节点:主人和奴隶节点,只有一个主和多个从节点incluster可用。Hadoop使用HDFS存储和MapReduce处理数据。

HADOOPCLUSTER处理

Apache Hadoop框架包含五种守护进程:Namenode, Datanode, TaskTracker, JobTracker和二级Namenode。Namenode是所有元数据信息存储集群,在数据存储、数据复制等。它是运行在主节点的集群。Namenode是照顾如何分解成多个数据块阻塞的复制与维护。二级Namenode是Namenode复制,如果Namenode将crashat时间我们可以手动备份从secondayNamenode坚持Namenode之前崩溃的状态。

Datanode每个奴隶机器上是可用的。它照顾HDFS每个奴隶的工作存储数据块。JobTracker守护进程照顾是主节点来处理数据。它有任务分配给Tasktracker使用MapReduce编程模型。TaskTracker可用在每个过程数据的奴隶。如以下图4所示的工作领域。

现在我们要展示的数据是如何存储和处理通过Hadoop和无花果5如下例子。假设我们有192 MB的数据,希望将这些数据存储在Hadoop集群有两个复制因子。

在集群处理,文件分解成块大小64 mb和128 mb的块移动到不同的节点。然后Hadoop框架将运行程序来处理。JobTraker然后每个节点调度程序TaskTrackerwill流程数据。后完成存储和过程输出的数据写回。

在我们的例子中192 mb的数据,我们将把数据分成三块大小64 mb (64 mb * 3 = 192 mb)。我们想要存储这些三个街区的复制因子两个可能性最小化数据丢失如果任何系统失败和快速访问。在我们的集群三个奴隶节点可用,所以Hadoop frameworkplaces块,最好是把复制块在不同的机器上。如图5所示。

块1 = >商店在奴隶和奴隶2

块B = >商店在奴隶1和奴隶3

块C = >商店在奴隶奴隶2和3

首先讨论的事情是通过Hadoop集群本身,客户机justprovidingdata在文件和复制因子(数乘以复制数据)。

HADOOPDISTRIBUTED文件系统

HDFS的核心组件之一是Hadoopand Hadoopframework的存储层。Hadoop文件系统都有自己的基于GIS称为HDFS。HDFS是基于java文件系统可以存储大量的结构化、非结构化和半结构化数据。是分布式的、可靠的、可伸缩的和容错文件系统。一个典型的文件在HDFS GB结核病或PT。HDFS架构如下图6所示。

HDFS文件系统提供了功能强大的聚合特性的数据块。当主节点在数据文件就会分成多个块存储在集群的节点称为:扇出和当客户端请求数据聚合/收集的数据块从集群的节点称为:扇入。所以我们可以说HDFS有很强的总特征或它是基于总设计模式。

HDFS是主/从体系结构包括一个Namenode(主)和多个datanode(每人奴隶),图6所示。Namenode包含名称空间元数据信息和管理系统。它还控制客户端访问文件。Namenode是执行文件系统名称空间操作,如打开,关闭文件重命名,存储在HDFS [2]。文件被分成多个块和块存储在不同的datanode。

名称空间的ID Namenode和Datanode必须相同。如果有任何不相容betweenNamenode和Datanodenamespace ID在集群中,我们将接受异常喜欢io。IOException:不兼容的名称空间ID.There两种方法来消除这种不相容,第一是格式化Namenode但这不是很好的选择和第二通过手动更改名称空间ID名称空间ID的主的奴隶。名称空间ID可用以下目录:

/应用程序/ hadoopdata /临时:HDFS目录由用户。

为Namenode namespace ID /应用程序/ hadoopdata / temp / dfs /名称/当前版本

和Datanode名称空间ID /应用程序/ hadoopdata / temp / dfs /数据/电流/版本

把这个复制名称空间ID从Namenode版本文件Datanode版本文件可在以上目录。

HDFS是运行在本地UNIX文件系统还在廉价的商品硬件和执行数据复制工作。它是只读文件系统和随机写不允许的。Namenode是所有的时间,因为它属于主节点的集群。HDFS文件系统主要为批处理,而不是由用户交互使用。因为HDFS performingits任务有效地当文件包含大最低1 tb的数据,主要是喜欢批处理。HDFS文件系统操作系统独立,因此它可以运行在不同的操作系统。HDFS文件系统被称为“写一次读多次”,因为不能更改数据一旦推进集群的节点。

地图减少

MapReduce是数据处理组件的Hadoop框架和计算/流程层Hadoop的HDFS是存储层。它是基于Java编程的编程模型。流程层是由两个阶段组成:一个是地图,二是减少。这两个之间有一层phasescalled排序和洗牌。JobTracker(用于Namenode)和TaskTracker (perDatanodes)照顾MapReduce工作。Hadoop的逻辑架构如下图7所示。这个过程也称为MapReduce。

MapReduce编程模型是类似像编程语言(C, c++, c#和Java)但是很难理解和编写程序。因此应用项目介绍给最小化努力编写MapReduce代码。有可用的应用程序项目列表,如“蜂巢,猪,HBase,水槽,Oozie,洋麻,Avro, Mahout, Sqoop, HCatlog, BigTop”等。

蜂巢是由Facebook和现在可用的开放源码。它是数据处理结构基于Hadoop Hadoopframework之上运行。蜂巢应用程序项目是允许开发人员编写的工作像SQL语言处理数据的查询。HiveQL蜂巢所提供的是一种语言。它最小化程序员编写MapReduce的努力工作。蜂巢MapReduce应用程序项目是HiveQL查询转换成程序。

基于Haddop猪应用程序项目是由雅虎上也运行Hadoop框架相当于蜂巢。猪使用拉丁语言,容易编写数据处理工作。猪应用项目将拉丁MapReduce程序和执行所需任务没有由开发人员编写MapReduce程序。HBase是允许低延迟非关系数据库,在Hadoop快速反应。它支持事务性能力Hadoop框架,它允许用户行为更新、插入和删除。Facebook使用HBase Hadoop之上。应用程序的列表项目正在增加。

MapReduce工作的流程流后显示在图8。MapReduce是基于键-值对的想法。如图8所示,输入数据集分为“n”分裂(分而征服方法)。

然后执行“n”映射为每个分裂功能,以前和洗牌任务执行前减少,最后在减少阶段聚合的结果数据。

Hadoop用户:“亚马逊/ A9,脸谱,IBM,谷歌,雅虎,纽约时报,福克斯互动媒体等等”。主要贡献:“Apache,雅虎和Cloudera”。

结论

在本文中,我们在大数据haveopenedthe Hadoop框架的作用。Apache Hadoop设计分发大量的结构化、非结构化和半结构化数据在集群节点硬件。在原理我们也讨论了Hodoop分布式文件系统,MapReaduce,的Hadoop守护进程(NameNode, DataNode TaskTracker, JobTracker和二级NameNode)和应用程序项目Hadoop为writingMapReduce计划减少开发人员的努力。我们得出这样的结论:Apache Hadoop是高效、健壮、可靠和可伸缩的框架来存储,过程,转换和提取大数据在集群的节点。

承认

本文完成只是因为支持每一个包括:政府理工,Ahmednagar、老师、同事、父母、朋友以及我的学生。

特别是,我承认感激向以下重要的人:

首先我想thankMr。m . Kshirsagar先生,先生。Prabhudev先生,Natikar先生,先生和先生Jaypal先生,和我的同学们的支持和encouragement.Second,

我真诚地感谢我的父母and。答:Bhalerao提供建议和金融支持。

最后但并非最不重要,我的祖父和祖母末末他们的爱。本研究论文是不可能的。

引用

查克•兰姆在行动”“Hadoop曼宁出版有限公司,斯坦福CT,美国,2011年,页1 - 173。
维德雅瑟格s d (2013)。Hadoop在信息技术时代的角色。全球研究分析(在线)。2(2),100 - 101页。可用Vin沙玛,”提取、转换和加载大数据与Apache Hadoop”白皮书(在线),英特尔公司,2013年版。可用
迈克尔·g·诺尔。在Ubuntu Linux上运行Hadoop(单个节点集群)(在线)。:网站链接:Apache Hadoop